Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Sistemy_mashinnogo_perevoda_lektsia_for_student...doc
Скачиваний:
3
Добавлен:
20.08.2019
Размер:
74.75 Кб
Скачать

Проект unl

Цель проекта UNL - обеспечить многоязычную информационную инфраструктуру, которая позволила бы людям общаться, минуя особенности языка и культуры. Эта инфраструктура должна дать людям равные возможности в обращении к любой информации и обеспечить равенство стран в индустриальных и экономических разработках. проводится под эгидой ООН и координируется Институтом перспективных исследований при Университете ООН.

Проект был основан в 1996 г. В настоящее время в проекте участвуют 15 университетов и научно-исследовательских институтов из Бразилии, Германии, Индии, Индонезии, Иордании, Испании, Италии, Китая, Латвии, Монголии, России, Таиланда, Франции и Японии.

Идея проекта заключается в следующем. Предлагается универсальный язык-посредник, достаточно мощный для того, чтобы на нем можно было выразить всю важнейшую информацию, которую передают тексты на естественных языках. Этот язык - Универсальный Сетевой Язык (Universal Networking Language, или UNL) предложил Х. Учида (Университет ООН). Для каждого естественного языка предлагается разработать две системы: «деконвертор», который переводил бы тексты с языка UNL на данный язык, и «энконвертор», который преобразовывал бы тексты на данном языке в выражения языка UNL. Следует подчеркнуть, что порождение текста на языке UNL не будет полностью автоматическим. Эта процедура планируется как диалог между компьютером и человеком (редактором).

Таким образом, данный проект принципиально отличается от традиционного машинного перевода. Прежде всего, входом для порождения текстов на разных естественных языках, служит структура UNL, качество которой не зависит от несовершенства процедур анализа текстов..

Другое важное отличие системы UNL от машинного перевода заключается в том, что выражения на языке UNL можно порождать и хранить вне всякой зависимости от тех естественных языков, на которые эти тексты будут переводиться. UNL можно рассматривать как универсальный способ представления значения. Перевод необходим только в том случае, если с текстом будет работать человек.

Энконвертор и деконвентор для каждого естественного языка образуют языковой сервер, который планируется разместить в Интернете. Все языковые серверы будут связаны в единую сеть UNL, что позволит пользователю Интернета переводить любой документ с UNL на свой собственный язык, а также переводить на UNL те тексты, которые он хочет сделать общедоступными.

Методы предоставления услуг

Система UNL для каждого языка будет коммерчески доступна для серверов. Пользователи не будут платить за обмен почтой и участие в телеконференциях. Однако плата за получение информации по коммерческим каналам остается на усмотрение фирм, их предоставляющих.

3

Концепция фразеологического машинного перевода была впервые предложена профессором Г.Г. Белоноговым в 1975 г . Главным тезисом этой концепции является утверждение, что наименования понятий в текстах чаще всего обозначаются не отдельными словами, а словосочетаниями, и смысл словосочетаний, как правило, не сводим или не полностью сводим к смыслу составляющих их слов. Поэтому о сновными единицами языка и речи, которые следует прежде всего включать в машинные словари, должны быть фразеологические единицы (словосочетания и фразы). Отдельные слова также могут включаться в словари, но они должны использоваться только в тех случаях, когда не удается осуществить перевод, опираясь на фразеологические единицы.

Для систем фразеологического перевода необходимы машинные словари большого объема. Такие словари должны создаваться прежде всего на основе автоматизированной обработки двуязычных текстов, являющихся переводами друг друга, и в процессе функционирования систем перевода.

Основным средством разрешения полисемии (многозначности) слов в системах фразеологического машинного перевода является их использование в составе фразеологических словосочетаний, которые переводятся как целостные единицы смысла. Дополнительным - аппарат дополнительных тематических словарей, где для каждого многозначного слова или словосочетания указывается его приоритетный переводной эквивалент, специфичный для рассматриваемой предметной области.

Системы фразеологического машинного перевода должны быть ориентированы прежде всего на перевод деловых текстов в области науки, техники, политики и экономики. Перевод художественных текстов - более сложная задача. Но и здесь в будущем можно достичь определенного успеха, если найдутся энтузиасты типа Владимира Даля, которые с помощью современных технических средств возьмут на себя нелегкий труд по составлению мощных фразеологических словарей для этого класса текстов. Итак, будущее машинного перевода – это семантико-синтаксический преимущественно фразеологический перевод.

4

Основа для этой технологии была заложена ещё в конце 1980-х начале 1990-х годов - сотрудниками корпорации IBM: если компьютеру «скормить» текст на английском языке, и его выполненный вручную перевод на другой язык, то машина, используя статистический метод, «выучит» второй язык.

Статистический машинный перевод (SMT) основывается на модели, в которой вычисляется вероятность появления в переводе каждого слова из имеющегося набора переведенных предложений, и выбирается вариант с наибольшими вероятностями. Подобные простые фразы носят название «N-граммы», и они считаются базовыми элементами систем машинного перевода.

На уровне перевода отдельных фраз это работает более-менее сносно. Следующий шаг в развитии SMT - перенести этот прием на уровень текста: должен анализироваться весь текст, потом система спустится на уровень абзацев, а потом - на уровень предложений. Поиcк и анализ при этом существенно усложняются, но зато MT может начать "улавливать" контекст и выдавать правильный набор слов.

Интересно тут следующее: для системы совершенно неважно, как устроен язык, какие у него правила и исключения, как переводится то или иное слово, с какого на какой переводим...

Изначально две проблемы: нужны большие объемы текстов и мощная компьютерная система для перебора.

В Google загружаются тексты очень большого объема (миллиарды слов). Это могут быть как материалы на языке готового перевода, так и двуязычные тексты, содержащие предложения на исходном языке и соответствующие им переводы, выполненные вручную. Затем для построения модели перевода применяются методы самообучения на основе статистического анализа. При экспериментальной оценке система показала очень хорошие результаты.

Недостатки.

  1. Наличие необходимого объема исходных переводов. В мире IT каждый выкручивается сам: у Майкрософта есть миллиарды переведенных слов документации, Гугл импортировал 200 миллиардов переведенных слов из базы данных ООН, остальные экспериментируют с меньшими объемами.

  2. Структура. SMT умирает на длинных фразах: если предложение состоит более чем из 10-12 слов, вероятность выдачи полной пурги становится стопроцентной. Для борьбы с этим явлением необходимо, чтобы авторы документации сочиняли свои тексты короткими лаконичными блоками с минимальным количеством экивоков. Это называется Controlled English - такой эрзац интерлингвы.

  3. Скорость. Перебор - штука крайне медленная даже на уровне слов в предложении. Алгоритмы оптимизации запросов позволяют получать приемлемые выборки, а предварительная обработка "сырых" данных в разы увеличивает скорость их обработки (Google для этого использует MapReduce на своих кластерах нечеловеческого размера).

  4. Правила. Лингвисты, проверяющие машинный перевод, довольно быстро просекают, что машины допускает одни и те же регулярные ошибки, и создают макросы, которые исправляют их по всему тексту - глобально. По научному это называется "Automated post-editing" и на эту тему можно почитать статью Hugh Lowson-Tancred в Multilingual. В системы машинного перевода для улучшения качества SMT вводят правила, избавляющие перевод от этих ошибок: никуда от этого не деться. На каждый язык приходится где-то по 12-16 правил. На русский - больше :)

  5. Словари и Translation Memory. Ясно, что, если можно не переводить, а использовать готовое, то это нужно делать: прежде чем использовать SMT, на текст натравливается Translaton Memory в поисках полных совпадений, а словари встраивают в SMT engine.

5

Совсем другой тип программ представляют собой TM-продукты. В их основе лежит использование переводческого накопителя (Translation Memory). Переводческий накопитель - это особого рода база данных, создаваемая самим переводчиком во время работы. Как и электронный словарь, эта база содержит пары терминов на двух языках, но в отличие от обычного словаря в качестве элементарной единицы базы выступает не отдельное слово, а целое выражение (вплоть до нескольких строк текста). Такой накопитель формируется на основе уже переведенных пользователем файлов: то есть работа с TM-инструментом часто начинается с того, что в него загружается пара текстов - оригинальный текст и его перевод, на базе которых и создается накопитель. Понятно, что чем больше объем исходной пары (или нескольких пар) и чем квалифицированней сделан перевод, тем более полезным окажется накопитель.

При переводе, например, компьютерной документации большая часть выражений встретится вам не один десяток раз. При этом можно настроить TM-программу таким образом, чтобы она выдавала подсказки, не только найдя в накопителе в точности нужное выражение, но и в случае частичного совпадения (можно указать, какой процент совпадения вас устраивает). Это, во-первых, поможет вам справиться с типичными для русского языка изменениями окончаний (ведь помимо выражения "заданный пользователем параметр" вам может встретиться оборот "по заданному пользователем параметру", а также "заданные пользователем параметры" и много чего еще). Во-вторых, поскольку перевод фразы "Выберите пункт Новый из меню Файл" мало чем отличается от перевода фразы "Выберите пункт Шрифт из меню Формат", то, настроив программу на поиск не только точных совпадений, но и близких выражений, можно использовать один и тот же шаблон для перевода всех фраз такого рода.

Продукт

Производитель

Примечание

Deja vu

Atril

Это сравнительно недорогой и самый многофункциональный продукт. Использующие его переводчики подают заявки на включение в него тех или иных полезных функций и эти заявки оперативно выполняются.

Translation Manager

IBM

По отзывам специалистов, это самая эффективная, хотя и не очень дружественная к пользователю программа.

SDLX

SDL International

Недавно появившийся продукт, который быстро совершенствуется.

Transit

STAR Group

Лучше других продуктов приспособлен к работе с кириллицей. Немаловажное достоинство - наличие российского дистрибьютора.

Translation's Workbench

TRADOS

В этой программе в качестве служебного редактора используется MS Word. Учитывая так же, что Microsoft приобрела акции компании Trados и планирует использовать ее программное обеспечение в качестве внутреннего хранилища локализованных компонентов, у программы Translation's Workbench (именуемой в просторечии Trados) есть хорошие шансы стать международным стандартом.

Недостатки:

  • Большие стартовые затраты. Совершенно очевидно, что для производительной работы с системой Translation Memory нужна готовая база переводов по тематике текстов, которые планируется переводить. Без такой базы программа Translation Memory помочь ничем не сможет. Поэтому необходимо либо покупать такую базу, либо создавать вручную.

  • Большой объем ручной работы. Даже при наличии хорошей базы переводов количество 100% совпадений будет весьма ограничено. Поэтому полностью автоматизировать ручной труд с помощью Translation Memory не удастся.

Грамотная работа современного переводчика:

  1. На первом этапе применяется программа PROMT TerM. Документы анализируются, и выявляется основная терминология, которая заносится в словари системы машинного перевода PROMT.

  2. Выполняется машинный перевод (МП) с подключенным словарем, продолжается терминологическая работа по коррекции словаря.

  3. Результаты МП корректируются и заносятся в ТМ переводимого документа.

  4. Таким образом, мы получаем:

    • терминологический словарь;

    • переведенный документ;

    • соответствующую переведенному документу TM.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]