Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Форм решения в МП.doc
Скачиваний:
8
Добавлен:
20.07.2019
Размер:
170.5 Кб
Скачать

Системы фразеологического машинного перевода

К настоящему времени в области теории и практики машинного перевода сделано многое, но до сих пор остаются проблемы, которые до конца не решены. Одна из них - задача автоматического выбора переводных эквивалентов для слов и словосочетаний исходного текста. При решении этой задачи до последнего времени делалась ставка на пословный перевод, а полисемия (многозначность) слов разрешалась в основном процедурными средствами на основе учета синтаксических и семантических признаков этих слов. Поэтому современные системы МП, как уже говорилось, можно охарактеризовать как системы семантико-синтаксического, преимущественно пословного перевода. Словосочетания как лексические единицы в них используются, но в меньшей степени. Этот подход, по видимому, не имеет перспективы, так как в естественных языках смысл словосочетаний, как правило, не сводим или не полностью сводим к смыслу составляющих их слов, и при переводе он не может быть "вычислен" на основе синтаксических и семантических признаков этих слов.

Г.Г.Белоногов (ВИНИТИ) предлагает при переводе текстов в качестве основных единиц смысла рассматривать не отдельные слова, а фразеологические сочетания, выражающие понятия, отношения между понятиями и типовые ситуации. Аналогичная идея была высказана японским ученым профессором Нагао из университета Киото, который предложил в качестве альтернативы распространенному на Западе подходу к проблеме машинного перевода другой подход, основанный на использовании ранее переведенных текстов, представленных одновременно на двух языках (билингв). Современный западный подход к проблеме машинного перевода он называет "основанным на правилах" (rule based aproach), а предлагаемый им подход - основанным на примерах (example based approach).

Перевод текстов с одних естественных языков на другие - сложный творческий процесс, требующий от переводчика не только соответствующей лингвистической подготовки, но и хороших знаний тех предметных областей, к которым относятся переводимые тексты. Этот процесс осуществляется на основе восприятия и понимания человеком исходного текста и последующей передачи его содержания средствами выходного языка. При этом переводятся не столько слова и их последовательности, сколько порождаемые ими в сознании переводчика мыслительные образы. Накопленный переводческий опыт свидетельствует о том, что в процессе перевода в качестве основных единиц смысла выступают прежде всего фразеологические словосочетания, выражающие понятия, а не отдельные слова. Именно понятия являются теми элементарными мыслительными образами, используя которые, можно строить более сложные мыслительные образы, соответствующие переводимому тексту.

Если перевод текстов, выполняемый человеком, нельзя рассматривать как пословный грамматический перевод, то возникает вопрос: что же переводится или, в иной формулировке, что является инвариантом при переводе? Ответ лежит на поверхности - смысловое содержание текстов. Но этот ответ годится только для мыслящего существа - человека. При машинном переводе манипуляции с текстами проводятся в отрыве от процесса мышления. Г.Г.Белоногов предлагает исходить из того, что в процессе перевода наименования понятий исходного текста заменяются наименованиями этих единиц смысла на выходном языке, и полученный таким образом новый текст оформляется в соответствии с грамматическими нормами выходного языка.

Понятия - это мыслительные образы, хранящиеся в памяти человека. Ими он оперирует в процессе речевого общения. Но не всякие мыслительные образы человека являются понятиями. Понятиями можно считать только социально значимые образы, которые являются достоянием либо всех носителей данного языка, либо их значительной части. За этими образами в языковом сообществе закрепляются определенные ярлыки - их наименования в виде отдельных слов или (что значительно чаще) словосочетаний. Окончательно формализовать структуру понятия пока не удается. Можно, например, представлять себе понятие в виде многосвязной пространственной семантической сети, в узлах которой находятся признаки, а соединяющие их дуги обозначают отношения между ними. Можно предложить иную формализованную модель, но, как бы то ни было, бесспорно, что понятие имеет сложную структуру, и ему можно приписать множество признаков. Например, понятие "береза" ассоциируется с деревом, имеющим ствол, корни, ветви, листья, кору белого цвета и т.д.; сок березы может употребляться в пищу человеком, кора березы обладает лекарственными свойствами и т.п. Абстрактное понятие "культура'' также может быть охарактеризовано множеством признаков, в той или иной мере отражающих его содержание. Таким образом, наименование понятия - это ярлык, обозначающий его, но ни в коей мере не исчерпывающий его содержания. Если понятие состоит из нескольких слов, то эти слова могут обозначать несколько признаков понятия (не обязательно самых существенных). На разных языках для обозначения одних и тех же понятий могут использоваться разные признаки.

Традиционно считается, что словосочетания, встречающиеся в языке, можно разделить на два класса: "свободные" и "несвободные". В предисловии к "Русско-английскому фразеологическому словарю" (1997) сказано: "Под фразеологизмом понимается несвободное сочетание двух или более слов, функционирующих как семантическое целое. В большинстве случаев значение фразеологизма не может быть выведено из значений его компонентов". Но, по всей видимости, несвободными словосочетаниями являются не только идиоматические выражения, но и все устойчивые фразеологические словосочетания. Входящие в их состав слова связаны друг с другом ''железными цепями" соответствующих им мыслительных образов-понятий. Эта несвобода как раз и позволяет людям понимать друг друга. Иначе о каком понимании может идти речь, если языковый ярлык (означающее) будет свободно связан с соответствующим ему мыслительным образом (означаемым).

При создании системы МП возникает вопрос: на какие объемы машинных словарей следует ориентироваться? Точного ответа на него дать невозможно. Высказываются предположения, что количество различных слов в таких языках, как русский и английский, превосходит один миллион, а количество относительно устойчивых фразеологических словосочетаний исчисляется сотнями миллионов. Подтверждением этому могут служить данные международной организации INFOTERM (Международный Терминологический Центр, Вена, Австрия). Согласно этим данным, количество различных терминов в языках достигает 50 млн., а количество наименований товаров - 100 млн. Но многообразие фразеологических словосочетаний в естественных языках вовсе не исчерпывается только этими двумя типами лексических единиц. В связных текстах нетерминологические фразеологические словосочетания встречаются чаще, чем терминологические. Следовательно, есть основания предположить, что их больше, чем терминов и наименований товаров вместе взятых - такова природа естественных языков. Однако, в реальных текстах фразеологические словосочетания имеют разную частоту встречаемости, и оказалось, что приемлемое покрытие текстов может быть достигнуто при относительно небольших объемах словарей, содержащих наиболее частые лексические единицы.

Система фразеологического машинного перевода имеет в своем составе базу знаний, содержащую переводные эквиваленты для наиболее часто встречающихся фраз, фразеологических словосочетаний и отдельных слов, а также программные средства для морфологического и синтаксического анализа и синтеза текстов и для их редактирования человеком. В процессе перевода система использует хранящиеся в ее базе знаний переводные эквиваленты в следующем порядке: сначала делается попытка перевести всю фразу как целостную единицу, далее, в случае неудачи, осуществляется попытка перевода входящих в состав фразы словосочетаний, и, наконец, пословно переводятся те фрагменты текста, которые не удалось перевести первыми двумя способами. Фрагменты выходного текста, полученные всеми тремя способами, должны грамматически согласовываться друг с другом (с помощью процедур морфологического и синтаксического синтеза).

При создании систем фразеологического машинного перевода руководствуются следующими принципами:

1. Основными единицами языка и речи, которые прежде всего следует включать в машинный словарь, должны быть фразеологические единицы (словосочетания, фразы). Отдельные слова также могут включаться в словарь, но они должны использоваться только в тех случаях, когда не удается осуществить перевод, опираясь на фразеологические единицы.

2. Наряду с фразеологическими единицами, состоящими из непрерывных последовательностей слов, в системах машинного перевода следует использовать и так называемые "речевые модели" - фразеологические единицы с "пустыми местами", которые могут заполняться различными словами и словосочетаниями, порождая осмысленные отрезки речи.

3. Реальные тексты, независимо от их принадлежности к той или иной тематической области, обычно бывают политематическими, особенно, если они имеют достаточно большой объем. Такие тексты отличаются друг от друга не столько словарным составом, сколько распределениями вероятности появления в них различных слов из общенационального словарного фонда. Поэтому машинный словарь, даже предназначенный для перевода текстов только из одной тематической области, должен быть политематическим.

4. Необходимы машинные словари большого объема. Такие словари должны создаваться прежде всего на основе автоматизированной обработки двуязычных текстов, являющихся переводами друг друга, и в процессе функционирования систем перевода.

5. Наряду с основным попитематическим словарем большого объема целесообразно использовать набор небольших по объему дополнительных тематических словарей. Дополнительные словари должны содержать только ту информацию, которая отсутствует в основном словаре (например, информацию о приоритетных переводных эквивалентах словосочетаний и слов для различных предметных областей, если эти эквиваленты не совпадают с приоритетными переводными эквивалентами основного словаря).

6. Основным средством разрешения проблемы многозначности слов является их использование в составе фразеологических словосочетаний. Дополнительным - тематические словари, где для каждого многозначного слова или словосочетания указывается его приоритетный переводной эквивалент, специфический для рассматриваемой предметной области.

7. Большую роль могут играть процедуры морфологического и синтаксического анализа и синтеза текстов на языках оригинала и перевода, построенные на основе принципа аналогии. Эти процедуры позволяют не хранить в словарях большой объем грамматической информации, а порождать ее по мере необходимости автоматически в процессе перевода. Эти процедуры делают систему перевода открытой - способной обрабатывать тексты с "новой" лексикой.

8. Наряду с переводом текстов в автоматическом режиме целесообразно предусмотреть и интерактивный режим работы. В этом режиме пользователь должен иметь возможность вмешиваться в процесс перевода и настраивать дополнительные машинные словари на тематику переводимых текстов.