Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема 3_Автоматические переводные словари.doc
Скачиваний:
22
Добавлен:
27.11.2019
Размер:
180.74 Кб
Скачать
  1. Компьютерная лексикография.

В настоящее время лексикография – наука, занимающаяся составлением словарей – находится под сильным воздействием новых методов обработки информации. Современная информационная технология лексикографии – компьютерная лексикография. Значительная часть интеллектуальных операций переходит в разряд рутинных.

Под компьютерной лексикографией понимают совокупность методов и программных средств обработки текстовой информации для создания словарей.

Компьютерная лексикография представляет собой:

  • быстро развивающуюся отрасль компьютерной индустрии;

  • прикладную научную дисциплину в языкознании, изучающую методы, технологию и отдельные приемы использования компьютерной техники в теории и практике составления словарей.

С появлением компьютерной техники, создатели программного обеспечения создали новый тип словарей – электронный словарь. Такой тип словаря – абсолютно новое слово в истории лексикографии, отметившее новую качественную ступень ее развития. Ведь электронные словари обладают рядом очевидных и существенных преимуществ по сравнению со словарями традиционными. Единственным их недостатком является привязанность к персональному компьютеру и, следовательно, ограниченная доступность. Однако благодаря все возрастающим темпам компьютеризации, в том числе и растущей доступностью переносным компьютеров типа Laptop этот недостаток будет достаточно скоро устранен.

Компьютерная лексикография имеет свои инструментальные средства: базы данных, компьютерные картотеки, программы обработки текста. Эти программы позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее.

Множество различных компьютерных лексикографических программ разделяются на две больших группы:

  • программы поддержки лексикографических работ;

  • компьютерные (автоматические) словари различных типов, включающие лексикографические базы данных.

  1. Автоматические переводные словари.

Компьютерный (автоматический) словарь – это словарь в специальном машинном формате, предназначенный для использования на ЭВМ пользователем или компьютерной программой обработки текста.

Различают автоматические словари конечного пользователя-человека и автоматические словари для программ обработки текста.

Автоматические словари, предназначенные для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от автоматических словарей, включенных в системы машинного перевода, системы автоматического реферирования, информационного поиска и т.д.

Это могут быть компьютерные версии известных обычных словарей. Например: компьютерные аналоги толковых словарей английского языка (автоматический Вебстер, автоматический толковый словарь английского языка издательства Коллинз, автоматический вариант Нового большого англо-русского словаря под ред. Ю.Д.Апресяна и Э.М.Медниковой), компьютерная версия словаря Ожегова.

Автоматические словари для программ обработки текста можно назвать автоматическими словарями в точном смысле. Они, как правило, не предназначены для обычного пользователя. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют.

Теоретической разработке параметризации переводных словарей, а также критическому анализу готовых лексикографических изданий посвящены работы таких отечественных и зарубежных ученых как В.П. Берков, В.В. Дубичинский, И.И. Убин, В.Н. Крупнов, О.М. Карпова, Сидней Ландау (Sidney I. Landau), Т. Пиотровски, Ю.Д. Апресян, М.Я. Цвиллинг. Исследования в рамках специальной переводной лексикографии принадлежат таким ученым как С.В. Гринев, Ю.Н. Марчук, В.Д. Табанакова.

По определению Л. Л. Нелюбина, переводной словарь – это словарь, представляющий планомерное сопоставление словарных составов двух и более языков (в той или другой их части или во всей их совокупности).

Характеристика переводных словарей осуществляется по следующим основным параметрам:

1) количество языков и способ их описания;

2) обратимость / необратимость словаря;

3) адресация словаря;

4) состав словника;

5) типы эквивалентов, включенные в микроструктуру словаря;

6) использование дефиниций в словарной статье переводного словаря.

Рассмотрим указанные выше лексикографические параметры в порядке их следования.

Языки, включенные в переводной словарь делятся на входные (языки, с которых происходит перевод) и выходные (языки, на которые переводят).

Словарь, имеющий один входной и один выходной язык – двуязычный. Сидней Ландау делит двуязычные словари на однонаправленные, содержащие словник на входном языке с эквивалентами на выходном (например, англо-русский словарь), и двунаправленные, фактически совмещающие два словаря (например, англо-русский, русско-английский словарь).

Если мы имеем дело с многоязычным словарем, то он может иметь более одного входного и более одного выходного языка. При этом «в многоязычном словаре намеренно или ненамеренно проявляется один язык, «стержневой», или тот, для которого такой словарь составляется». Многоязычная лексикография представляет собой гораздо менее разработанную часть переводной лексикографии и терминографии по сравнению с одно- и двуязычной лексикографией. Это обусловлено тем, что перевод происходит обычно в двуязычной ситуации и редко в многоязычной. В.В. Дубичинский отмечает, что «…коренное отличие двуязычных словарей от многоязычных заключается в том, что трех-, четырех, пяти- и т.п. многоязычные словари на практике выполняют, пожалуй, лишь пассивную функцию и, как правило, используются лишь в качестве справочных пособий».

Возможность по желанию пользователя менять входной и выходной языки местами называется по терминологии И.И. Убина обратимостью словаря. Составители терминологических словарей используют различные методы и приемы для преобразования традиционных необратимых переводных словарей в обратимые. Это достигается за счет обеспечения дополнительных входов в словари. Например, в словарной статье многоязычного словаря, где заголовком является лексическая единица стержневого языка, лексические единицы остальных языков приводятся как переводные эквиваленты заглавного слова. Обратимость в данном случае обеспечивается за счет приложений к основной части словаря – алфавитных списков лексических единиц всех языков, кроме стержневого, с отсылками к основным словарным статьям.

Автоматизация словарного дела дала возможность выделять не только обратимость на уровне языков, но и обратимость на уровне отдельных лексических единиц.

В автоматических или электронных переводных словарях языковая обратимость означает, что «языки, входящие в состав этого словаря, могут выступать как в качестве языков запроса, так и в качестве языков ответа». Если все языки из состава словаря могут быть как входными, так и выходными, словарь является полностью обратимым на уровне языков. Если только некоторые из языков выступают в качестве входных и выходных, то словарь является частично обратимым.

Лексическая обратимость переводного словаря означает, что каждая лексическая единица может выступать в качестве запроса и в качестве ответа. «При полной лексической обратимости словаря каждая лексическая единица, выступая в качестве единицы входного языка, должна иметь переводные эквиваленты на всех отдельных языках, входящих в состав многоязычного словаря». Полная лексическая обратимость словаря зависит также от качественного состава его лексического массива. Такой уровень обратимости возможен при условии, что в качестве заглавных слов и их переводных эквивалентов выступают слова или словосочетания. В случае, когда в качестве переводных эквивалентов используются не лексические единицы, а развернутые переводные эквиваленты, которые передают значение заглавной лексической единицы описательным способом, сложно говорить о лексической обратимости словаря.

В зависимости от того, кому адресован словарь, переводные словари делятся на активные и пассивные (понятия введены Л.В. Щербой). Двуязычный словарь является активным, если он используется для перевода с родного языка на иностранный, например, Русско-французский социально-экологический словарь И.Н. Ремизова и др. (2002). И наоборот, если он используется для перевода с иностранного на родной, то словарь – пассивный, например, Англо-русский экологический словарь Е.Г. Коваленко (1996, 1999). В соответствии с этим делением можно говорить и об активном или пассивном пользователе словарем. В идеале, по мнению В.П. Беркова и Сиднея Ландау, переводной словарь должен иметь одного адресата, так как выбор адресата словаря определяет состав словника и характер эквивалентных соответствий. Однако на практике оказывается, что подавляющее большинство двуязычных словарей имеет одновременно двух адресатов.

Взаимосвязь адресации словаря и способа описания включенных в словарь иноязычных эквивалентов позволила В.В. Дубичинскому выделить два типа переводных словарей с лингводидактической точки зрения:

  1. монофункциональные переводные словари, описывающие один язык посредством других. Англо-русский словарь, составленный для носителей русского языка, изучающих английский, с пометами, объяснениями и уточнениями английских заголовочных единиц на русском языке является примером монофункционального словаря;

  2. би-, три-, полифункциональные переводные словари, в которых объектом исследования являются языковые единицы всех или некоторых языков словаря. Англо-русский словарь, содержащий параллельные переводы английских лексических единиц на русский язык и наоборот, двуязычные толкования и комментарии, пометы на двух языках, англо-русские и русско-английские алфавитные указатели, является бифункциональным.

Электронных словарей сейчас выпущено довольно много, поэтому остановимся только на двуязычных англо-русских и русско-английских словарях. Для примера возьмем два самых известных: Lingvo компании Abbyy и МультиЛекс, разработанный фирмой МедиаЛингва. Эти словари любопытно сравнить, ведь создающие их команды, исповедуют разные взгляды на принципы электронной лексикографии.

  • Электронные словари «МультиЛекс»

Компания МедиаЛингва придерживается при создании словарей МультиЛекс довольно простой стратегии. Она создает цифровую копию известных книжных изданий. На сайте фирмы можно найти формулировку этого принципа: «В основу электронных словарей заложены словарные базы книжных изданий, уже завоевавших популярность и признание среди переводчиков, преподавателей иностранных языков, студентов и школьников». Некоторые эксперты считают, что такая политика покоится на эксклюзивном договоре МедиаЛингва с «естественным монополистом» рынка российских словарей, издательством «Русский язык». С точки зрения МедиаЛингва, задача электронной лексикографии – как можно точнее перевести традиционный словарь в электронную форму.

За основу словаря МультиЛекс взят «Новый большой англо-русский словарь» под редакцией А.Д. Апресяна. Есть и расширенная версия, где к основному словарю добавлены экономико-финансовый, юридический, строительный, политехнический словари и словарь по полиграфии и издательскому делу.

Конечно, словарь Апресяна – выдающееся достижение лексикографии, но подход МедиаЛингва имеет и недостатки:

  • традиционные словари довольно серьезно отстают от языковой реальности, электронные словари можно пополнять чуть ли не ежедневно.

  • словари, содержащие сотни тысяч словарных статей, какими бы квалифицированными лексикографами они не составлялись, всегда содержат ошибки и неточности, не говоря уже о возникновении дополнительных значений слов. Жесткая привязка к бумажному прототипу не дает возможности исправлять и дополнять электронный, тем более изменять структуру построения словарной статьи.

  • Электронные словари «Lingvo»

Lingvo в переводе с языка эсперанто означает «язык». Создан российской компанией ABBYY.

До 1998 года компания называлась BIT Software, однако в связи с предполагаемой экспансией на запад, было решено произвести ребрендинг: компаний с названием BIT насчитывалось более десятка. Давид Ян, основатель компании, физик, предложил название ABBYY. (Задумался о создании электронного в 1989 г. во время сдачи зачёта по французскому языку.)

Название компании произносится как «аби» и буквально означает «ясный глаз»; реконструированная форма праязыка мяо-яо, гипотетического языка-предка групп мяо-яо, ну, хмун, хмонг и киммун; название связано с деятельностью компании в области создания систем оптического распознавания текстов.

13 августа 2008 года вышла новая версия x3 (икс три). Объём словарных статей составляет более 8,7 млн. Многоязычная версия охватывает 11 языков – русский, украинский, английский, немецкий, французский, испанский, итальянский, турецкий, латинский, китайский, португальский. Европейская версия – 130 словарей на 7 языках.

В отличии от компании МедиаЛингва компания ABBYY пошла по другому, более перспективному пути. Конечно, и в их большом электронном словаре Lingvo7.0 есть переведенные в цифровой вид лицензированные бумажные словари – это политехнический, юридический, экономический, финансовый, медицинский и динамично пополняемый компьютерный словарь. Но основу Lingvo, по словам руководителя лингвистического отдела фирмы Владимира Селегея, составляет электронный словарь собственной разработки. Каждая новая версия Lingvo дополняется актуальной лексикой, и в ней исправляются найденные ошибки и неточности. Таким образом, благодаря лексикографическим исследованиям англо-русский словарь фирмы ABBYY близок к языковой практике.

Удачной находкой ABBYY выглядит приглашение всем желающим размещать на их Интернет-узле

http://www.lingvo.ru/dictionaries/index.htm

словари собственного изготовления.

Такое вовлечение пользователей в лексикографическую работу вполне соответствует духу открытых Интернет-сообществ. На сайте уже размещены 23 дополнительных словаря. Причем всякий желающий может скачать их из Интернета и присоединить их к уже имеющимся в базовой версии. Базовая версия Lingvo-7.0 содержит миллион двести тысяч словарных статей, все основные статьи тщательно проработаны. Например, статья о слове «go» содержит более двадцати пяти тысяч знаков.

Современные электронные словари не только значительно превосходят по объему книжные, но и находят искомое слово или словосочетание за несколько секунд. Причем искать можно в любой форме. Некоторые, например Lingvo, встраиваются во все основные офисные приложения и выделенное слово можно переводить нажатием нескольких клавиш.

  • Мультитран

Мультитран – это мультимедийная коллекция электронных словарей, которые можно использовать как в онлайновом режиме, так и в режиме офлайн, включающая миллионы слов и словосочетаний на разных языках. Может поддерживать дополнительные пользовательские словари и корпоративные глоссарии. Пользуется

большой популярностью среди переводчиков благодаря следующим особенностям:

  • многоязычность (русский, английский, немецкий, французский, испанский словари в единой поисковой системе), всего около 30 млн исходных статей;

  • большое количество тематических областей (свыше 800 тематик);

  • автоматический поиск стандартных языковых выражений;

  • постоянное пополнение словарной базы данных самими пользователями (каждый день на сайте добавляется около 500 новых терминов);

  • перевод слов и устойчивых словосочетаний;

  • огромный объем лексического словаря (более 4 млн. слов в англо-русской версии);

  • активно действующий форум по 12 языкам (300 000 тем, 1,5 млн. ответов);

  • сквозной поиск по всем словарям и форумам;

  • возможность установки словаря на КПК, смартфонах и коммуникаторах;

  • развитая система сообщений об ошибках и их исправлениях;

  • единственный словарь, который позволяет ежедневно получать обновления и исправления словарных баз с сайта.

Пользователи указывают на такие недостатки словаря, как отсутствие окошек со всплывающим переводом (в сравнении с Lingvo), перегруженность словарной статьи вариантами перевода и наличие большого количества ошибок, гораздо большего, чем в других электронных словарях.

Последнее особенно характерно для слов из технических областей. Это объясняется

принятой практикой пополнения словаря самими пользователями, что вынуждает подходить к найденным в нем эквивалентам и соответствиям с большой осторожностью и все перепроверять.

Отметим, что данный словарь рассчитан в основном на профессиональных переводчиков, и, чтобы сориентироваться в нем и отобрать наиболее точное соответствие, нужен определенный опыт и знания, что трудно для начинающего переводчика.

Огромная коллекция многоязычных словарей по самым различным областям знаний, в том числе и в русско-английской комбинации, хранится на сайте переводчиков ООН. Любопытная подборка англо-русских словарей составлена в департаменте лингвистического обеспечения МИД России. Она включает терминологические словари по вопросам разоружения и переговорного процесса, по режиму контроля за ракетными технологиями, АТЭС, проблемам регионов Балтийского, Каспийского и Черного морей, борьбе с наркотиками, по ОБСЕ, Совету Европы, а также по Конституции РФ, официальным и православным праздникам в России и т. д.