Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc
Скачиваний:
129
Добавлен:
06.03.2016
Размер:
3.28 Mб
Скачать
  1. 5. Система поддержки

  2. Принятия решениЙ на основе Информационно-терминологического

  3. Базиса

Одной из основных проблем обеспечения информацией специалистов и ЛПР является проблема информационного поиска релевантных источников (документов и данных) в распределенных информационных системах.

Для информационного поиска используются дескрипторные информационно-поисковые языки, реализующие координатное индексирование. Смысловое содержание документа можно выразить списком ключевых слов. Оптимальное индексирование документов в информационно-поиско-вых сервисах СППР обеспечивается за счет использования специальных словарей-справочников, называемых тезаурусами.

Тезаурус является нормативным словарем ключевых слов в определенной предметной области. Отбор ключевых слов для тезауруса производится с учетом частоты их употребления, значения информационного поиска, приемлемости терминов для ЛПР. При этом словарный состав тезауруса необходимо постоянно обновлять. Тезаурус используется при вводе документов в автоматизированные информационно-управляющие системы, формировании предписаний на поиск документов, обеспечении контроля за единообразием употребления слов и словосочетаний. Структура наполнения тезауруса регламентируется стандартами ISO 2788, ГОСТ 7.25–2001 и ГОСТ 7.24–90 [19; 22].

Особенно актуальной становится проблема создания тезаурусапо основным экономическим, производственным и технологическим процессампредприятий с использованием автоматической обработки массивов электронных документов и данных, доступных в распределенных системах поддержки принятия решений. Тезаурус современных корпоративных информационно-управляющих систем, так же как и систем поддержки принятия решений, должен быть эффективным с точки зрения обеспечения заданной полноты и точности информационного поиска и снижения информационного шума. В то же время тезаурус должен формироватьсяза разумное время и не требовать на свое создание больших финансовых и трудовых затрат.

С помощью тезауруса также разрешается проблема обеспечения точности информационного поиска в Интернете, поскольку устранение семантической неоднозначности становится все более очевидным с ростом объема баз данных корпораций. Устранение неоднозначности терминов для того, чтобы сделать более точными их значения, – одна из главных задач тезауруса.

Наиболее известными программными средствами, применяемыми при создании русскоязычных тезаурусов, являются WordNet, используемый в Санкт-Петербургском государственном университете при работепо проекту RussNet (русскоязычной версии словаря WordNet), университетская информационная система (УИС) «Россия» (Московский государственный университет), тезаурус SDK, тезаурус RCOforOracle, система АРТЕФАКТ и др. [71; 81].

Рассмотрим более подробно возможности, предоставляемые некоторыми из этих программных средств.

    1. 5.1. Лексико-семантическая база данных

    2. Типа WordNet для русского языка

Работа над словарем английского языка WordNet [102] была начата в Принстонскомуниверситете (США) в начале 1980-х гг. и продолжается до настоящего времени. Сейчас доступна версия 2.0 этого словаря. Существующая версияPrincetonWordNet охватывает общеупотребительную лексику современного английского языка (более 120 тыс. слов). Широкое распространение этот словарь получил благодаря его свободной доступности для научных и исследовательских целей.

В 1996–1999 гг. при финансировании Европейской комиссии был создан многоязычный вариант словаря WordNet – EuroWordNet [98]. Эта лексическая система объединила в себе WordNet-словари английского, датского, испанского, итальянского, немецкого, французского, чешского и эстонского языков, при этом за основу был взят WordNet версии 1.5. В 2007 г. завершилась работа над проектом BalkaNet, объединяющем греческий, болгарский, турецкий, чешский, французский, румынский и сербский языки [93]. Все национальные версии WordNet связаны как с исходным словарем WordNet, так и между собой через специальный межъязыковой индекс (Inter-lingnal-Index,ILI). Все словари EuroWordNet – это коммерческие продукты.

В настоящее время словари WordNet могут применяться в системах информационного поиска (Information Retrieval), вопросно-ответ-ных системах (Q&A Systems), в системах машинного перевода (MachineTranslation) и при решении задачи определения значения слов (Word-Sensedisambiguation,WSD).

Что касается проектов словарей WordNet для русского языка, то можноотметить следующее.

В настоящее время известны несколько реализаций WordNet и подобные лексические базы данных для русского языка:

  • проект RussNet, разрабатываемый с 1999 г. на филологическом факультете Санкт-Петербургского государственного университета [78];

  • проект тезауруса RuThes, используемого в УИС «Россия» [78]. Это закрытый коммерческий ресурс;

  • проект русскоязычной версии словаря WordNet компании «Новософт» [41]. Это также закрытый коммерческий ресурс.

Методика и принципы построения словаря проекта RussNet [8] ориентированы на длительный процесс разработки ресурса группой лингвистов без какой-либо автоматизации процесса построения и связи с исходным словарем WordNet. Два других проекта невозможно оценить из-за их закрытости, хотя в последнем используется небольшой англо-русский словарь Миллера для автоматизации построения ресурса.

Рассматриваемая в данной монографии реализация русскоязычной версии словаря WordNet позволяет получить ядро словаря за меньший срок за счет использования доступных словарей и автоматизации процедур построения и редактирования словаря. Ставится задача получения русско-язычной версии WordNet, сопоставимой по числу лексических единицс английской версией. Для этих целей создана методика, включающая в себянабор алгоритмов и процедур их проверки. Эта методика позволяет значительно сократить время разработки за счет более эффективного использования существующих ресурсов и автоматизации процесса построения словаря WordNet на их основе. Большое внимание в данной методике уделено вопросу интеграции с другими лексическими ресурсами. Однако повышение качества получаемого таким образом словаря связано с его ручной доработкой на каждом этапе построения.

Для создания русскоязычной версии словаря WordNet используются лингвистические ресурсы компании «Руссикон» [70; 74] и словари, свободно распространяемые в Интернете, например Oxford Russian Dictionary, New Oxford Dictionary of English (2nd Edition), New Oxford Thesaurus of English, которые применяются при автоматизированном построении русско-английского словаря WordNet [11; 72; 75]. Для работы со словарем также разработан редактор TenDrow, позволяющий просматривать и редактировать словарные статьи WordNet и иерархии их отношений. Редактор TenDrow используется для чистовой обработки словаря.

Основной целью рассматриваемой методики является построение русско-английского словаря WordNet, включающего в себя лексику русского и английского языков. Разработка такого варианта словаря включает два этапа: построение русскоязычной версии словаря WordNet, описывающего лексику русского языка, и объединение полученного словаря с последней реализацией Princeton WordNet с помощью индекса ILI. При этом наиболее важными аспектами являются редактирование специально подготовленных текстовых файлов и использование набора утилит для внесения изменений в базу данных. Для каждого этапа построения словаря формируется свой набор таких файлов и средств их обработки.

Базовой структурной единицей, формирующей словарную статью WordNet, является синонимичный ряд – синсет, объединяющий лексемы со схожим значением и представляющий некоторое понятие языка. Для каждого синсета определяется толкование, уточняющее значение этого понятия и приводятся примеры употребления лексем синсета в некотором контексте.

Процесс формирования статьи словаря состоит из следующих этапов.

На первом этапе анализируется толковый словарь, из которого выделяются значения слов с толкованиями – прототипы синсетов. Они включают в себя от одного до шести слов-синонимов, полученных по пометам, характеризующим эквивалентность значений слов в словарных статьях толкового словаря. Для всех лексем статьи определяется полная парадигма, т. е. производится привязка статьи к грамматическому словарю, при этом лексемы различаются не только по частям речи, но и по другим признакам, например одушевленности. Затем статья соотносится с аналогичной статьей словаря синонимов – тезауруса «Руссикон», синсеты дополняются синонимами и формируется дерево гипонимии (родовидовых отношений), соответствующее структуре тезауруса.

На втором этапе статья словаря сопоставляется со статьей из словаря PrincetonWordNet. Для реализации такого сопоставления используются оксфордские словари [74].

Последовательное воспроизведение отношений синсетов основано на том, что они определяются деревьями гипонимии и меронимии (отношения «часть–целое») исходного словаря WordNet. При этом осуществляется обход этих деревьев в ширину. Для каждого синсета WordNet предпринимается попытка найти синсет среди множества синсетов-прототипов русского словаря, полученных на первом этапе. Такой поиск предполагает использование не только словника синсетов и частотного словаря, как в других реализациях [82; 86], но и толкового словаря. Однако этого часто оказывается недостаточно, поскольку многие синсеты у корней деревьев состоят всего из одной леммы, имеющей множество лексем, например make. Для синсетов словарей анализируются толкования и примеры употребления: они нормализуются, переводятся и сравниваются. Эта косвенная информация значительно повышает качество автоматически получаемого результата.

Последовательный обход деревьев отношений позволяет воспроизвести их структуру в русскоязычной версии словаря WordNet (где это возможно) и определить отношения тождества (EQ-отношения), необходимые для построения индекса ILI [65; 72].

Рассмотрим структуру статьи словаря. Она разработана с учетом существующих реализаций словаря WordNet и форматов его представления.

В состав статьи словаря включен грамматический анализ (GramTree, GramProp, WordForm), в котором для каждой леммы определена полная парадигма. Также определяются словообразовательные отношения между леммами (WordBuild).

Толкование и примеры употребления лексем (Saying_Idiom) привязаны не только к синсетам, но и к отдельным лексемам. Это связано с тем, что в основе WordNet лежит толковый словарь. В частности, это касается такого отношения, как антонимия, которое реализуется за счет последовательной нумерации всех лексем синсета и включения этих номеров в состав отношения SemLexRel.

Синсеты могут быть привязаны к TopOntology – онтологии, выделенной из проекта EuroWordNet [2], которая позволяет загружать вместо/вме-сте TopOntology и другие классификаторы, например рубрикатор ГАСНТИ и/или иерархию WordNet Domains [33].

Та же структура статьи словаря в нотации UML описана в [33].

Таким образом, рассмотренная выше методика предназначается для создания и редактирования широкого класса тезаурусов и близких к ним структур. Реализация набора интерфейсов к этим словарям позволяет использовать их как самостоятельные приложения в виде лексикографической системы WordNet и системы классификаторов, а также включать их в состав более сложных систем.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]