Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc
Скачиваний:
129
Добавлен:
06.03.2016
Размер:
3.28 Mб
Скачать
      1. 3.2.4. Алгоритмы морфологического анализа текстов

Некоторые поисковые системы используют морфологический анализ, который позволяет производить поиск более качественно.

Наибольший интерес представляет алгоритм русского морфологического анализа. Программная оболочка электронного морфологического словаряYandex-Dict разработана подразделением «Аркадия» фирмы CompTek International [73].

Приведем описание алгоритма морфологического анализа текстов.

  1. Находятся все варианты анализируемой словоформы.

  2. Для каждого варианта основы, начиная с самого длинного, осуществляется бинарный поиск в инверсионном списке основ. Если вариант основы в этом списке отсутствует, то находятся наиболее близкие словарные основы, имеющие максимальное по длине общее окончание. Позиция первой наиболее близкой основы и мера ее сходства – число совпавших символов в основе и длина окончания – запоминаются.

  3. По всем вариантам основ производятся следующие действия:

  • для всех лексем, имеющих одинаковую меру сходства (одинаковую длину общего окончания основы), осуществляется морфологический анализ по лексеме;

  • если вариант основы не совпадает ни с одной из ближайших словарных основ, то это означает, что анализируемое слово с данным вариантом основы в словаре отсутствует. В этом случае по варианту основы, окончанию и лексеме, соответствующей ближайшей словарной основе, генерируется гипотетическая лексема – модель словоизменения для этого неизвестного слова. В случае успешной генерации эта гипотеза подается на вход морфологического анализатора по лексеме;

  • успешные варианты разбора запоминаются в виде

{Лексема (текст статьи), варианты разбора};

  • если результат является гипотезой и при этом такая же гипотеза уже есть, то она не запоминается повторно. Вместо этого увеличивается счетчик продуктивности этой гипотезы;

  • если среди лексем с одинаковой текущей мерой сходства есть хотя бы один вариант разбора, то переход к п. 5 с успешным результатом. Если вариантов разбора нет, то длина требуемого общего окончания основы уменьшается. Если после этого длина требуемого общего окончания основы стала меньше двух, то переход к п. 5 с отказом; иначе – переход к п. 3.

  1. Проводится унификация гипотез по парадигмам (поскольку формат допускает неоднозначное описание парадигмы) и их фильтрация по продуктивности. Если продуктивность гипотезы меньше максимальной продуктивности в пять раз, то гипотеза отсеивается.

  2. Конец.

Кроме использования морфологических словарей в поисковых системах для повышения релевантности запроса по узкоспециализированным темам очень часто применяются тематические тезаурусы (словари). [52].

Рассмотренные выше алгоритмы отличаются от классических алгоритмов поиска информации. Это обусловлено тем фактом, что классические модели поиска разрабатываются исходя из предпосылок, обусловленных поиском релевантных документов в Интернете. В рамках данной монографии метапоиск рассматривается как процесс сканирования информации из Интернета. В результате возникает ряд проблем, связанных с ранжированием полученной информации о ссылках на документы. Необходимо отметить, что представленные модели отличаются еще и тем, что поиск производится сразу по нескольким разноязычным сегментам Интернета, что накладывает дополнительные ограничения на существующие модели поиска информации. Разноязычность результатов поиска обусловлена необходимостью работы над составлением новых и актуализацией существующих мультилингвистических словарей.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]