3.2.4. Алгоритмы морфологического анализа текстов

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Сибирский государственный университет науки и технологий им. академика М.Ф. Решетнева

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc

Скачиваний:

129

Добавлен:

06.03.2016

Размер:

3.28 Mб

Скачать

☆

<<< < Предыдущая 4 5 6 7 8 9 10 11 12 13 14 1516 / 3316 17 18 19 20 21 22 23 24 25 26 27 28 > Следующая >>>

3.2.4. Алгоритмы морфологического анализа текстов

Некоторые поисковые системы используют морфологический анализ, который позволяет производить поиск более качественно.

Наибольший интерес представляет алгоритм русского морфологического анализа. Программная оболочка электронного морфологического словаряYandex-Dict разработана подразделением «Аркадия» фирмы CompTek International [73].

Приведем описание алгоритма морфологического анализа текстов.

Находятся все варианты анализируемой словоформы.
Для каждого варианта основы, начиная с самого длинного, осуществляется бинарный поиск в инверсионном списке основ. Если вариант основы в этом списке отсутствует, то находятся наиболее близкие словарные основы, имеющие максимальное по длине общее окончание. Позиция первой наиболее близкой основы и мера ее сходства – число совпавших символов в основе и длина окончания – запоминаются.
По всем вариантам основ производятся следующие действия:

для всех лексем, имеющих одинаковую меру сходства (одинаковую длину общего окончания основы), осуществляется морфологический анализ по лексеме;
если вариант основы не совпадает ни с одной из ближайших словарных основ, то это означает, что анализируемое слово с данным вариантом основы в словаре отсутствует. В этом случае по варианту основы, окончанию и лексеме, соответствующей ближайшей словарной основе, генерируется гипотетическая лексема – модель словоизменения для этого неизвестного слова. В случае успешной генерации эта гипотеза подается на вход морфологического анализатора по лексеме;
успешные варианты разбора запоминаются в виде

{Лексема (текст статьи), варианты разбора};

если результат является гипотезой и при этом такая же гипотеза уже есть, то она не запоминается повторно. Вместо этого увеличивается счетчик продуктивности этой гипотезы;
если среди лексем с одинаковой текущей мерой сходства есть хотя бы один вариант разбора, то переход к п. 5 с успешным результатом. Если вариантов разбора нет, то длина требуемого общего окончания основы уменьшается. Если после этого длина требуемого общего окончания основы стала меньше двух, то переход к п. 5 с отказом; иначе – переход к п. 3.

Проводится унификация гипотез по парадигмам (поскольку формат допускает неоднозначное описание парадигмы) и их фильтрация по продуктивности. Если продуктивность гипотезы меньше максимальной продуктивности в пять раз, то гипотеза отсеивается.
Конец.

Кроме использования морфологических словарей в поисковых системах для повышения релевантности запроса по узкоспециализированным темам очень часто применяются тематические тезаурусы (словари). [52].

Рассмотренные выше алгоритмы отличаются от классических алгоритмов поиска информации. Это обусловлено тем фактом, что классические модели поиска разрабатываются исходя из предпосылок, обусловленных поиском релевантных документов в Интернете. В рамках данной монографии метапоиск рассматривается как процесс сканирования информации из Интернета. В результате возникает ряд проблем, связанных с ранжированием полученной информации о ссылках на документы. Необходимо отметить, что представленные модели отличаются еще и тем, что поиск производится сразу по нескольким разноязычным сегментам Интернета, что накладывает дополнительные ограничения на существующие модели поиска информации. Разноязычность результатов поиска обусловлена необходимостью работы над составлением новых и актуализацией существующих мультилингвистических словарей.

<<< < Предыдущая 4 5 6 7 8 9 10 11 12 13 14 1516 / 3316 17 18 19 20 21 22 23 24 25 26 27 28 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
17.03.201533.06 Кб11Kontrolnaya_rabota.docx
#
12.07.201979.36 Кб9Kontrolnaya_rabota_dlya_zaochnikov.doc
#
17.03.2015313.32 Кб17Kontrolnye_semestrovye_zadanija_po_discipline.pdf
#
17.03.2015963.07 Кб19kontr_detali.doc
#
06.03.2016564.85 Кб41Kopia_Laboratornaya_1_Programmir__Avtosokhrane (1).docx
#
06.03.20163.28 Mб129Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc
#
28.04.2019491.4 Кб17kpzs.docx
#
17.03.2015387.58 Кб23Kramida_Otchety_1_2.doc
#
06.03.20161.14 Mб112Kuklina_Kireeva2007.doc
#
06.03.20161.92 Mб49Kursach_BD.docx
#
17.03.2015147.46 Кб24kursovaya_menedzhment 4 семестр.doc