3.2. Алгоритмы и модели информационного поиска

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Сибирский государственный университет науки и технологий им. академика М.Ф. Решетнева

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc

Скачиваний:

129

Добавлен:

06.03.2016

Размер:

3.28 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 1213 / 3313 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

3.2. Алгоритмы и модели информационного поиска

Классические модели информационного поиска рассматривают документы как множества представляющих эти документы ключевых слов, в дальнейшем называемых термами(словоформами). Терм – это обычно слово, семантика которого помогает описать основное содержание документа.

Формально описание любой модели информационного поиска состоит из четырех частей [17; 33]:

D– множества используемых типов представлений документов;
Q– множества используемых типов описаний информационных потребностей пользователя, т. е. запросов [4; 13];
F– общего каркаса, в рамках которого происходит моделирование описаний документов и запросов, а также описание взаимосвязей между ними;
R(q, d_i) – функции ранжирования, которая паре «I-й документ(d_i) – запрос(q)»сопоставляет некоторое вещественное число.

Модели информационного поиска делятся на три класса:

теоретико-множественные модели, использующие теорию множеств. Классический пример модели этого класса – булева модель, в рамках которой документы и запросы представляются в виде множеств термов;
вероятностные модели. Каркасом таких моделей выступает теория вероятностей, а в качестве оценки релевантности документа запросу пользователя берется вероятность того, что пользователь признает документ истинно релевантным;
алгебраические модели. В рамках этих моделей документы и запросы описываются в виде векторов в многомерном пространстве. В основе таких моделей лежат алгебраические методы [97].

Следует отметить, что наиболее популярными являются алгебраические модели, поскольку их практическая эффективность обычно оказывается выше других моделей. Предлагаемые в последнее время новые модели информационного поиска зачастую являются гибридными и обладают свойствами моделей разных классов [97].

Необходимо отметить, что практически все алгоритмы поиска информации в Интернете используют теорию графов. И это не случайно, так как Сеть можно представить как граф огромных размеров, где страницы являются узлами, а ссылки на другие страницы – дугами. При этом для каждой страницы ссылка, выходящая из нее (исходящая дуга), называется Forward, или Outcoming Link (Outedge, Outcoming Arc), а ссылка, указывающая на эту страницу (входящая дуга), – Backlink (Inedge). Обозначим факт наличия ссылки со страницы u на страницу v следующим образом: . Заметим, что все исходящие ссылки можно легко извлечь из страницы и почти всегда их количество не очень велико, так как оно определяется только хозяином страницы, тогда как для нахождения входящих дуг необходима информация о структуре интернет-сайта, а их количество может оказаться очень большим, хотя обычно оно невелико. Наличие ссылки со страницы u на страницу v в общем случае трактуется как факт оказания предпочтения странице v автором страницы u. Конечно, не все ссылки соответствуют данному утверждению, например навигационные, которые созданы для удобства перемещения по разным страницам сайта. Практически всегда результатом работы алгоритма ранжирования является присвоение каждой странице из рассматриваемого набора некоторого веса, обычно неотрицательного вещественного, и последующее упорядочивание набора страниц. Проранжированная таким образом информация предоставляется ЛПР.

Рассмотрим алгоритмы и модели, используемые на всех этапах поиска многоязычной информации.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 1213 / 3313 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
17.03.201533.06 Кб11Kontrolnaya_rabota.docx
#
12.07.201979.36 Кб9Kontrolnaya_rabota_dlya_zaochnikov.doc
#
17.03.2015313.32 Кб17Kontrolnye_semestrovye_zadanija_po_discipline.pdf
#
17.03.2015963.07 Кб19kontr_detali.doc
#
06.03.2016564.85 Кб41Kopia_Laboratornaya_1_Programmir__Avtosokhrane (1).docx
#
06.03.20163.28 Mб129Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc
#
28.04.2019491.4 Кб17kpzs.docx
#
17.03.2015387.58 Кб23Kramida_Otchety_1_2.doc
#
06.03.20161.14 Mб112Kuklina_Kireeva2007.doc
#
06.03.20161.92 Mб49Kursach_BD.docx
#
17.03.2015147.46 Кб24kursovaya_menedzhment 4 семестр.doc