Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc
Скачиваний:
129
Добавлен:
06.03.2016
Размер:
3.28 Mб
Скачать
    1. 3.2. Алгоритмы и модели информационного поиска

Классические модели информационного поиска рассматривают документы как множества представляющих эти документы ключевых слов, в дальнейшем называемых термами(словоформами). Терм – это обычно слово, семантика которого помогает описать основное содержание документа.

Формально описание любой модели информационного поиска состоит из четырех частей [17; 33]:

  • D– множества используемых типов представлений документов;

  • Q– множества используемых типов описаний информационных потребностей пользователя, т. е. запросов [4; 13];

  • F– общего каркаса, в рамках которого происходит моделирование описаний документов и запросов, а также описание взаимосвязей между ними;

  • R(q, di) – функции ранжирования, которая паре «I-й документ(di) – запрос(q)»сопоставляет некоторое вещественное число.

Модели информационного поиска делятся на три класса:

  • теоретико-множественные модели, использующие теорию множеств. Классический пример модели этого класса – булева модель, в рамках которой документы и запросы представляются в виде множеств термов;

  • вероятностные модели. Каркасом таких моделей выступает теория вероятностей, а в качестве оценки релевантности документа запросу пользователя берется вероятность того, что пользователь признает документ истинно релевантным;

  • алгебраические модели. В рамках этих моделей документы и запросы описываются в виде векторов в многомерном пространстве. В основе таких моделей лежат алгебраические методы [97].

Следует отметить, что наиболее популярными являются алгебраические модели, поскольку их практическая эффективность обычно оказывается выше других моделей. Предлагаемые в последнее время новые модели информационного поиска зачастую являются гибридными и обладают свойствами моделей разных классов [97].

Необходимо отметить, что практически все алгоритмы поиска информации в Интернете используют теорию графов. И это не случайно, так как Сеть можно представить как граф огромных размеров, где страницы являются узлами, а ссылки на другие страницы – дугами. При этом для каждой страницы ссылка, выходящая из нее (исходящая дуга), называется Forward, или Outcoming Link (Outedge, Outcoming Arc), а ссылка, указывающая на эту страницу (входящая дуга), – Backlink (Inedge). Обозначим факт наличия ссылки со страницы u на страницу v следующим образом: . Заметим, что все исходящие ссылки можно легко извлечь из страницы и почти всегда их количество не очень велико, так как оно определяется только хозяином страницы, тогда как для нахождения входящих дуг необходима информация о структуре интернет-сайта, а их количество может оказаться очень большим, хотя обычно оно невелико. Наличие ссылки со страницы u на страницу v в общем случае трактуется как факт оказания предпочтения странице v автором страницы u. Конечно, не все ссылки соответствуют данному утверждению, например навигационные, которые созданы для удобства перемещения по разным страницам сайта. Практически всегда результатом работы алгоритма ранжирования является присвоение каждой странице из рассматриваемого набора некоторого веса, обычно неотрицательного вещественного, и последующее упорядочивание набора страниц. Проранжированная таким образом информация предоставляется ЛПР.

Рассмотрим алгоритмы и модели, используемые на всех этапах поиска многоязычной информации.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]