Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
LEKCIJA_8.doc
Скачиваний:
11
Добавлен:
17.12.2018
Размер:
138.24 Кб
Скачать

3.3. Ранжирование

В силу перечисленных особенностей очень важной задачей в контексте Web является упорядочивание результатов поиска так, чтобы первыми оказались те результаты, которые вероятнее всего интересны для пользователя. За этот процесс отвечает модуль ранжирования. Классические подходы к ранжированию опираются на меру схожести текста запроса и текста документа - релевантность, но “расплывчатые” запросы пользователей и огромное количество документов значительно понижают эффективность таких подходов в контексте Web. Более того, никем не контролируемая публикация в Web позволяет нечестно повышать ранг собственной страницы в результатах поиска (например, заполняя ее “белым по белому” ключевыми словами).

Поэтому гораздо более перспективным оказалось использовать в дополнение к релевантности еще и меру важности (полезности, популярности) Web-страницы при ранжировании результатов поиска. Типичным примером такой метрики является индекс цитирования, т.е. количество ссылок на данную страницу, который довольно популярен в библиометрии. Однако опять ссылки в Web сильно отличаются от ссылок в печатной литературе, и ничто не мешает автору Web-страницы создать кучу пустых страниц, ссылающихся на данную. Поэтому необходимо учитывать важность и ссылающихся страниц.

Первым и наиболее известным расширением индекса цитирования в Web стала метрика PageRank, названная именем одного из основателей поисковой системы Google (http://www.google.com) и реализованная в ней. Метрика PageRank рекурсивно определяет важность страницы на основе информации о ссылающихся на страницах :

,

где d - это некоторый параметр (обычно порядка 0.85), а обозначает количество ссылок, выходящих со страницы . Еще одним примером модифицированного индекса цитирования в Web является Яндекс цитирования в поисковой системе Яндекс (http://www.yandex.ru).

Другой популярной метрикой определения важности Web-страницы является HITS (Hyperlink-Induced Topic Search). Если PageRank вычисляется один раз глобально для всех страниц в индексе, то в рамках модели HITS предполагается, что важность страницы зависит от запроса, т.к. в разных тематических сообществах - разные авторитеты. Поэтому HITS вычисляется локально для каждого запроса. Примером поисковой системы, использующей HITS является Teoma (http://www.teoma.com).

Несмотря на значительный прогресс в развитии таких подходов, получаемые оценки не идеальны и совпадают с мнением экспертов примерно в половине случаев.

4. Альтернативные архитектуры поисковых систем

Описанная выше архитектура поисковых систем для Web не является единственно возможной. Рассмотрим пару альтернативных вариантов.

4.1. Распределенные поисковые системы

Естественной попыткой решить проблему масштабируемости поисковых систем является использование распределенной архитектуры. Этот подход активно исследовался как в контексте классических поисковых систем, так и в контексте поисковых систем для Web.

В рамках такой архитектуры поиск производится по виртуально единому индексу, который физически распределен по ряду серверов. Эффективная система должна выполнять запросы, не производя поиск во всех частях индекса, стараясь искать только там, где действительно содержится ответ. Возможность оптимального решения зависит от принципов разбиения индекса на части, которые очень важны в контексте Интернет, где информация о документах, а как следствие, и индексы, меняются очень часто. В распределенной ПС для Web пополнение и поддержка разных частей индекса может выполняться разными роботами, и то, насколько они будут эффективны, также зависит от принципов разбиения индекса.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]