Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вербальные ИПС.doc
Скачиваний:
12
Добавлен:
25.03.2016
Размер:
113.15 Кб
Скачать

4.4.4. Поисковая база данных и поисковая система

После того как ресурсы выявлены, начинается построение поисковой базы данных – индекса. Ин­дексный файл (или просто индекс) представляет собой набор связанных между собой файлов, ориен­тированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зави­сят от многих факторов: алгоритм работы робота, размер массива поис­ковых образов, информационно-поисковый язык, критерий смыслового соответствия, размещение различных компонентов си­стемы и т.п. В основе индекса всегда лежит инвертированный файл. Инвер­тированный файл ставит в соответствие каж­дому ключевому слову документа список, содержащий идентификатор веб-страницы, содержащей это слово, позицию слова в документе в тех или иных терминах (например, идентификатор поля, номер предложения, номер слова). Указание положения слова в тексте с точностью до номера предложения и номера этого слова в предложении позволяет построить гибкий язык запросов, позволяющий задавать расстояние между словами и предложениями в документе. Позиционные характеристики также используются при вычислении коэффициента релевантности и ранжировании документов в выдаче.

Третьим основным компонентом вербальной ИПС является поисковая система, которая при получении запроса пользователя просматривает индекс с учетом формулы запроса и других параметров, оценивает релевантность документов и возвращает пользователю ранжированный список документов.

Поиск в индексе – это операции над списками идентификаторов страниц в соответствии с моделью поиска и критерием соответствия. Например, при булевской модели это объединение (для операции дизъюнкция), пересечение (для конъюнкции) или дополнение (для отрицания). В ИПС в сети Интернет нередко используются гибридные модели, чаще всего являющиеся комбинацией логической и векторной моделей поиска.

Результирующий список релевантных документов (в современной терминологии «отклик»), который преобразуется в ранжированный список заголовков (кратких описаний документов), снабженных гипертекстовыми ссылками и другими характеристиками (данные о дате создания документа, его объеме, кодировке, сведений о сайте и пр.), возвращается пользователю в его клиентскую программу-браузер (см. рис.4.3). Щелчок по ссылке к одному из документов запрашивает этот документ либо непосредственно с того сервера, на котором он находится, либо через базу данных поисковой системы.

Важным фактором и характеристикой вербальных ИПС являются так называемые интерфейсные веб-страницы, т.е. экранные формы, через которые пользователь задает запрос (поисковое предписание) и через которые он получает результаты. Различают два основных типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса и моделью поиска. Как правило, эти характеристики систем являются секретом фирмы.

4.4.5. Методы ранжирования результатов поиска

Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

количество слов из запроса в текстовом содержимом документа;

элементы (теги), в которых эти слова располагаются (повышенный вес имеют теги заголовков, поля МЕТА, гиперссылок и т.п.).;

местоположение искомых слов в документе (чем ближе к началу, тем выше значимость термина);

удельный вес слов (относительная частота), относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются практически всеми поисковыми системами. Кроме того, учитывается:

"время жизни" – как долго веб-страница находится в базе поискового сервера;

индекс цитируемости – как много ссылок на данный документ ведет с других веб-страниц, зарегистрированных в базе ИПС;

индекс популярности – как часто пользователи обращались к данному документу.