- •4.4. Функциональное устройство вербальных ипс
- •4.4.1. Архитектура вербальных поисковых систем
- •4.4.2. Роботы-индексаторы
- •4.4.4. Поисковая база данных и поисковая система
- •4.4.5. Методы ранжирования результатов поиска
- •4.5. Языки запросов вербальных ипс
- •4.5.1. Выражение информационной потребности
- •4.5.3. Дополнительные условия поиска
- •4.6. Обзор вербальных систем
- •4.6.1. Основные вербальные ипс
- •4.6.3. Структурные элементы языков запросов
4.4.4. Поисковая база данных и поисковая система
После того как ресурсы выявлены, начинается построение поисковой базы данных – индекса. Индексный файл (или просто индекс) представляет собой набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зависят от многих факторов: алгоритм работы робота, размер массива поисковых образов, информационно-поисковый язык, критерий смыслового соответствия, размещение различных компонентов системы и т.п. В основе индекса всегда лежит инвертированный файл. Инвертированный файл ставит в соответствие каждому ключевому слову документа список, содержащий идентификатор веб-страницы, содержащей это слово, позицию слова в документе в тех или иных терминах (например, идентификатор поля, номер предложения, номер слова). Указание положения слова в тексте с точностью до номера предложения и номера этого слова в предложении позволяет построить гибкий язык запросов, позволяющий задавать расстояние между словами и предложениями в документе. Позиционные характеристики также используются при вычислении коэффициента релевантности и ранжировании документов в выдаче.
Третьим основным компонентом вербальной ИПС является поисковая система, которая при получении запроса пользователя просматривает индекс с учетом формулы запроса и других параметров, оценивает релевантность документов и возвращает пользователю ранжированный список документов.
Поиск в индексе – это операции над списками идентификаторов страниц в соответствии с моделью поиска и критерием соответствия. Например, при булевской модели это объединение (для операции дизъюнкция), пересечение (для конъюнкции) или дополнение (для отрицания). В ИПС в сети Интернет нередко используются гибридные модели, чаще всего являющиеся комбинацией логической и векторной моделей поиска.
Результирующий список релевантных документов (в современной терминологии «отклик»), который преобразуется в ранжированный список заголовков (кратких описаний документов), снабженных гипертекстовыми ссылками и другими характеристиками (данные о дате создания документа, его объеме, кодировке, сведений о сайте и пр.), возвращается пользователю в его клиентскую программу-браузер (см. рис.4.3). Щелчок по ссылке к одному из документов запрашивает этот документ либо непосредственно с того сервера, на котором он находится, либо через базу данных поисковой системы.
Важным фактором и характеристикой вербальных ИПС являются так называемые интерфейсные веб-страницы, т.е. экранные формы, через которые пользователь задает запрос (поисковое предписание) и через которые он получает результаты. Различают два основных типа интерфейсных страниц: страницы запросов и страницы результатов поиска.
Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса и моделью поиска. Как правило, эти характеристики систем являются секретом фирмы.
4.4.5. Методы ранжирования результатов поиска
Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:
количество слов из запроса в текстовом содержимом документа;
элементы (теги), в которых эти слова располагаются (повышенный вес имеют теги заголовков, поля МЕТА, гиперссылок и т.п.).;
местоположение искомых слов в документе (чем ближе к началу, тем выше значимость термина);
удельный вес слов (относительная частота), относительно которых определяется релевантность, в общем количестве слов документа.
Эти принципы применяются практически всеми поисковыми системами. Кроме того, учитывается:
"время жизни" – как долго веб-страница находится в базе поискового сервера;
индекс цитируемости – как много ссылок на данный документ ведет с других веб-страниц, зарегистрированных в базе ИПС;
индекс популярности – как часто пользователи обращались к данному документу.