4.4.4. Поисковая база данных и поисковая система

После того как ресурсы выявлены, начинается построение поисковой базы данных – индекса. Индексный файл (или просто индекс) представляет собой набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зависят от многих факторов: алгоритм работы робота, размер массива поисковых образов, информационно-поисковый язык, критерий смыслового соответствия, размещение различных компонентов системы и т.п. В основе индекса всегда лежит инвертированный файл. Инвертированный файл ставит в соответствие каждому ключевому слову документа список, содержащий идентификатор веб-страницы, содержащей это слово, позицию слова в документе в тех или иных терминах (например, идентификатор поля, номер предложения, номер слова). Указание положения слова в тексте с точностью до номера предложения и номера этого слова в предложении позволяет построить гибкий язык запросов, позволяющий задавать расстояние между словами и предложениями в документе. Позиционные характеристики также используются при вычислении коэффициента релевантности и ранжировании документов в выдаче.

Третьим основным компонентом вербальной ИПС является поисковая система, которая при получении запроса пользователя просматривает индекс с учетом формулы запроса и других параметров, оценивает релевантность документов и возвращает пользователю ранжированный список документов.

Поиск в индексе – это операции над списками идентификаторов страниц в соответствии с моделью поиска и критерием соответствия. Например, при булевской модели это объединение (для операции дизъюнкция), пересечение (для конъюнкции) или дополнение (для отрицания). В ИПС в сети Интернет нередко используются гибридные модели, чаще всего являющиеся комбинацией логической и векторной моделей поиска.

Результирующий список релевантных документов (в современной терминологии «отклик»), который преобразуется в ранжированный список заголовков (кратких описаний документов), снабженных гипертекстовыми ссылками и другими характеристиками (данные о дате создания документа, его объеме, кодировке, сведений о сайте и пр.), возвращается пользователю в его клиентскую программу-браузер (см. рис.4.3). _{Щелчок
по ссылке к одному из документов
запрашивает этот документ либо
непосредственно с того сервера, на
котором он находится, либо через базу
данных поисковой системы.}

Важным фактором и характеристикой вербальных ИПС являются так называемые интерфейсные веб-страницы, т.е. экранные формы, через которые пользователь задает запрос (поисковое предписание) и через которые он получает результаты. Различают два основных типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса и моделью поиска. Как правило, эти характеристики систем являются секретом фирмы.

4.4.5. Методы ранжирования результатов поиска

Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

количество слов из запроса в текстовом содержимом документа;

элементы (теги), в которых эти слова располагаются (повышенный вес имеют теги заголовков, поля МЕТА, гиперссылок и т.п.).;

местоположение искомых слов в документе (чем ближе к началу, тем выше значимость термина);

удельный вес слов (относительная частота), относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются практически всеми поисковыми системами. Кроме того, учитывается:

"время жизни" – как долго веб-страница находится в базе поискового сервера;

индекс цитируемости – как много ссылок на данный документ ведет с других веб-страниц, зарегистрированных в базе ИПС;

индекс популярности – как часто пользователи обращались к данному документу.

<<< < Предыдущая 12 / 42 3 4 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
26.05.2015288.26 Кб13Введение.docx
#
26.05.201539.83 Кб11Введение3.docx
#
26.05.2015574.68 Кб10Вебер Макс Основные социологические понятия.doc
#
26.05.20151.12 Mб191Веракса_Диагностика подготовительной группы.doc
#
26.05.201539.11 Кб33Вербальные и невербальные средства общения.docx
#
25.03.2016113.15 Кб12Вербальные ИПС.doc
#
07.11.2018289.28 Кб4Влияние кельтов на язык и культуру Великобритан....doc
#
26.05.2015862.21 Кб69Возрастная анатомия и физиология.doc
#
19.11.20193.28 Mб179Вологдин ИГиПЗС.doc
#
25.03.2016253.19 Кб19Вольчик В.docx
#
26.05.201563.82 Кб17Вопрос 13.docx