Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
LEKCIJA_8.doc
Скачиваний:
11
Добавлен:
17.12.2018
Размер:
138.24 Кб
Скачать

Лекция 8 технологии построения поисковых систем и организация информационного поиска План лекции

1. Основные понятия поисковых систем

1.1. Определение и задача поисковых систем

1.2. Модели поисковых систем

1.3. Обзор функциональности

1.4. Поисковые системы и электронные библиотеки

2. Особенности поиска в Web

2.1. Особенности Web как набора данных

2.2. Особенности поведения пользователей поисковых систем в Web

3. Архитектура поисковых систем для Web

3.1. Сканирование

3.2. Хранение, индексирование и поиск

3.3. Ранжирование

4. Альтернативные архитектуры поисковых систем

4.1. Распределенные поисковые системы

4.2. Метапоисковые системы

1. Основные понятия поисковых систем

1.1. Определение и задача поисковых систем

Поисковая система (ПС) - это программное обеспечение, предоставляющее доступ к коллекции слабоструктурированной информации. Ориентация на слабоструктурированные данные, т.е. данные, которые нельзя представить в виде реляционной таблицы, отличает поисковую систему от СУБД.

В определении поисковой системы подразумевается информация различного рода, т.е. текст, аудио, видео, изображения и т.п. Однако следует отметить, что именно текстовые данные идеально подходят для описания полной функциональности поисковой системы, т.к. алгоритмы поиска мультимедийной информации, прежде всего, основываются на алгоритмах поиска текста.

Основная задача поисковой системы - минимизировать время, затрачиваемое пользователем на поиск релевантной запросу информации. Релевантность - одно из самых субъективных и запутанных понятий в науке информационного поиска. Наиболее часто говорят о релевантности с точки зрения пользователя, и тогда “релевантная запросу информация” и “нужная пользователю информация” - одно и то же. Именно о такой релевантности мы говорим в данном разделе. Вопрос заключается в том, какую информацию пользователь посчитает нужной. В некоторых обстоятельствах релевантную информацию можно определить как всю информацию из базы, имеющую отношение к запросу. Так, например, если пользователю нужно узнать все о конкретной фирме, то он заинтересован в нахождении всех документов, в которых упоминается об этой фирме. В других обстоятельствах релевантная информация - это только та информация, которая достаточна для выполнения определенной задачи пользователя, например, поиска ответа на конкретный вопрос. Если в последнем случае в результатах поиска будет много избыточных данных, т.е. данных, которые имеют отношение к запросу, но не нужны для выполнения данной задачи, то выборка нужной/релевантной информации займет у пользователя дополнительное время.

Таким образом, традиционно к поисковой системе применяют две основные характеристики: точность и полнота, а точнее, их зависимость. Каждый раз, когда пользователь задает системе запрос, тем самым инициализируя поиск, все документы в коллекции поисковой системы делятся на четыре части, как это показано на рис.1.

Рис.1. Разбиение пространства документов при исполнении каждого запроса

Тогда точность и полнота поиска определяются следующим образом:

Точность определяет один аспект поиска, а именно, насколько хорошо поисковая система способна минимизировать время, затрачиваемое пользователем на поиск релевантной данному запросу информации. В то время как полнота определяет другой аспект - насколько хорошо система способна найти релевантную данному запросу информацию. Можно подобрать оптимальный запрос(ы), когда каждый найденный документ будет релевантным, и каждый релевантный документ будет найден. Кривая “точность/полнота” для оптимального запроса изображена на рис.2 слева, однако для распределения реальных запросов эта кривая для большинства поисковых систем имеет вид, изображенный на рис.2 справа.

Рис.2. Оптимальная и реальная зависимость “точность/полнота”

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]