Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вопросы 21-25.docx
Скачиваний:
6
Добавлен:
24.11.2019
Размер:
40.8 Кб
Скачать

2.Интернет-поисковые системы. Метапоисковые системы. Особенности поиска информации

каталогов отбирают люди. В отличие от поисковых машин, информация в каталогах более точно структурирована, причем в вертикальном иерархическом виде.

      И поисковые машины, и каталоги являются внешними службами или, как их еще называют, автономными системами. Особенностью автономных систем является то, что цикл работы с информацией выполняется полностью непосредственно на этой системе, начиная с получения информации от первоисточника и заканчивая предоставлением поискового сервиса конечному пользователю.

      Автоматические поисковые системы охватывают больший объем информации, их сведения чаще обновляются и поэтому более актуальны. Однако информация на таких серверах плохо структурирована, потому что оценка содержимого того или иного сайта - трудно формализуемая задача. Чаще всего программа-робот отбирает документы только по наличию искомых слов в тексте документа. Примером поисковой машины является AltaVista (http://www.altavista.com).

      В каталогах вся информация имеет четкую вертикальную иерархическую структуру. Причем эта структура строится на основе смыслового содержания. В этом главная ценность каталогов, обрабатываемых людьми: можно найти не множество сайтов, содержащих данные ключевые слова, а множество сайтов, посвященных данной тематике. Примером каталога может служить сервер Yahoo (http://www.yahoo.com).

      Каталоги WWW, содержащие большое количество записей, часто размещают на своих страницах локальные поисковые машины. Реализуемые в виде традиционных шаблонов, которые мало чем отличаются от шаблонов на автоматических индексах.

      Как для поисковых машин, так и для каталогов устанавливается некий принцип отбора информации. Этот принцип закладывается либо в алгоритмы работы поисковых машин, либо в регламент работы людей (для каталогов). В зависимости от того, откуда и какой тип информации накапливается, оценивают две характеристики автономных систем - пространственный масштаб и специализацию.

      Пространственный масштаб призван ограничить количество первоисточников информации до некоего конечного предела. Например, поисковая система может быть построена в рамках только одного сайта. Поиск может быть ограничен рамками одного географического домена (например, ru). Такие системы называют региональными.

      Существует множество поисковых серверов, которые не имеют подобных ограничений. Их называют глобальными информационно-поисковыми системами.

      Особенности регионального подхода могут присутствовать и в глобальных системах. Так, система Lycos (http://www.lycos.com) сортирует результаты поиска в зависимости от того, из какого региона поступил запрос.

      Наиболее популярные поисковые сервера загружены настолько, что возникает необходимость в создании "зеркал" (mirrors). Зеркала должны содержать точную копию первичной поисковой системы и гарантировать быстрое обслуживание обращений, поступающих из определенной географической зоны.

      При обращении к той или иной поисковой системе следует учитывать, какие сервисы она предоставляет. Например, в отечественной поисковой машине Яндекс (http://www.yandex.ru) введен поиск не только страниц, но и серверов. Суть этого метода заключается в том, что ключевые слова ищутся не по всем страницам, а лишь по их заголовкам (то, что заключено в HTML между тегами "title"). В зарубежной AltaVista сделана отдельная служба Real Names, которая содержит перечень всех зарегистрированных страниц компаний и организаций.

      Следующий важный сервис - это специализация поиска. В настоящее время Интернет является хранилищем разных типов информации. Поэтому и поиск информации тоже может быть формализован. Можно искать исключительно графические изображения, можно - мультимедийные записи в формате MP3 и т.д. На многих поисковых серверах можно задать тип искомой информации. кроме того, существуют и серверы, которые специализируются на поиске информации строго определенного типа. FTPSearch (http://ftpsearch.lycos.com) специализируется исключительно на поиске файлов. Он индексирует всевозможные ftp-серверы на предмет находящихся там файлов. Поиск осуществляется непосредственно по наименованию искомого файла. Аналогично MP3Search (http://mp3.box.sk) специализируется на поиске исключительно файлов в формате MP3.

      Еще одним важным моментом является то, какой язык запросов использует та или иная система. Чем сложнее этот язык - тем более тонкую настройку поиска оказывается возможным провести. В настоящее время не существует единого унифицированного языка запросов для поисковых систем. Разработка такого языка сделала бы возможной интеграцию различных поисковых сервисов в единую сверхсистему поиска. В феврале 1999 был начат проект SESP (Search Engine Standards Project), в котором участвует 15 крупнейших поисковых систем Интернета. В задачу проекта входит стандартизация работы поисковых служб (материалы о нем можно найти по адресу http://www.searchenginewatch.com).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]