Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
lect7_kitis_MIR.DOC
Скачиваний:
2
Добавлен:
15.11.2018
Размер:
54.78 Кб
Скачать

Лекция 7. Принципы построения универсальных поисковых систем

Основные протоколы, используемые в Интернет, не содержат специальных встроенных функций поиска. Протокол HTTP был создан, как средство навигации, т.е. просмотра страниц и не содержит функций для построения эффективного поиска информации. То же самое относится и к протоколу FTP, более простому, чем HTTP, который используется для обмена файлов. Из-за быстрого роста объёма информации, доступной в Сети, навигационные методы просмотра достигли предела их функциональных возможностей и не эффективны. Нужную информацию уже не представляется возможным получить сразу, так как в Сети сейчас находятся миллиарды документов и все они доступны пользователям Интернет. К тому же сегодня их количество возрастает по экспоненциальной зависимости.

Кроме того, информация в Интернет очень динамична. Количество изменений, которым она подвергается огромно. Они совершаются за короткие временные периоды. Основная проблема заключается в том, что единой полной функциональной системы обновления и занесения подобного объема информации, одновременно доступного всем пользователям Интернет во всем мире, никогда не было. Для того чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых данных, были созданы поисковые системы.

Все поисковые системы, предназначенные для Интернет, имеют более или менее схожие принципы работы. Каждый из "поисковиков " опрашивает свой внутренний каталог по ключевым словам или фразам, которые Вы указываете при определении сценария поиска. Различие состоит лишь в объёме просматриваемой информации и алгоритме поиска, плюс, в наличии дополнительных сервисов (например, встроенных тематических каталогов или рейтинга индексируемых страниц). Распространено заблуждение, что во время поиска по запросу избранная поисковая система перебирает миллионы известных ей адресов и сверяет соответствие ключевых слов содержимому "свежих" веб-страниц. Это не так! Поиск ведется в базе на множестве серверов поисковой системы, а в ответ на запрос выдаются подходящие адреса веб-страниц во всех концах Интернет.

Поисковая система ведёт постоянный опрос узловых адресов в Сети, пополняя собственную базу данных. Не огорчайтесь, если любимая поисковая система не обнаружила свежей информации, о существовании которой Вам достоверно известно, или выдала устаревший несуществующий адрес. Ведь, если бы "поисковик" при каждом запросе опрашивал всю Сеть, то Вы никогда бы не получили результата поиска. В значительной степени, доступность документа для поисковой системы зависит от её реализации. Реализация может использовать наиболее запрашиваемые ключевые слова, разместить документ на доступном для основных поисковых машин сервере и заявить о себе поисковым службам международной сети Интернет.

Поисковые системы обычно состоят из трех компонент:

  • агент (паук или кроулер), который перемещается по Сети и собирает информацию;

  • база данных, которая содержит всю информацию, собираемую пауками;

  • поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных поисковой системы.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]