Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Билеты по информатике.docx
Скачиваний:
16
Добавлен:
16.09.2019
Размер:
295.01 Кб
Скачать

15. Современные поисковые системы. Их основные процессы. (7 шагов)

Не опишу прямо-таки 7 шагов, ибо не найти, но, если передать Андрееву суть, будет доволен, думаю.

Коротко:

Индексация – это процесс, во время которого поисковые роботы посещают сайты, собирая с их страниц разнообразную информацию и занося ее в специальные базы данных. Потом эти данные обрабатываются, и строится индекс – выжимка из документов. Именно по индексу поисковая система ищет и выдает ссылки на сайты, исходя из запросов пользователей.

Рассмотрим процесс индексирования на примере поисковой системы Яндекс.

В поисковой системе есть 2 типа роботов: быстрый и основной. Задача основного робота – индексация всего контента, а быстрого – занесение в базы данных самой свежей информации. Планировщик поискового робота составляет маршруты посещения и передает его «пауку», который ходит по выбранным страницам и выкачивает из них информацию. Если во время индексации в документах обнаруживаются новые ссылки, они добавляются в общий список.

При первом посещении «паук» проверяет состояние ресурса. Если его характеристики подходят под требования Яндекса, сайт заносится в базу. При повторном посещении «пауком» уже проиндексированной страницы происходит обновление содержащейся на ней информации. 

Подробно (по желанию, рекомендую):

Если рассматривать всё содержимое Сети в качестве одного огромного гипертекста, то упорядочивают его именно поисковые системы. Они составляют и хранят огромный предметный указатель всех сайтов, всех страниц разбросанных в Сети, и выделяют в нём ключевые слова.

Для этого поисковая машина, основной программный комплекс поисковых систем, индексирует все Web-страницы. Этот процесс делится на несколько этапов. Прежде всего составляется начальный список страниц, содержащий адреса, которые в дальнейшем будут проиндексированы и покажут поисковым программам — какие страницы необходимо проиндексировать кроме них.

Чаще всего для решения этой задачи просто загружается список из какого-то каталога сайтов. После этого поисковый робот начинает сбор и сохранение всех гипертекстовых ссылок на страницы других сайтов, которые находит на каждой из загруженных страниц. Снежный ком растёт. Переходя по этим ссылкам, поисковые машины составляют огромные базы данных, содержащие адреса миллионов страниц.

Чем больше ссылок на какую-то страницу обнаружит поисковый робот — тем больше вероятность того, что она будет проиндексирована. И, наоборот, — для страниц, на которые не ссылаются другие сайты, шансы оказаться, не то чтобы на хороших местах в поисковой выдаче, но и вообще в индексе, существенно снижаются.

Поисковый индекс — это выборка содержания страницы. Чтобы его составить поисковая система должна получить её текст. Сбором этой информации занимаются особые модули поисковых систем, которые носят название «crawler», пауки или поисковые роботы. Функциональность этих программ заключается в посещении собранных ранее адресов, и закачивании на определённые сервера необработанной текстовой информации. Она передаётся следующему модулю, который носит название индексный робот.

Индексный робот должен пронумеровать все страницы, которые передал ему поисковый робот и составить базу данных из всех слов, встречающихся на сайтах, соотнеся их с этими страницами. На одном из первых этапов этой работы — он очищает полученный результат от «мусора» или данных, которые для этого не нужны. К примеру, элементов разметки HTML. База данных слов связывается с адресами страниц.

Все эти процессы происходят незаметно для пользователей поисковых систем. Впоследствии, когда они введут какой-то поисковый запрос, то программа не пойдёт искать информацию непосредственно в Интернете, но обратится к собственному индексу. Ответом будут ссылки на все сайты, где содержится искомое слово или словосочетание.

Обычно поисковые системы показывают титул страницы, дату её создания, цитату из текста и подсвечивают искомое выражение. В случае если было введено несколько слов, то анализируется каждое из них. В самом верху списка результатов выдачи показываются страницы, которые содержат все введённые слова.

Конечно, мы рассмотрели только основу процесса. Современные поисковые системы стремятся к тому, чтобы самые лучшие результаты достались тем сайтам, которые могли бы захотеть видеть люди. Другими словами, соответствующие ожиданиям пользователей поисковых систем. Такие страницы принято называть релевантными. Релевантные страницы — это страницы сайтов, которые имеют отношение к рассматриваемой проблеме, уместные по отношению к определённому запросу. О том, как делать такие страницы, на что смотрят поисковые системы в первую очередь, мы погорим в следующий раз. Однако этот разговор может оказаться напрасным, если мы не поймём структуру индекса и не разберёмся в основных моментах и принципах его формирования.