Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
мир_умк_самый последний.doc
Скачиваний:
175
Добавлен:
03.05.2019
Размер:
1.98 Mб
Скачать

1. Поисковые машины

Задача поисковых машин - найти документы в Интернете по запросу пользователя. Поисковые системы состоят из трех основных частей.

Робот/Паук - программа, которая систематически посещает веб-страницы, считывает и индексирует полностью или частично их содержимое и далее следует по найденным ссылкам. Полученная информация заносится в базу данных поисковой машины. Поисковая база данных Индекс представляет собой гигантское хранилище, которое содержит опеределенным образом организованные данные: индексы, ссылки на веб-страницы и другую дополнительную информацию.

Поисковая программа, которая в соответствии с запросом пользователя перебирает индексы в поисках соответствующей информации и выдает результаты поиска в виде ранжированного списка найденных веб-документов. Место в списке определяется тем, насколько полно тот или иной документ отвечает критериям, указанным в запросе пользователя.

Принципы работы паука, организации индекса, поисковой программы в поисковых машинах, как правило, различаются. Поэтому запрос по одним и тем же выражениям в разных поисковых машинах обычно дает разные результаты.

Программа поиска отыскивает страницы, которые соответствуют формальным требованиям запроса. Чтобы определить последовательность, в которой отобранные страницы будут представлены пользователю, применяется алгоритм ранжирования.

В интересах пользователя документы, наиболее соответствующие потребностям пользователя, должны быть помещены первыми в списке результатов. Поисковые системы используют различные алгоритмы ранжирования, однако, основные принципы определения соответствия документов запросу следующие:

  • количество слов запроса в текстовом содержимом документа;

  • тэги, в которых эти слова располагаются;

  • местоположение искомых слов в документе;

  • удельный вес искомых слов в общем количестве слов документа;

  • время — как долго страница находится в базе поискового сервера;

  • индекс цитируемости — как много ссылок на данную страницу идет с других страниц, зарегистрированных в базе поисковой машины.

Однако эффективность работы поисковых машин ограничивается четырьмя существенными факторами.

1. Топология Интернета такова, что поисковые машины могут просматривать не больше трети всех сайтов в Интернете.

В 2000 г. специалисты компаний AltaVista,IBM и Compag исследовали ресурсы и гиперсвязи существующего информационного пространства WWW. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн. веб-страниц и 1,5 млрд. ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компонентов:

  • центральное ядро — это тесно связанные между собой веб-страниц, с каждой из которых можно попасть на любую другую (27%);

  • отправные страницы - в них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22%);

  • конечные веб-страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22%);

  • полностью изолированные от центрального ядра страницы, имеющие ссылки либо на конечные веб-страницы, либо ссылки с отправных веб-страниц (22%);

  • веб-страницы, не пересекающиеся с остальными ресурсами Интернета (7%).

Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними.

Проведенный анализ позволяет сделать вывод о том, что информационное пространство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины не имеют доступа.