Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
теория информатика.doc
Скачиваний:
89
Добавлен:
24.09.2019
Размер:
5.2 Mб
Скачать

18.5. Поиск информации в Интернете

 

18.5.1. Поисковые системы

Сеть Интернет содержит огромное количество разносторонней информации (данных), доступ к которой можно получить на web-сайтах. Рано или поздно перед пользователем Интернета встает задача поиска в Сети нужной ему информации. Эта задача была бы практически невыполнимой, если бы не специальные поисковые службы, позволяющие выполнять поиск по заданным пользователем запросам.

В настоящее время Интернет содержит мощные средства поиска любой информации, любых документов и программ, web-страниц и т.д. Поиск производится с помощью так называемых поисковых систем (search engine). Существует два основных типа поисковых систем. Это поисковые машины и тематические каталоги.

Поисковые машины - это полностью автоматизированные системы. Поисковые машины без участия человека постоянно сканируют информационное пространство Интернет и индексируют всё, что им попадается. Результаты своей работы они заносят в базу данных, из которой потом извлекают ответ на запрос пользователя. Такие системы должны постоянно передвигаться по Интернет, искать новые документы и обновлять старые. Для этого они должны быть постоянно подключены к Интернет через мощные каналы связи.

Работу поисковых систем можно разделить на три этапа.

1. Сбор информации поисковыми роботами. Создание поисковой системы начинается с работы специальной программы - сетевого робота, или паука (spider), иногда можно встретить названия worm (червь), crawler (ползун). Многообразие названий связано с тем, что каждая поисковая система создаёт своего собственного неповторимого робота и даёт ему имя, впоследствии становящееся нарицательным. Такие агентские программы – основа любой поисковой системы. Поисковая система рассылает в Интернет "пауков", они просматривают максимальное количество (по возможности) web-страниц, представленных в Интернете, а затем регистрируют их URL-адреса и содержимое в своей базе данных. Если при просмотре Web -страницы поисковый робот находит на ней ссылки на другие страницы того же или другого Web-сайта, он переходит по этим ссылкам, анализирует их содержание и так далее. Как паук, он проникает в самые отдалённые закоулки Web.

2. Второй этап работы поисковой системы - индексация. Это процесс преобразования данных из той формы, в которой они хранятся на Web-страницах, в другие формы, удобные для быстрого просмотра. В результате индексации образуется база данных, называемая поисковым индексом. У каждой поисковой системы свои способы индексации. Например, перед индексацией документ очищается от зарезервированных слов, к которым относятся артикли, предлоги, союзы, местоимения и другие слова, имеющие менее 4 символов. Резервируются также очень распространённые слова, такие как computer, Internet и т.п. На этапе подготовки может происходить нормализация слов за счёт отбрасывания суффиксов и окончаний. На основе подготовленных документов создаётся индекс - особая база данных, созданная, чтобы ускорить поиск. Суть метода индексации - это коммерческая тайна поисковой службы.

3. Третий этап - ответ на запрос клиента. В ответ на запрос поисковые системы просматривают свои индексы и возвращают список ссылок, ведущих к соответствующим ресурсам. Работа происходит следующим образом: система анализирует ключевые слова, которые клиент использовал в запросе, производит операцию освобождения от зарезервированных слов и нормализацию, после чего выполняет поиск совпадений с содержимым поисковых индексов. По найденным совпадениям формируется итоговый список ссылок. Список чаще всего сортируется по релевантности, т.е. соответствию содержания этого документа поисковому запросу (в порядке убывания).

Поисковые системы еще называют поисковыми программами, поисковыми серверами. Поисковых систем в Интернете множество. Мы рассмотрим только наиболее известные и популярные системы для поиска информации (таблица 18.3). Кроме них существуют также системы поиска файлов (www.files.ru), людей (www.whowhere.ru) и т. д. Список ссылок на различные поисковые системы можно найти по адресу www.monk.newmail.ru.

Таблица 18.3 - Список наиболее популярных поисковых систем

Глобальные поисковые системы

Российские поисковые системы

 http://www.altavista.com

 http://www.yandex.ru

 http://www.yahoo.com

http://www.aport.ru

 http://www.infoseek.com

http://www.go.com

http://www.rambler.ru

 

Поисковая система реализована в виде web-страницы с обычным адресом, в которой есть поле ввода поискового запроса (query) и кнопка для инициирования процесса поиска. Кроме того, страница может содержать тематический каталог ресурсов, ссылки на популярные страницы и т. п.

Для вызова поисковой системы необходимо ввести в адресной строке обозревателя Интернета ее адрес. После загрузки в поле ввода поискового запроса наберите строку текста (на русском, английском или любом другом языке) и щелкните на кнопке инициирования поиска, которая может называться Поиск, Искать, Search, Go и т. д. Через некоторое время на экране появится список адресов web-страниц, содержащий ссылки на искомые документы, которые, как правило, сопровождаются комментариями. Выбрав адрес мышью, можно перейти к любому из найденных документов.

Чтобы увидеть следующую десятку найденных документов, щелкните на ссылке с соответствующим номером (1, 2, 3...) в главном окне с результатом поиска. Обычно документы, из первой десятки найденых, максимально точно соответствуют сделанному запросу.

Практически все поисковые системы позволяют зарегистрировать страницу пользователя, размещенную в Интернете. Для этого вы должны на странице крупной поисковой системы, например такой, как Yahoo!, перейти в режим регистрации и ввести URL и описание своей страницы. Далее поисковая система распространит вашу регистрационную информацию на все другие крупные поисковые узлы, те, в свою очередь, на другие и т. д. Имеются также глобальные регистрационные серверы.

Вторая разновидность поисковых систем – тематические каталоги или поисковые каталоги. При формировании каталогов с самого начала не ставится задача стопроцентного охвата информации. В каталогах вся информация рассортирована по темам, причём это информация, обработанная человеком. Это означает, что по каждому ресурсу Интернет (страница, документ, сайт, сервер) составляется краткая справка: содержание, ссылка на другие ресурсы, автор, фирма и т.д. Ценность информации, содержащейся в каталогах значительно выше, чем в автоматических индексах, но её гораздо меньше.

Крупнейшим тематическим каталогом мира считается поисковая система Yahoo! На Yahoo! работает целый редакторский коллектив, ежедневно просматривающий ресурсы Интернет в поисках наиболее ценных ресурсов.

Ниже представлен далеко не полный список тематических каталогов:

@Rus (http:// www.atrus.ru)

Open Directory (http:// dmoz.org)

List.ru (http:// www.list.ru)

 «Кирилл и Мефодий» (http://www.km.ru)

Look Smart (http:// www.looksmart.com)

Lycos (http:// www.lycos.com)

Лайкос (http:// www.lycos.ru)

Britanica (http:// www.britanica.com)

NBCi (http:// www.nbci.com)

В настоящее время чаще всего встречаются поисковые системы, сочетающие в себе черты поисковых машин и тематических каталогов в различных комбинациях. Например, информация вначале может собираться в Интернет с помощью поисковой машины, а затем обрабатываться вручную, образуя тематический каталог. Некоторые тематические каталоги просто переадресовывают особенно сложные запросы поисковым машинам. С другой стороны, поисковые машины научились выполнять автоматическую каталогизацию своих ресурсов.

Поисковые каталоги имеются, например, на поисковых серверах Яndex, Rambler, AltaVista и др. Существуют также выделенные поисковые каталоги, например, www.pingwin.ru, www.Hst.ru и т.д. Чтобы осуществить поиск по каталогу, нужно просто выбирать мышью темы, углубляясь и сужая поиск до тех пор, пока не будет найден в конечном разделе адрес нужной web-страницы. Например, в каталоге Яndex надо найти ссылку на СевКавГТУ. Для этого выбираем каталог Учеба ► Высшее образование ► Технические вузы, просматриваем первую страницу каталога – ссылки на ресурс СевКавГТУ – нет, переходим на следующую страницу каталога и т.д. пока не найдем ссылку на интересующий нас ресурс (на июль 2005 года – 29 ссылка).

Другими словами, поисковая служба представляет собой автоматизированную систему сбора, хранения и индексирования (сортировки) информации о различных web-ресурсах сети Интернет. Из накопленной информации формируются специальные базы данных, используемые для реализации этих процессов.

Пользователь может найти интересующую информацию путем создания поискового запроса, состоящего из перечня слов, которые должны присутствовать на web-странице, а также логических операторов, придающих запросу большую гибкость. Слова, приведенные в запросе, будут разыскиваться в базах поисковой системы. Результатом выполнения запроса является перечень web-страниц, на которых присутствуют заданные текстовые фрагменты.