Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабораторная работа № 4 Поиск.doc
Скачиваний:
3
Добавлен:
11.07.2019
Размер:
113.66 Кб
Скачать

Лабораторная работа № 4

Цель работы: изучение специальных программ поисковых машин для проведения результативного поиска необходимой информации.

Поиск в Internet

Задача поиска необходимой информации была бы практически невыполнимой, если бы не специальные поисковые службы, позволяющие выполнять поиск по заданным пользователем запро­сам.

На серверах таких служб есть специальные программы (их назы­вают роботами или пауками), которые собирают информацию в Web и возвращают на свой сервер все обнаруженные страницы. Другими словами, поисковая служба представляет собой автоматизирован­ную систему сбора, хранения и индексирования (сортировки) ин­формации о различных web-ресурсах сети Internet. Из накопленной таким образом информации формируются специальные базы данных, используемые для реализации этих процессов.

Пользователь может найти интересующую информацию пу­тем создания поискового запроса, состоящего из перечня слов, которые должны присутствовать на Web-странице, а также логи­ческих операторов, придающих запросу большую гибкость. Сло­ва, приведенные в запросе, будут разыскиваться в базах поиско­вой системы. Результатом выполнения запроса является перечень Web-страниц, на которых присутствуют заданные текстовые фрагменты.

Далее приведены описания наиболее популярных поисковых служб.

AltaVista Search

http://www.altavista.com

Узел AltaVista Search был организован в декабре 1995 г. Он обладает огромной базой данных с индексацией по полному тексту и мощными поисковыми средствами.

AltaVista - это наилучший вариант для настраиваемого поис­ка, для которого используются его совершенные поисковые сред­ства. Результаты, получаемые при простом поиске по ключевым словам, не столь впечатляющи. Заказав простой поиск, заданный в AltaVista по умолчанию, пользователь получит тысячи доку­ментов. Поскольку при этом сортировка результатов по категори­ям не выполняется, приходится вручную просматривать предоставленную информацию. В AltaVista не предусмотрены средства для распределения по категориям, получения списков активных (hot) узлов, новостей или других возможностей поиска по содержанию, которыми оснащены многие узлы-конкуренты.

Для того чтобы получить возможность пользоваться мощными инструментами AltaVista, пользователю следует освоить методику составления сложных запросов. На странице сложного поиска Advanced Search узла AltaVista предоставлен полный набор поиско­вых средств, однако все эти операторы имеются и на странице про­стого поиска. Пользователь может задавать логические операторы (AND, OR и NOT), указывать максимальный интервал между клю­чевыми словами (см.табл.1), выполнять поиск с учетом заглавных и строчных букв, а также ограничивать поиск по дате. Можно до­бавлять символы как в конце ключевого слова (чтобы учесть окон­чания множественного числа или суффиксы), так и в середине слова (чтобы учесть возможные альтернативные написания). Пользователь может ограничить сферу поиска определенными элементами

Одна из наиболее ценных функций страницы сложного поиска Advanced носит название "критерия ранжирования результатов". С помощью этой функции пользователь имеет возможность назначить весовые коэффициенты ключевым словам, чтобы самые важные для него документы оказывались в списке ответов первыми.

Узел AltaVista предоставляет пользователю мощные и удоб­ные средства поиска конкретной информации, но для простого поиска по ключевым словам этот узел, не слишком хорош, по­скольку можно запутаться в полученных результатах поиска.

Таблица 1.

Перечень параметров и операторов поиска

Параметр/оператор

Описание

Параметры элементарного поиска

+

Если перед словом стоит знак "+", оно должно обязательно присутствовать на странице

-

Если перед словом стоит знак "-", оно должно обязательно отсутствовать на странице

;

Будет выполнен поиск фразы, состоящей из слов, разделенных знаком ";"

""

Указанный в кавычках фрагмент обязательно должен присутствовать на странице в том виде, в котором он задан в кавычках

*

Звездочка может располагаться в произвольной части слова и заменяет собой цепочку любых символов (*oad - искать по словам, заканчивающимся на "oad")

Операторы усовершенствованного поиска

AND (&)

Оба фрагмента должны находиться на странице

OR

Хотя бы один фрагмент должен находиться на странице

NOT (!)

Указанный фрагмент не должен находиться на странице

NEAR (~)

Заданные фрагменты должны находиться на одной странице на расстоянии не более десяти слов

()

Служит для объединения слов в выражения

Excite

http://www.excite.com

Данный узел имеет мощный поисковый меха­низм, возможность автоматической индивидуальной настройки предоставляемой информации, а также составленные квалифици­рованным редакционным персоналом описания множества узлов. Excite выгодно отличается от других поисковых узлов тем, что позволяет вести поиск в службах новостей и публикует обзоры Web-страниц.

В поисковом механизме Excite используются как средства стандартного поиска по ключевым словам, так и эвристические методы поиска по содержанию. Благодаря такому сочетанию, можно найти вполне подходящие по смыслу страницы Web, даже если они не содержат именно указанных пользователем ключе­вых слов. База данных этого узла состоит из более чем 50 млн. страниц с индексацией по полному тексту.

В результатах поиска выводятся название найденной страни­цы, полный указатель URL, краткая аннотация и степень соответ­ствия запросу. Функция "More Like This" обеспечивает эффек­тивный способ запроса по образцу для поиска аналогичных стра­ниц. Функция "Sort by Site" позволяет группировать полученные результаты по предметным областям: все страницы области по­мещаются в один абзац с названием узла. Благодаря этому легче увидеть, сколько узлов уже просмотрено и сколько подходящих страниц было найдено.

Помимо этого пользователь может ограничить поиск (например, Web или Usenet). Для сложного поиска в Excite предусмотрены стандартные логические операции, в том числе с вложенными логическими условиями. Значимость каждого поискового эле­мента можно повысить, добавив знак вставки (^) и указав весовой коэффициент. Если в заданном пользователем сочетании из двух слов первое начинается с заглавной буквы, Excite считает, что ведется поиск собственного имени. В Excite нет специального интерфейса для формирования сложных запросов, однако он рас­полагает обширной справочной системой.

Excite содержит описания-аннотации более чем 60 тыс. узлов Web, размещенные в соответствии с иерархией заголовков пред­метных областей. Длина каждой аннотации составляет около че­тырех строк.

Услуга Excite Live! дает возможность получить доступ к жур­налу новостей Web, в который можно внести и свою информа­цию. Входящая в ее состав функция NewsTracker отбирает ин­формацию примерно из 400 журналов Web в соответствии с ука­занными пользователем исходными темами и поисковыми слова­ми. Чтобы облегчить поиск, NewsTracker даже предлагает свя­занные слова. На странице с полученными результатами имеет­ся экранная кнопка Liked It - необходимая функции NewsTracker для того, чтобы уточнить, какие статьи вызывают наибольший интерес. Также в арсенал ценных средств Excite входит набор карт и необходимые инструменты для поиска людей в сети.

Кроме ключевых слов в критерии поиска Excite могут быть включены дополнительные параметры и операторы, определяю­щие специфику поиска. К дополнительным параметрам и опера­торам относятся: "+", "-", "()", AND, OR, AND NOT.

Недостатком Excite является несколько хаотичный интерфейс.

HotBot

http://www. hotbot. com

HotBot - это база данных, содержащая около 54 млн. документов, индексированных по полному тексту, и один из наиболее полных поисковых механизмов в Web. Его простые в использовании средства поиска по логическим ус­ловиям и средства для ограничения поиска типом запоминаю­щей среды и Cyberplace (любой областью или узлом Web) по­могут пользователю найти необходимую информацию, отсеи­вая при этом ненужную. Вместо использования при составле­нии критериев логических выражений HotBot предоставляет возможность выбрать необходимые параметры из раскрываю­щихся списков.

Чтобы повысить приоритет одних слов и исключить другие, следует щелкнуть клавишей мыши на кнопке Modify. HotBot по­зволяет ограничить рамки поиска определенным типом носителя или файлами с определенным расширением, например GIF. Су­ществует также возможность ограничить поиск географическим регионом, территорией или просто одним узлом Web. Все поис­ковые средства HotBot представлены простыми в использовании меню или селективными кнопками. С помощью его интерфейса не составляет труда настроить свою поисковую страницу и уста­новить собственные значения, принимаемые по умолчанию.

Lycos

http://www.lycos.com

В состав Lycos входят огромная база данных с числом URL свыше 66 млн. и технология собственной разработ­ки, в которой основное внимание уделяется статистическому анализу содержимого страниц, а не индексированию по полно­му тексту. Итог такого объединения - поисковый механизм, обеспечивающий зачастую значительную простоту решения задачи поиска.

Как и многие из основных поисковых узлов, Lycos содержит разнообразную интересную информацию, в том числе новости, обзоры узлов, ссылки на популярные узлы, карты городов, а так­же средства для поиска адресов разных лиц и поиска в Web изо­бражений и звуковых клипов.

Простая по построению основная страница Lycos - окно для ввода запроса и окно со списком, предназначенным для поиска по всей Web, группы узлов, объединенных определенной тематикой, или узлов, содержащих изображения и звуковые клипы, - позво­ляет пользователю выполнить несложные поиски.

Lycos упорядочивает полученные ответы по степени соот­ветствия запросу по нескольким критериям, например, по чис­лу поисковых терминов, встретившихся в аннотации к доку­менту (приводится вместе с каждым ответом), интервалу меж­ду словами в конкретной фразе документа, местоположению терминов в документе.

Можно добиться улучшения результатов поиска, если вос­пользоваться имеющимися операторами. Точка, поставленная после термина, заблокирует его применение в качестве основы слова, поэтому Lycos предоставит ответы только при полном совпадении с этим термином. Знак "минус" выполняет роль ло­гического оператора NOT, а знак доллара - универсального символа. Нет возможности оформить запрос на "страницы, подобные данной", с помощью полученного ответа.

Существует возможность задать условия поиска более конкрет­но, обратившись к странице Custom Search. В Lycos не предусмот­рены средства для работы со всеми деталями синтаксиса логических операторов, операторами близости для выполнения поиска по точ­ному совпадению фраз и прочие поисковые функции, имеющиеся у других подобных узлов. Однако в интерфейсе настройки запроса есть возможность включить в запрос на поиск по нескольким тер­минам базовые операторы AND и OR, можно также заказать поиск совпадений с различной степенью точности - от низкой до высокой (но не абсолютной).

Lycos оснащен и другими средствами для поиска в Web. Наибо­лее интересное из них - каталог мультимедиа, предназначенный для поиска изображений и звуковых клипов в Web. При этом пользова­телю не просто передается ссылка на узел, хранящий интересующие изображения, звуковые файлы и видеоклипы: щелкнув мышью на полученном ответе, Lycos предоставит сам файл.

Представленные в каталоге Sites by Subject системы Lycos узлы подразделяются на 16 категорий, которые можно просматривать и через них получать быстрый доступ к узлам, отличающимся интен­сивным трафиком (предположительно наиболее популярным). В обзорах 5%-ного списка узлов (Тор 5% Sites), выбранных наугад при просмотре, приводятся оценки их содержимого, представления информации и оценки в целом. Другие службы, например PeopleFind и CityGuide, могут помочь пользователю разыскать чело­века или получить сведения о каком—либо городе.

Infoseek

htto: //www.infoseek.com

У Infoseek хорошо продуманный интерфейс, а так­же отличные базовые поисковые средства. Большинство ответов на запросы сопровождается ссылками Related Topics (связанные темы), а после каждого ответа приводятся ссылки Similar Pages (аналогич­ные страницы).

База данных поискового механизма Infoseek состоит из 1,5 млн. страниц, индексированных по полному тексту. Ответы упорядочи­ваются по двум показателям: насколько часто попадается на страни­це слово или фраза, а также в каком месте.

Специального экрана для подготовки сложного запроса в интер­фейсе не предусмотрено. Можно выбрать поиск в Web, Usenet или в одной из дополнительных баз данных Infoseek. В число подобных баз данных входят список рекомендованных Infoseek узлов, каталог

сведений о компаниях, справочник адресов электронной почты под названием Who Where?, часто задаваемые вопросы Web (FAQ) и подборка каналов новостей. Для формирования сложных запросов следует добавлять к ключевым словам символы, приведенные в табл. 2