Лабораторная работа № 4
Цель работы: изучение специальных программ поисковых машин для проведения результативного поиска необходимой информации.
Поиск в Internet
Задача поиска необходимой информации была бы практически невыполнимой, если бы не специальные поисковые службы, позволяющие выполнять поиск по заданным пользователем запросам.
На серверах таких служб есть специальные программы (их называют роботами или пауками), которые собирают информацию в Web и возвращают на свой сервер все обнаруженные страницы. Другими словами, поисковая служба представляет собой автоматизированную систему сбора, хранения и индексирования (сортировки) информации о различных web-ресурсах сети Internet. Из накопленной таким образом информации формируются специальные базы данных, используемые для реализации этих процессов.
Пользователь может найти интересующую информацию путем создания поискового запроса, состоящего из перечня слов, которые должны присутствовать на Web-странице, а также логических операторов, придающих запросу большую гибкость. Слова, приведенные в запросе, будут разыскиваться в базах поисковой системы. Результатом выполнения запроса является перечень Web-страниц, на которых присутствуют заданные текстовые фрагменты.
Далее приведены описания наиболее популярных поисковых служб.
AltaVista Search
http://www.altavista.com
Узел AltaVista Search был организован в декабре 1995 г. Он обладает огромной базой данных с индексацией по полному тексту и мощными поисковыми средствами.
AltaVista - это наилучший вариант для настраиваемого поиска, для которого используются его совершенные поисковые средства. Результаты, получаемые при простом поиске по ключевым словам, не столь впечатляющи. Заказав простой поиск, заданный в AltaVista по умолчанию, пользователь получит тысячи документов. Поскольку при этом сортировка результатов по категориям не выполняется, приходится вручную просматривать предоставленную информацию. В AltaVista не предусмотрены средства для распределения по категориям, получения списков активных (hot) узлов, новостей или других возможностей поиска по содержанию, которыми оснащены многие узлы-конкуренты.
Для того чтобы получить возможность пользоваться мощными инструментами AltaVista, пользователю следует освоить методику составления сложных запросов. На странице сложного поиска Advanced Search узла AltaVista предоставлен полный набор поисковых средств, однако все эти операторы имеются и на странице простого поиска. Пользователь может задавать логические операторы (AND, OR и NOT), указывать максимальный интервал между ключевыми словами (см.табл.1), выполнять поиск с учетом заглавных и строчных букв, а также ограничивать поиск по дате. Можно добавлять символы как в конце ключевого слова (чтобы учесть окончания множественного числа или суффиксы), так и в середине слова (чтобы учесть возможные альтернативные написания). Пользователь может ограничить сферу поиска определенными элементами
Одна из наиболее ценных функций страницы сложного поиска Advanced носит название "критерия ранжирования результатов". С помощью этой функции пользователь имеет возможность назначить весовые коэффициенты ключевым словам, чтобы самые важные для него документы оказывались в списке ответов первыми.
Узел AltaVista предоставляет пользователю мощные и удобные средства поиска конкретной информации, но для простого поиска по ключевым словам этот узел, не слишком хорош, поскольку можно запутаться в полученных результатах поиска.
Таблица 1.
Перечень параметров и операторов поиска
Параметр/оператор |
Описание |
Параметры элементарного поиска |
|
+ |
Если перед словом стоит знак "+", оно должно обязательно присутствовать на странице |
- |
Если перед словом стоит знак "-", оно должно обязательно отсутствовать на странице |
; |
Будет выполнен поиск фразы, состоящей из слов, разделенных знаком ";" |
"" |
Указанный в кавычках фрагмент обязательно должен присутствовать на странице в том виде, в котором он задан в кавычках |
* |
Звездочка может располагаться в произвольной части слова и заменяет собой цепочку любых символов (*oad - искать по словам, заканчивающимся на "oad") |
Операторы усовершенствованного поиска |
|
AND (&) |
Оба фрагмента должны находиться на странице |
OR |
Хотя бы один фрагмент должен находиться на странице |
NOT (!) |
Указанный фрагмент не должен находиться на странице |
NEAR (~) |
Заданные фрагменты должны находиться на одной странице на расстоянии не более десяти слов |
() |
Служит для объединения слов в выражения |
Excite
http://www.excite.com
Данный узел имеет мощный поисковый механизм, возможность автоматической индивидуальной настройки предоставляемой информации, а также составленные квалифицированным редакционным персоналом описания множества узлов. Excite выгодно отличается от других поисковых узлов тем, что позволяет вести поиск в службах новостей и публикует обзоры Web-страниц.
В поисковом механизме Excite используются как средства стандартного поиска по ключевым словам, так и эвристические методы поиска по содержанию. Благодаря такому сочетанию, можно найти вполне подходящие по смыслу страницы Web, даже если они не содержат именно указанных пользователем ключевых слов. База данных этого узла состоит из более чем 50 млн. страниц с индексацией по полному тексту.
В результатах поиска выводятся название найденной страницы, полный указатель URL, краткая аннотация и степень соответствия запросу. Функция "More Like This" обеспечивает эффективный способ запроса по образцу для поиска аналогичных страниц. Функция "Sort by Site" позволяет группировать полученные результаты по предметным областям: все страницы области помещаются в один абзац с названием узла. Благодаря этому легче увидеть, сколько узлов уже просмотрено и сколько подходящих страниц было найдено.
Помимо этого пользователь может ограничить поиск (например, Web или Usenet). Для сложного поиска в Excite предусмотрены стандартные логические операции, в том числе с вложенными логическими условиями. Значимость каждого поискового элемента можно повысить, добавив знак вставки (^) и указав весовой коэффициент. Если в заданном пользователем сочетании из двух слов первое начинается с заглавной буквы, Excite считает, что ведется поиск собственного имени. В Excite нет специального интерфейса для формирования сложных запросов, однако он располагает обширной справочной системой.
Excite содержит описания-аннотации более чем 60 тыс. узлов Web, размещенные в соответствии с иерархией заголовков предметных областей. Длина каждой аннотации составляет около четырех строк.
Услуга Excite Live! дает возможность получить доступ к журналу новостей Web, в который можно внести и свою информацию. Входящая в ее состав функция NewsTracker отбирает информацию примерно из 400 журналов Web в соответствии с указанными пользователем исходными темами и поисковыми словами. Чтобы облегчить поиск, NewsTracker даже предлагает связанные слова. На странице с полученными результатами имеется экранная кнопка Liked It - необходимая функции NewsTracker для того, чтобы уточнить, какие статьи вызывают наибольший интерес. Также в арсенал ценных средств Excite входит набор карт и необходимые инструменты для поиска людей в сети.
Кроме ключевых слов в критерии поиска Excite могут быть включены дополнительные параметры и операторы, определяющие специфику поиска. К дополнительным параметрам и операторам относятся: "+", "-", "()", AND, OR, AND NOT.
Недостатком Excite является несколько хаотичный интерфейс.
HotBot
http://www. hotbot. com
HotBot - это база данных, содержащая около 54 млн. документов, индексированных по полному тексту, и один из наиболее полных поисковых механизмов в Web. Его простые в использовании средства поиска по логическим условиям и средства для ограничения поиска типом запоминающей среды и Cyberplace (любой областью или узлом Web) помогут пользователю найти необходимую информацию, отсеивая при этом ненужную. Вместо использования при составлении критериев логических выражений HotBot предоставляет возможность выбрать необходимые параметры из раскрывающихся списков.
Чтобы повысить приоритет одних слов и исключить другие, следует щелкнуть клавишей мыши на кнопке Modify. HotBot позволяет ограничить рамки поиска определенным типом носителя или файлами с определенным расширением, например GIF. Существует также возможность ограничить поиск географическим регионом, территорией или просто одним узлом Web. Все поисковые средства HotBot представлены простыми в использовании меню или селективными кнопками. С помощью его интерфейса не составляет труда настроить свою поисковую страницу и установить собственные значения, принимаемые по умолчанию.
Lycos
http://www.lycos.com
В состав Lycos входят огромная база данных с числом URL свыше 66 млн. и технология собственной разработки, в которой основное внимание уделяется статистическому анализу содержимого страниц, а не индексированию по полному тексту. Итог такого объединения - поисковый механизм, обеспечивающий зачастую значительную простоту решения задачи поиска.
Как и многие из основных поисковых узлов, Lycos содержит разнообразную интересную информацию, в том числе новости, обзоры узлов, ссылки на популярные узлы, карты городов, а также средства для поиска адресов разных лиц и поиска в Web изображений и звуковых клипов.
Простая по построению основная страница Lycos - окно для ввода запроса и окно со списком, предназначенным для поиска по всей Web, группы узлов, объединенных определенной тематикой, или узлов, содержащих изображения и звуковые клипы, - позволяет пользователю выполнить несложные поиски.
Lycos упорядочивает полученные ответы по степени соответствия запросу по нескольким критериям, например, по числу поисковых терминов, встретившихся в аннотации к документу (приводится вместе с каждым ответом), интервалу между словами в конкретной фразе документа, местоположению терминов в документе.
Можно добиться улучшения результатов поиска, если воспользоваться имеющимися операторами. Точка, поставленная после термина, заблокирует его применение в качестве основы слова, поэтому Lycos предоставит ответы только при полном совпадении с этим термином. Знак "минус" выполняет роль логического оператора NOT, а знак доллара - универсального символа. Нет возможности оформить запрос на "страницы, подобные данной", с помощью полученного ответа.
Существует возможность задать условия поиска более конкретно, обратившись к странице Custom Search. В Lycos не предусмотрены средства для работы со всеми деталями синтаксиса логических операторов, операторами близости для выполнения поиска по точному совпадению фраз и прочие поисковые функции, имеющиеся у других подобных узлов. Однако в интерфейсе настройки запроса есть возможность включить в запрос на поиск по нескольким терминам базовые операторы AND и OR, можно также заказать поиск совпадений с различной степенью точности - от низкой до высокой (но не абсолютной).
Lycos оснащен и другими средствами для поиска в Web. Наиболее интересное из них - каталог мультимедиа, предназначенный для поиска изображений и звуковых клипов в Web. При этом пользователю не просто передается ссылка на узел, хранящий интересующие изображения, звуковые файлы и видеоклипы: щелкнув мышью на полученном ответе, Lycos предоставит сам файл.
Представленные в каталоге Sites by Subject системы Lycos узлы подразделяются на 16 категорий, которые можно просматривать и через них получать быстрый доступ к узлам, отличающимся интенсивным трафиком (предположительно наиболее популярным). В обзорах 5%-ного списка узлов (Тор 5% Sites), выбранных наугад при просмотре, приводятся оценки их содержимого, представления информации и оценки в целом. Другие службы, например PeopleFind и CityGuide, могут помочь пользователю разыскать человека или получить сведения о каком—либо городе.
Infoseek
htto: //www.infoseek.com
У Infoseek хорошо продуманный интерфейс, а также отличные базовые поисковые средства. Большинство ответов на запросы сопровождается ссылками Related Topics (связанные темы), а после каждого ответа приводятся ссылки Similar Pages (аналогичные страницы).
База данных поискового механизма Infoseek состоит из 1,5 млн. страниц, индексированных по полному тексту. Ответы упорядочиваются по двум показателям: насколько часто попадается на странице слово или фраза, а также в каком месте.
Специального экрана для подготовки сложного запроса в интерфейсе не предусмотрено. Можно выбрать поиск в Web, Usenet или в одной из дополнительных баз данных Infoseek. В число подобных баз данных входят список рекомендованных Infoseek узлов, каталог
сведений о компаниях, справочник адресов электронной почты под названием Who Where?, часто задаваемые вопросы Web (FAQ) и подборка каналов новостей. Для формирования сложных запросов следует добавлять к ключевым словам символы, приведенные в табл. 2