Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
posobie.doc
Скачиваний:
15
Добавлен:
19.11.2019
Размер:
2.6 Mб
Скачать

1. Классификационные поисковые системы.

Это, по сути, электронные аналоги библиотечных каталогов. Обычно они представляют собой иерархические гипертекстовые меню с пунктами и подпунктами, определяющими тематику сайтов, адреса которых содержатся в данном каталоге, с постепенным, от уровня к уровню, уточнением темы.

Главное отличие классификационных ИПС в том, что представленные в них данные формируются (комплектуются и рассортировываются) людьми, осуществляющими поддержку данного поискового сервера. Как правило, каталоги ресурсов составляются на основе экспертных оценок. В ряде случаев владельцам web-страниц представляется возможность зарегистрировать свой адрес на поисковом сайте, т.е. сообщить о себе операторам поддержки каталога. В дальнейшем эта информация анализируется.

Основным преимуществом такого средства навигации является четкое соответствие содержимого сайтов объявленной для того или иного раздела тематики (в отдельных случаях – с дополнительной сортировкой адресов в пределах рубрики по результатам экспертной оценки или по рейтингам посещаемости).

Недостатком же классификационных ИПС является сравнительно небольшой охват существующих ресурсов сети, поскольку отследить весь объем имеющейся в Интернете информации практически нереально даже для значительного коллектива персонала поддержки сервера. Поэтому я могу порекомендовать вам обращаться к каталогам ресурсов в случаях, когда необходимо быстро отыскать «типичную» информацию по требуемой теме (без необходимости отслеживать какие-либо ее нюансы).

Примеры классификационных ИПС в Интернете: Yahoo! (http://www.yahoo.com), LookSmart (http://www.looksmart.com), Galaxy (http://galaxy.einet.net) (рис. 16); среди российских разработок в этой области внимания заслуживают, Иван Сусанин (http://www.susanin.net) (рис. 17), Weblist (http://Weblist.ru) (рис. 18), Улитка (http://ulitka.ru), Russia on the Net (http://www.ru) (рис. 19), Желтые страницы Internet (http://yp.piter.com/), Ау! (http://www.au.ru), List.Ru (http://list.ru) (рис. 20), Весь русский Internet (http://www.allrunet.ru/) (рис. 21) и др.

На классификационных ИПС кроме названия рубрик обычно имеется строка ПОИСК, позволяющая ввести ключевое слово. Тогда машина, обработав все иерархическое дерево, выдаст в ответ ссылки на соответствующие этому ключевому слову web-страницы.

Рис. 16

Рис. 17

Рис. 18

Рис. 19

Рис. 20

Рис. 21

2. Словарные (автоматические) поисковые системы.

В отличие от рассматриваемых выше, основой словарной (автоматической) ИПС является размещенная на поисковом сервере БД, содержащая в себе адреса сайтов, перечень соответствующих размещенным на них web-страницам ключевых слов, копий HTML-текстов этих страниц (в ряде ИПС), а также систему управления БД, действующую по технологии «клиент-сервер».

Посетителю такого поискового сервера предоставляется форма для ввода ключевого слова (слов) или фразы. После щелчка мышью на расположенной рядом с полем кнопке ПОИСК введенная пользователем ключевая фраза пересылается на сервер, обрабатывается, из имеющейся БД извлекаются адреса, соответствующие запросу, и список этих адресов (сгенерированный в виде HTML-документа, строки которого являются гипертекстовыми ссылками на сайты) пересылаются пользователю в качестве результата поиска.

Из всех типов ресурсов Сети подробно рассмотрим глобальные и российские словарные поисковые системы, правила составления запросов.

Всего известно более 200 поисковых серверов. Они различаются по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), языку, по объему индексной базы, скорости обновления информации, способности искать «нестандартную» информацию, дружественности интерфейса, методам сортировки найденных документов (ранжирование, чаще по релевантности и частоте обновления), точности поиска, лингвистике (слова синонимы).

Глобальные поисковые системы.

Поисковые системы глобального масштаба распространены в большем количестве, нежели электронные справочники и число их, составляющее ныне несколько десятков, продолжает неуклонно увеличиваться. Работа с ними требует некоторых, порой весьма серьезных, предварительных навыков. Простой ввод искомого термина в строку запроса может привести к получению списка из сотен тысяч документов, что практически равносильно нулевому результату.

Все глобальные поисковые машины осуществляют поиск материалов на русском языке, но не поддерживают русскую морфологию. Этот факт необходимо учитывать при поиске информации.

Google (www.google.com) (рис. 22)

Самая популярная среди пользователей и имеющая одну из самых больших баз проиндексированных документов поисковая система. Была разработана в 1998 выпускниками Стэндфордского университета Сергеем Брином (Sergey Brin) и Ларри Пейджем (Larry Page), которые применили для ранжирования документов технологию PageRank, где одним из ключевых моментов является определение "авторитетности" конкретного документа на основе информации о документах, ссылающихся на него. Говоря общими словами, чем больше документов ссылается на данный документ и чем они авторитетнее, тем более авторитетным данный документ становится. Количественное значение авторитетности документа (другими словами, взвешенное количество ссылок или PageRank) относится к так называемым статическим факторам (т.е. независящим от конкретного запроса) и учитывается при определении релевантности документа конкретному запросу как весовой коэффициент. Наряду с этим Google применил для определения релевантности документа не только текст самого документа, но и текст ссылок на него. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Довольно быстро Google стал лидировать в различных опросах по такому показателю, как удовлетворенность пользователей результатами поиска. Кроме поиска по HTML документам Google в настоящее время осуществляет поиск еще по 12 типам документов:

  • Adobe Portable Document Format (pdf)

  • Adobe PostScript (ps)

  • Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku)

  • Lotus WordPro (lwp)

  • MacWrite (mw)

  • Microsoft Excel (xls)

  • Microsoft PowerPoint (ppt)

  • Microsoft Word (doc)

  • Microsoft Works (wks, wps, wdb)

  • Microsoft Write (wri)

  • Rich Text Format (rtf)

  • Text (ans, txt)

Рис. 22

Google позволяет пользователям просматривать сохраненные копии документов, содержащихся в его поисковой базе.

Наряду с поиском по документам Google имеет сервисы поиска по изображениям (images.google.com), группам UseNet (groups.google.com), новостям (news.google.com - бета-версия), а также каталог сайтов (directory.google.com) на основе каталога Open Directory Project (dmoz.org). Google осуществляет поиск по документам на более чем 35 языках, в том числе русском (русская локализация поисковика находится по адресу www.google.ru). В настоящее время многие порталы и специализированные сайты предоставляют услуги поиска информации в Интернете на базе Google, что делает задачу успешного позиционирования сайтов в Google еще более важной. Крупнейшие из них - каталог Yahoo (www.yahoo.com) и портал AOL (www.aol.com).

Google проводит переиндексацию своей поисковой базы примерно раз в четыре недели. Во время этого апдейта, неофициально называемого Google dance, происходит обновление базы на основе информации, собранной роботами за время, прошедшее с предыдущего апдейта, и перерасчет значений PageRank документов. Также существует определенное количество документов с достаточно большим значением PageRank, информация о которых в поисковой базе обновляется ежедневно, однако значение PageRank пересчитывается только во время Google dance. Нормированное значение PageRank для конкретного документа, загруженного в броузер, можно узнать, скачав и установив Google ToolBar - специальную панель инструментов для работы с этим поисковиком. Несмотря на то, что в поисковике имеется форма для бесплатного добавления страницы в базу, Google предпочитает сам находить новые документы по ссылкам с уже известных и не будет индексировать добавленную через форму страницу, если в его базе не найдется ни одной страницы, ссылающейся на нее.

Alta Vista (http://www.altavista.com) (рис. 23)

Принадлежит к числу популярнейших поисковых средств Интернет. Ее мощнейший аппаратный потенциал позволяет проводить поиск по любому слову из текста Web- страницы или статьи в телеконференции.

Используемый в Alta Vista механизм составления запросов относится к самым обширным и мощным. Он позволяет составить поисковое предписание практически любой степени сложности. Как и многие другие машины, Alta Vista обладает двумя поисковыми интерфейсами: простого -Simple, Search Assistant, и углубленного - Advanced поиска. Язык простого запроса включает несколько основных элементов. Знак "+" ставится перед термином, который обязательно должен быть в документе; знак "-" - перед термином, который ни в коем случае не должен быть в документе; знак "*", позволяет усекать термин справа, что очень важно для поиска слов в разных падежах, склонениях и числах. Крайне полезны кавычки, в которые можно брать устойчивое словосочетание. Следует иметь в виду, что знаки выставляются непосредственно перед искомым термином или словосочетанием без пробела.

Рис. 23

Помимо этого поисковый механизм чувствителен к употреблению заглавных и строчных букв. При использовании заглавных букв будут искаться только термины, начинающиеся или состоящие из заглавных букв, при вводе строчных символов, система выявит все существующие слова. Имеется также возможность ограничивать поиск отдельными фрагментами Web-страницы: заглавием (title), электронным адресом (url), доменом (domain). Так, запрос [title:виртуальн*] выявит Web-страницы, в заглавии которых присутствует слово с указанным корнем, независимо от грамматических форм.

Составление запроса при углубленном поиске принципиально отличается от "простого" и выполняется с использованием булевых операторов: AND (И), OR (ИЛИ), NОТ (НЕ), NЕАР (ВБЛИЗИ) и скобок. Эта форма запроса также позволяет ограничить поиск по дате последнего обновления документов. В данном случае запрос по теме "собрания СD-RОМ в массовых библиотеках" предполагает следующий вариант поискового предписания: [(public near librar*) and (СD-RОМ near collection*)].

Помимо текста в Аltа Vista также реализована функция поиска иллюстративных материалов, видео- и аудиофайлов (фотографий, графических и живописных работ, музыкальных записей и видеоклипов). Для этого необходимо перейти в режим поиска мультимедийных источников, щелкнув мышью по опции Images, Audio & Video. В поисковой строке вводятся ключевые слова, а в нижнем меню "фишкой" отмечается желаемый тип источника. Так, например, для поиска иллюстрации Московского Кремля в поисковую строку достаточно ввести слово Kremlin.

Система ранжирования результатов поиска Аltа Vista является одной из самых лучших. В "простом" поиске эта функция выполняется автоматически, в "углубленном" пользователь в первую строку формы запроса должен ввести термины, которым придается наибольший вес.

Аlta Vista предоставляет пользователям большую степень комфорта. Допускается ввод поискового предписания в виде обычной английской фразы (например "What is the weather in Moscow?"). При выводе результатов предлагается воспользоваться системой компьютерного перевода полученного документа с основных европейских языков (к сожалению, русский пока не в их числе). При переводе содержания страницы сохраняется ее оригинальное форматирование.

Аlta Vista имеет несколько зеркальных сайтов в разных концах света. Одним из достоинств "зеркал", является возможность выбора основного интерфейса на родном языке региона. В том числе можно выбрать и русскоязычный интерфейс на североевропейском "зеркале" (http://www.altavista.telia.com). Там же, при желании, можно вести поиск материалов только на определенном языке, выбрав его из специального меню.

Northern Light

(http://www.northernlight.com или http://www.nlsearch.com) (рис. 24)

Появившись в числе лидеров сетевого поиска лишь в 1998 году, она быстро набрала популярность прежде всего за счет большого объема своей базы данных.

Рис. 24

Northern Light имеет интерфейсы для "простого" и углубленного (Рower) поиска, а также Business Search, Investext Search, Search News. Язык составления запросов практически полностью соответствует языку Аlta Vista. Разница лишь в возможности применять булевые операторы (в данном случае только AND, ОR и NОТ) наряду со знаками "+", "-" и кавычками в любой форме запроса. Форма углубленного поиска отличается тем, что позволяет легко ограничивать разыскание документа отдельными элементами Web-страницы (название или адрес), датами ее создания или последнего обновления, видом информации (например, журналы или персональные страницы), организационной или географической принадлежностью сервера (коммерческие, образовательные, правительственные и т. д.), языком публикации, а также определенной отраслью знания. Все это легко делается с помощью системы меню, в которой можно отметить желаемые ограничения.

Отличительной чертой Northern Light является его коллекция публикаций, включающая полные тексты статей из многочисленных электронных периодических изданий. В ней система осуществляет поиск по умолчанию, выдавая ссылки в общем перечне результатов (справа от ссылки в этом случае указывается не "www", а "special collection"). Однако для обращения к полным текстам статей необходимо предварительно оформить подписку на эту услугу.

Northern Light работает очень быстро, имеет эффективную подсистему ранжирования результатов. Каждая добытая ссылка содержит указание на процентное соответствие данного документа запросу. Система также автоматически формирует специальные папки, которые выводятся на первой странице списка результатов в правой части экрана. В папках найденные документы рассортированы в зависимости от типа материалов, организационной и географической принадлежности серверов и т. д.

HotBot (http://www.hotbot.com) (рис. 25)

К ряду самых мощных поисковых средств в Wold Wide Web относится HotBot. Он имеет принципиально иную идеологию составления поискового предписания, освобождающую пользователя от знания специальных правил составления запроса.

Углубленный поиск – Аdvanced Search, вызываемый нажатием одноименной клавиши на главной панели системы, дает поразительно широкие возможности для детализации поискового предписания. Это достигается за счет многоступенчатых меню, предлагающих пользователю последовательно уточнить свой запрос. Так, введя в главную поисковую строку термины, нужно выбрать команду, которая укажет системе искать ли документы, содержащие любое из введенных слов, обязательно все слова, точную фразу, персону, название страницы, ссылку на URL или же поисковое предписание, выполненное с использованием булевых операторов. Для большей детализации запроса возможно применение условий: SHOULD CONTAIN - "может содержать", MUST CONTAIN - "должен обязательно содержать", MUST NOT CONTAIN - "не должен содержать" по отношению к каким-либо дополнительным понятиям. Можно также ограничить и язык разыскиваемых документов. Их перечень пока включает девять наиболее распространенных европейских языков.

Рис. 25

Далее HotBot предоставляет возможность ограничить поиск по дате создания или последнего обновления документа, а также по географическому местоположению сервера. Примечательной возможностью является и поиск документов, содержащих в своей структуре определенные типы файлов, например иллюстрации, анимацию, аудио или видео. Для этого надо лишь сделать отметку в специальном пункте меню запроса.

Интеллектуальная система ранжирования результатов HotBot относится к числу самых лучших. Ссылка на документ содержит указание процента соответствия страницы запросу. HotBot умеет "сливать" в одну ссылку один и тот же документ, расположенный на различных зеркальных серверах. Функция "this site only" выделяет документы с одного сервера, что позволяет сразу выявить серверы более других насыщенные информацией на определенную тему.

Одним из недостатков HotBot является невозможность усечения окончаний ключевых терминов, однако недавно добавилась возможность расширять поиск за счет производных слов, в том числе и неправильных английских глаголов (например, на слово "think" будет найдено "thought" и т.д.).

Fast Search (http://www.alltheweb.com) (рис. 26)

Данная поисковая система относится к числу открытий 1999 года. К настоящему времени ее индекс уже превышает 250 миллионов документов и рост числа проиндексированных страниц продолжается в столь же высоком темпе. Таким образом, Fast Search в настоящее время является безусловным лидером по числу проиндексированных документов Сети. Система принадлежит норвежской компании. Этим определяется та особенность, что в перечне полученных результатов американские сайты не занимают ярко выраженного доминирующего положения. Поскольку поисковый робот изначально "стартовал" с европейских сайтов, приоритет имеют именно документы с серверов Старого Света.

Рис. 26

Поисковый механизм предельно упрощен. Через Advanced Search можно ограничить поиск: ALL OF THE WORDS (ВСЕ СЛОВА), ANY OF THE WORDS (ЛЮБОЕ И3 СЛОВ), ТНЕ ЕХАСТ РНRАSЕ (ТОЧНАЯ ФРАЗА). Выбор любого пункта указывает системе критерий поиска. В первом случае будут найдены документы, в которых содержатся все введенные слова, во втором - любой из искомых терминов, в третьем - введенная фраза. Поисковый механизм не допускает усечения терминов.

Использование в качестве аппаратного обеспечения последних разработок корпорации Dе11: Dе11 РоwеrЕdge 4300 и Dе11 РоwеrVаult обеспечивает очень высокую скорость работы системы - запрос в большинстве случаев выполняется за доли секунд. Индексный файл Fast Search пока в наименьшей степени засорен сведениями об устаревших документах.

Глобальные поисковые системы старшего поколения постепенно уступают лидирующие позиции более "молодым" конкурентам, использующим принципиально иные технологии. Так, известные несколько лет назад InfoSeek, Ехсite и Lycos уже давно не предлагали своим клиентам ничего принципиально нового. Их нынешний объем составляет соответственно 75, 55 и 50 миллионов документов, что заставляет все больше рассматривать их в качестве факультативного инструмента поиска.

Отличия в стратегии и широте охвата материала различных систем часто приводят к тому, что разные поисковые средства дают разноречивые ответы на один и тот же запрос. Этим не замедлили воспользоваться разработчики поисковых орудий особого рода, основанных исключительно на использовании потенциала других поисковых систем. К таковым, в частности, относятся Суbеr 411 (http://www.cyber411.com), МеtаСrаwler (http://www.metacrawler.com), и некоторые другие.

Их главное достоинство заключается в умении рассылать вводимые в них запросы по другим системам, а затем суммировать результаты. Таким образом, пользователь, вводя поисковое предписание, например в Суbеr 411, фактически одновременно обращается к десятку поисковых систем. Этим гарантируется "объективность" полученных результатов. Однако, учитывая уже упоминавшиеся различия в подходах к обработке терминов разными системами, результат может оказаться не всегда релевантным запросу.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]