Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция 7.03 Поисковые информационные системы.doc
Скачиваний:
35
Добавлен:
16.08.2019
Размер:
176.13 Кб
Скачать

1.1 Поисковые каталоги

Если вам приходилось пользовать­ся услугами больших библиотек, то вы знаете, что такое библиотечный каталог. Существуют алфавитные каталоги и предметные каталоги. В алфавитных каталогах карточки с библиографическими данными книг разложены в алфавит­ном порядке фамилий авторов. В предметных каталогах карточки систематизированы по содержанию книг.

Каталог - поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми.

Систематизация в предметном каталоге производится по иерархическому принципу. На первом уровне иерархии весь книжный фонд делится на крупные разделы: художествен­ная литература, учебная литература, общественно-полити­ческая литература, научно-техническая литература и т. п. Каждый из этих разделов делится на подразделы; например, учебная литература делится на разделы высшего образова­ния, среднего образования, дошкольного образования. Кни­ги для среднего образования могут делиться по предметам, которые, в свою очередь, делятся по классам. Чтобы подо­брать литературу по нужной теме, читатель должен пони­мать принцип организации каталога.

Поисковые каталоги WWW организованы по аналогично­му иерархическому принципу. Только в них систематизиру­ется информация не о книгах, а о документах, хранящихся в World Wide Web. На главной странице поискового катало­га располагается список основных тематических разделов (рубрик).

Например: финансы и экономика, государство и право, наука и образование, компьютеры, политика и т. д.

Каждое имя в этом списке является внутренней гиперссыл­кой поискового каталога. Щелчок мышкой по гиперссылке вызывает на экран список заголовков следующего подразде­ла и т. д. Очевидно, такая система подобна дереву файловой системы ОС. Перемещаясь по дереву внутренних гиперссы­лок каталога, пользователь в конечном итоге получает спи­сок внешних ссылок на искомые Web-документы.

Поисковые каталоги заполняются вручную специалиста­ми, обслуживающими данную службу. При ручном способе отбора невозможно получить в каталоге исчерпывающую информацию о ресурсах

Сети, и в этом состоит основной не­достаток каталогов. Однако такой способ классификации исключает ссылки на случайные документы, не имеющие отношения к указанной теме. Таким образом, поисковые ка­талоги при относительно небольшом охвате ресурсов Сети обеспечивают хорошее качество подборки документов.

Примерами поисковых каталогов являются:

Зарубежные каталоги:

Уаhоо! - http://www.yahoo.com

Тhе Virtual Library - http://www.w3.org

Маgеllаn - http://www.mckinley.соm

WebCrawler - http://www.webcrawler.соm

Российские каталоги:

@Rus - http://www.atrus.ru

Ау! - http://www.au.ru

List-Ru - http://www.list.ru

Weblist - http://www.weblist.ru/ Улитка - http://emf.ulstu.ru/metod/ITEK/www.ulitka.ru

1.2 Поисковые указатели

Другое название этого вида поис­ковой службы — поисковые машины. Принцип работы по­исковых указателей заключается в создании и использова­нии индексных списков. Очень часто в учебной и научной литературе в конце книжки присутствуют индексные спис­ки — это перечень основных терминов с указанием страниц книги, на которых они встречаются. Такой список можно назвать поисковым указателем данной книги. Например, в учебнике по информатике вы ищете в таком списке слово «процессор», напротив которого указаны номера страниц. Затем на этих страницах читаете все, что написано про про­цессор.

Поисковая машина - поисковая система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах.

Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом.

Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками.

В отборе наиболее важных документов пользователю по­могает рейтинговый принцип, используемый некоторыми поисковыми указателями. На запрос пользователя по клю­чевому слову система выдает список ссылок на документы, расположенных по убыванию рейтинга. Рейтинг определя­ется по числу обращений к документу, которые были сдела­ны ранее. Самые популярные документы попадают в начало списка.

Основной составляющей поисковых машин являются программы просмотра Web-документов, которые называют по-разному: роботами, червяками, пауками и пр. Наверное, наиболее подходящим названием является «пауки», если уж сеть WWW называть паутиной! Непрерывно, днем и но­чью, они сканируют все информационное пространство WWW, просматривая все документы, определяя в них клю­чевые слова и записывая в свою базу индексов данное слово с указателем на документ, в котором оно присутствует. Этот процесс не прерывается, поскольку содержание паутины все время меняется. Даже в уже просмотренные документы ав­торы могут внести изменения или вообще удалить их. По­исковая машина все время должна поддерживать информа­цию в актуальном состоянии.

В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов).

Задачи поисковых машин состоят в формировании ин­дексных списков, охватывая ими как можно большее число документов паутины, а также в ответах на запросы клиен­тов. Ясно, что таким способом проиндексировать вручную все документы WWW невозможно. По некоторым оценкам их число перевалило за миллиард. Поэтому поисковые ма­шины строят индексные списки автоматически.

Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определение похожести - весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

Эффективность работы поисковой машины зависит от ис­пользуемых алгоритмов формирования базы указателей. Эти алгоритмы представляют «now how» (ноу-хау), то есть объекты интеллектуальной собственности авторов, и обычно держатся в секрете. Число указателей к некоторым ключе­вым словам составляет многие тысячи. Чем лучше алго­ритм, тем меньше в индексный список попадает «мусора» — случайных документов, не имеющих отношения к теме по­иска.

Число поисковых указателей превышает число катало­гов.

Адреса наиболее популярных поисковых машин за рубежом и в России.

Зарубежные поисковые машины:

Google - http://www.google.com/ Altavista - http://www.altavista.com/ Excite - http://www.excite.com/ HotBot - http://www.hotbot.com/ Nothern Light - http://www.northernlight.com/ Go (Infoseek) - http://www.go.com/ (infoseek.com) Fast - http://www.alltheweb.com/

Inktomi — www.inktomi.com

Lycos — www.lycos.com

Fast Search — www.alltheweb.com

Northern Light — www.northernlight.com

Российские поисковые машины:

Яndex - http://www.yandex.ru/ (или http://www.ya.ru/) Рэмблер - http://www.rambler.ru/ Апорт - http://www.aport.ru/