Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вербальные ИПС.doc
Скачиваний:
12
Добавлен:
25.03.2016
Размер:
113.15 Кб
Скачать

4.4. Функциональное устройство вербальных ипс

4.4.1. Архитектура вербальных поисковых систем

Основным инструментом поиска в Интернет следует считать вербальные поисковые системы. Как и у локальных ИПС, это тип систем посткоординатного типа, который "противостоит" предкоординируемым ИПС – классификационным (тематическим каталогам). В английской литературе за ними закрепился термин "search engine". По-русски мы предлагаем называть их "поисковые системы".

Веб-сайты – это все информационные ресурсы Интернет, точнее, те, просмотр которых обеспечивается программой-роботом.

Робот – система, обеспечивающая просмотр (сканирование) Интернет и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии. Этот программный комплекс является основным источником информации о состоянии инфор­мационных ресурсов сети.

Поисковая база данных – так называемый индекс – специальным образом организованная база (англ. index database), включающая прежде всего инвертированный файл, который состоит из лексических единиц проиндексированных веб-документов и содержит другую разнообразную информацию о лексемах (в частности, их позиция в документах), документах и сайтах в целом.

Клиент – это программа просмотра информационных ресурсов в веб-сервисе, по-другому, веб-клиент. (Наиболее популярны сегодня мультипротокольные программы Internet Explorer и Netscape Navigator). Эта же программа обеспе­чивает просмотр документов различных сервисов и общение с поисковой системой.

Пользователь – 1) поисковые предписания, которые вводятся через пользовательский поисковый интерфейс; в некоторых системах сохра­няются в личной базе данных пользователя внутри поисковой системы;

2) результаты поиска

Пользовательские (поисковые) интерфейсы – экранные формы общения пользователя с поисковым аппаратом: системой формирования за­просов и просмотров результатов поиска.

Поисковая система – подсистема поиска, обеспечивающая обработку поискового предписания пользователя, поиск в поисковой базе данных и выдачу результатов поиска пользователю.

4.4.2. Роботы-индексаторы

"Робот" (robot, а также spider – "паук", crawler – "пловец", worm – "червяк") – подсистема (программа или набор программ), которая систематически исследует Интернет, обходит веб-сайты, находит документы, прочитывает их и, следуя ссылкам, указанным в документе, находит другие страницы данного сайта или другие сайты. Структура веб-пространства аналогична структуре ориентированного графа, поэтому здесь применимы алгоритмы обхода графа.

Существуют три метода такого обхода:

а) случайный выбор первого URL-адреса программой-роботом для инициализации поиска. Программа индексирует начальный документ, выделяет URL – адреса, указывающие на другие документы, а затем рекурсивно анализирует эти URL для поиска "преимущественно в ширину" или "преимущественно в глубину";

б) поиск начинается с набора URL-адресов, определяемых на основе популярности веб-узлов, а затем продолжается рекурсивно. Интуитивно понятно, что титульная страница популярного узла содержит URL-адреса, соответствующие наиболее часто запрашиваемой информации на данном и других веб-узлах;

в) веб-пространство делится на определенные части, например, на основе системы имен Интернет или кодов стран, и для полного исследования этих разделов выделяется отдельная программа-робот или несколько. (Такой метод используется чаще, чем первые два.)

Обработка документов в принципе подобна процедуре инвертирования файла с элементами автоматического индексирования. Последнего может и не быть, но все равно эта процедура и называется индексированием, даже если она ограничивается со­ставлением инвертированного файла, в котором каждому термину индексирования ставится в соответствие список документов, в которых он встречается. Такая процедура является только частным случаем, а точнее, тех­ническим аспектом создания поискового аппа­рата ИПС. Проблема, связанная с индексиро­ванием, заключается в том, что приписывание поискового образа документу или информаци­онному ресурсу опирается на представление о словаре (контролируемом или свободном), из которого эти термины выбирают­ся. Контролируемый словарь предполагал веде­ние лексической базы данных, до­бавление терминов в которую производилось бы администратором системы, и все новые доку­менты могли быть заиндексированы только те­ми дескрипторами, которые были в этой базе дан­ных. Естественно, в Интернет эта технология невозможна. Свободный словарь или пополняется автома­тически по мере появления новых терминов, или вообще является виртуальным, то есть, воображаемым, когда все термины инверсного файла (в идеале, все разные слова всех заиндексированных документов) считаются лексическими единицами ИПЯ (нередко инверсный файл так и называют словарем).

Разработка роботов – это довольно нетривиальная задача; существует опасность зацикливания робота. Остро стоит вопрос о быстродействии роботов.

Заказать и ускорить индексацию своего веб-сайта в поисковых системах роботами-индексаторами можно через ссылки типа Add URL или Submit your URL на сайте поисковой системы. Индексирование можно проводить и с помощью специальных бесплатных серверов-регистраторов. Существует проблема, как обеспечить повторное индексирование меняющихся ресурсов. В последнее время все большее распространение получает приоритетное индексирование за определенную плату.

Главная содержательная проблема при индексировании заключается в том, какие термины приписывать документам, откуда их брать. При этом следует учесть, что часть ресурсов вообще не является текстом, текстовые же ресурсы могут представлять собой целые книги. Роботы разных систем решают этот вопрос по-разному. Не следует думать, что все термины из документов попадают в их поисковые образы. Очень активно применя­ются списки запрещенных слов (stop-words), ко­торые не попадают в индекс – это общие, служебные слова (предлоги, союзы и т.п.) и незначимые слова. Многие системы индексируют лишь часть документа (обычно начальную), есть роботы, которые обрабатывают только часть веб-страниц с одного и того же сайта. И тем не менее, объем поисковых индексов глобальных ИПС уже сегодня измеряется терабайтами.

Обычно при индексировании обязательно используются различные "значимые" элементы гипертекстовой разметки: ссылки, заголовки, заглавия, аннотации, списки ключевых слов, и т.п. Для индексирования ресурсов telnet, gopher, ftp, а также нетекстовой информации используются главным образом URL, названия файлов, для новостей Usenet и почтовых списков рассылки – поля Subject и Keywords.

Знание того, как работают роботы, каковы их технические характеристики, полезно и для создателей веб-документов, и для составителей запросов при проведении поисков. Сведения о большом количестве роботов (более 200) можно почерпнуть из базы данных The Web Robots Database.