4.4. Функциональное устройство вербальных ипс

4.4.1. Архитектура вербальных поисковых систем

Основным инструментом поиска в Интернет следует считать вербальные поисковые системы. Как и у локальных ИПС, это тип систем посткоординатного типа, который "противостоит" предкоординируемым ИПС – классификационным (тематическим каталогам). В английской литературе за ними закрепился термин "search engine". По-русски мы предлагаем называть их "поисковые системы".

Веб-сайты – это все информационные ресурсы Интернет, точнее, те, просмотр которых обеспечивается программой-роботом.

Робот – система, обеспечивающая просмотр (сканирование) Интернет и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии. Этот программный комплекс является основным источником информации о состоянии информационных ресурсов сети.

Поисковая база данных – так называемый индекс – специальным образом организованная база (англ. index database), включающая прежде всего инвертированный файл, который состоит из лексических единиц проиндексированных веб-документов и содержит другую разнообразную информацию о лексемах (в частности, их позиция в документах), документах и сайтах в целом.

Клиент – это программа просмотра информационных ресурсов в веб-сервисе, по-другому, веб-клиент. (Наиболее популярны сегодня мультипротокольные программы Internet Explorer и Netscape Navigator). Эта же программа обеспечивает просмотр документов различных сервисов и общение с поисковой системой.

Пользователь – 1) поисковые предписания, которые вводятся через пользовательский поисковый интерфейс; в некоторых системах сохраняются в личной базе данных пользователя внутри поисковой системы;

2) результаты поиска

Пользовательские (поисковые) интерфейсы – экранные формы общения пользователя с поисковым аппаратом: системой формирования запросов и просмотров результатов поиска.

Поисковая система – подсистема поиска, обеспечивающая обработку поискового предписания пользователя, поиск в поисковой базе данных и выдачу результатов поиска пользователю.

4.4.2. Роботы-индексаторы

"Робот" (robot, а также spider – "паук", crawler – "пловец", worm – "червяк") – подсистема (программа или набор программ), которая систематически исследует Интернет, обходит веб-сайты, находит документы, прочитывает их и, следуя ссылкам, указанным в документе, находит другие страницы данного сайта или другие сайты. Структура веб-пространства аналогична структуре ориентированного графа, поэтому здесь применимы алгоритмы обхода графа.

Существуют три метода такого обхода:

а) случайный выбор первого URL-адреса программой-роботом для инициализации поиска. Программа индексирует начальный документ, выделяет URL – адреса, указывающие на другие документы, а затем рекурсивно анализирует эти URL для поиска "преимущественно в ширину" или "преимущественно в глубину";

б) поиск начинается с набора URL-адресов, определяемых на основе популярности веб-узлов, а затем продолжается рекурсивно. Интуитивно понятно, что титульная страница популярного узла содержит URL-адреса, соответствующие наиболее часто запрашиваемой информации на данном и других веб-узлах;

в) веб-пространство делится на определенные части, например, на основе системы имен Интернет или кодов стран, и для полного исследования этих разделов выделяется отдельная программа-робот или несколько. (Такой метод используется чаще, чем первые два.)

Обработка документов в принципе подобна процедуре инвертирования файла с элементами автоматического индексирования. Последнего может и не быть, но все равно эта процедура и называется индексированием, даже если она ограничивается составлением инвертированного файла, в котором каждому термину индексирования ставится в соответствие список документов, в которых он встречается. Такая процедура является только частным случаем, а точнее, техническим аспектом создания поискового аппарата ИПС. Проблема, связанная с индексированием, заключается в том, что приписывание поискового образа документу или информационному ресурсу опирается на представление о словаре (контролируемом или свободном), из которого эти термины выбираются. Контролируемый словарь предполагал ведение лексической базы данных, добавление терминов в которую производилось бы администратором системы, и все новые документы могли быть заиндексированы только теми дескрипторами, которые были в этой базе данных. Естественно, в Интернет эта технология невозможна. Свободный словарь или пополняется автоматически по мере появления новых терминов, или вообще является виртуальным, то есть, воображаемым, когда все термины инверсного файла (в идеале, все разные слова всех заиндексированных документов) считаются лексическими единицами ИПЯ (нередко инверсный файл так и называют словарем).

Разработка роботов – это довольно нетривиальная задача; существует опасность зацикливания робота. Остро стоит вопрос о быстродействии роботов.

Заказать и ускорить индексацию своего веб-сайта в поисковых системах роботами-индексаторами можно через ссылки типа Add URL или Submit your URL на сайте поисковой системы. Индексирование можно проводить и с помощью специальных бесплатных серверов-регистраторов. Существует проблема, как обеспечить повторное индексирование меняющихся ресурсов. В последнее время все большее распространение получает приоритетное индексирование за определенную плату.

Главная содержательная проблема при индексировании заключается в том, какие термины приписывать документам, откуда их брать. При этом следует учесть, что часть ресурсов вообще не является текстом, текстовые же ресурсы могут представлять собой целые книги. Роботы разных систем решают этот вопрос по-разному. Не следует думать, что все термины из документов попадают в их поисковые образы. Очень активно применяются списки запрещенных слов (stop-words), которые не попадают в индекс – это общие, служебные слова (предлоги, союзы и т.п.) и незначимые слова. Многие системы индексируют лишь часть документа (обычно начальную), есть роботы, которые обрабатывают только часть веб-страниц с одного и того же сайта. И тем не менее, объем поисковых индексов глобальных ИПС уже сегодня измеряется терабайтами.

Обычно при индексировании обязательно используются различные "значимые" элементы гипертекстовой разметки: ссылки, заголовки, заглавия, аннотации, списки ключевых слов, и т.п. Для индексирования ресурсов telnet, gopher, ftp, а также нетекстовой информации используются главным образом URL, названия файлов, для новостей Usenet и почтовых списков рассылки – поля Subject и Keywords.

Знание того, как работают роботы, каковы их технические характеристики, полезно и для создателей веб-документов, и для составителей запросов при проведении поисков. Сведения о большом количестве роботов (более 200) можно почерпнуть из базы данных The Web Robots Database.

1 / 41 2 3 4 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
26.05.2015288.26 Кб12Введение.docx
#
26.05.201539.83 Кб11Введение3.docx
#
26.05.2015574.68 Кб9Вебер Макс Основные социологические понятия.doc
#
26.05.20151.12 Mб191Веракса_Диагностика подготовительной группы.doc
#
26.05.201539.11 Кб33Вербальные и невербальные средства общения.docx
#
25.03.2016113.15 Кб12Вербальные ИПС.doc
#
07.11.2018289.28 Кб4Влияние кельтов на язык и культуру Великобритан....doc
#
26.05.2015862.21 Кб69Возрастная анатомия и физиология.doc
#
19.11.20193.28 Mб175Вологдин ИГиПЗС.doc
#
25.03.2016253.19 Кб19Вольчик В.docx
#
26.05.201563.82 Кб17Вопрос 13.docx