Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
LEKCIJA_8.doc
Скачиваний:
11
Добавлен:
17.12.2018
Размер:
138.24 Кб
Скачать

1.4. Поисковые системы и электронные библиотеки

До сих пор различают “поисковые системы” и “электронные библиотеки”, хотя эти два понятия значительно пересекаются. Зарождение основных концепций поисковых систем как хранилищ данных можно отнести к 1945 г., когда д-р В. Буш опубликовал свою знаменитую статью “As we may think”, в то время как библиотеки существуют со времен появления письменности и всегда являлись репозиториями интеллектуального богатства общества. С появлением компьютеров библиотеки стали использовать электронные средства и соответственно называться электронными библиотеками (electronic libraries). Однако наибольшее развитие они получили после 1993 г., когда правительство США объявило о важности переноса как можно большего количества “бумажной” информации в цифровой формат и соответствующем спонсировании. С тех пор электронные библиотеки все чаще стали называть цифровыми (digital libraries). В 1995 г. под эгидой ACM была проведена первая Международная конференция ACM Digital Libraries.

Этот процесс миграции “бумажной” информации в цифровой формат обусловил ряд задач, на решении которых и были сфокусированы именно электронные библиотеки, а не поисковые системы. Это, прежде всего, стандартизация содержания базы, поддержка ее целостности, вопросы авторского права и интеллектуальной собственности и т.д. Поисковые системы либо не решают эти задачи вообще, либо - в гораздо меньшей степени, в основном, концентрируясь только на алгоритмах хранения и поиска слабоструктурированной информации.

2. Особенности поиска в Web

Появление и экспоненциальный рост Web, безусловно, сильно стимулировало развитие науки информационного поиска. Сегодня, более 75% пользователей Интернет используют поисковые системы для доступа к информации в Web. Однако cпецифика Web обусловила не только необходимость модификации классических методов поиска, но и появление новых задач.

В этом разделе перечислим те факторы, которые усложняют поиск в Web, также как и те, которые могут быть использованы для повышения его эффективности. Особенности Web можно разделить на особенности Web как набора данных и особенности поведения пользователей поисковых систем в Web.

2.1. Особенности Web как набора данных

Методы поиска, используемые в классических ПС, разрабатывались и тестировались на относительно небольших и однородных коллекциях, таких, как библиотечные каталоги или коллекции газетных статей. Web как набор данных имеет ряд важных особенностей.

Размер. За последние годы было предпринято множество попыток оценить размер Web, и, хотя оценки не полностью совпадают, все они согласуются в том, что в Web содержится более миллиарда страниц. Учитывая, что размер среднестатистической страницы составляет 5-10 Кб, то нетрудно подсчитать, что речь идет о терабайтах.

Отметим, что эти оценки касаются только той “поверхностной” части Web, которая не скрыта за поисковыми формами, и доступ к которой не требует предварительной регистрации или авторизации. Другую, “скрытую” часть Web, поисковые системы обычно не рассматривают, а ведь к ней относится множество реально опубликованных крупных баз данных. Поэтому неудивительно, что оценка объема “скрытого” Web в 500 раз больше, чем объем “поверхностного” Web.

Динамика развития. Информация в Интернет меняется очень динамично: информационные ресурсы появляются, пропадают, меняют свое местоположение или содержание очень часто. Так, ежемесячно изменяется около 40% информации, среднее время жизни половины страниц в Web не превышает 10 дней, а объем всей информации в сети увеличился в два раза за последние два года. Отметим, что при этом изменяется и используемая лексика. В классических поисковых системах временные характеристики информации практически не учитывались.

Неструктурированность и избыточность. Принято считать, что Web - это распределенный гипертекст. Однако это не совсем так. Гипертекст обычно подразумевает наличие концептуальной модели, которая накладывает ограничения согласованности на данные и гиперсвязи. В Web это обычно не так даже для тех его частей, которые находятся под единым административным контролем.

Около 30% информации в Web являются точными или приблизительными копиями других документов.

Неконтролируемое качество. Отсутствие редакторского контроля над публикуемой информацией в Web обуславливает проблемы с качеством - информация может быть некорректной (например, уже устаревшей), ложной, плохо сформулированной, содержать массу ошибок (опечаток, грамматических ошибок, ошибок оцифровки и т.п.). По некоторым оценкам, одна опечатка встречается в среднем в каждых двухстах часто употребительных словах или в трех иностранных фамилиях.

У Web есть также и ряд специфичных особенностей, которые могут быть использованы для повышения эффективности поиска.

Наличие экспертных оценок. В Web содержится огромное количество экспертных оценок, как явных, так и неявных, которые могут быть использованы для обучения и настройки методов поиска.

Важным источником экспертных оценок в Web являются гипертекстовые ссылки. Поскольку большинство ссылок создается вручную, то гипертекстовая ссылка часто отражает мнение создателя о цитируемом ресурсе.

Особенности структуры. Информацию о структуре графа Web можно использовать при решении многих связанных с Web задач: при теоретическом анализе поведения алгоритмов, использующих информацию о ссылках; для оптимизации вычислительной эффективности методов работы с графом - например, сжатие Web-графа; при исследовании развития Web с социологической точки зрения и т.д.

Тематическая локальность. Эмпирически доказано интуитивное предположение о том, что ссылки со страниц в Web в основном ведут на страницы близкой тематики.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]