- •1 Введение в Интернет. Организация обмена информацией в Интернет. Основные ресурсы (службы) Интернета
- •2 Информационные ресурсы интернет. Всемирная паутина www
- •3 Основные возможности браузеров. Сохранение информации.
- •Основные элементы выходных сведений
- •Регистрация электронных изданий
- •5 Поиск в Internet. Информационно-поисковые системы.
- •3.2 Информационно-поисковые системы
- •6 Принципы работы метапоисковых систем. Механизмы поиска в интернет. Язык запросов.
- •3.3 Механизмы поиска
- •7 Компьютерная графика. Передача цвета. Растровая графика.
- •8 Векторная графика. Форматы графических данных.
- •9 Трёхмерная графика. Фрактальная графика. Машинное проектирование. Графические редакторы.
- •1.5 Фрактальная графика
- •1.6 Машинное проектирование
- •1.7 . Графические редакторы
3.2 Информационно-поисковые системы
Основным компонентом ИПС является поисковая машина, которая служит для перевода запроса пользователя в формальный запрос системы, поиска ссылок на информационные ресурсы и выдачи результатов поиска пользователю.
Как уже говорилось ранее, поиск осуществляется в специальной базе, именуемой индексом. Архитектура индекса устроена таким образом, чтобы поиск проходил максимально быстро, и при этом можно было отследить ценность каждого из найденных ресурсов. Некоторые системы сохраняют запросы пользователя в его личной базе данных, поскольку на отладку каждого запроса уходит много времени, и чрезвычайно важно хранить запросы, на которые получен удовлетворительный ответ.
Робот-индексировшик – программа, которая служит для сканирования Интернет и поддержки базы данных индекса в актуальном состоянии.
Web-сайты – те информационные ресурсы, доступ к которым обеспечивает ИПС.
Как известно, Web-страница – это сложный документ, состоящий из множества элементов. При описании подобного документа программой-роботом необходимо учитывать, в какой именно части Web-страницы встретилось данное слово. Источниками индексирования для документов WWW являются:
Заголовки (Title).
Заглавия.
Аннотация (Description).
Списки ключевых слов (KeyWords).
Гипертекстовые ссылки.
Полные тексты документов.
Кстати, поисковые системы, которые описывают абсолютно весь текст документа WWW, называются полнотекстовыми.
Для того, чтобы описать файл в ресурсе FTP используется URL. Для описания статьи в группе новостей источниками индексирования являются поля Тема (Subject) и Keywords (ключевые слова).
Во время процедуры индексирования часто производится нормализация лексики (приведение слова к базовой форме), некоторые неинформативные слова, например, союзы или предлоги, игнорируются. В каждой ИПС существует свой список называемых стоп-слов, которые игнорируются в процессе индексирования. В системах с сильно изменяемыми языками, например, русским, проводится учет морфологии.
Учет морфологии означает умение работать с различными формами слов конкретного языка.
Здесь следует отметить достаточную сложность русского языка, слова которого изменяются по числам, падежам, родам и временам, причем зачастую неожиданным образом. Например: идет, шел, пойдет, идут и т.д. Все существующие ИПС с учетом морфологии русского языка используют "Грамматический словарь русского языка", составленным Андреем Анатольевичем Зализняком. Словарь включает 90000 словарных статей, по каждому слову даются сведения о том, изменяемо ли оно, и как именно оно склоняется или спрягается.
Из вышеизложенного следует, что основными инструментами поиска информации в WWW являются ИПС.
Однако в Интернет существуют средства поиска, имеющие принципиальные отличия от рассмотренных выше ИПС. В общем случае, можно выделить следующие поисковые инструменты для WWW:
поисковые системы,
метапоисковые системы и программы ускоренного поиска.
Центральное место по праву принадлежит поисковым системам, которые в свою очередь подразделяются на каталоги, автоматические индексы (поисковые машины) и каталоги-индексы. Только поисковые системы почти в полном объеме обладают возможностями и свойствами ИПС.
Каталог – поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми.
Рассмотрим особенности систем-каталогов.
Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины.
База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса.
Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.
Среди самых популярных зарубежных каталогов можно упомянуть: Yahoo (www.yahoo.com), Magellan (www.mckinley.com),
Российские каталоги: @Rus (www.atrus.ru); Weblist (www.weblist.ru); Созвездие интернет (www.stars.ru).
Поисковая система – система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах.
Отличительной чертой поисковых систем является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками.
Зарубежные поисковые машины (системы):
Google - www.google.com (примерно 38% охвата русскоязычных запросов)
Altavista- www.altavista.com
Excite www.excite.com
HotBot - www.hotbot.com
Nothern Light- www.northernlight.com
Go (Infoseek) www.go.com (infoseek.com)
Fast www.alltheweb.com
Российские поисковые машины:
Яndex - www.yandex.ru (или www.ya.ru) (48% охвата русскоязычных запросов)
Рэмблер - www.rambler.ru
Апорт- www.aport.ru
Метапоисковая система – система, не имеющая своего индекса, способная послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.