Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИТ в экономике.doc
Скачиваний:
3
Добавлен:
19.11.2019
Размер:
799.74 Кб
Скачать

1.4. Поиск информации в Internet

Междусетье (Internet) изначально создавалось как средство доступа к удаленной информации. Каналы связи и сетевые устройсва (коммутаторы, маршрутизаторы, модемы) составляют аппаратную основу связи. Операционные системы и функционирующие на их основе приложения реализуют логическую основу обмена информацией. Обмен реализуется средствами сервисов, таких, как электронная почта, WWW, телеконференции, видеоконференции, FTP. Протоколы, на основе которых эти сервисы функционируют, описывают правила структуризации, обмена, хранения информации. Однако они изначально не были предназначены для организации информационно - поисковых систем (ИПС), охватывающих большие массивы информации. По мере накопления информации на серверах, такая проблема возникла. В настоящее время существуют множество ИПС, ориентированных на поиск в информационных массивах, созданных на основе сервисов FTP, WWW, электронной почты, телеконференций. Каждая из таких систем имеет свои особенности. Существует группа специалистов, которые занимаются профессиональным поиском информации в Internet, используя возможности всех существующих сервисов. Мы рассмотрим ниже особенности организации ИПС, работающих на базе протокола HTTP (сервис WWW) и службы поиска людей и организаций.

1.4.1. Информационно - поисковые системы сервиса www

Всю информацию, хранящуюся на Web - серверах мы можем разделить по функциональному назначению на две крупные категории: информация коммерческого, развлекательного характера, новости (каталоги услуг и товаров предприятий разного направления, прогноз погоды, котировки ценных бумаг); аналитическая информация (журнальные публикации, аналитические обзоры и так далее). Доступ пользователей к этим двум типам информации организован по-разному [29,30,31].

Интерфейс пользователя 7 для поиска первого типа информации организован, как тематический каталог. На верхнем уровне иерархии расположены самые общие темы, такие как: "Бизнес и экономика", "Общество и политика", "Наука и образование" и так далее (рис. 9). Общие темы содержат подтемы. Рисунок 9 иллюстрирует часть тематического каталога поискового портала Яndex. При поиске информации вы можете определить регион поиска: Москва, С-Питербург, Россия и так далее. Система также показывает количество доступных ресурсов, то есть сайтов, содержащих информацию нужной тематики. В качестве примера, можно привести крупнейший Российский каталог "Желтые страницы", расположенный по адресу: http://yp.piter.com/. Этот каталог описывает лучшие ресурсы Российской части Internet. Другим крупнейшим Российским каталогом является промышленно-коммерческий справочник "Желтые страницы России" (http://www.yellowpagesrussia.ru/index.php?sid=_rbrctr&ssid=&letter=M ). Оба этих справочника издаются также в бумажном варианте. Выходит также периодическое издание - газета "Желтые страницы Internet".

Поиск аналитических материалов удобнее выполнять по сочетаниям слов, которые могут в них содержаться. Для этого интерфейс пользователя включает текстовую строку для набора этих ключевых слов. Результатом поиска является список ресурсов - сайтов, в которых эти слова встречаются с указанием адресов этих сайтов. Откуда система знает, где встречаются набранные нами слова? Рассмотрим подробнее используемые здесь технологии. Для того, чтобы система могла быстро формировать ответ на ваш запрос, одна из ее составных частей, поисковый робот (в зависимости от особенностей функционирования его еще называют пауком, агентом, кроулером) постоянно "путешествует" по сайтам и скачивает их копии в базу данных ИПС. При этом, просматриваются не только страницы сайтов, но и страницы гиперссылок, которые расположены на сайте. В системе выполняется автоматический анализ содержимого сайта: выделяются заголовки, выделяются наиболее часто встречающиеся термины, вычленяется текст, выделенный жирным шрифтом. То есть выполняется работа по определению тематической направленности сайта. Определяется также количество ссылок на сайт, статистика посещаемости, чтобы определить степень его популярности. Конечная задача - построить поисковый индекс, по которому затем можно было бы быстро найти нужный документ. Вид индекса и определяет тип поиска, который затем можно будет производить. Как же строится индекс? В зависимости от используемого в ИПС алгоритма, для всех слов документа сайта или только для выделенных каким-то образом слов, вычисляется частота использования. В результате, каждое слово приобретает "вес". Учитывается также размер шрифта, использование слова в заголовке или ссылке на другой документ. Такая информация о документе и будет составлять его индекс. Внутри ИПС также присутствует словарь слов, содержащий перечень документов, в которых эти слова встречаются.

Часто для слова указаны не все документы, а только те, в которых это слово встречается в заголовке, или встречается наиболее часто. В результате, когда вы пишите в запросе набор слов, ИПС обращается к такому словарю и находит документы, в которых встречаются указанные слова. Именно из этих документов и строится список. Таким образом, полный индекс поисковой системы включает словарь и перечень документов, соответствующих каждому слову словаря. Документы в списке располагаются по релевантности, то есть документы с большей вероятностью соответствия вашему запросу располагаются ближе к началу списка. Как же определяется вероятность соответствия запросу? Она определяется по "весу" запрошенных слов в документе. Если эти слова встречаются в заголовке документа, в ссылке, выделены жирным шрифтом, частота их появления максимальна для данного документа, документ их содержащий будет располагаться в начале списка. Документы в списке сопровождаются адресом их расположения в сети, и, при необходимости, вы скачиваете копию документа с того сервера сети, на котором он расположен.

Среди порталов, выполняющих поиск на русском языке наиболее популярны: Яndех, Rambler, Aport, Google. Их поисковые роботы посещают одни и те же сайты, чтобы отслеживать изменение их состояния с периодичностью от одного раза в месяц до одного раза в три дня .По функциональным возможностям поиска поисковые машины также различаются. Большинство из них может выполнять следующие функции: сортировка (например, может сортировать список найденных документов по дате), выполнение уточняющего поиска в списке найденных документов, выполнение в повторном запросе поиска ресурсов похожих на отмеченные пользователем в результатах первого поиска, организация запроса только в определенном разделе каталога и другие. Вы также можете настроить способ отображения результатов поиска (отображать ли размер документа, его адрес, показывать ли описание документа), настроить структуру поисковой страницы (определить место положения поисковой формы, использовать семейный фильтр, который позволяет отсекать "взрослые" страницы при работе детей с Internet - ресурсами).

7Интерфейс пользователя - Способ взаимодействия программных комплексов с пользователем, реализация сообщений о состоянии системы, запросов на выполнение тех или иных действий.