Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вопрос 64.doc
Скачиваний:
60
Добавлен:
12.03.2015
Размер:
562.69 Кб
Скачать

1. Ипс и ипя: основные понятия

Пик теоретических исследований в области теории информационного поиска, выразившийся в появлении в печати целой серии публикаций на эту тему, пришелся на последнюю треть XIX века. Одна из первых публикаций, которую можно отнести к классике этого жанра и которая не потеряла актуальности до настоящего времени – это монография «Основы информатики»4, опубликованная еще в 1968 году. Конкретные ИПС и используемые в них ИПЯ, практически реализованные в последующие годы, в существенной степени базировались на теоретический задел, сформированный в конце прошлого века. Мы ограничимся лишь самыми общими сведениями об ИПС и ИПЯ.

Процесс поиска данных осуществляется с помощью информационно-поисковой системы ИПС. Под ИПС будем понимать автоматизированную поисковую систему, реализованную на средствах электронной вычислительной техники и предназначенную для поиска, а также выдачи пользователю необходимой информации по заданным параметрам.

Образно можно рассматривать ИПС как «черный ящик» с двумя входами и одним выходом: на первый вход поступает информация, хранящаяся в базе данных, на второй – запросы на выдачу информации из БД, на выходе же мы получаем результат поиска, т.е. данные, выбранные ИПС в ответ на запрос (на представленном рисунке проиллюстрирована работа ИПС в виде схемы).

В зависимости от вида получения выходных данных ИПС делятся на документальные, где результат поиска выдается в виде документа или ссылки на документ), фактографические (результат поиска – конкретные сведения, например, имя художника, или даты его жизни или др.) и докуметально-фактографические, когда два эти вида интегрированы; в последние годы именно этот класс систем приобрел популярность.

В основе работы ИПС лежит информационно-поисковый язык ИПЯ; это специализированный искусственный язык, предназначенный для:

  • формализованного описания тех объектов, сведения о которых представляют интерес для пользователя (музейные предметы, авторы, коллекционеры, выставки и др.).

  • формализованного выражения содержания информационных запросов при обращении к информационно-поисковой системе ИПС.

На самом деле речь идет не об одном, а о двух языках: ИПЯ для описания объектов, сведения о которых должны быть введены в БД, и ИПЯ для составления запросов к БД.

В первом случае текст (описание объекта), записанный на естественном языке, переводится с помощью соответствующих правил в текст на ИПЯ, в результате мы получаем поисковый образ объекта (ПОО); во втором случае текст запроса также переводится в текст на ИПЯ, в результате чего мы получаем поисковое предписание (ПП). Процесс перевода с естественного языка на ИПЯ называется индексированием.

Процедура поиска заключается в сопоставлении составленного пользователем ПП множеству ПОО, хранящихся в БД, и выделении тех из них (т.е. описаний тех объектов), которые удовлетворяют запросу в соответствии с принятыми критериями. Качество поиска зависит от свойств ИПС и определяется тем, насколько ответ на запрос является точным и полным, причем эти понятия связаны с понятием соответствия между информационным запросом и сведениями, полученными на этот запрос. Ответ, основное содержание которого соответствует по принятым в ИПС критериям информационному запросу, называется релевантным, ответ же, по существу соответствующий информационной потребности пользователя – пертитнентным (подробно о релевантности и пертинентности см. в упомянутой выше монографии «Основы информатики»). Оценку релевантности при работе ИПЯ производят по показателям полноты и точности выдачи информации, потери информации и информационного шума.

Формально для оценки качества работы ИПС используют следующие критерии:

  • Коэффициент полноты: a/(a+c)

  • Коэффициент точности: a/(a+b)

Где:

a – число релевантных документов, выданных из ИПС по запросу,

b – число нерелевантных документов, выданных из ИПС по запросу,

c - число релевантных документов, которые ошибочно не были выданы из ИПС по запросу,

Для того, чтобы быть эффективным средством информационного поиска, ИПЯ должен отвечать определенным требованиям, в первую очередь:

  • обладать грамматическими средствами и лексикой, необходимыми и достаточными для выполнения поставленных перед системой функций,

  • учитывать специфику предметной области,

  • быть удобным для пользователя.

В зависимости от поставленной задачи в АИС могут быть использованы ИПЯ различных типов: классификационные, дескрипторные, фасетные, объектно-признаковые (подробно об ИПЯ см. в упомянутой выше монографии «Основы информатики»). Например, в ИНТЕРНЕТ в качестве ИПЯ широко используется «язык ключевых слов», представляющий собой совокупность ненормированных лексических единиц из заглавий, рефератов и полного текста документов5.

Исследования и многолетний практический опыт показали, что для работы с музейными коллекциями наиболее подходящим является ИПЯ объектно-признакового типа6.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]