- •Раздел II. Основы музейной компьютерной технологии
- •Глава 1. Роль и место аис в музее
- •1. Аис в музее: цели, задачи.
- •2. Аис в музее: подсистемы
- •3. Общие требования к аис в музее
- •4. Типовые аис для музеев
- •Глава 2. Технология обработки текстовых данных в аис
- •1. Ипс и ипя: основные понятия
- •2. Ипя объектно-признакового типа
- •3. Состав и структура описания музейного предмета
- •4. Стандарты описания, классификация, терминология
1. Ипс и ипя: основные понятия
Пик теоретических исследований в области теории информационного поиска, выразившийся в появлении в печати целой серии публикаций на эту тему, пришелся на последнюю треть XIX века. Одна из первых публикаций, которую можно отнести к классике этого жанра и которая не потеряла актуальности до настоящего времени – это монография «Основы информатики»4, опубликованная еще в 1968 году. Конкретные ИПС и используемые в них ИПЯ, практически реализованные в последующие годы, в существенной степени базировались на теоретический задел, сформированный в конце прошлого века. Мы ограничимся лишь самыми общими сведениями об ИПС и ИПЯ.
Процесс поиска данных осуществляется с помощью информационно-поисковой системы ИПС. Под ИПС будем понимать автоматизированную поисковую систему, реализованную на средствах электронной вычислительной техники и предназначенную для поиска, а также выдачи пользователю необходимой информации по заданным параметрам.
Образно можно рассматривать ИПС как «черный ящик» с двумя входами и одним выходом: на первый вход поступает информация, хранящаяся в базе данных, на второй – запросы на выдачу информации из БД, на выходе же мы получаем результат поиска, т.е. данные, выбранные ИПС в ответ на запрос (на представленном рисунке проиллюстрирована работа ИПС в виде схемы).
В зависимости от вида получения выходных данных ИПС делятся на документальные, где результат поиска выдается в виде документа или ссылки на документ), фактографические (результат поиска – конкретные сведения, например, имя художника, или даты его жизни или др.) и докуметально-фактографические, когда два эти вида интегрированы; в последние годы именно этот класс систем приобрел популярность.
В основе работы ИПС лежит информационно-поисковый язык ИПЯ; это специализированный искусственный язык, предназначенный для:
формализованного описания тех объектов, сведения о которых представляют интерес для пользователя (музейные предметы, авторы, коллекционеры, выставки и др.).
формализованного выражения содержания информационных запросов при обращении к информационно-поисковой системе ИПС.
На самом деле речь идет не об одном, а о двух языках: ИПЯ для описания объектов, сведения о которых должны быть введены в БД, и ИПЯ для составления запросов к БД.
В первом случае текст (описание объекта), записанный на естественном языке, переводится с помощью соответствующих правил в текст на ИПЯ, в результате мы получаем поисковый образ объекта (ПОО); во втором случае текст запроса также переводится в текст на ИПЯ, в результате чего мы получаем поисковое предписание (ПП). Процесс перевода с естественного языка на ИПЯ называется индексированием.
Процедура поиска заключается в сопоставлении составленного пользователем ПП множеству ПОО, хранящихся в БД, и выделении тех из них (т.е. описаний тех объектов), которые удовлетворяют запросу в соответствии с принятыми критериями. Качество поиска зависит от свойств ИПС и определяется тем, насколько ответ на запрос является точным и полным, причем эти понятия связаны с понятием соответствия между информационным запросом и сведениями, полученными на этот запрос. Ответ, основное содержание которого соответствует по принятым в ИПС критериям информационному запросу, называется релевантным, ответ же, по существу соответствующий информационной потребности пользователя – пертитнентным (подробно о релевантности и пертинентности см. в упомянутой выше монографии «Основы информатики»). Оценку релевантности при работе ИПЯ производят по показателям полноты и точности выдачи информации, потери информации и информационного шума.
Формально для оценки качества работы ИПС используют следующие критерии:
Коэффициент полноты: a/(a+c)
Коэффициент точности: a/(a+b)
Где:
a – число релевантных документов, выданных из ИПС по запросу,
b – число нерелевантных документов, выданных из ИПС по запросу,
c - число релевантных документов, которые ошибочно не были выданы из ИПС по запросу,
Для того, чтобы быть эффективным средством информационного поиска, ИПЯ должен отвечать определенным требованиям, в первую очередь:
обладать грамматическими средствами и лексикой, необходимыми и достаточными для выполнения поставленных перед системой функций,
учитывать специфику предметной области,
быть удобным для пользователя.
В зависимости от поставленной задачи в АИС могут быть использованы ИПЯ различных типов: классификационные, дескрипторные, фасетные, объектно-признаковые (подробно об ИПЯ см. в упомянутой выше монографии «Основы информатики»). Например, в ИНТЕРНЕТ в качестве ИПЯ широко используется «язык ключевых слов», представляющий собой совокупность ненормированных лексических единиц из заглавий, рефератов и полного текста документов5.
Исследования и многолетний практический опыт показали, что для работы с музейными коллекциями наиболее подходящим является ИПЯ объектно-признакового типа6.