- •Предисловие
- •1. Основы информационного обеспечения процессов и систем
- •1.1. Понятие и содержание информационного обеспечения
- •1.2. Структура и классификация информационных систем
- •1.3. Система представления и обработки данных фактографических аис
- •Вопросы и упражнения
- •2. Системы управления базами данных фактографических информационных систем
- •2.1. Функции, классификация и структура субд
- •2.2. Модели организации данных
- •2.2.1. Иерархическая и сетевая модели организации данных
- •2.2.2. Реляционная модель организации данных
- •2.3. Внутренняя схема баз данных фактографических аис
- •2.3.1. Физические структуры данных
- •2.3.2. Индексирование данных
- •2.3.3. Расстановка (хеширование) записей
- •Вопросы и упражнения
- •3. Основы создания автоматизированных информационных систем
- •3.1. Общие положения по созданию автоматизированных систем
- •3.2. Проектирование банков данных фактографических аис
- •3.2.1. Концептуальное проектирование
- •3.2.2. Проектирование схем реляционных баз данных
- •3.2.2.1. Проектирование и создание таблиц
- •3.2.2.2. Нормализация таблиц
- •Вопросы и упражнения
- •4. Ввод, обработка и вывод данных в фактографических аис
- •4.1. Языки баз данных
- •4.2. Ввод, загрузка и редактирование данных
- •4.2.1. Ввод и редактирование данных в реляционных субд
- •4.2.2. Особенности ввода и загрузки данных в субд с сетевой моделью организации данных
- •4.3. Обработка данных
- •4.3.1. Поиск, фильтрация и сортировка данных
- •4.3.2. Запросы в реляционных субд
- •4.3.2.1. Запросы на выборку данных
- •4.3.2.1.1. Запросы на выборку данных из одной таблицы
- •4.3.2.1.2. Запросы на выборку данных из нескольких таблиц
- •4.3.2.1.3. Вычисления и групповые операции в запросах
- •4.3.2.2. Запросы на изменение данных
- •4.3.2.3. Управляющие запросы
- •4.3.2.4. Подчиненные (сложные) запросы
- •4.3.2.5. Оптимизация запросов
- •4.3.3. Процедуры, правила (триггеры) и события в базах данных
- •4.3.4. Особенности обработки данных в субд с сетевой моделью организации данных
- •4.4. Вывод данных
- •Вопросы и упражнения
- •5. Распределенные информационные системы
- •5.1. Понятие распределенных информационных систем, принципы их создания и функционирования
- •5.2. Технологии и модели «Клиент-сервер»
- •5.2.1. Модель файлового сервера
- •5.2.2. Модель удаленного доступа к данным
- •5.2.3. Модель сервера базы данных
- •5.2.4. Модель сервера приложений
- •5.2.5. Мониторы транзакций
- •5.3. Технологии объектного связывания данных
- •5.4. Технологии реплицирования данных
- •Вопросы и упражнения
- •6. Документальные информационные системы
- •6.1. Общая характеристика и виды документальных информационных систем
- •6.2. Информационно-поисковые каталоги и тезаурусы
- •6.2.1. Классификационные системы поиска документов
- •6.2.2. Координация понятий в классификационных системах
- •6.2.3. Информационно-поисковые тезаурусы
- •6.2.4. Автоматизация индексирования документов
- •6.3. Полнотекстовые информационно-поисковые системы
- •6.3.1. Информационно-технологическая структура полнотекстовых ипс
- •6.3.2. Механизмы поиска документов в полнотекстовых ипс
- •6.3.3. Методы количественной оценки релевантности документов
- •6.4. Гипертекстовые информационно-поисковые системы
- •6.4.1. Гипертекст
- •6.4.2. Структура, принципы построения и использования гипертекстовых ипс
- •6.4.3. Модель организации данных в гипертекстовых ипс
- •6.4.4. Формирование связей документов в гипертекстовых ипс
- •Вопросы и упражнения
- •7. Администрирование информационных систем и защита данных
- •7.1. Администрирование информационных систем
- •7.2. Разграничение доступа и защита данных
- •7.2.1. Понятие и модели безопасности данных
- •7.2.2. Технологические аспекты защиты информации
- •7.2.2.1. Идентификация и аутентификация
- •7.2.2.2. Языки безопасности баз данных
- •7.2.2.3. Безопасность повторного использования объектов
- •7.2.2.4. Надежное проектирование и администрирование
- •7.2.3. Требования и классы защищенности автоматизированных (информационных) систем в «Руководящих документах...» Государственной технической комиссии при Президенте рф
- •Вопросы и упражнения
- •Литература
- •Алфавитно-предметный указатель Содержание
6.1. Общая характеристика и виды документальных информационных систем
Напомним, что в фактографических информационных системах единичным элементом данных, имеющим отдельное смысловое значение, является запись, образуемая конечной совокупностью полей-атрибутов. Иначе говоря, информация о предметной области представлена набором одного или нескольких типов структурированных на отдельные поля записей.
В отличие от фактографических информационных систем, единичным элементом данных в документальных информационных системахявляетсянеструктурированный на более мелкие элементы документ. Вкачестве неструктурированных документов в подавляющем большинстве случаев выступают, прежде всего, текстовые документы,представленные в виде текстовых файлов, хотя к классу неструктурированных документированных данных могут также относиться звуковые и графические файлы.
Основной задачейдокументальных информационных систем являетсянакопление и предоставление пользователю документов, содержание, тематика, реквизиты и т. п. которых адекватны его информационным потребностям.Поэтому можно дать следующее определениедокументальной информационной системы — единое хранилище документов с инструментарием поиска и отбора необходимых документов. Поисковый характердокументальных информационных систем исторически определил еще одно их название —информационно-поисковые системы(ИПС), хотя этот термин не совсем полно отражает специфику документальных ИС.*Соответствие найденных документов информационным потребностям пользователяназывается пертинентностью. В силу теоретических и практических сложностей с формализацией смыслового содержания документов пертинентность относится скорее к качественным понятиям, хотя, как будет рассмотрено ниже, может выражаться определенными количественными показателями.
* Поиск информации (данных) осуществляется и в фактографических ИС. Таким образом термин ИПС определяет функциональное назначение ИС, но не отражает специфики представления и обработки данных. Специфика документальных ИПС заключается в том, что они удовлетворяют информационные потребности пользователя, предоставляя ему документы, в которых содержится интересующая пользователя информация.
В зависимости от особенностей реализации хранилища документов и механизмов поиска документальные ИПС можно разделить на две группы:
• системы на основе индексирования;
• семантически-навигационные системы.
В семантически-навигационныхсистемах документы, помещаемые в хранилище (в базу) документов, оснащаются специальныминавигационными конструкциями,соответствующимисмысловым связям(отсылкам) между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют некоторуюсемантическую* (смысловую)сетьв базе документов.Способ и механизм выражения информационных потребностейв подобных системах заключаются вявной навигации пользователя по смысловым отсылкам между документами.В настоящее время такой подход реализуется в гипертекстовых ИПС.
* Семантика (от греч. «semantikos»—обозначающий)—смысловая сторона языка, отдельных слов и частей слова, а также— раздел языкознания, изучающий значения слов.
В системах на основе индексированияисходные документы помещаются в базу без какого-либо дополнительного преобразования,* но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированиеми заключается в присвоении каждому документу некоторого индекса-координаты в поисковом пространстве. Формализованное представление (описание) индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности средствами иязыком поискового пространства,формируя поисковый образ запроса (ПОЗ)к базе документов. Система на основе определенных критериев и способов ищет документы, поисковые образы которых соответствуют или близки поисковым образам запроса пользователя, и выдает соответствующие документы. Соответствие найденных документов запросу пользователяназывается релевантностью.** Схематично общий принцип устройства и функционирования документальных ИПС на основе индексирования иллюстрируется на рис. 6.1.
* За исключением возможного сжатия (архивирования).
** На практике термин релевантностьчасто отождествляют с терминомпертинентность,хотя в строгом отношении они различны.
Рис. 6.1. Общий принцип устройства и функционирования документальных ИПС на основе индексирования
Особенностью документальных ИПС является также то, что в их функции, как правило, включаются и задачи информационного оповещенияпользователей по всем новым поступающим в систему документам, соответствующим заранее определенным информационным потребностям пользователя.*Принцип решениязадач информационного оповещения в документальных ИПС на основе индексирования аналогичен принципу решения задач поиска документов по запросам и основан наотображении в поисковое пространство информационных потребностей пользователя в видетак называемыхпоисковых профилей пользователей(ППП). Информационно-поисковая система по мере поступления и индексирования новых документов сравнивает их образы с поисковыми профилями пользователей и принимает решение о соответствующем оповещении. Принцип решения задач информационного оповещения схематично иллюстрируется на рис. 6.2.
* Задачи информационного оповещения основаны на идеологии т.н. избирательного распространения информации (ИРИ),наработанной в библиотечном деле.
Рис. 6.2. Принцип решения задач информационного оповещения в документальных ИПС на основе индексирования
Поисковое пространство,отображающее поисковые образы документов и реализующее механизмы информационного поиска документов так же, как и в СУБД фактографических систем, строится на основеязыков документальных баз данных,называемых информационно-поисковыми языками (ИПЯ). Информационно-поисковый языкпредставляет собой некоторуюформализованную семантическую систему, предназначенную для выражения содержания документа и запросов по поиску необходимых документов.По аналогии с языками баз данных фактографических систем ИПЯ можно разделить на структурную и манипуляционную составляющие.
Структурная составляющаяИПЯ (поискового пространства) документальных ИПС на основе индексирования реализуетсяиндексными указателямив формеинформационно-поисковых каталогов, тезаурусовигенеральных указателей.
Информационно-поисковые каталогиявляются традиционными технологиями организации информационного поиска в документальных фондах библиотек, архивов и представляют собойклассификационную систему знаний по определенной предметной области. Смысловое содержание документав информационно-поисковых каталогахотображаетсятем или инымклассом каталога,аиндексированиедокументов заключается вприсвоениикаждому документу специальногокода (индекса)соответствующего по содержанию класса (классов) каталога и создания на этой основе специального индексного указателя.
Тезауруспредставляет собой специальным образоморганизованную совокупность основных лексических единиц (понятий) предметной области (словарь терминов) и описание парадигматических отношений между ними.Парадигматические отношения выражаютсясемантическими отношениями между элементами словаря, не зависящими от любого контекста.Независимость от контекста означает обобщенность (абстрагированность) смысловых отношений, например отношения «род-вид», «предмет-целое», «субъект-объект-средство-место-время действия». Так же, как и в информационно-поисковых каталогах, в системах на основе тезаурусов в информационно-поисковое пространство отображается не весь текст документа, а только лишь выраженное средствами тезауруса смысловое содержание документа.
Генеральный указатель* (глобальный словарь-индекс) в общем виде представляет собойперечисление всех слов (словоформ), имеющихся в документах хранилища, с указанием (отсылками) координатного местонахождения каждого слова(№ документа — № абзаца — № предложения — № слова).Индексирование нового документа в таких системах производится через дополнениекоординатных отсылок тех словоформ генерального указателя, которые присутствуют в новом документе.Так как поисковое пространство в таких системахотражает полностью весь текст документа(все слова документа), а не только его смысловое содержание, то такие системы получили название полнотекстовых ИПС.**
* Исторически в специальной литературе употреблялся также термин «конкорданс».
** В специальной литературе такие системы иногда называют системами без лексического контроля, т. е. без учета возможной синонимичности отдельных групп словоформ, объединения отдельных групп словоформ в общие смысловые группы, семантических отношении между словоформами.
Структурная составляющая ИПЯ семантически-навигационных системреализуется в виде техники смысловых отсылок в текстах документов и специальном навигационном интерфейсе по ним и в настоящее время представлена гипертекстовыми технологиями.
Поисковая (манипуляционная) составляющаяИПЯ реализуется дескрипторными и семантическими языками запросов.
В дескрипторных языкахдокументы и запросы представляютсянаборами некоторых лексических единиц(слов, словосочетаний, терминов) —дескрипторов, не имеющих между собой связей,или, как еще говорят,не имеющих грамматики.Таким образом, каждыйдокументили запрос ассоциируется или, лучше сказать,представленнекоторымнабором дескрипторов. Поискосуществляется через поиск документов сподходящим набором дескрипторов.В качестве элементов-дескрипторов выступают либо элементысловаря ключевых терминов,либо элементыгенерального указателя(глобального словаря всех словоформ). В силу отсутствия связей между дескрипторами, набор которых для конкретного документа и конкретного запроса выражает, соответственно, поисковый образ документа — ПОД или поисковый образ запроса ПОЗ, такие языки применяются, прежде всего, в полнотекстовых системах.
Семантические языкисодержат грамматические и семантические конструкции для выражения (описания) смыслового содержания документов и запросов. Все многообразие семантических языков подразделяется на две большие группы:
• предикатные языки;
• реляционные языки.
В предикатных языкахв качестве элементарной осмысленной конструкции высказывания выступаетпредикат,который представляет собоймногоместное отношение некоторой
совокупности грамматических элементов.Многоместность отношения означает, что каждый элемент предиката играет определенную роль для группы лексических элементов в целом, но не имеет конкретных отношений с каждым элементом этой группы в отдельности. Аналогом предикатного высказывания в естественном языке выступаетпредложение,констатирующее определенный факт или описывающее определенное событие.
В реляционных языкахлексические единицы высказываний могут вступать только вбинарные(друг с другом), но не в совместные, т. е. не многоместные отношения.
В качестве лексических единицсемантических языков выступаютфункциональные классы естественного языка,важнейшими из которых являются:
• понятия-классы(общее определение совокупности однородных элементов реального мира, обладающих некоторым характерным набором свойств, позволяющих одни понятия-классы отделять от других);
• понятия-действия(лексический элемент, выражающий динамику реального мира, содержит универсальный набор признаков, включающий субъект действия, объект действия, время действия, место действия, инструмент действия, цель и т. д.);
• понятия-состояния(лексические элементы, фиксирующие состояния объектов);
• имена(лексические элементы, идентифицирующие понятия-классы);
• отношения(лексические элементы, служащие для установления связей на множестве понятий и имен);
• квантификаторы(всеобщности, существования и т. д.).
Семантические языки составляют языково-манипуляционную основу информационно-поисковых каталогов, тезаурусов и семантически-навигационных (гипертекстовых) ИПС, описывая своими средствами собственно сами каталоги, тезаурусы, семантические сети и выражая смысловое содержание документов и запросов.
В заключение общей характеристики документальных ИПС приведем основные показатели эффективности их функционирования. Такими показателями являются полнота и точность информационного поиска.
Полнота информационного поиска Rопределяется отношением числа найденных пертинентных документовАк общему числу пертинентных документовС, имеющихся в системе или в исследуемой совокупности документов:
R=A/C.
Точность информационного поиска Ропределяется отношением числа найденных пертинентных документовАк общему числу документов L,выданных на запрос пользователя:
P=A/L
Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы. Коэффициент информационного шума, соответственно, определяется отношением числа нерелевантных документов (L–A),выданных в ответе пользователю к общему числу документовL,выданных на запрос пользователя:
=
В идеале полнота информационного поиска и точность информационного поиска должны приближаться к единице, хотя на практике их значения колеблются в пределах от 60 до 90%.