Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Информационные системы. Лекции

.pdf
Скачиваний:
47
Добавлен:
22.06.2014
Размер:
648.49 Кб
Скачать

61

НАБОР1 OR НАБОР2 -> НАБОР6 НАБОР5 AND НАБОР6 -> НАБОР7

Операторы сравнения

Большинство полей содержат значения, которые могут быть организованы в том или ином порядке, например, по алфавиту или начиная с большего номера и кончая меньшим. Это является основой для инвертированного индексирования. Давая коман- ду, можно составить запрос, основанный на такой организации. Подобные запросы можно осуществить с помощью логических операторов сравнения.

Стандартным является следующий набор таких операторов: =, <, >, <=, >=, <>, что означает: равно, меньше, больше, меньше или равно, больше или равно, не равно. Некоторые системы используют другое обозначение: EQ, LT, GT, LE, GE, NE. Опера- торы сравнения часто используются при работе с цифровыми полями, такими, как "год публикации".

Пользователю может потребоваться выдача только "свежих" документов и он может сделать запрос: YR>1990; или, например, в файле, содержащем информацию о заработной плате, может потребоваться найти всех сотрудников, зарабатывающих больше (или меньше) определенной суммы. Таким же образом может потребоваться найти всех людей, информация о которых хранится в данном файле, возраст которых от 25 до 35 лет. Это может быть сделано путем сочетания логических операторов срав- нения с булевым оператором AND: AGE >= 25 AND AGE <= 65.

Поиск по размеру

Другим способом поиска в файле, организованном в том или ином порядке, яв- ляется поиск по размеру. Для выражения такого рода запросов используются операто- ры FROM и ТО (ОТ и ДО). Например, поиск по возрасту от 25 до 35 лет может быть проведен с помощью выражения AGE FROM 25 ТО 35.

Инвертированная индексация помогает в этом виде поиска, так как элементы файла инвертированных индексов организованы в порядке от меньшего к большему, и при запросе извлекается выделенный "кусок" такого порядка.

Использование автоматического тезауруса при поиске

При использовании автоматического тезауруса при составлении запроса на по-

иск происходит автоматическая сверка и исправление вводимого термина с правильной его формой, содержащейся в тезаурусе. Также путем автоматического расширения лек- сически контролируемого термина запроса на выдачу выходят все документы, содер- жащие термины, иерархически подчиненные запрашиваемому. Например, если в тезау- русе определено, что под дескриптором СЕМЕЙСТВО КОШАЧЬИХ содержатся более узкие термины КОШКИ, РЫСИ, ЛЬВЫ и т.д., то на запрос "СЕМЕЙСТВО КОШАЧЬИХ" с указанием использования функции автоматического расширения будут выданы документы, содержащие все эти термины, а не только основной дескриптор. К сожалению, пока функции автоматического тезауруса поддерживаются только боль-

62

шими коммерческими БД, и их использование не предусмотрено в большинстве про- граммных продуктов для создания и работы с текстовыми БД на микрокомпьютерах.

Использование файла рабочих карт (Signature file)

Создание отдельного файла, в котором хранятся краткие записи обо всех запи- сях текстового файла, позволяет проводить быстрое сравнение элементов запроса с та- кими рабочими картами. Последовательный поиск в массиве рабочих карт протекает гораздо быстрее, чем в большом массиве основных записей.

Характеристика пакетов прикладных программ для хранения, поиска и обработки текстовой информации

В последние годы в связи с распространением современных информационных технологий в гуманитарные сферы человеческой деятельности растет потребность в программных средствах хранения, поиска и обработки текстовой информации. Это подтверждается даже тем, что на сегодняшний день почти любая "серьезная" СУБД, предназначенная для обработки фактографической информации, предоставляет опре- деленные возможности по проведению документального поиска.

Для реализации эффективной системы хранения, поиска и обработки текстовой информации требуются специальные программные средства. Современные СУБД име- ют хорошо разработанный язык манипулирования данными, близкий по возможностям к языкам программирования высокого уровня, с помощью которого можно в принципе создать некие приложения, реализующие методы документального поиска. Однако за- дача эта нелегкая и менее эффективная, чем использование соответствующего про- граммного продукта (ИПС), специально ориентированного на обработку документаль- ной информации.

Ниже рассмотрен ряд программных средств, ориентированных на персональные компьютеры и предназначенных для разработки ИПС в любой предметной области. При выборе конкретных пакетов прикладных программ (ППП), отнесенных к этому классу, помимо указаний в руководствах разработчиков учитывалось наличие таких важных характеристик, как:

-документ как основная информационная единица хранения в

-поиск, использующий поисковый образ документа, который состоит из лекси- ческих единиц, содержащихся в документе;

-приоритет при поиске для данных в виде текстовой информации;

-наличие лексических словарей, содержащих термины из документов, храня- щихся в ИПС.

К числу таких ППП можно отнести давно и хорошо известные многим пользо- вателям ДИАЛОГ-М, CDS/ISIS/M, менее известный у нас в стране, но очень широко распространенный за рубежом пакет Pro-Cite, а также два отечественных программных продукта ИРБИС и ODB-Text, появившихся хронологически позднее предыдущих. Да- дим краткую характеристику некоторым из перечисленных выше ИПС.

63

Характеристика ИПС ДИАЛОГ-М

ДИАЛОГ-М является одной из первых отечественных ИПС. Она была разрабо- тана как вариант ИПС ДИАЛОГ-2, адаптированный для работы на персональных ком- пьютерах и сохранивший в целом всю ее концепцию.

Основным понятием БД ДИАЛОГ-М является документ, определяемый как опи- сание отдельного объекта. Он состоит из форматных полей (от 1 до 120) и текстового поля (до 20К). Наименьшей единицей информации является слово, находящееся в сло- варе БД. При загрузке документов в БД все слова извлекаются из текстов в виде спи- сков и помещаются в словарь (инвертированный файл).

Документ имеет определенную структуру и состав, или, другими словами, фор- мат. Все сведения структурируются в виде полей данных (или форматных полей). Для каждого поля данных определены имя поля, размер поля, тип данных. Кроме полей данных есть текстовые поля. Для ввода документа обязательно строится бланк ввода.

Документы группируются в БД, максимальный объем документов, которой 32500. Для каждой БД может быть задано неограниченное число бланков ввода, форм печати документов, форм показа документов. Кроме того, пользователь может описать таблицу стоп-слов, формы отчетов, конвертор из БД системы ДИАЛОГ-2. Для работы с текстом имеется собственный редактор.

Для просмотра и распечатки документов (в том числе найденных в результате поиска) необходимо построить описания форматов печати и показа документов.

Имеются также весьма эффективные средства для построения форм отчета.

Характеристика ИПС "ODB-TEXT"

Данный ППП является отечественной разработкой, появившейся на информаци- онном рынке сравнительно недавно. Он определен разработчиками как полнотекстовая ИПС, реализованная на базе объектно-ориентированной СУБД. OBD - это аббревиату- ра Object Database, т.е. Объектная База Данных. Она лежит в основе программного комплекса. Ее применение и наполнение целиком зависит от потребностей конкретного пользователя. В числе возможных приложений можно назвать автоматизацию доку- ментооборота современного офиса, построение справочно-информационных систем (подобных известным правовым БД), ведение сетевых БД, учет кадров, библиографию и другие области.

Система "ODB-TEXT" - средство коллективной обработки документов. Ком- плекс программ предназначен для работы в среде MS Windows.

Структура программного комплекса "ODB-TEXT"

Программный комплекс "ODB-TEXT" состоит из четырех компонент:

Программы-сервера.

Программы-клиента.

Дизайнера форм.

Менеджера словарей объектов.

Конечные пользователи работают с Программой-клиентом. Здесь создаются,

64

просматриваются и редактируются документы. Новые документы вводятся во встроен- ном редакторе документов или загружаются в виде файла.

Программа- сервер устанавливается, как правило, на мощном компьютере, с достаточными ресурсами для выполнения сложных запросов к большой БД. В системе "ODB-TEXT" предусмотрены широкие возможности сетевой конфигурации. Напри- мер, возможны схемы работы, когда в сети работают одновременно несколько серве- ров, при этом возможно размещение сервера на любом компьютере сети.

Дизайнер форм предназначен для конструирования различных видов докумен-

тов.

Менеджер словарей объектов служит для настройки клиента на определенный сервер и базы данных.

Структура документа как основной информационной единицы хранения в

БД

Документ (абстрактное понятие) - информационная единица, состоящая из обя- зательного раздела - смысловой части (текста) и набора реквизитов (чаще всего это фактографические характеристики). Эти реквизиты упрощают поиск, организацию и классификацию и необязательного - оглавления, списка понятий, ссылок на другие до- кументы.

Каждый тип документа имеет свой входной формат, разрабатываемый с помо- щью Дизайнера форм и фиксирующий структуру обязательной части. Он фиксируется в регистрационной форме, представляющей собой набор полей различных типов. Каж- дый пользователь может сформировать наиболее подходящий для себя вариант регист- рационной формы. В дальнейшем в ней можно легко переименовать, добавить, удалить поля. После перемен система будет отображать новые поля, сохраняя содержимое ста- рых, в том числе переименованных.

Реквизиты могут иметь различное назначение и тем самым различный статус, который задается с помощью Дизайнера форм при конструировании входного формата. Выделяют поисковый реквизит (в отличие от описательного) - реквизит, по которому проводится индексирование и который включается в словарь, множественный рекви- зит - поле, имеющее несколько значений. Тип реквизита определяет тип данных, кото- рым представлен реквизит.

В "ODB-TEXT" предусмотрена возможность аналитико-синтетической обработ- ки текста документа, в результате которой могут быть выделены понятия, оглавление и ссылки. Их наличие значительно облегчает повседневную работу с документами.

Понятие - термин, присутствующий в тексте документа. Это фактически клю- чевое слово, выделенное пользователем.

Оглавление, как и в традиционном документе, служит для ускорения перемеще- ния по тексту. При составлении оглавления "ODB-TEXT" автоматически проставляет гиперссылки от пункта оглавления к соответствующему месту в тексте.

Имеется возможность внесения в текст документа гипертекстовых ссылок с по- следующим свободным перемещением по ним в прямом и обратном направлении. Предполагаются ссылки как в рамках одного документа, так и на другие документы

65

данного и иного типов.

Документы в БД систематизируются с помощью многоуровнего рубрикатора, который является также одним из возможных поисковых инструментов.

Загрузка документов в БД

Новые документы вводятся во встроенном редакторе документов или загружа- ются в виде файла.

В последней версии "ODB-TEXT" появилась возможность загрузить в БД сразу все документы из определенного каталога. Причем документам автоматически при- сваивается идентификатор и название, и они автоматически попадают в рубрикатор.

Предусмотрена возможность загрузить документы из файла MS Word, MS Excel, MS PowerPoint, гипертекстового файла HTML и вообще любого формата, для которого имеется сервер OLE.

Функции поиска в системе "ODB-TEXT" Система предусматривает следую- щие поисковые режимы: возможен поиск по значению каждого поискового реквизита, по понятиям, заключенным в тексте документа, и по содержанию документа.

Первые два режима предполагают:

выделение поисковых полей (ими, как указывалось выше, могут быть поля по- исковых реквизитов, поле "понятия", поле "текст");

заполнение поискового запроса по выделенным полям; при этом система пре- доставляет возможность воспользоваться списком ключевых значений по каждому по- лю.

При составлении запроса предусмотрена возможность:

усечения терминов;

использования логических операторов;

использования контекстных операторов.

Режим поиска по содержанию предполагает возможность поиска по естествен- но-языковому запросу, т.е. по запросу, сформулированному без привязки к списку ключевых значений; допускающему слова в полной и сокращенной форме, слова, со- стоящие из комбинации букв, цифр и специальных символов. Данный режим подкреп- лен функцией морфологического анализа, реализуемого в системе "ODB-TEXT", что выгодно отличает этот ППП от других.

По результатам поиска формируется список найденных документов и поисковая статистика. Список найденных документов можно скопировать в буфер обмена Windows, а затем вставить, например, в текст документа MS Word.

66

Лекция 10. Фактографические информационные поисковые системы (ФИПС)

Общая характеристика фактографических банков данных

Предметная область ФИПС

Модели данных

Общая характеристика фактографических банков данных

Объединяющим началом всех ИС являются их цели, задачи и функции. Разли- чия определяются способами, методами и средствами реализации поставленных целей, задач и функций. В основе этих различий лежит специфика обрабатываемых ими ин- формационных массивов. Документальные системы имеют дело со слабоструктури- руемой информацией, представленной совокупностью документов, которые необходи-

мо содержать в системе в целях удовлетворения информационных потребностей ее пользователей.

Предметная область таких систем - информационная база слабоструктурируе- мой информации. Основные средства - информационно-поисковый язык, критерий смыслового соответствия и аппарат поиска. Фактографические системы имеют дело с жесткоструктурируемой информацией, отображающей в той или иной степени динами- ку функционирования определенных объектов.

Предметная область фактографических систем - информационная база жестко- структурируемой информации. Основные средства - языки описания и манипулирова- ния данными. Принципиальные различия в степени структурируемости информации приводят к существенным различиям в средствах ее обработки, соответственно в про- граммных реализациях документальных и фактографических ИС.

С формальной точки зрения состав и структура этих систем достаточно близки. Так покомпонентная декомпозиция ФИС может быть изображена той же схемой, что и покомпонентная декомпозиция АИПС (см. лекцию 6). Однако необходимо иметь в ви- ду указанные содержательные различия в информационной базе и программных сред- ствах. То же можно сказать о декомпозиции на обеспечивающие системы (см. лекцию

6).

Фактографическая ИС включает: банк данных, подсистему подготовки и ввода информации, подсистему реализации пользовательских задач и подсистему подготовки и выдачи результатов обработки информации пользователям.

Подсистема реализации пользовательских задач ориентирована на решение оп-

ределенного множества задач пользователей на основе использования банка данных (БнД) и совокупности пакетов прикладных программ (в том числе электронных таблиц, текстовых процессоров, графических редакторов и т.д.).

Подсистемы ввода информации, подготовки и выдачи результатов ее обработки реализуют те же функции, что и документальные ИС. С позиций профессионала- информатика основным ядром ФИС является фактографический банк данных (БнД).

67

Именно БнД является основой информационного обеспечения пользователей, и базой решения всех пользовательских задач.

Фактографические БнД - взаимосвязанная совокупность языковых, логических, программных, информационных, технических, организационных средств ввода, пере- работки, хранения, поиска и выдачи жесткоструктурированной информации. Такая информация может быть представлена в текстовой, числовой, графической и других формах. Особенностью такой информации является (как отмечалось выше) сохранение адекватности создаваемого образа информации самой информации. Основной едини- цей хранения в базе данных (БД) фактографической АИПС является факт (в отличие от документальных систем, где основной единицей хранения является документ).

Всоответствии с определением БнД включает: базу данных (БД), систему управления базой данных (СУБД), технические средства и администрацию БнД. Ос- новным элементом этой структуры является база данных. Состав и структура БД, а также методы структурирования данных для их представления в БД и методы их обра- ботки целиком определяют все параметры используемой в БнД СУБД.

ФИС и, соответственно, БнД создается для решения некоторой совокупности за- дач вполне определенной организации, предприятия и т.д., т.е. определенной организа- ционной системы или ее составляющих.

Втерминологии информатики организационная система или ее составляющие, для решения задач которых создается БнД, носит название предметной области (ПО) БнД. БнД и, соответственно, ФИС могут отвечать всем информационным потребностям пользователей предметной области только в том случае, если они могут постоянно ото- бражать динамику функционирования этой предметной области.

Сложность и слабая структурируемость самой предметной области, с одной сто- роны, и необходимость обработки информации в компьютере в жесткоструктурируе- мой форме - с другой, приводят к необходимости приближенного представления ПО в виде некоторой модели.

Требования адекватности модели реальной ПО приводят к необходимости по- строения некоторой иерархии моделей, высший уровень иерархии которых наиболее адекватно отображает ПО, а нижний уровень воспринимается компьютером. Такое мо- делирование ПО на языке информатики носит название многоуровневого представле- ния данных. В настоящее время в информатике используются двухуровневое и трех- уровневое представление данных.

Наиболее широко распространено рассматриваемое в дальнейшем трехуровне- вое представление данных о ПО (рис. 1.). Такому представлению соответствуют три типа моделей:

- концептуальная модель ПО - модель внешнего уровня иерархии, наиболее точ- но отображающая ПО;

- логическая модель базы данных - промежуточная модель, обеспечивающая пе- реход от концептуальной модели ПО к физической модели БнД;

- физическая модель банка данных - модель низшего уровня иерархии, с которой работает компьютер.

68

Рис.1. Схема трехуровневого представления данных

Независимо от числа уровней представления данных в БнД процесс ее функцио- нирования состоит в следующем:

-сбор данных о ПО и запросах к БнД на естественном языке;

-многоуровневое структурирование данных на различных уровнях их представ-

ления;

-ввод данных в БнД;

-поиск и обработка данных;

-формирование выходной продукции.

Упрощенная схема взаимодействия пользователя с фактографическим БнД при- ведена на рис. 2. Здесь запрос на языке описания данных (ЯОД) формируется с исполь- зованием логической модели данных. СУБД работает с данными физической модели БнД. Выходная продукция поступает пользователям в терминах логической модели.

Рис. 2. Упрощенная схема взаимодействия пользователя с фактографическим БнД

Следует напомнить, что сложность фактографических ИС, так же, как и доку- ментальных ИС, не позволяет рассматривать их в одном измерении. Необходимы раз- личные варианты стратифицированного представления. Некоторые варианты таких представлений уже были рассмотрены в предыдущих лекциях (структурная схема про-

69

цесса функционирования ИС, покомпонентная декомпозиция, декомпозиция на обес- печивающие подсистемы), а также в данной лекции (схема трехуровневого представле- ния данных и схема взаимодействия пользователей с фактографическим БнД). Каждое из этих представлений относится к одному и тому же объекту, но иллюстрирует его различные стороны.

Составляющие компоненты БнД представлены на рис. 3, где администратор БД - это лицо или группа лиц, реализующих управление банком данных посредством СУБД.

БнД

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ЭВМ

 

БД

 

 

БУБД

 

Администратор БД

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 3. Структура банка данных

Различают следующие виды пользователей банков данных:

- пользователи-задачи - регламентированные по содержанию и форме запросы к

БнД;

- пользователи-люди (программисты и непрограммисты). Пользователи- программисты совершенствуют, расширяют, изменяют и т.д.

программную среду банка данных. Пользователи-непрограммисты (конечные пользователи) - ученые, руководители и т.д.

Каждая АИС соотносится с определённой частью реального мира, которую при- нято называть предметной областью (ПО) системы. Так как каждая система ориентиро- вана на выполнение определённых функций в соответствующей ей области, то её ПО следует рассматривать как результат целенаправленного отражения фрагмента реаль- ного мира с позиций интересов АИС.

Реализацию различных функций по обработке, информации осуществляют при- кладные системы, входящие в состав АИС, каждая из которых требует информации об определенной части ПО - проблемной среде. Проблемные среды различных приклад- ных систем АИС могут находиться в различном соотношении - быть независимыми, пересекаться, включаться одна в другую.

Путем регистрации отдельных фактов, относящихся к тем или иным явлениям реального мира, мы собираем информацию о предметной области ФИПС, на базе кото- рой строится описание ПО - ее модель. БД, являющаяся неотъемлемой компонентой ФИПС, рассматривается как динамическая модель ПО.

Применительно к некоторым областям гуманитарного исследования, например исторического, понятие ПО, ее описание и моделирование имеет определенную специ- фику. Выше дано определение ПО как результат целенаправленного отражения фраг- мента реального мира с позиций интересов АИС. Корректное толкование терминов "реальный мир" или "действительность" требует понимать их как объективную реаль- ность (т.е. существующее в действительности) во всей ее конкретности, как совокуп- ность природных и общественно-исторических явлений. Однако часто ПО фактографи-

70

ческой БД, создаваемой историком, философом, филологом или другим исследовате- лем является не реальная действительность, а совокупность документов, исторических источников, которые лишь косвенно отражают реальность. В этом случае корректнее говорить не о моделировании фрагмента исторической, например, реальности, а о мо- делировании совокупности источников, используемой для исследования какой-либо проблемы. Тогда созданную модель можно рассматривать как новый "метаисточник", который в большинстве случаев тем более адекватен реальности (или проблеме), чем больше разнообразных источников он охватывает. Однако (независимо от особенно- стей толкования ПО) не следует забывать, что специфика рассматриваемого в данной

лекции типа АИПС требует фиксации в ее БД жесткоструктурированной информации о ПО. Фактографическая БД предназначена для хранения такой информации (фактов), почерпнутой при анализе реальной действительности или совокупности документов, опосредованно или косвенно ее представляющих.

Основные принципы построения фактографических БД:

-однократность ввода данных, многократность и многоаспектность их исполь-

зования;

-организация данных сложной структуры, ориентированной на возможность их произвольной выборки в соответствии с поступающими запросами;

-централизация хранения и обработки данных на основе их интеграции, т.е. возможность взаимосвязи элементов данных, относящихся к различным массивам;

-неизбыточность данных, т.е. отсутствие их дублирования в различных масси-

вах;

-защита данных от несанкционированного доступа, возможность использования конкретным пользователем отдельных процедур их обработки.

Способы организации данных в БД оказывают влияние на оперативность поис- ка, полноту и точность поиска, объемы памяти ЭВМ и т.

Архитектура современных фактографических БД предусматривает сложную

многоуровневую систему организации данных. Каждый уровень системы соответствует определенному уровню абстрагирования при рассмотрении структуры БД, имеющему определенное целевое назначение. Например, для человека-пользователя, не являюще- гося специалистом в области обработки данных, выбирается один уровень абстрагиро- вания; для выполнения качественного проектирования структур данных в базе - другой уровень; для решения задачи рациональной организации БД в ЭВМ - третий и т.д.. Та-

кой подход к построению БД обеспечивает возможность представления в памяти ЭВМ сложных структур данных в виде, допускающем их программную обработку средства- ми СУБД. При такой архитектуре БД обладает высокой способностью адаптации к возможным изменениям, как в прикладных программах, так и в самих данных.

На современном этапе различают следующие уровни организации данных. Внешний уровень определяет данные, представляющие интерес для отдельно

взятого конкретного приложения (для конкретного пользователя). Пользователь пони- мает БД посредством внешней модели, которая является содержанием БД в том виде, в каком ее представляет конкретный пользователь.

Соседние файлы в предмете Информационные системы в экономике