- •Глава 5. Организация интерфейса пользователя в информационных системах 72
- •Глава 1. Производство. Информация. Общество
- •1.1. Информатизация общества
- •1.2. Информационный характер процесса управления производством
- •1.3. Элементы субъекта управления и функции управления
- •1.4. Уровни управления и информация
- •1.5. Превращение информации в ресурс общества
- •Глава 2. Понятие информационной системы
- •2.1. Общая характеристика информационной системы
- •2.2. Классификация информационных систем
- •2.3. Хранение данных как важнейшая общая задача ис
- •Глава 3. Фактографические информационные системы
- •3.1. Основные понятия
- •3.2. Проектирование структуры данных3
- •3.3. Логическое проектирование структур данных
- •3.4. Физическое проектирование структур данных
- •3.4.1. Методы физического проектирования для реляционных моделей
- •3.4.1.1. Последовательная организация
- •3.4.1.2. Индексно-последовательная организация
- •3.4.1.3. Индексно-произвольная организация
- •3.4.1.4. Рандомизация
- •3.4.1.5. Цепь подобных записей
- •3.4.1.6. Инвертированные файлы
- •3.4.2. Методы физического проектирования для иерархических моделей
- •3.4.2.1. Множественные ссылки на порожденные записи
- •3.4.2.2. Ссылки на подобные и порожденные записи
- •3.4.2.3. Кольцевые структуры
- •3.4.2.4. Справочники
- •3.4.2.5. Битовые отображения
- •3.4.3. Методы физического проектирования для сетевых моделей
- •3.4.3.1. Множественные ссылки на порожденные записи
- •Кафедра должность
- •3.4.3.2. Ссылки на подобные и порожденные записи
- •3.4.3.3. Кольцевые структуры
- •Выполнение поисковых задач осуществляется аналогично иерархическим структурам.
- •3.4.3.5. Справочники
- •3.4.3.6. Битовые отображения
- •Глава 4. Документальные информационные системы
- •4.1. Методы организации хранения неструктурированных данных
- •4.1.1. Последовательные файлы
- •4.1.2. Цепочечные файлы
- •4.1.3. Инвертированные файлы
- •4.1.4. Кластерные файлы
- •4.2. Методы индексирования
- •4.2.1. Позиционные методы назначения весов
- •4.2.2. Статистические методы назначения весов
- •4.2.2.1. Частотные модели
- •4.2.2.2. Модель, учитывающая различительную силу термина
- •4.2.3. Динамический метод назначения весов
- •4.3. Кластеризация текстов
- •4.4. Поиск релевантных текстов
- •4.4.1. Поиск в инвертированных файлах
- •4.5.2. Поиск при кластерной организации хранения
- •4.5. Методы расширенного поиска
- •4.5.1. Построение словаря синонимов
- •4.5.2. Ассоциативное индексирование терминов
- •4.5.3. Вероятностное индексирование терминов
- •Глава 5. Организация интерфейса пользователя в информационных системах
- •5.1. Типы диалогов
- •5.2. Эргономичность интерфейса
- •Индивидуальные задания Реляционные модели
- •Деревья
- •Литература
4.1.3. Инвертированные файлы
Этот способ организации текстовых файлов является развитием предыдущего: в справочник включаются все адресные ссылки, соответствующие тому или иному ключевому слову. Одновременно адресные ссылки исключаются из самих текстовых файлов. Тогда ТБД из предыдущего раздела при данной организации хранения будет иметь в составе следующие составляющие:
текстовые файлы Ф1, Ф2, Ф3, Ф4 вида:
индекс вида:
Ключевое слово |
Ссылки |
К1 |
Ф2, Ф3 |
К2 |
Ф2 |
К3 |
Ф1, Ф2 |
К4 |
Ф4 |
Как видно, поле Ссылки индекса содержит список ссылок на все файлы, содержащие то или иное ключевое слово.
Рассмотрим решение задачи поиска релевантного текста.
Пусть запрос содержит ключевое слово К1. Тогда алгоритм просмотра имеет вид:
по индексу определяется строка, содержащая данное ключевое слово; по полю Ссылки выбираются имена файлов ТБД, которые характеризуются данным ключевым словом, – это файлы с именами Ф2 и Ф3;
средствами файловой системы выполняется поиск и вывод текстов файлов пользователю. Алгоритм заканчивает работу.
Рассмотренный метод позволяет легко решать задачи поиска по сложным запросам.
Пусть запрос содержит ключевые слова К1, К3, связанные оператором «или», т.е. пользователю требуется найти тексты, содержащие либо слово К1, либо слово К3. Используя предыдущий алгоритм, находим файлы, релевантные запросу:
для К1 – {Ф1, Ф3};
для К3 – {Ф1, Ф2}.
Тогда множество файлов, удовлетворяющих запросу в целом, соответствует объединению полученных множеств:
К1К3 {Ф1, Ф3}{Ф1, Ф2} = {Ф1, Ф2, Ф3}.
Пусть запрос содержит ключевые слова К1, К3, связанные оператором «и», т.е. пользователю требуется найти тексты, содержащие одновременно слова К1 и К3. Используя известный алгоритм, находим файлы, релевантные запросу:
для К1 – {Ф1, Ф3};
для К3 – {Ф1, Ф2}.
Тогда множество файлов, удовлетворяющих запросу в целом, соответствует пересечению полученных множеств:
К1К3 {Ф1, Ф3}{Ф1, Ф2} = {Ф1}.
4.1.4. Кластерные файлы
Тексты делятся на группы - кластеры родственных текстов, для чего исследуется подобие ключевых слов, характеризующих каждый текст. Тогда в один кластер включаются тексты, которые оказались подобны друг другу. Внутри кластера тексты могут быть организованы любым из рассмотренных ранее способов. Каждый кластер описывается множеством ключевых слов, которые входят в состав профиля кластера (формально определяется далее). В описание включается также адресная ссылка на соответствующий кластер. При хранении кластер может отождествляться с папкой (в терминологии операционной системы Windows’xx).
Пусть ТБД содержит файлы Ф1 – Ф4, которые входят в состав двух кластеров С1 и С2 следующим образом: С1 = {Ф2, Ф4}, С2 = {Ф1, Ф2, Ф3}. Профили П1 и П2 кластеров С1 и С2, соответственно, имеют в составе ключевые слова: П1 = {К2, К4}, П2 = {К1, К3}. Файлы внутри кластеров имеют последовательную организацию.
Тогда ТБД имеет в составе следующие компоненты:
описание кластеров в виде индекса, где в графе Ссылка заданы адреса кластеров (т.е. имена папок), а в графу Ключевое слово включен список ключевых слов, формирующих профили кластеров;
Ключевое слово |
Ссылка |
К1 |
С2 |
К2 |
С1 |
К3 |
С2 |
К4 |
С1 |
текстовые файлы Ф1 – Ф4, распределенные по кластерам С1 и С2:
Рассмотрим решение задачи поиска релевантного текста.
Пусть запрос содержит ключевое слово К1. Тогда алгоритм просмотра:
по индексу находится элемент с заданным ключом;
по полю Ссылка определяется нахождение кластера, содержащего требуемый текст, – это кластер С2;
в кластере С2 ищется текст (тексты) с нужным ключевым словом. При этом применяются методы поиска, рассмотренные ранее для последовательной организации. Такими текстами являются тексты в файлах Ф1 и Ф3.
Следует отметить, что наиболее употребляемыми из рассмотренных методов являются инвертированные и кластерные файлы, поэтому дальнейшее изложение ориентировано на эти способы хранения текстовых файлов.