4.1.3. Инвертированные файлы

Этот способ организации текстовых файлов является развитием предыдущего: в справочник включаются все адресные ссылки, соответствующие тому или иному ключевому слову. Одновременно адресные ссылки исключаются из самих текстовых файлов. Тогда ТБД из предыдущего раздела при данной организации хранения будет иметь в составе следующие составляющие:

текстовые файлы Ф1, Ф2, Ф3, Ф4 вида:

индекс вида:

Ключевое слово	Ссылки
К1	Ф2, Ф3
К2	Ф2
К3	Ф1, Ф2
К4	Ф4

Как видно, поле Ссылки индекса содержит список ссылок на все файлы, содержащие то или иное ключевое слово.

Рассмотрим решение задачи поиска релевантного текста.

Пусть запрос содержит ключевое слово К1. Тогда алгоритм просмотра имеет вид:

по индексу определяется строка, содержащая данное ключевое слово; по полю Ссылки выбираются имена файлов ТБД, которые характеризуются данным ключевым словом, – это файлы с именами Ф2 и Ф3;
средствами файловой системы выполняется поиск и вывод текстов файлов пользователю. Алгоритм заканчивает работу.

Рассмотренный метод позволяет легко решать задачи поиска по сложным запросам.

Пусть запрос содержит ключевые слова К1, К3, связанные оператором «или», т.е. пользователю требуется найти тексты, содержащие либо слово К1, либо слово К3. Используя предыдущий алгоритм, находим файлы, релевантные запросу:

для К1 – {Ф1, Ф3};

для К3 – {Ф1, Ф2}.

Тогда множество файлов, удовлетворяющих запросу в целом, соответствует объединению полученных множеств:

К1К3  {Ф1, Ф3}{Ф1, Ф2} = {Ф1, Ф2, Ф3}.

Пусть запрос содержит ключевые слова К1, К3, связанные оператором «и», т.е. пользователю требуется найти тексты, содержащие одновременно слова К1 и К3. Используя известный алгоритм, находим файлы, релевантные запросу:

для К1 – {Ф1, Ф3};

для К3 – {Ф1, Ф2}.

Тогда множество файлов, удовлетворяющих запросу в целом, соответствует пересечению полученных множеств:

К1К3  {Ф1, Ф3}{Ф1, Ф2} = {Ф1}.

4.1.4. Кластерные файлы

Тексты делятся на группы - кластеры родственных текстов, для чего исследуется подобие ключевых слов, характеризующих каждый текст. Тогда в один кластер включаются тексты, которые оказались подобны друг другу. Внутри кластера тексты могут быть организованы любым из рассмотренных ранее способов. Каждый кластер описывается множеством ключевых слов, которые входят в состав профиля кластера (формально определяется далее). В описание включается также адресная ссылка на соответствующий кластер. При хранении кластер может отождествляться с папкой (в терминологии операционной системы Windows’xx).

Пусть ТБД содержит файлы Ф1 – Ф4, которые входят в состав двух кластеров С1 и С2 следующим образом: С1 = {Ф2, Ф4}, С2 = {Ф1, Ф2, Ф3}. Профили П1 и П2 кластеров С1 и С2, соответственно, имеют в составе ключевые слова: П1 = {К2, К4}, П2 = {К1, К3}. Файлы внутри кластеров имеют последовательную организацию.

Тогда ТБД имеет в составе следующие компоненты:

описание кластеров в виде индекса, где в графе Ссылка заданы адреса кластеров (т.е. имена папок), а в графу Ключевое слово включен список ключевых слов, формирующих профили кластеров;

Ключевое слово	Ссылка
К1	С2
К2	С1
К3	С2
К4	С1

текстовые файлы Ф1 – Ф4, распределенные по кластерам С1 и С2:

Рассмотрим решение задачи поиска релевантного текста.

Пусть запрос содержит ключевое слово К1. Тогда алгоритм просмотра:

по индексу находится элемент с заданным ключом;
по полю Ссылка определяется нахождение кластера, содержащего требуемый текст, – это кластер С2;
в кластере С2 ищется текст (тексты) с нужным ключевым словом. При этом применяются методы поиска, рассмотренные ранее для последовательной организации. Такими текстами являются тексты в файлах Ф1 и Ф3.

Следует отметить, что наиболее употребляемыми из рассмотренных методов являются инвертированные и кластерные файлы, поэтому дальнейшее изложение ориентировано на эти способы хранения текстовых файлов.

<<< < Предыдущая 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2526 / 3426 27 28 29 30 31 32 33 34 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.08.201967.07 Кб4лекции Банковское право 2.doc
#
05.08.2019294.4 Кб5лекции КРИМИНАЛИСТИКА экз.doc
#
13.08.201976.8 Кб8Лекции КРИМИНОЛОГИЯ экз.doc
#
16.09.2019155.14 Кб11Лекции Миненка по криминологии.doc
#
15.09.2019237.06 Кб5лекции по зп.doc
#
16.11.2019330.27 Кб26Лекции по ИС.docx
#
23.11.201951.2 Кб4Лекции тема 10 17 в.-нач 18.doc
#
20.09.2019253.44 Кб4Лекции ч1.doc
#
28.07.201952.74 Кб5лекции-гпзс.doc
#
28.07.201994.21 Кб14лекции-жп.doc
#
14.07.2019117.25 Кб17лекции-мп2.doc