Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Балтийский федеральный университет им. И.Канта

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Лекции по ИС.docx

Скачиваний:

Добавлен:

16.11.2019

Размер:

330.27 Кб

Скачать

☆

<<< < Предыдущая 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 2829 / 3429 30 31 32 33 34 > Следующая >>>

4.2.3. Динамический метод назначения весов

Вес w_i^k термина t^k в тексте D_i определяется как:

w_i^k = IV_i^k,

где IV_i^k – информативность (Information Value) термина t^kв тексте D_i, принимает значения от 0 до 2.

нформативность того или иного термина определяется экспериментально, а первоначально всем терминам приписываются одинаковые значения информативности, например, равные 1 (точка на рисунке).

Таким образом, начальными условиями для динамического назначения информативности для каждого t_i^k являются: IV_i^k = 1 и x_i^k = 0. Тогда в случае полезности термина в процессе его использования его информативность увеличивается, а в случае бесполезности – уменьшается, причем указанные изменения имеют синусоидальный характер.

IV IV=1+sin(x)

-/2 0 /2 x

Увеличение (+) или уменьшение (-) информативности выполняется по формуле

где , ;

c – константа, имеющая смысл: число экспериментов для установления информативности термина.

Таким образом, в результате индексирования набора из n текстов (любым из рассмотренных методов) формируется справочник со структурой:

Термин t^k	Текст D_i
Термин t^k	Ф1	Ф2	...	Фn
t¹	w₁¹	w₂¹		w_n¹
t²	w₁²	w₂²		w_n²
...
t^T	w₁^T	w₂^T		w_n^T

Такие справочники характерны для инвертированных файлов.

4.3. Кластеризация текстов

Для организации хранения кластерных файлов требуется их разбиение на кластеры.

Методы кластеризации основаны на построении полной матрицы подобия текстов заданного пространства, в которой для каждой пары текстов D_i, D_j приводится коэффициент подобия S(D_i,D_j). Затем вводится некоторое пороговое значение коэффициента подобия Ŝ: если S(D_i,D_j)> Ŝ, тексты D_i, D_jвключаются в кластер, иначе – не включаются.

4.4. Поиск релевантных текстов

Как отмечалось, наиболее употребляемыми на практике являются два способа – инвертированные и кластерные файлы. Рассмотрим, как решается задача поиска релевантных текстов в этих случаях.

4.4.1. Поиск в инвертированных файлах

Пусть есть пространство текстов размером n, каждый из которых характеризуется вектором V_i = {(t^k; w^k_i)}. Пусть запрос содержит множество ключевых слов (терминов): q = ({t^k_q}). Определим формально текст, релевантный запросу q, как такой текст ТБД, для которого коэффициент подобия с запросом отличен от нуля.

Для расчета коэффициента подобия запроса и текстов ТБД применяются вектора текстов и запроса. Определим вектор запроса V_q:

V_q = {(t^k_q; w^k_q)},

где t^k_q – термин запроса;

w^k_q - вес этого термина.

Тексты D_i характеризуются векторами V_i:

V_i = {(t^k; w^k_i)},

где t^k – термин вектора текста – индексационный термин;

w^k_i - вес этого термина:

Тогда при поиске релевантного текста (текстов) по запросу q рассчитываются коэффициенты подобия запроса и каждого из текстов ТБД:

После определения релевантных текстов возможны два подхода:

тексты упорядочиваются по убыванию релевантности, т.е. коэффициента подобия запросу, и предоставляются пользователю в таком упорядоченном виде;
вводится пороговый коэффициент подобия Ŝ: пользователю выдаются только те тексты ТБД, для которых подобие с запросом превышает пороговое значение.

<<< < Предыдущая 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 2829 / 3429 30 31 32 33 34 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.08.201967.07 Кб4лекции Банковское право 2.doc
#
05.08.2019294.4 Кб5лекции КРИМИНАЛИСТИКА экз.doc
#
13.08.201976.8 Кб8Лекции КРИМИНОЛОГИЯ экз.doc
#
16.09.2019155.14 Кб11Лекции Миненка по криминологии.doc
#
15.09.2019237.06 Кб5лекции по зп.doc
#
16.11.2019330.27 Кб26Лекции по ИС.docx
#
23.11.201951.2 Кб4Лекции тема 10 17 в.-нач 18.doc
#
20.09.2019253.44 Кб4Лекции ч1.doc
#
28.07.201952.74 Кб5лекции-гпзс.doc
#
28.07.201994.21 Кб14лекции-жп.doc
#
14.07.2019117.25 Кб17лекции-мп2.doc