Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Балтийский федеральный университет им. И.Канта

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Лекции по ИС.docx

Скачиваний:

Добавлен:

16.11.2019

Размер:

330.27 Кб

Скачать

☆

<<< < Предыдущая 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2728 / 3428 29 30 31 32 33 34 > Следующая >>>

4.2.2.1. Частотные модели

В применение частоты для оценки значимости термина вкладывают следующий смысл: чем чаще используется тот или иной термин, тем теснее он связан с семантикой текста. Этот тезис побуждает связать вес w_i^k термина t^k в тексте D_i напрямую с частотой, т.е. w_i^k = f_i^k. Однако этого делать нельзя по двум причинам:

бóльшей частотой могут обладать служебные слова типа предлогов, союзов и т.п., которые не связаны с выражением семантики текста;
минимальной частотой могут характеризоваться «узкие» термины, которые хорошо отражают семантику текста.

По этим соображениям формула для расчета веса термина приобретает вид:

w_i^k = f_i^k* К,

где К – коэффициент, который рассчитывается по разным зависимостям в соответствии с разновидностью частотных моделей.

Так, модель, использующую текстовую частоту термина, определяет К:

К = IDF^k,

где IDF^k (Inverse Document Frequency) – обратная частота t^k в наборе из n текстов:

IDF^k = ,

D^k – текстовая частота - число текстов набора из n, в которых есть t^k.

Модель, учитывающая соотношение «сигнал-шум», рассчитывает К как:

где N^k – шум термина t^k в наборе из n текстов:

- суммарная частота термина t^k в наборе из n текстов,

S^k - сигнал термина t^k в наборе из n текстов:

Модель, учитывающая распределение частоты термина, определяет К по формуле:

где - средняя частота термина t^k в наборе из n текстов:

(V^k)² - среднеквадратическое уклонение термина t^k:

4.2.2.2. Модель, учитывающая различительную силу термина

В этой модели «хорошим», т.е. имеющим бóльший вес, считается термин, уменьшающий коэффициент подобия текстов. Вес термина здесь также прямо пропорционален его частоте, однако в расчете коэффициента К учитывается роль термина в усилении или уменьшении подобия текстов, что исключает данный метод из числа частотных.

Введем некоторые понятия:

вектор V_i текста D_i: V_i = {(t^k, f_i^k)} или V_i = {(t^k, w_i^k)};
коэффициент подобия S(D_i, D_j) текстов D_i и D_j:

где T = |{t^k}| - число индексационных терминов.

Коэффициент подобия принимает значения от 0 до 1: при 0 тексты различны, при 1 – полностью идентичны (по смыслу).

В данной модели К = DV^k

где - различительная сила (Difference Volume) термина t^k:

- среднее значение коэффициента попарного подобия текстов данного набора в присутствии термина t^k:

- то же в отсутствие термина t^k.

Недостатком данной модели является то, что для вычисления средних попарных подобий текстов из набора n текстов требуется n² операций. Модификация этого метода использует понятие пространства текстов и его характеристик - профиля и плотности пространства текстов.

Пространство текстов – множество текстов, каждый из которых характеризуется вектором. Профиль П пространства из n текстов – это виртуальный текст, вектор которого V_П определяется как:

V_П = {(t_П^k, f_П^k)},

где {t_п^k} = , т.е.множество {t_п^k} индексационных терминов есть объединение индексационных терминов текстов набора,

, т.е. частоты терминов есть усредненные частоты терминов по текстам набора.

Плотность Q пространства текстов:

где S(П,D_i) – коэффициент подобия профиля и текста D_i:

Чем больше Q, тем больше сходство между текстами набора.

С использованием плотности пространства Q можно по другому определить различительную силу DV^k термина t^k:

DV^k = Q^k – Q,

где Q^k – плотность пространства текстов, когда термин t^k исключен из всех текстов набора n,

Q - плотность пространства текстов в присутствии термина t^k.

<<< < Предыдущая 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2728 / 3428 29 30 31 32 33 34 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.08.201967.07 Кб4лекции Банковское право 2.doc
#
05.08.2019294.4 Кб5лекции КРИМИНАЛИСТИКА экз.doc
#
13.08.201976.8 Кб8Лекции КРИМИНОЛОГИЯ экз.doc
#
16.09.2019155.14 Кб11Лекции Миненка по криминологии.doc
#
15.09.2019237.06 Кб5лекции по зп.doc
#
16.11.2019330.27 Кб26Лекции по ИС.docx
#
23.11.201951.2 Кб4Лекции тема 10 17 в.-нач 18.doc
#
20.09.2019253.44 Кб4Лекции ч1.doc
#
28.07.201952.74 Кб5лекции-гпзс.doc
#
28.07.201994.21 Кб14лекции-жп.doc
#
14.07.2019117.25 Кб17лекции-мп2.doc