Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lecture 25.doc
Скачиваний:
57
Добавлен:
08.06.2015
Размер:
535.55 Кб
Скачать

2.1.2.4.3. (25) Модели синтагматического подхода

Синтагматический подходпредполагает измерение семантических расстояний в тексте и между текстами. Исходный тезис таков: обращение к корпусу позволяет использовать данные о значении слова, хранящиеся «вне» языкового знака, и определять содержательную близость лексических единиц, сопоставляя их синтагматические свойства.

Таким образом, процедура автоматической классификации текстов обычно включает две основные части:представление текстов в виде векторов признаковипостроение классификатора на созданном массиве векторов. Необходимость представления текстов в виде векторов признаков определяется тем обстоятельством, что все методы классификации требуют, чтобы классифицируемые объекты были представлены в виде последовательностей чисел одинакового размера и одинакового формата.

Текст можно рассматривать как иерархическую структуруи анализировать на любом уровне как последовательность отдельных составляющих его элементов (символов, словоформ, грамматических классов и т.д.) или групп элементов длиной n, называемых n-граммами. Исходя из того, (26)какой элемент текста рассматривать в качестве компонента вектора признаков, выделяют два основных способа представления текста:полиграммная модель (или модель n-грамм)имодель терм – документ.

(27) Способы представления текста

Основная идея модели терм-документочень проста: текст описывается лексическим вектором в евклидовом пространстве, каждой компоненте вектора соответствует некоторый объект, содержащийся в тексте (слово, словосочетание, названия фирм, должности, имена и т. п.), который называется термом.Каждому используемому в тексте терму ставится в соответствие его вес (значимость), определяемый на основе статистической информации о его встречаемости в отдельном тексте.Размерность вектора — это количество термов, которые встречаются в текстах.

Классической алгебраической моделью в рамках такого представления текста является векторно-пространственная (Vector Space Model) модель.

(28) Векторно-пространственная модель. Согласно веденной ранее трехосновной алгебраической системе (2.3) обозначим какD- коллекцию документов (текстов),T- множество всех термов (словарь коллекции),tf(ti,dj)— число вхождений термаtiв документdj,df(ti)- число документов коллекцииD, содержащих термti. В рамках этой модели каждому термуtiв документеdjсопоставляется некоторый неотрицательный весwij.Следовательно, образ каждого документа может быть представлен в виде многомерного вектора,W(dj)=(w1j, w2j,...,wij, …,w|T|j), где|T|- общее количество различных термов во всех документах (мощность множестваТ). Согласно векторной модели,близость документовоценивается каккорреляция между векторами их описаний. Эта корреляция может быть вычислена как скалярное произведение соответствующих векторов описаний.

Один из возможных подходов - использовать в качестве веса терма wij в документе dj нормализованную частоту его использования в данном документе:

wij = tf(ti,dj)/ |dj|,

где |dj| - число термов в документе.

Этот подход не учитывает частоту отдельного терма во всем информационном массиве, так называемую, дискриминационную силу терма. Поэтому в случае, когда доступна статистика использования термов во всем информационном массиве, более эффективно следующее правило вычисления весов:

wij = tf(ti,dj) *log |D|/nj = tfij *idf(tj),

где nj - число документов, в которых содержащих терм tj, |D| - мощность множества D (общее число документов в массиве), величина idf(tj) получила название инверсная частота терма (inverse document frequency).

В случае если терм ti не входит в документ dj, вес терма wij=0.

По поводу приведенной формулы можно заметить следующее: вес терма ti тем выше, чем чаще встречается этот терм в данном документе dj, и чем реже в остальных документах коллекции. Таким образом, делается попытка присвоить больший вес тем терминам, которые «отличают» данный текст от остальных текстов коллекции C.

Необходимо учесть различную длину документов коллекции. Поэтому, обычно, веса wij нормируются: дополнительно делятся на квадратный корень из суммы весов всех термов, входящих в документ, что позволяет рассматривать документ как ортонормированный вектор.

В качестве меры близости документов d1 и d2 можно взять скалярное произведение  sim(d1,d2) = W(d1)∙W(d2) равное косинусу угла между векторами - образами документов d1 и d2. Величина sim(d1,d2) принадлежит диапазону [0,1]. При этом для любого документа d имеем sim(d,d) = 1. Таким образом, чем больше величина sim(d1,d2) тем ближе считаются документы d1 и d2.

(29) Векторно-пространственная модель представления данных обеспечивает системам, построенным на ее основе, такие возможности:

  • обработку сколь угодно больших запросов;

  • простую реализацию режима поиска документов, подобных уже найденным;

  • сохранение результатов поиска в некотором виртуальном массиве, с последующим уточняющим поиском в нем.

В зависимости от выбора терма можно обеспечить такие возможности:

  • возможный учет морфологии, когда все формы одного слова соответствуют одному термину;

  • возможный учет синонимии, так что слова - синонимы, объявляются одним термином словаря;

  • возможность учета устойчивых словосочетаний, так что в качестве термина может выступать не отдельное слово, а несколько связанных слов, образующих единое понятие.

Модель n-грамм. В полиграммной модели со степенью n и основанием M текст представляется вектором {fi}, i=1..Mn, где fi – частота встречаемости i-ой n-граммы в тексте. n-грамма является последовательностью подряд идущих n символов вида a1…an-1an, причем символы ai принадлежат алфавиту, размер которого совпадает с M. Непосредственно номер n-граммы определяется как

Mn r(an) + Mn-1 r(an-1) +...+r(a1),

где – порядковый номер символаai в алфавите.

Предполагается, что частота появления n-граммы в тексте несет важную информацию о свойствах документа, поэтому является информативным признаком при представлении текстов документов. Кроме того, максимальное количество n-грамм постоянной длины для данного языка фиксировано и не зависит от объема обучающего корпуса текстов. Так, например, для русского языка, как правило, используется модель со степенью n=3 (триграммная модель) и основанием M=33, при этом применяется русский алфавит с естественной нумерацией символов r("А") = 1, r("Б") = 2, ..., r("Я") = 32. Все остальные символы считаются пробелами с нулевыми номерами. Несколько подряд идущих пробелов считаются одним. С учетом этого размерность вектора для произвольного текста жестко фиксирована и составляет 333 = 35937 элемента. Однако, как показывает практика, в реальных текстах реализуется не более 25-30 процентов n-грамм от общего допустимого их числа, т.е. для русского языка их не более 7000. Кроме того, сведения о биграммах и триграммах символов наиболее частых слов русского языка существуют в электронном виде и находятся в свободном доступе [5].

Достоинствами полиграммной модели являются:

  • отсутствие необходимости дополнительной лингвистической обработки;

  • фиксированная размерность векторов и простота получения векторного описания текста.

К недостаткам отнесем следующее:

  • отражение векторами {fi} содержания текста не всегда адекватно (такой моделью плохо отражается содержание небольших текстов; модель больше подходит для определения языка текста, чем для классификации по тематике),

  • в соответствии с предыдущим пунктом возникает необходимость более тщательного подбора обучающей выборки текстов.

Количественное описание семантических связей, наблюдаемых в языке и в тексте, построение классификаторов на их основе невозможно без обращения к методам теории вероятностей, математической статистики, теории множеств, теории информации, теории распознавания образов и предполагает разработку специализированных алгоритмов и программ.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]