2.1.2.4.1. (20) Классификация на основе сравнения перечней индексов

Простая классификация осуществляется определением степени пересечения индекса анализируемого текста и индексов рубрик. В этом случае мера сравнения есть просто пересечение:

где просто вычисляется число слов индекса в пересечении. Если учитывать мощность множеств XиY, получим нормированную меру:

2.1.2.4.2. (21) Парадигматический подход

Парадигматический подход предполагает измерение семантических расстояний в лексиконе. Исходный тезис таков: семантическую близость следует определять, опираясь на данные о значении, хранящиеся «внутри» языкового знака, а не за его пределами.

Определив (22) лексикон языка как сложным образом упорядоченное множество классов слов, связанных парадигматическими отношениями (семантических полей или группировок иного толка, например, лексико-семантических групп, синонимических рядов), иописав значения единиц данных классов с помощью набора неких семантических признаков, можно применить к описанию языкового материала несложный математический аппарат.Класс лексических единиц при этом интерпретируется как n-мерное метрическое пространство, в котором каждое из значений лексем можно задать как точку или вектор.Для пары лексем расстояниеопределяется через число совпадающих или различающихсясемантических признаковв их значениях.

Покажем это (23) на примеренаиболее известного лексикографического ресурса, оснащённого специализированным модулем для определения количественных оценок тесноты связей между значениями слов, – компьютерноготезауруса WordNet.

WordNet это семантический словарь английского языка, базовой словарной единицей которого является синонимический ряд, так называемый «синсет», объединяющий слова со схожим значением. Синсеты связаны между собой различными семантическими отношениями. WordNet содержит приблизительно 155 тысяч различных лексем и словосочетаний, организованных в 117 тысяч синсетов, разбитых по частям речи: существительные, глаголы, прилагательные и наречия.

Чтобы воспользоваться информацией WordNet в классификаторе, необходимо решить задачу устранения лексической многозначности слов. Разрешение лексической многозначности (WordSenseDisambiguation, WSD) — решается выбором значения (концепта) многозначного слова или фразы из множества их значений (концептов)в зависимости от контекста, в котором данное слово находится. Одним из эффективных методов устранения лексической многозначности на базе WordNet является метод, основанный на оценке семантической близости концептов WordNet с помощьюконтекстных векторов второго порядка[3].

(24) В определении значений слов существенную роль играет контекст. Одно и тоже значение слова, как правило, употребляется в одинаковом контексте. Контекстные векторы широко используются в информационном поиске и в задачах обработки естественного языка. Контекстный векторуказывает на все слова вместе с которыми словоwвстречается в тексте. Векторы, сформированные из контекстных векторов (контекстные векторы второго порядка), можно использовать для представления значений слов [4].

Чтобы построить контекстные векторы второго порядка (векторы дефиниций) для синсетов WordNet, сначала определяется пространство слов W. Оно обычно представляется матрицей, строки которой являются контекстными векторами первого порядка. Значения на пересечениях строк и столбцов указывают на частоты совместной встречаемости двух слов в тексте. Определив пространство слов, контекст можно представить как сумму контекстных векторов первого порядка слов, определяющих этот контекст.

Итак, пространство слов W определяется множеством контекстных векторов первого порядка. Чтобы построить контекстный вектор первого порядка для слова w, необходимо последовательно выполнить следующие действия:

1. Инициализировать контекстный вектор первого порядка нулевыми значениями.

2. Найти каждое вхождение слова w в тексте.

3. Для каждого вхождения слова w увеличить значения вектора в позициях соответствующих словам из пространства слов, которые находятся на заданном расстоянии от словаw в тексте.

Таким образом, контекстный вектор первого порядка содержит информацию о совместной встречаемости словаwс этими словами.

В качестве корпуса текстов для построения контекстных векторов первого порядка используются дефиниции синсетов WordNet. Такой корпус содержит приблизительно 1,4 миллиона слов, а размерность пространства слов составляет порядка 20 тысяч без учета редко встречающихся и так называемых стоп-слов (стоп-слова – это наиболее распространенные, встречающиеся в большинстве документов, и чаще всего высокоранговые – в смысле закона Ципфа – слова, которые не несут высокой смысловой нагрузки и обычно используются для связи слов в предложении).

У ресурсов типа WordNet есть свои преимущества (например, возможность дифференцировать различные значения одного и того же слова), однако они уступают корпусным ресурсам, отличающимся не только удобством в практическом использовании и гибкостью, но и известной беспристрастностью. Методы синтагматического подхода, при котором необходимо обращаться к представительному корпусу текстов, дают возможность работать с точными данными, на их основе реконструировать ментальный лексикон человека и готовить разнообразные семантические описания.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1311 12 13 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
14.09.2019460.29 Кб11Lecture 14.doc
#
14.09.20192.72 Mб6Lecture 2.doc
#
08.06.20151.9 Mб33Lecture 21.doc
#
08.06.20151 Mб39Lecture 22.doc
#
29.08.20196.83 Mб6Lecture 23.doc
#
08.06.2015535.55 Кб57Lecture 25.doc
#
14.09.20191.02 Mб7Lecture 3.doc
#
14.09.2019541.7 Кб10Lecture 4.doc
#
08.06.2015123.39 Кб22Lecture 41.doc
#
08.06.2015208.38 Кб18Lecture 42.doc
#
08.06.2015466.94 Кб57Lecture 43.doc