Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc
Скачиваний:
129
Добавлен:
06.03.2016
Размер:
3.28 Mб
Скачать
      1. 3.2.3. Латентно-семантический анализ

Латентно-семантический анализ (LatentSemanticAnalisys) – теория и метод для извлечения контекстно-зависимых значений слов при помощистатистической обработки больших наборов текстовых данных [35]. В последние годы этот метод не раз использовался как в области поиска информации [84; 97], так и при решении задач фильтрации и классификации [97].

Латентно-семантический анализ основывается на том, что совокупность всех контекстов, в которых встречается и не встречается данное слово, задает множество обоюдных ограничений, которые в значительной степенипозволяют определить похожесть смысловых значений слов и множеств между словами.

В качестве исходной информации LSA использует матрицу «Термы в документах», описывающую используемый для обучения системы набор данных, где в столбцы заносятся слова и словоформы, а в строки – документы. Элементами матрицы являются частоты словоформ.

Наиболее распространенный вариант LSA основан на разложении матрицы по сингулярным значениям (SVD1.8) [93]. Использование SVD позволяет разложить огромную исходную матрицу во множество изkортогональных матриц (обычноk= 70…200), линейная комбинация которых является неплохим приближением исходной матрицы.

Согласно теореме о сингулярном разложении [93], любая вещественная прямоугольная матрицаXболее формально может быть разложена в произведение трех матриц:

, (3.3)

где UиV– ортогональные матрицы;– диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицыX. Такое разложение характеризуется тем, что если в матрицеоставить толькоkнаибольших сингулярных значений, а в матрицахUиV– только соответствующие этим значениям столбцы, то произведение получившихся матрицlsa,UlsaиVlsaбудет наилучшим приближением исходной матрицыXматрицей рангаk:

(3.4)

Основная идея латентно-семантического анализа состоит в том, что если в качестве Xиспользовалась матрица «Термы в документах», то матрицасодержащая толькоkпервых линейно независимых компонентX, отражает основную структуру ассоциативных зависимостей, присутствующих в исходной матрице, и не содержит шума. Таким образом, каждый терм и документ представляются при помощи векторов в общем пространстве размерностиk, называемом пространстве гипотез. Близость между любой комбинацией термов и/или документов может быть легко вычислена при помощи скалярного произведения векторов.

В настоящее время не существует обоснованного метода выбора размерности k. В идеалеkдолжно быть достаточно велико для отображения всей реально существующей структуры данных, но в то же время достаточно мало, чтобы не захватить случайные и маловажные зависимости. Если выбранное значениеkслишком велико, то методLSAтеряет свои преимущества и приближается по характеристикам к стандартным векторным методам. Слишком маленькое значениеkне позволяет улавливать различия между похожими словами или документами. Исследования показывают, что с ростомkкачество поиска сначала возрастает, а потом начинает падать [78].

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]