3.2.3. Латентно-семантический анализ

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Сибирский государственный университет науки и технологий им. академика М.Ф. Решетнева

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc

Скачиваний:

129

Добавлен:

06.03.2016

Размер:

3.28 Mб

Скачать

☆

<<< < Предыдущая 3 4 5 6 7 8 9 10 11 12 13 1415 / 3315 16 17 18 19 20 21 22 23 24 25 26 27 > Следующая >>>

3.2.3. Латентно-семантический анализ

Латентно-семантический анализ (LatentSemanticAnalisys) – теория и метод для извлечения контекстно-зависимых значений слов при помощистатистической обработки больших наборов текстовых данных [35]. В последние годы этот метод не раз использовался как в области поиска информации [84; 97], так и при решении задач фильтрации и классификации [97].

Латентно-семантический анализ основывается на том, что совокупность всех контекстов, в которых встречается и не встречается данное слово, задает множество обоюдных ограничений, которые в значительной степенипозволяют определить похожесть смысловых значений слов и множеств между словами.

В качестве исходной информации LSA использует матрицу «Термы в документах», описывающую используемый для обучения системы набор данных, где в столбцы заносятся слова и словоформы, а в строки – документы. Элементами матрицы являются частоты словоформ.

Наиболее распространенный вариант LSA основан на разложении матрицы по сингулярным значениям (SVD1.8) [93]. Использование SVD позволяет разложить огромную исходную матрицу во множество изkортогональных матриц (обычноk= 70…200), линейная комбинация которых является неплохим приближением исходной матрицы.

Согласно теореме о сингулярном разложении [93], любая вещественная прямоугольная матрицаXболее формально может быть разложена в произведение трех матриц:

, (3.3)

где UиV– ортогональные матрицы;– диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицыX. Такое разложение характеризуется тем, что если в матрицеоставить толькоkнаибольших сингулярных значений, а в матрицахUиV– только соответствующие этим значениям столбцы, то произведение получившихся матриц_lsa,U_lsaиV_lsaбудет наилучшим приближением исходной матрицыXматрицей рангаk:

(3.4)

Основная идея латентно-семантического анализа состоит в том, что если в качестве Xиспользовалась матрица «Термы в документах», то матрицасодержащая толькоkпервых линейно независимых компонентX, отражает основную структуру ассоциативных зависимостей, присутствующих в исходной матрице, и не содержит шума. Таким образом, каждый терм и документ представляются при помощи векторов в общем пространстве размерностиk, называемом пространстве гипотез. Близость между любой комбинацией термов и/или документов может быть легко вычислена при помощи скалярного произведения векторов.

В настоящее время не существует обоснованного метода выбора размерности k. В идеалеkдолжно быть достаточно велико для отображения всей реально существующей структуры данных, но в то же время достаточно мало, чтобы не захватить случайные и маловажные зависимости. Если выбранное значениеkслишком велико, то методLSAтеряет свои преимущества и приближается по характеристикам к стандартным векторным методам. Слишком маленькое значениеkне позволяет улавливать различия между похожими словами или документами. Исследования показывают, что с ростомkкачество поиска сначала возрастает, а потом начинает падать [78].

<<< < Предыдущая 3 4 5 6 7 8 9 10 11 12 13 1415 / 3315 16 17 18 19 20 21 22 23 24 25 26 27 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
17.03.201533.06 Кб11Kontrolnaya_rabota.docx
#
12.07.201979.36 Кб9Kontrolnaya_rabota_dlya_zaochnikov.doc
#
17.03.2015313.32 Кб17Kontrolnye_semestrovye_zadanija_po_discipline.pdf
#
17.03.2015963.07 Кб19kontr_detali.doc
#
06.03.2016564.85 Кб41Kopia_Laboratornaya_1_Programmir__Avtosokhrane (1).docx
#
06.03.20163.28 Mб129Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc
#
28.04.2019491.4 Кб17kpzs.docx
#
17.03.2015387.58 Кб23Kramida_Otchety_1_2.doc
#
06.03.20161.14 Mб112Kuklina_Kireeva2007.doc
#
06.03.20161.92 Mб49Kursach_BD.docx
#
17.03.2015147.46 Кб24kursovaya_menedzhment 4 семестр.doc