- •Министерство образования и науки Российской Федерации
- •Оглавление
- •2. Поиск данных и документов для подготовки и принятия
- •3. Модели и алгоритмы поиска документов
- •4. Модель запросов лпр в среде распределенных
- •5. Система поддержки принятия решений на основе
- •6. Система информационно-лингвистического обеспечения
- •Введение
- •1. Распределенные системы поддержки
- •Принятия решений
- •1.1. Понятие систем поддержки принятия решений
- •1.2. Типовые архитектуры систем поддержки
- •Принятия решений
- •1.3. Анализ возможностей современных систем
- •Поддержки принятия решений
- •1.3.1. Система поддержки принятия решений парус
- •1.3.2. Система поддержки принятия решений
- •На платформе Oracle
- •2. Поиск данных и документов
- •2.1.2. Метапоисковые системы
- •2.2. Поиск информации о производственных
- •Ситуациях в информационно-управляющих
- •Системах
- •2.3. Поиск документов на основе построения
- •Терминологического базиса
- •2.4. Контекстно-поисковые процедуры на основе
- •Реляционных баз данных
- •3. Модели и алгоритмы поиска
- •3.2. Алгоритмы и модели информационного поиска
- •3.2.1. Алгоритм PageRing
- •3.2.2. Алгоритм Клейнберга и его модификации
- •3.2.3. Латентно-семантический анализ
- •3.2.4. Алгоритмы морфологического анализа текстов
- •3.2.5. Модели ранжирования
- •3.2.6. Модель определения релевантности
- •3.3. Оценка качества поисковых алгоритмов
- •4. Модель запросов лпр в среде
- •Распределенных информационных ресурсов информационно-управляющих систем
- •4.1. Процедуры формирования модели запросов лпр
- •4.2. Характеристики модели запросов лпр
- •4.3. Методология plsa в области
- •Извлечения информации
- •4.3.1. Частотная терминологическая модель запросов лпр
- •4.3.2. Динамический профиль лпр в информационно-управляющих системах
- •4.3.3. Алгоритм непрерывной корректировки профиля лпр
- •4.4. Мультилингвистическая поисковая система
- •Для подготовки и принятия решения в корпоративных
- •Информационно-управляющих системах
- •4.5. Алгоритмы организации работы
- •При обработке информации в системе
- •Поддержки принятия решений
- •4.6. Программная реализация предложенных
- •Алгоритмов
- •5. Система поддержки
- •Принятия решениЙ на основе Информационно-терминологического
- •5.1. Лексико-семантическая база данных
- •Типа WordNet для русского языка
- •5.2. Тезаурус sdk
- •5.3. Тезаурус rco for Oracle
- •5.4. Синтез структуры распределенной системы
- •Поддержки принятия решений на основе тезауруса
- •И его мультилингвистическая модификация
- •6. Система информационно-лингвистического
- •Обеспечения распределенных систем
- •Поддержки принятия решений
- •6.1. Алгоритм работы поисковой подсистемы
- •6.2. Функциональные возможности подсистемы
- •Синтеза структуры распределенной системы
- •Поддержки принятия решений
- •6.3. Программная реализация системы
- •Информационно-лингвистического обеспечения распределенных систем поддержки принятия решений
- •Заключение
- •Библиографические ссылки
- •Мультилингвистические технологии подготовки и принятия решений в распределенных информационно-управляющих системах
- •660014, Г. Красноярск, просп. Им. Газ. «Красноярский рабочий», 31.
3.2.3. Латентно-семантический анализ
Латентно-семантический анализ (LatentSemanticAnalisys) – теория и метод для извлечения контекстно-зависимых значений слов при помощистатистической обработки больших наборов текстовых данных [35]. В последние годы этот метод не раз использовался как в области поиска информации [84; 97], так и при решении задач фильтрации и классификации [97].
Латентно-семантический анализ основывается на том, что совокупность всех контекстов, в которых встречается и не встречается данное слово, задает множество обоюдных ограничений, которые в значительной степенипозволяют определить похожесть смысловых значений слов и множеств между словами.
В качестве исходной информации LSA использует матрицу «Термы в документах», описывающую используемый для обучения системы набор данных, где в столбцы заносятся слова и словоформы, а в строки – документы. Элементами матрицы являются частоты словоформ.
Наиболее распространенный вариант LSA основан на разложении матрицы по сингулярным значениям (SVD1.8) [93]. Использование SVD позволяет разложить огромную исходную матрицу во множество изkортогональных матриц (обычноk= 70…200), линейная комбинация которых является неплохим приближением исходной матрицы.
Согласно теореме о сингулярном разложении [93], любая вещественная прямоугольная матрицаXболее формально может быть разложена в произведение трех матриц:
, (3.3)
где UиV– ортогональные матрицы;– диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицыX. Такое разложение характеризуется тем, что если в матрицеоставить толькоkнаибольших сингулярных значений, а в матрицахUиV– только соответствующие этим значениям столбцы, то произведение получившихся матрицlsa,UlsaиVlsaбудет наилучшим приближением исходной матрицыXматрицей рангаk:
(3.4)
Основная идея латентно-семантического анализа состоит в том, что если в качестве Xиспользовалась матрица «Термы в документах», то матрицасодержащая толькоkпервых линейно независимых компонентX, отражает основную структуру ассоциативных зависимостей, присутствующих в исходной матрице, и не содержит шума. Таким образом, каждый терм и документ представляются при помощи векторов в общем пространстве размерностиk, называемом пространстве гипотез. Близость между любой комбинацией термов и/или документов может быть легко вычислена при помощи скалярного произведения векторов.
В настоящее время не существует обоснованного метода выбора размерности k. В идеалеkдолжно быть достаточно велико для отображения всей реально существующей структуры данных, но в то же время достаточно мало, чтобы не захватить случайные и маловажные зависимости. Если выбранное значениеkслишком велико, то методLSAтеряет свои преимущества и приближается по характеристикам к стандартным векторным методам. Слишком маленькое значениеkне позволяет улавливать различия между похожими словами или документами. Исследования показывают, что с ростомkкачество поиска сначала возрастает, а потом начинает падать [78].