- •Министерство образования и науки Российской Федерации
- •Оглавление
- •2. Поиск данных и документов для подготовки и принятия
- •3. Модели и алгоритмы поиска документов
- •4. Модель запросов лпр в среде распределенных
- •5. Система поддержки принятия решений на основе
- •6. Система информационно-лингвистического обеспечения
- •Введение
- •1. Распределенные системы поддержки
- •Принятия решений
- •1.1. Понятие систем поддержки принятия решений
- •1.2. Типовые архитектуры систем поддержки
- •Принятия решений
- •1.3. Анализ возможностей современных систем
- •Поддержки принятия решений
- •1.3.1. Система поддержки принятия решений парус
- •1.3.2. Система поддержки принятия решений
- •На платформе Oracle
- •2. Поиск данных и документов
- •2.1.2. Метапоисковые системы
- •2.2. Поиск информации о производственных
- •Ситуациях в информационно-управляющих
- •Системах
- •2.3. Поиск документов на основе построения
- •Терминологического базиса
- •2.4. Контекстно-поисковые процедуры на основе
- •Реляционных баз данных
- •3. Модели и алгоритмы поиска
- •3.2. Алгоритмы и модели информационного поиска
- •3.2.1. Алгоритм PageRing
- •3.2.2. Алгоритм Клейнберга и его модификации
- •3.2.3. Латентно-семантический анализ
- •3.2.4. Алгоритмы морфологического анализа текстов
- •3.2.5. Модели ранжирования
- •3.2.6. Модель определения релевантности
- •3.3. Оценка качества поисковых алгоритмов
- •4. Модель запросов лпр в среде
- •Распределенных информационных ресурсов информационно-управляющих систем
- •4.1. Процедуры формирования модели запросов лпр
- •4.2. Характеристики модели запросов лпр
- •4.3. Методология plsa в области
- •Извлечения информации
- •4.3.1. Частотная терминологическая модель запросов лпр
- •4.3.2. Динамический профиль лпр в информационно-управляющих системах
- •4.3.3. Алгоритм непрерывной корректировки профиля лпр
- •4.4. Мультилингвистическая поисковая система
- •Для подготовки и принятия решения в корпоративных
- •Информационно-управляющих системах
- •4.5. Алгоритмы организации работы
- •При обработке информации в системе
- •Поддержки принятия решений
- •4.6. Программная реализация предложенных
- •Алгоритмов
- •5. Система поддержки
- •Принятия решениЙ на основе Информационно-терминологического
- •5.1. Лексико-семантическая база данных
- •Типа WordNet для русского языка
- •5.2. Тезаурус sdk
- •5.3. Тезаурус rco for Oracle
- •5.4. Синтез структуры распределенной системы
- •Поддержки принятия решений на основе тезауруса
- •И его мультилингвистическая модификация
- •6. Система информационно-лингвистического
- •Обеспечения распределенных систем
- •Поддержки принятия решений
- •6.1. Алгоритм работы поисковой подсистемы
- •6.2. Функциональные возможности подсистемы
- •Синтеза структуры распределенной системы
- •Поддержки принятия решений
- •6.3. Программная реализация системы
- •Информационно-лингвистического обеспечения распределенных систем поддержки принятия решений
- •Заключение
- •Библиографические ссылки
- •Мультилингвистические технологии подготовки и принятия решений в распределенных информационно-управляющих системах
- •660014, Г. Красноярск, просп. Им. Газ. «Красноярский рабочий», 31.
4.3.2. Динамический профиль лпр в информационно-управляющих системах
А теперь рассмотрим новую схему моделирования интересов пользователя, основанную на инициализации начального профиля и его последовательной корректировке в процессе работы.
Как уже отмечалось, для того чтобы следить и непрерывно анализировать возможные изменения интересов пользователя, в латентное семантическое пространство необходимо ввести понятие временного измерения, рассматривая тем самым уже не само латентное семантическое пространство, а его модификацию – временное латентное семантическое пространство [103]. Каждое измерение такого векторного пространства (за исключением временно́го) представляет собой условные вероятности при заданном классе P( | z), документы являются векторами с весовыми коэффициентами (координатами) P(z | d), а временное измерение полагаем равным нулю.
Запросы, как и сами документы, могут быть векторами во временном латентном семантическом пространстве. Кроме весов P(z | Q) у них есть дополнительное (временное) измерение – текущий вес, первоначально равный некоторой положительной величине, уменьшающейся с течением времени исходя из предположения о падении интереса пользователя к определенной тематике при отсутствии ее фигурирования в запросах продолжительное время. Если же пользователь инициирует запрос, связанный с определенной категорией из его текущего профиля, то вес данной категории может быть либо стабилизирован на определенное время, либо увеличен.
Согласно теории латентного семантического пространства, запрос, состоящий из терминов, проецируется в латентное семантическое пространство[92]. Таким образом, гиперповерхностьSi, образованная запросомQi, является пересечением вероятностных поверхностей всех классов, введенных на латентном семантическом пространстве, в которых с определенной вероятностью фигурирует данный термин:
Для реализации запроса используется алгоритм адаптивной коррекции профиля, основанный на неявной обратной связи с пользователем, которая реализуется на основе истории его запросов. На вход алгоритма поступает запрос пользователя, на выходе будет получена одна или более троек (триплетов) вида (Ci,Wi,i), гдеCi– категория интересов;Wi– текущий вес; i – уровень изменчивости (смысл данной величины состоит в том, чтобы отразить, насколько изменяются интересы пользователяв рамках текущего запроса по отношению к прошлым запросам).
Итак, профиль пользователя представляет собой набор троек. При этом он организован таким образом, что интересы пользователя разделены на два типа: краткосрочные (краткосрочный профиль) и долгосрочные (долгосрочный профиль). Как правило, емкость долгосрочного профиля больше емкости краткосрочного. При этом считается, что тройки, в которых величина текущего веса положительная, относятся к краткосрочному профилю, если вес отрицательный, то к долгосрочному профилю. Текущий вес для троек, находящихся в краткосрочном профиле, уменьшается линейно, тогда как для троек, находящихся в долгосрочном профиле, снижение весов экспоненциальное.
Структуру профиля пользователя можно представить в табличном виде (рис. 4.2).
Кино |
Музыка |
Квантовая физика |
Спорт |
Категория |
95 |
85 |
35 |
70 |
Текущий вес |
0.60 |
0.45 |
0.20 |
0.15 |
Уровень изменчивости |
Рис. 4.2. Краткосрочный профиль пользователя
Формально профиль в текущий момент iописывается следующим образом:
Pri = {(Cj, Wj, j)i, j = 1, k}. (4.8)
При этом
Pri = PrRi PrLi, (4.9)
где PrRi = {(Cj, Wj, j)i | Wj 0, j = 1, k } – краткосрочный профиль; PrLi = {(Cj, Wj, j)i | Wj 0, j = 1, k } – долгосрочный профиль.
Уровень изменчивости iрассчитывается как близость двух последовательных запросовQiиQi–1, представленных в пространстве частот их терминов:
(4.10)
где – взвешенные частоты терминов.
На основании приведенных выше расчетов можно сделать вывод о том,что емкость долгосрочного профиля действительно больше емкости краткосрочного.