4.3. Методология plsa в области

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Сибирский государственный университет науки и технологий им. академика М.Ф. Решетнева

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc

Скачиваний:

129

Добавлен:

06.03.2016

Размер:

3.28 Mб

Скачать

☆

<<< < Предыдущая 9 10 11 12 13 14 15 16 17 18 19 2021 / 3321 22 23 24 25 26 27 28 29 30 31 32 33 > Следующая >>>

4.3. Методология plsa в области
Извлечения информации

Как мы уже отмечали выше, индивидуализация, или персонализация, интерфейса пользователя благодаря алгоритмам его идентификации позво-ляет учитывать неявные интересы АПР и использовать их в контекстетекущего запроса. Тем самым еще на стадии обработки результатов запроса отсеивается большая часть нерелевантных документов.

В настоящее время применение моделей пользователя в адаптивных гипермедиасистемах вызывает большой интерес исследователей. Однако пока еще не предложено эффективных моделей, позволяющих описывать пользователя в режиме реального времени, а тем более производить корректировку модели в соответствии с новой информацией или изменением состояния окружения АГС.

Любая адаптивная гипермедиасистема это прежде всего информационная система, т. е. система, представляющая информацию по некоторой предметной области в удобном для пользователя виде. Удобство представления обеспечивается введением в узлы АГС ссылок и, наряду с текстовой информацией, мультимедиаэлементов. В гипермедиасистемах выделяют два основных способа поиска информации: во-первых, это навигацияпо ссылкам, т. е. перемещение от одного узла системы к другому; во-вторых,это поисковые запросы, т. е. описание необходимой информации в виде строки запроса и активация механизма поиска. В этом случае в ответ на запрос может быть выдана совокупность страниц.

Далее мы будем рассматривать алгоритм непрерывной корректировки модели пользователя на основе текущих запросов в соответствии с методологией вероятностного латентно-семантического анализа (ProbabilisticLatentSemanticAnalysis, PLSA) [42].

Один из распространенных подходов к представлению документов (и запросов) при извлечении информации из Интернета основан на понятии модели векторного гиперпространства [57], которое при использовании методологии латентной семантической индексации заменяется представлением документа в латентном пространстве меньшей размерности [29].

Расширим понятие латентного семантического пространства с учетом текущих интересов пользователя, изменяющихся со временем, для чего должна быть предусмотрена возможность уменьшения или увеличения важности этих интересов. Введем понятие временного измерения в латентном семантическом пространстве и назовем результирующее пространство временны́м латентным семантическим пространством. Это пространство служит для отслеживания динамики изменения интересов (профиля) пользователя с течением времени. Координаты документа и запроса в новом латентном семантическом пространстве рассчитываются аналогично схеме, предложенной Т. Хофманом в работе [92]. Отличие заключается лишь в том, что запросы имеют временное измерение (текущий вес), начальное значение которого задается положительными величинами, убывающими с течением времени.

4.3.1. Частотная терминологическая модель запросов лпр

В настоящее время каждый пользователь Интернета имеет доступ ко всем источникам информации, представленным в нем. Однако качество поиска информации при всей ее доступности очень низкое. В существующих поисковых системах отсутствуют эффективные алгоритмы поиска релевантной информации, т. е. набора релевантных документов, отражающих сущность запроса. И в ответ на запрос такая система может выдать сколь угодно большое количество документов, либо отдаленно отражающих сферу интересов пользователя, либо вовсе не имеющих никакой связи с сутью запроса.

Разработка алгоритмов поиска релевантной информации базируется на двух научных направлениях: традиционное лингвистическое направление, пытающееся научить компьютер естественному языку, и направление, ориентированное на применение статистических методов. При поиске информации предлагается использовать подход PLSA, относящийся ко второму направлению.

В основе PLSA, как мы уже отмечали, лежит модель векторного пространства [44; 45]. При этом любой документ представляется как вектор частот появления определенных терминов в нем. В этом подходе отношения между документами и терминами выражены в виде матрицы смежности A, элементом w_ij которой является частота появления термина t_j в документе d_i.

Обозначим через m количество проиндексированных терминов в коллекциидокументовd, а черезn– количество самих документов. В общем случае элементомw_ijматрицыAявляется некоторый вес, поставленный в соответствие паре «документ–термин» (d_i,t_j). После того как все веса заданы, матрицаAстановится отображением коллекции документов в векторном гиперпространстве. Таким образом, каждый документ можно представить как вектор весов терминов:

A(4.1)

Методология PLSA основана на идее, предложенной в LSA (см. п. 3.2.3) и расширенной следующим образом. В PLSA на латентном семантическом пространстве вводится понятие латентного класса

z Z =z₁, …,z_k,

а также рассматриваются условные вероятности среди документов

d  D =d₁, …,d_k

и терминов

w  W =w₁, …, w_k.

Далее предположим, что распределение слов, принадлежащих данному классу, не зависит от документа и пары наблюдений «документ–термин» (d,w) независимы.

Распределение терминов в документе P(w | d) определяется выпуклойкомбинацией факторов P(w | z) и P(z | d) и записывается следующим образом:

(4.2)

Совместная вероятность документа и термина рассчитывается по соотношению

(4.3)

Используя алгоритм максимизации математического ожидания (Expectation-Maximization (EM) Algorithm), который состоит из двух этапов: Е и М, оценим вероятности P(w | z) иP(z | d),максимизируя логарифми-ческуюфункцию правдоподобия:

(4.4)

где n(d,w) – частота термина в документе, т. е. количество появлений терминаwв документеd.

Вероятность того, что появление термина wв документеdобъясняется принадлежностью их к классуz, на этапе E оценивается как

(4.5)

На этапе М происходит переоценка вероятностей:

(4.6)

В работе [101] Т. Хофман предложил обобщенную модель для оценивания условной вероятности, которую он назвал ослабленной процедурой максимизации математического ожидания (Tempered ExpectationMaximization, TEM).

В этой модели на этапе E в оценку условной вероятности вносится регуляризационный параметр :

(4.7)

Согласно (4.2) любая условная вероятность P(w | d) может быть аппро-ксимирована полиномом, представляющим собой выпуклую комбинацию условных вероятностей P(w | z). Весовые коэффициенты P(z | d) геометрически могут быть интерпретированы как координаты документа в подпространстве, определяемом как латентное семантическое пространство [91].

Именно такое пространство несет в себе основную смысловую нагрузку и формируется по близости расположения точек.

<<< < Предыдущая 9 10 11 12 13 14 15 16 17 18 19 2021 / 3321 22 23 24 25 26 27 28 29 30 31 32 33 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
17.03.201533.06 Кб11Kontrolnaya_rabota.docx
#
12.07.201979.36 Кб9Kontrolnaya_rabota_dlya_zaochnikov.doc
#
17.03.2015313.32 Кб17Kontrolnye_semestrovye_zadanija_po_discipline.pdf
#
17.03.2015963.07 Кб19kontr_detali.doc
#
06.03.2016564.85 Кб41Kopia_Laboratornaya_1_Programmir__Avtosokhrane (1).docx
#
06.03.20163.28 Mб129Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc
#
28.04.2019491.4 Кб17kpzs.docx
#
17.03.2015387.58 Кб23Kramida_Otchety_1_2.doc
#
06.03.20161.14 Mб112Kuklina_Kireeva2007.doc
#
06.03.20161.92 Mб49Kursach_BD.docx
#
17.03.2015147.46 Кб24kursovaya_menedzhment 4 семестр.doc

4.3. Методология plsa в области

Извлечения информации

4.3.1. Частотная терминологическая модель запросов лпр