Модели поиска информации

Модель поиска текстовой информации характеризуется четырьмя параметрами:

представлением документов и запросов;
критерием смыслового соответствия;
методами ранжирования результатов запросов;
механизмом обратной связи, обеспечивающим оценку релевантности пользователем.

Рассмотрим некоторые модели поиска информации.

Булева модель представляет документы с помощью набора терминов, присутствующих в индексе, каждый из которых рассматривается как булева переменная. При наличии термина в документе соответствующая переменная принимает значение True. Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций OR или NOT. Мерой соответствия запроса документу служит значение статуса выборки RSV. В булевой модели RSV равно либо 1 (документ релевантен), если для данного документа вычисление выражения запроса дает True, либо 0 в противном случае.

Хотя такая модель позволяет пользователям вводить в запросы произвольные сложные выражения, эффективность поиска невелика. К тому же ранжировать результаты невозможно, так как все найденные документы имеют одинаковые RSV, а терминам нельзя присвоить весовые коэффициенты. Могут быть и ошибки. Например, запрос, содержащий десять терминов, связанных операцией AND, не обнаружит нужный документ, содержащий меньшее количество терминов. В указанном случае необходима обратная связь с пользователем.

Модель нечетких множеств основывается на теории нечетких множеств, допускающей частичную принадлежность элемента тому или иному множеству. Здесь логические операции переопределены так, чтобы учесть возможность неполной принадлежности множеству, а обработка запросов пользователя выполняется аналогично булевой модели.

Пространственно-векторная модель основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом их n нормированных векторов терминов. Значение первого компонента вектора, представляющего документ, отражает вес термина в нем. Запрос пользователя также представляется n-мерным вектором. Показатель RSV, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа. Чем больше RSV, тем выше релевантность документа запросу.

Вероятностные модели подразумевают, что векторы терминов ортогональны и существующие взаимосвязи между терминами не имеют значения. Модель базируется на вероятности релевантности и нерелевантности документа запросу, которые вычисляются на основе фактического присутствия терминов в документе.

Методы обратной связи с пользователем

В отличие от среды баз данных в ДИПС нет четкого представления документов и пользовательских запросов. Обычно запрос неточен и неполон, что приводит к низкой эффективности поиска. Необходимо уточнение методом итераций с обратной связью с пользователем.

Существует два подхода к использованию обратной связи: модификация запроса и модификация представления документов. Методы, модифицирующие представление запроса, влияют только на текущий сеанс, но никак не сказываются на обработке других запросов. Модификация представления документов меняют эффективность поиска и в последующих запросах.

Возможны три способа повышения эффективности поиска путем модификации представления запроса. Первый – модификация весов терминов с учетом как положительных, так и отрицательных результатов поиска. Второй – расширение запроса, когда к исходному запросу добавляют новые термины. Эти термины могут выбираться из документов с положительной обратной связью. Третий способ – расщепление запроса. Базируется на кластеризации документов с положительной обратной связью и выявлении нескольких однородных кластеров. Запрос разбивается на подзапросы таким образом, чтобы каждый подзапрос представлял один кластер. Затем можно настроить весовые коэффициенты терминов запроса или расширить его с помощью изложенных выше методов.

Модификация представления документов (кластеризация) предусматривает настройку векторов документов на основе обратной связи. Корректируются весовые коэффициенты векторов, попавших в выборку, с тем чтобы приблизить их к вектору запроса. В то же время веса найденных нерелевантных документов модифицируются таким образом, чтобы отдалить их от векторов запроса.

1 / 21 2 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
21.03.20161.06 Mб91_SAOD_-_Dinamicheskie_peremennye_OOP.doc
#
14.08.2019592.9 Кб91Биполярные транзисторы общ.doc
#
15.04.2015236.03 Кб61Стоимость и доходность.doc
#
19.11.2018123.9 Кб32 - Цвет в КГ.doc
#
15.04.2015353.28 Кб182-y_rubezhny_test.doc
#
03.08.201949.15 Кб12.4 10_вопрос.doc
#
15.04.2015294.91 Кб1421 Устройства внешней памяти.doc
#
15.04.2015578.67 Кб2329-2.docx
#
21.03.20161.66 Mб1152_SAOD_-_Dinamicheskie_struktury_dannykh.doc
#
15.04.2015310.27 Кб212Модель CAPM.doc
#
07.08.2019704 Кб73 - Компоненты часть1.doc