Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2.4 10_вопрос.doc
Скачиваний:
1
Добавлен:
03.08.2019
Размер:
49.15 Кб
Скачать

Модели поиска информации

Модель поиска текстовой информации характеризуется четырьмя параметрами:

  • представлением документов и запросов;

  • критерием смыслового соответствия;

  • методами ранжирования результатов запросов;

  • механизмом обратной связи, обеспечивающим оценку релевантности пользователем.

Рассмотрим некоторые модели поиска информации.

Булева модель представляет документы с помощью набора терминов, присутствующих в индексе, каждый из которых рассматривается как булева переменная. При наличии термина в документе соответствующая переменная принимает значение True. Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций OR или NOT. Мерой соответствия запроса документу служит значение статуса выборки RSV. В булевой модели RSV равно либо 1 (документ релевантен), если для данного документа вычисление выражения запроса дает True, либо 0 в противном случае.

Хотя такая модель позволяет пользователям вводить в запросы произвольные сложные выражения, эффективность поиска невелика. К тому же ранжировать результаты невозможно, так как все найденные документы имеют одинаковые RSV, а терминам нельзя присвоить весовые коэффициенты. Могут быть и ошибки. Например, запрос, содержащий десять терминов, связанных операцией AND, не обнаружит нужный документ, содержащий меньшее количество терминов. В указанном случае необходима обратная связь с пользователем.

Модель нечетких множеств основывается на теории нечетких множеств, допускающей частичную принадлежность элемента тому или иному множеству. Здесь логические операции переопределены так, чтобы учесть возможность неполной принадлежности множеству, а обработка запросов пользователя выполняется аналогично булевой модели.

Пространственно-векторная модель основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом их n нормированных векторов терминов. Значение первого компонента вектора, представляющего документ, отражает вес термина в нем. Запрос пользователя также представляется n-мерным вектором. Показатель RSV, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа. Чем больше RSV, тем выше релевантность документа запросу.

Вероятностные модели подразумевают, что векторы терминов ортогональны и существующие взаимосвязи между терминами не имеют значения. Модель базируется на вероятности релевантности и нерелевантности документа запросу, которые вычисляются на основе фактического присутствия терминов в документе.

Методы обратной связи с пользователем

В отличие от среды баз данных в ДИПС нет четкого представления документов и пользовательских запросов. Обычно запрос неточен и неполон, что приводит к низкой эффективности поиска. Необходимо уточнение методом итераций с обратной связью с пользователем.

Существует два подхода к использованию обратной связи: модификация запроса и модификация представления документов. Методы, модифицирующие представление запроса, влияют только на текущий сеанс, но никак не сказываются на обработке других запросов. Модификация представления документов меняют эффективность поиска и в последующих запросах.

Возможны три способа повышения эффективности поиска путем модификации представления запроса. Первый – модификация весов терминов с учетом как положительных, так и отрицательных результатов поиска. Второй – расширение запроса, когда к исходному запросу добавляют новые термины. Эти термины могут выбираться из документов с положительной обратной связью. Третий способ – расщепление запроса. Базируется на кластеризации документов с положительной обратной связью и выявлении нескольких однородных кластеров. Запрос разбивается на подзапросы таким образом, чтобы каждый подзапрос представлял один кластер. Затем можно настроить весовые коэффициенты терминов запроса или расширить его с помощью изложенных выше методов.

Модификация представления документов (кластеризация) предусматривает настройку векторов документов на основе обратной связи. Корректируются весовые коэффициенты векторов, попавших в выборку, с тем чтобы приблизить их к вектору запроса. В то же время веса найденных нерелевантных документов модифицируются таким образом, чтобы отдалить их от векторов запроса.