Модели поиска информации
Модель поиска текстовой информации характеризуется четырьмя параметрами:
представлением документов и запросов;
критерием смыслового соответствия;
методами ранжирования результатов запросов;
механизмом обратной связи, обеспечивающим оценку релевантности пользователем.
Рассмотрим некоторые модели поиска информации.
Булева модель представляет документы с помощью набора терминов, присутствующих в индексе, каждый из которых рассматривается как булева переменная. При наличии термина в документе соответствующая переменная принимает значение True. Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций OR или NOT. Мерой соответствия запроса документу служит значение статуса выборки RSV. В булевой модели RSV равно либо 1 (документ релевантен), если для данного документа вычисление выражения запроса дает True, либо 0 в противном случае.
Хотя такая модель позволяет пользователям вводить в запросы произвольные сложные выражения, эффективность поиска невелика. К тому же ранжировать результаты невозможно, так как все найденные документы имеют одинаковые RSV, а терминам нельзя присвоить весовые коэффициенты. Могут быть и ошибки. Например, запрос, содержащий десять терминов, связанных операцией AND, не обнаружит нужный документ, содержащий меньшее количество терминов. В указанном случае необходима обратная связь с пользователем.
Модель нечетких множеств основывается на теории нечетких множеств, допускающей частичную принадлежность элемента тому или иному множеству. Здесь логические операции переопределены так, чтобы учесть возможность неполной принадлежности множеству, а обработка запросов пользователя выполняется аналогично булевой модели.
Пространственно-векторная модель основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом их n нормированных векторов терминов. Значение первого компонента вектора, представляющего документ, отражает вес термина в нем. Запрос пользователя также представляется n-мерным вектором. Показатель RSV, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа. Чем больше RSV, тем выше релевантность документа запросу.
Вероятностные модели подразумевают, что векторы терминов ортогональны и существующие взаимосвязи между терминами не имеют значения. Модель базируется на вероятности релевантности и нерелевантности документа запросу, которые вычисляются на основе фактического присутствия терминов в документе.
Методы обратной связи с пользователем
В отличие от среды баз данных в ДИПС нет четкого представления документов и пользовательских запросов. Обычно запрос неточен и неполон, что приводит к низкой эффективности поиска. Необходимо уточнение методом итераций с обратной связью с пользователем.
Существует два подхода к использованию обратной связи: модификация запроса и модификация представления документов. Методы, модифицирующие представление запроса, влияют только на текущий сеанс, но никак не сказываются на обработке других запросов. Модификация представления документов меняют эффективность поиска и в последующих запросах.
Возможны три способа повышения эффективности поиска путем модификации представления запроса. Первый – модификация весов терминов с учетом как положительных, так и отрицательных результатов поиска. Второй – расширение запроса, когда к исходному запросу добавляют новые термины. Эти термины могут выбираться из документов с положительной обратной связью. Третий способ – расщепление запроса. Базируется на кластеризации документов с положительной обратной связью и выявлении нескольких однородных кластеров. Запрос разбивается на подзапросы таким образом, чтобы каждый подзапрос представлял один кластер. Затем можно настроить весовые коэффициенты терминов запроса или расширить его с помощью изложенных выше методов.
Модификация представления документов (кластеризация) предусматривает настройку векторов документов на основе обратной связи. Корректируются весовые коэффициенты векторов, попавших в выборку, с тем чтобы приблизить их к вектору запроса. В то же время веса найденных нерелевантных документов модифицируются таким образом, чтобы отдалить их от векторов запроса.