Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции МИР ФДПО.doc
Скачиваний:
39
Добавлен:
14.11.2018
Размер:
358.91 Кб
Скачать

3.2. Оценка эффективности информационного поиска

Эффективность информационного поиска документов, обес­печиваемая ИПС, оценивается по информационной полноте и информационному шуму. Названные показатели выражаются ко­эффициентами полноты Кn и шума Кш соответственно. Коэффи­циенты Кn и Кш принимают значения в интервале от 0 до 1. В не­которых источниках эти коэффициенты выражают в процентах.[1]

Пусть ИПС предъявлен i-й запрос. Информационно-поисковая система содержит множество документов реле­вантных этому запросу. В результате поиска получено множество . Возможны следующие варианты.

1. . Идеальный вариант: полнота максимальна (Кn = 1), а шум нулевой (Кш = 0).

2. . Имеет место неполнота (0 Кn < 1), а шум отсут­ствует (Кш = 0).

3. . Неполнота исключается (Кn = 1), но есть шум (0 Кш <1).

4. Ø & Ø & Ø . Худший вариант: нулевая полнота (ни один релевантный документ не найден; Кn = 0) и максимальный шум (все, что выделено, не соответствует запросу; Кш = 1).

5. Ø &&&. Имеют место и неполнота (0 Кn < 1 ), и шум (0 Кш < 1).

Определим коэффициенты полноты и шума [1]:

(3.1)

(3.2)

где m — достаточно большое число, чтобы по теореме о больших числах обеспечить требуемую достоверность результата экспе­римента по определению Кn и Кш.

Смысл коэффициентов полноты и шума на теоретико-мно­жественном уровне иллюстрирует рис.3.2.

Анализируя этот рисунок, нетрудно заметить, что успеш­ность поиска формально определяется степенью совпадения множеств и (в идеале, при ,- выборка содержит все релевантные документы и ни одного не релевантного). Это дает возможность ввести оценку эффективности информационного поиска на основе мощностей множеств , и :

Релевантные результаты

Рис.3.2 Графическая интерпретация коэффициентов полноты и шума

(3.3)

(3.4)

Эффективность информационного поиска выражается че­рез коэффициенты Кn и Кш, что позволяет рассматривать ее в ка­честве интегрального показателя эффективности информаци­онного поиска ИПС. В литературе в функции n, Кш) вместо Кш принято использовать обратный ему показатель — коэффици­ент точности Кm.

Таким образом, запишем данную функцию в виде:

(3.5)

В теории информационного поиска предложен обобщенный комплексный показатель эффективности (мера Ван Ризбергена), позволяющий учитывать предпочтение, отдаваемое поль­зователем ИПС точности или полноте:

(3.6)

где β — параметр, отражающий предпочтение пользователя ИПС одному из показателей эффективности, входящих в (точности, полноте), над другим.

При β = 1 точность и полнота одинаково важны. На интервале β [0; 1] приоритет имеет точность, а на интервале β ]1; [ — полнота.