- •Информация и бизнес. Рынки информационных ресурсов
- •1.1. Роль информации в современном обществе. Параметры информационных ресурсов
- •1.2. Информационные продукты и информационные услуги
- •1.3. Спрос, предложение и ценообразование на рынке информационных ресурсов
- •1.4. Структура рынка информационных ресурсов
- •2. Мировые информационные ресурсы. Классификация и характеристика основных структур
- •2.1. Государственные информационные ресурсы, правовая информация
- •2.2. Биржевая и финансовая информация
- •2.3. Коммерческая информация
- •2.4. Базы данных как мировой информационный ресурс
- •2.5. Классификация информационных ресурсов Интернет
- •3. Информационно-поисковые системы. Организация поиска информации в сети Internet
- •3.1. Классификация информационно-поисковых систем
- •3.2. Оценка эффективности информационного поиска
- •3.3. Сравнительный анализ информационно-поисковых систем
- •3.4. Структурно-функциональная организация типовой поисковой машины Internet
- •3.5. Простой и расширенный поиск информации в Internet
3.2. Оценка эффективности информационного поиска
Эффективность информационного поиска документов, обеспечиваемая ИПС, оценивается по информационной полноте и информационному шуму. Названные показатели выражаются коэффициентами полноты Кn и шума Кш соответственно. Коэффициенты Кn и Кш принимают значения в интервале от 0 до 1. В некоторых источниках эти коэффициенты выражают в процентах.[1]
Пусть ИПС предъявлен i-й запрос. Информационно-поисковая система содержит множество документов релевантных этому запросу. В результате поиска получено множество . Возможны следующие варианты.
1. . Идеальный вариант: полнота максимальна (Кn = 1), а шум нулевой (Кш = 0).
2. . Имеет место неполнота (0 Кn < 1), а шум отсутствует (Кш = 0).
3. . Неполнота исключается (Кn = 1), но есть шум (0 Кш <1).
4. Ø & Ø & Ø . Худший вариант: нулевая полнота (ни один релевантный документ не найден; Кn = 0) и максимальный шум (все, что выделено, не соответствует запросу; Кш = 1).
5. Ø &&&. Имеют место и неполнота (0 Кn < 1 ), и шум (0 Кш < 1).
Определим коэффициенты полноты и шума [1]:
(3.1)
(3.2)
где m — достаточно большое число, чтобы по теореме о больших числах обеспечить требуемую достоверность результата эксперимента по определению Кn и Кш.
Смысл коэффициентов полноты и шума на теоретико-множественном уровне иллюстрирует рис.3.2.
Анализируя этот рисунок, нетрудно заметить, что успешность поиска формально определяется степенью совпадения множеств и (в идеале, при ,- выборка содержит все релевантные документы и ни одного не релевантного). Это дает возможность ввести оценку эффективности информационного поиска на основе мощностей множеств , и :
Релевантные
результаты
Рис.3.2 Графическая интерпретация коэффициентов полноты и шума
(3.3)
(3.4)
Эффективность информационного поиска выражается через коэффициенты Кn и Кш, что позволяет рассматривать ее в качестве интегрального показателя эффективности информационного поиска ИПС. В литературе в функции (Кn, Кш) вместо Кш принято использовать обратный ему показатель — коэффициент точности Кm.
Таким образом, запишем данную функцию в виде:
(3.5)
В теории информационного поиска предложен обобщенный комплексный показатель эффективности (мера Ван Ризбергена), позволяющий учитывать предпочтение, отдаваемое пользователем ИПС точности или полноте:
(3.6)
где β — параметр, отражающий предпочтение пользователя ИПС одному из показателей эффективности, входящих в (точности, полноте), над другим.
При β = 1 точность и полнота одинаково важны. На интервале β [0; 1] приоритет имеет точность, а на интервале β ]1; [ — полнота.