Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Практические работы.docx
Скачиваний:
485
Добавлен:
28.03.2015
Размер:
5.95 Mб
Скачать

3.3. Интерпретация ассоциативных правил

Теперь остановимся на наиболее важном этапе – интерпретации ассоциативных правил. Дело в том, что ассоциативные правила сами по себе, как результат работы некоторого алгоритма, еще не готовы к использованию. Их нужно проинтерпретировать, то есть понять, какие из ассоциативных правил представляют интерес, действительно ли правила отражают закономерности или, наоборот, являются артефактом. Это требует от аналитика тщательной работы и понимания предметной области, в которой решается задача ассоциации.

Все множество ассоциативных правил можно разделить на три вида.

  • Полезные правила содержат действительную информацию, которая ранее была неизвестна, но имеет логичное объяснение. Такие правила могут быть использованы для принятия решений, приносящих выгоду.

  • Тривиальные правила содержат действительную и легко объяснимую информацию, которая уже известна. Такие правила, хотя и объяснимы, но не могут принести какой-либо пользы, так как отражают или известные законы в исследуемой области, или результаты прошлой деятельности. При анализе рыночных корзин в правилах с самой высокой поддержкой и достоверностью окажутся товары – лидеры продаж. Практическая ценность таких правил крайне низка.

  • Непонятные правила содержат информацию, которая не может быть объяснена. Такие правила получаются на основе или аномальных значений, или глубоко скрытых знаний. Напрямую эти правила нельзя использовать для принятия решений, так как их необъяснимость может привести к непредсказуемым результатам. Для лучшего понимания требуется дополнительный анализ.

Варьируя верхний и нижний пределы поддержки и достоверности, можно избавиться от очевидных и неинтересных закономерностей. Как следствие, правила, генерируемые алгоритмом, принимают приближенный к реальности вид. Значения верхнего и нижнего пределов сильно зависят от предметной области, поэтому не существует четкого алгоритма их выбора. Но есть ряд общих рекомендаций.

  • Большая величина максимальной поддержки означает, что алгоритм будет находить правила, хорошо известные или же настолько очевидные, что в них нет никакого смысла. Поэтому ставить порог максимальной поддержки очень высоким (более 20 %) не рекомендуется.

  • Большинство интересных правил находится именно при низком значении порога поддержки, хотя слишком низкое значение ведет к генерации статистически необоснованных правил. Поэтому правила, которые кажутся интересными, но имеют низкую поддержку, нужно дополнительно анализировать.

  • Уменьшение порога достоверности приводит к увеличению количества правил. Значение минимальной достоверности не должно быть слишком низким, так как ценность правила с достоверностью 5% чаще всего настолько мала, что это и правилом считать нельзя.

  • Правило с очень большой достоверностью (> 85-90%) практической ценности в контексте решаемой задачи не имеет, так как товары, входящие в следствие, покупатель, скорее всего, уже приобрел.

Вернемся к задаче. Представим результаты расчетов в OLAP-кубе, как это показано на рис. 3.7.

Рис. 3.7. Ассоциативные правила в OLAP-кубе

Например, правило кондиционер для белья → стиральный порошок-автомат имеет S = 3,86%; С = 84,95%. Это означает следующее.

  • Ожидаемая вероятность покупки набора кондиционер для белья + стиральный порошок-автомат равна 3,86%.

  • Если клиент положил в корзину кондиционер для белья, то с вероятностью 84,95% он купит и стиральный порошок-автомат.

Анализ правил позволяет прийти к выводу, что многие из них тривиальны, так как это лидеры продаж магазина (см. популярные наборы, рис. 3.5), хотя есть и интересные правила (например, средство от накипи → чистящий порошок универсальный). И тот факт, что при достоверности 42-43% встречаются тривиальные ассоциативные правила (например, мыло кусковое → мыло жидкое), говорит о том, что можно найти интересные правила при меньших значениях достоверности. Сделаем следующее:

  • запустим алгоритм a priori с интервалом допустимой достоверности от 25 до 40%;

  • не будем рассматривать правила с лидерами продаж: это снова будут тривиальные правила.

В итоге получим как вариант следующие дополнительные правила (рис. 3.8). Как видно, все эти правила можно назвать полезными: они неочевидны, но понятны. Например, возьмем правило пятновыводитель → отбеливатель.

Рис. 3.8. Полезные правила с достоверностью меньше 40%

Рассчитаем его улучшение:

Величина 2,88 > 1. Значит, предсказать покупку отбеливателя с помощью правила вероятнее, чем угадать случайно.

Как компания может применять на практике результаты ассоциативного анализа? Перечислим лишь некоторые варианты:

  • осуществление кросс-продаж;

  • рациональное размещение совместно покупаемых товаров на полках;

  • применение ассоциативных правил совместно с ABC-анализом для выявления наиболее доходных товарных позиций.