Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
guide_analyst_5.2.0.pdf
Скачиваний:
375
Добавлен:
21.03.2015
Размер:
6.37 Mб
Скачать

www.basegroup.ru

Код транзакции соответствует коду чека, счета, накладной. Товары с одинаковым кодом входят в разовую покупку.

Описанного представления данных достаточно для работы обычных ассоциативных правил, где находятся связи между каждым объектом в отдельности, например, «Если купили Йогурт Чудо 0,4, то приобретут и Батон Рязанский».

Анализ транзакций целесообразно производить на большом объеме данных, иначе могут быть выявлены статистически необоснованные правила. Алгоритмы поиска ассоциативных связей способны быстро перерабатывать огромные массивы информации, т.к. основное их достоинство заключается в масштабируемости, т.е. способности обрабатывать большие объемы данных.

Примерное соотношение между количеством объектов и объемом данных:

§300-500 объектов – более 10 тыс. транзакций;

§500-1000 объектов – более 300 тыс. транзакций.

При недостаточном количестве транзакций целесообразно уменьшить количество анализируемых объектов, например, сгруппировав их.

Построение моделей – анализ

В целом, можно дать следующие рекомендации при построении моделей, не зависящие от конкретного алгоритма обработки:

§Уделить большое внимание очистке данных. Собрав данные в нужном объеме, нельзя быть уверенным, что они будут хорошего качества. Чаще всего качество данных оставляет желать лучшего, поэтому необходимо проводить предобработку. Для этого есть множество методов: удаление шумов, сглаживание, редактирование аномалий и прочее;

§Комбинировать методики анализа. Это позволяет шире смотреть на проблему. Более того, использование различных методов для решения одной и той же задачи может навести на ценные идеи;

§Не гнаться за абсолютной точностью и начинать использование при получении первых приемлемых результатов. Все равно идеальный результат получить невозможно. Если мы получили результат, пусть неидеальный, но лучше, чем был ранее, то есть резон начать его использование. Во-первых, это позволяет быстрее получить практическую отдачу. Вовторых, только на практике можно действительно оценить полученный результат. В- третьих, можно и нужно параллельно работать над совершенствованием модели с учетом полученных на практике результатов;

§При невозможности получения приемлемых результатов вернуться на предыдущие шаги схемы. К сожалению, ошибки могут быть допущены на любом шаге: может быть некорректно сформулирована первоначальная гипотеза, могут возникнуть проблемы со сбором необходимых данных и прочее. К этому нужно быть готовым. При возникновении такого рода проблем возвращаться на предыдущие пункты и рассмотреть альтернативные варианты решения.

Для оценки адекватности полученных результатов необходимо привлекать экспертов в предметной области. Интерпретация модели, так же как и выдвижение гипотез, может и должна делаться экспертом, т.к. для этого нужно более глубокое понимание процесса, выходящее за пределы анализируемых данных. Кроме того, нужно воспользоваться и формальными способами оценки качества модели: тестировать построенные модели на различных выборках для оценки их обобщающих способностей, т.е. способности давать приемлемые результаты на данных, которые не предоставлялись системе при построении модели. Некоторые механизмы анализа могут «запоминать» предъявленные ей данные и на них демонстрировать прекрасные результаты, но при этом полностью терять способность к обобщению и на тестовых (из неизвестных системе ранее) данных выдавать очень плохие результаты. При формальной оценке можно отталкиваться от идеи, что если на тестовых данных модель дает приемлемые результаты, значит, она имеет право на существование.

стр. 169 из 192

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]