- •Deductor
- •Руководство аналитика
- •Введение
- •Анализ данных – основные принципы
- •Два подхода к анализу данных
- •Базовые методы анализа
- •Online Analytical Processing
- •Knowledge Discovery in Databases
- •Data Mining
- •Поддержка процесса от разведочного анализа до отображения данных
- •Тиражирование знаний
- •Основные модули
- •Подготовка сценариев
- •Визуализация данных
- •Работа с отчетами
- •Работа с избранными узлами
- •Пакетная обработка
- •Многомерное представление данных
- •Физическая реализация Deductor Warehouse
- •Создание хранилища данных
- •Подключение к Deductor Warehouse
- •Создание структуры хранилища с помощью Редактора метаданных
- •Загрузка данных в хранилище
- •Процессы
- •Измерения
- •Автоматическая загрузка данных в хранилище
- •Импорт данных из хранилища
- •Импорт процесса
- •Импорт измерения
- •Кубы в хранилище данных
- •Виртуальное хранилище Virtual Warehouse
- •Работа с OLAP-кубом
- •Кросс-таблица
- •Размещение измерений
- •Способы агрегации и отображения фактов
- •Селектор – фильтрация данных в кубе
- •Функция «Калькулятор»
- •Пример
- •Кросс-диаграмма
- •Описание аналитических алгоритмов
- •Очистка данных
- •Парциальная обработка
- •Заполнение пропусков
- •Редактирование аномалий
- •Сглаживание
- •Очистка от шумов
- •Факторный анализ
- •Корреляционный анализ
- •Обнаружение дубликатов и противоречий
- •Фильтрация
- •Трансформация данных
- •Настройка набора данных
- •Скользящее окно
- •Преобразование даты
- •Квантование значений
- •Сортировка
- •Слияние
- •Замена данных
- •Группировка
- •Разгруппировка
- •Кросс-таблица
- •Свертка столбцов
- •Data Mining
- •Автокорреляция
- •Нейронные сети
- •Линейная регрессия
- •Прогнозирование
- •Логистическая регрессия
- •Деревья решений
- •Карты Кохонена
- •Кластеризация (k-means и g-means)
- •Ассоциативные правила
- •Декомпозиция
- •Пользовательские модели
- •Вспомогательные методы обработки
- •Скрипт
- •Групповая обработка
- •Калькулятор
- •Условие
- •Команда ОС
- •Сценарий Deductor
- •Переменные
- •Интерпретация результатов
- •ROC-анализ
- •Анализ «Что-если»
- •Таблица «Что-если»
- •Диаграмма «что–если»
- •Подготовка данных для анализа
- •Выдвижение гипотез
- •Формализация и сбор данных
- •Представление и минимальные объемы необходимых данных
- •Построение моделей – анализ
- •Оптимизация работы и создания сценариев
- •Какие источники использовать
- •Кэширование
- •Динамические фильтры
- •Быстрая подготовка сценариев (скрипты)
- •Использование переменных
- •Обработка сценариев при помощи Deductor Server
- •Пример создания законченного аналитического решения
- •Создание хранилища данных
- •Прогнозирование объемов продаж
- •Поиск оптимальной наценки
- •Анализ потребительской корзины
- •Аналитическая отчетность
- •Создание отчетности
- •Что делать при возникновении ошибок
- •Заключение
- •Дополнительные источники
- •Контакты
www.basegroup.ru
сортировку по возрастанию и убыванию параметра). Для нахождения лучшего правила можно воспользоваться кнопкой Тип определения лучшего правила.
Для последующей обработки в сценарии правил, полученных после обработчика «Ассоциативные правила» становится доступным для использования так называемый зависимый обработчик «Правила» (см. раздел «Зависимые обработчики»).
В примере правилу 57 соответствует два условия – Герметики и Пена монтажная, а следствием для этого правила являются Клей-ж. гвозди и Шпатлёвка.
Декомпозиция
Одна из основных целей анализа временных рядов – это возможность построения прогноза. Наиболее простой метод прогнозирования значения ряда – это экстраполяция. Однако она возможна лишь при достаточной закономерности развития изучаемого явления. Реальные экономические процессы редко в достаточной степени удовлетворяют этому требованию. Поэтому исходный временной ряд представляют как совокупность нескольких компонент, к каждой из которых применяется свой метод прогнозирования в соответствии с тенденциями установленными в прошлом.
Целью декомпозиции временного ряда является выделение и изучение сезонной составляющей и тренда. Известно, что функцию исходного ряда можно представить в следующем виде:
y(t) = x(t) + s(t) + z(t) ,
где x(t) – тренд, явно выраженная тенденция изменения значений временного ряда,
s(t) – сезонная составляющая, периодически повторяющаяся компонента временного ряда,
z(t) – остаток, нерегулярная (флуктуационная) составляющая временного ряда.
Выводы, полученные в ходе анализа временного ряда, можно использовать в качестве основного материала для определения общей динамики, прогнозирования. Выделение тренда и сезонной компоненты позволяет более точно оценить поведение процесса в будущем.
Для декомпозиции временного ряда на составляющие и исследования предназначен обработчик Deductor под таким же названием.
Настройка параметров декомпозиции временного ряда
стр. 133 из 192
www.basegroup.ru
Декомпозиция временного ряда может проводиться только на непрерывных упорядоченных данных, иначе полученный результат будет некорректным. Тип сезонности выбирается аналитиком на основе имеющегося временного ряда (если отчетные периоды указаны в месяцах, то нельзя выявить недельную сезонность).
При выявлении тренда предлагаются следующие модели: линейная, квадратичная, кубическая, степенная, логарифмическая, и экспоненциальная.
Выбор модели осуществляется на основе оценки средней относительной ошибки. По умолчанию предлагается линейная модель тренда.
Пример
Пусть имеются помесячные данные продаж в розничной торговой сети. Ниже показан элемент исходной таблицы.
Дата (неделя) |
Объём продаж (тыс. руб.) |
|
|
01.01.2005 |
73,637 |
08.01.2005 |
77,136 |
15.01.2005 |
81,481 |
… |
… |
|
|
Импортируем набор данных в Deductor и отобразим зависимость объёма продаж от даты в визуализаторе «Диаграмма».
стр. 134 из 192
www.basegroup.ru
Из графика видно, что продажи имеют явно выраженные квартальные сезонные колебания и восходящий тренд.
Выделим с помощью обработчика «Декомпозиция временного ряда» сезонную, трендовую и нерегулярную компоненты.
В настройках мастера обработки тип сезонности укажем равным 12 неделям. Из предложенных мастером моделей тренда выберем кубическую, так как для данного ряда она даёт наименьшую ошибку.
Результаты анализа удобно оценивать с помощью двух визуализаторов: «Диаграмма» и «Диаграмма декомпозиции».
Исключение из исходного ряда тренда и сезонности позволяет получить более гладкую зависимость – остаток (желтая линия на диаграмме). По этой линии можно оценить влияние на исходный ряд пропусков, аномальных значений.
Если результаты анализа не дают желаемого результата, то при помощи корректировки сезонных индексов и модели тренда в визуализаторе «Диаграмма декомпозиции» можно изменить алгоритм обработки временного ряда.
стр. 135 из 192
www.basegroup.ru
Сезонные индексы показывают, насколько продажи различаются в разное время года. Их можно изменить, тем самым отредактировав функцию сезонных колебаний. Так же здесь можно применить другую модель для формирования тренда или подкорректировать коэффициенты в уже имеющейся.
Одним из методов изменения сезонных индексов является перемещение стрелки в поле Рассеяние. Например, увеличим значение индекса за первый период. Результирующая таблица представлена ниже.
стр. 136 из 192