- •Deductor
- •Руководство аналитика
- •Введение
- •Анализ данных – основные принципы
- •Два подхода к анализу данных
- •Базовые методы анализа
- •Online Analytical Processing
- •Knowledge Discovery in Databases
- •Data Mining
- •Поддержка процесса от разведочного анализа до отображения данных
- •Тиражирование знаний
- •Основные модули
- •Подготовка сценариев
- •Визуализация данных
- •Работа с отчетами
- •Работа с избранными узлами
- •Пакетная обработка
- •Многомерное представление данных
- •Физическая реализация Deductor Warehouse
- •Создание хранилища данных
- •Подключение к Deductor Warehouse
- •Создание структуры хранилища с помощью Редактора метаданных
- •Загрузка данных в хранилище
- •Процессы
- •Измерения
- •Автоматическая загрузка данных в хранилище
- •Импорт данных из хранилища
- •Импорт процесса
- •Импорт измерения
- •Кубы в хранилище данных
- •Виртуальное хранилище Virtual Warehouse
- •Работа с OLAP-кубом
- •Кросс-таблица
- •Размещение измерений
- •Способы агрегации и отображения фактов
- •Селектор – фильтрация данных в кубе
- •Функция «Калькулятор»
- •Пример
- •Кросс-диаграмма
- •Описание аналитических алгоритмов
- •Очистка данных
- •Парциальная обработка
- •Заполнение пропусков
- •Редактирование аномалий
- •Сглаживание
- •Очистка от шумов
- •Факторный анализ
- •Корреляционный анализ
- •Обнаружение дубликатов и противоречий
- •Фильтрация
- •Трансформация данных
- •Настройка набора данных
- •Скользящее окно
- •Преобразование даты
- •Квантование значений
- •Сортировка
- •Слияние
- •Замена данных
- •Группировка
- •Разгруппировка
- •Кросс-таблица
- •Свертка столбцов
- •Data Mining
- •Автокорреляция
- •Нейронные сети
- •Линейная регрессия
- •Прогнозирование
- •Логистическая регрессия
- •Деревья решений
- •Карты Кохонена
- •Кластеризация (k-means и g-means)
- •Ассоциативные правила
- •Декомпозиция
- •Пользовательские модели
- •Вспомогательные методы обработки
- •Скрипт
- •Групповая обработка
- •Калькулятор
- •Условие
- •Команда ОС
- •Сценарий Deductor
- •Переменные
- •Интерпретация результатов
- •ROC-анализ
- •Анализ «Что-если»
- •Таблица «Что-если»
- •Диаграмма «что–если»
- •Подготовка данных для анализа
- •Выдвижение гипотез
- •Формализация и сбор данных
- •Представление и минимальные объемы необходимых данных
- •Построение моделей – анализ
- •Оптимизация работы и создания сценариев
- •Какие источники использовать
- •Кэширование
- •Динамические фильтры
- •Быстрая подготовка сценариев (скрипты)
- •Использование переменных
- •Обработка сценариев при помощи Deductor Server
- •Пример создания законченного аналитического решения
- •Создание хранилища данных
- •Прогнозирование объемов продаж
- •Поиск оптимальной наценки
- •Анализ потребительской корзины
- •Аналитическая отчетность
- •Создание отчетности
- •Что делать при возникновении ошибок
- •Заключение
- •Дополнительные источники
- •Контакты
www.basegroup.ru
Введение
Анализ информации является неотъемлемой частью ведения бизнеса и одним из важных факторов повышения его конкурентоспособности. При этом в подавляющем большинстве случаев анализ сводится к применению одних и тех же базовых механизмов. Они являются универсальными и применимы к любой предметной области, благодаря чему имеется возможность создания унифицированной программной платформы, в которой реализованы основные механизмы анализа, такой как Deductor.
Обычно анализ производят аналитики и эксперты предметной области предприятия. Они подготавливают данные к пригодному для анализа виду, применяют к ним различные методы анализа, приводят результаты к легко воспринимаемому виду. Результаты анализа необходимы лицам предприятия, принимающим решения, например, руководителям отделов, менеджерам. Они могут совершенно не разбираться в методах анализа, но у них есть потребность в их результатах. Таким образом, требуется, с одной стороны, выделить и формализовать знание эксперта о предметной области, с другой, обеспечить возможность использовать эти знания человеком, не разбирающимся в особенностях использования механизмов анализа, т.е. решить проблему тиражирования знаний (см. рисунок).
Получение данных |
|
Аналитик |
Анализ |
|
|
||
Предметная |
|
|
|
|
|
|
|
область |
Новые данные |
|
|
|
|
||
|
|
|
Модель |
Принятие решений |
|
|
Знания |
|
Пользователь |
||
|
|
||
|
|
|
|
Подготовка |
|
|
|
|
|
|
|
Текущая работа |
|
Пользователь |
|
|
|
|
|
Deductor 5 предназначен для эффективного решения проблемы тиражирования знаний. Deductor
– это аналитическая платформа, основа для создания законченных прикладных решений в области анализа данных. Реализованные в Deductor технологии позволяют на базе единой архитектуры пройти все этапы построения аналитической системы: от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов.
Deductor 5 состоит из пяти частей:
1Warehouse – хранилище данных, консолидирующее информацию из разных источников. В системе поддерживается концепция виртуальных хранилищ данных;
2Studio – аналитическое приложение, позволяющее пройти все этапы построения прикладного решения;
3Viewer – рабочее место конечного пользователя, одно из средств тиражирования знаний;
4Server – служба, обеспечивающая удаленную аналитическую обработку данных;
5Client – клиент доступа к Deductor Server. Обеспечивает доступ к серверу из сторонних приложений и управление его работой.
Deductor 5 содержит большое количество методов подготовки, трансформации, обработки и визуализации данных.
В этом руководстве речь пойдет о применении Deductor при решении задач анализа данных. Руководство рассчитано на аналитика, занимающегося практическими вопросами анализа стр. 6 из 192
www.basegroup.ru
информации на основе платформы Deductor. Оно требует от читателя владения лишь базовыми основами анализа и используемых в его процессе математических методов.
Руководство имеет следующую структуру.
Вглаве «Анализ данных – основные принципы» описываются общие вопросы анализа данных, базовые подходы и методики проведения анализа, рассматривается место аналитической системы в анализе данных.
Вглаве «Состав и назначение аналитической платформы Deductor» рассматриваются основные возможности, область применения и задачи, решаемые с использованием платформы
Deductor.
Архитектура составных частей платформы – аналитического приложения Deductor Studio и хранилища данных Deductor Warehouse – описываются в разделах «Архитектура Deductor Studio – аналитическое приложение» и «Архитектура Deductor Warehouse – многомерное хранилище данных».
Одним из важных методов представления данных и проведения оперативного анализа является технология OLAP. Ее основы и реализация в программах Deductor рассматриваются в главе
«Работа с OLAP-кубом».
Большое внимание в Руководстве уделено описанию разнообразных алгоритмов анализа, реализованных в Deductor. Для каждого алгоритма описаны принцип работы, исходные данные и получаемые результаты, доступные настройки и, кроме того, приводятся примеры их практического использования. Вся эта информация сгруппирована в главе «Описание аналитических алгоритмов».
В главе «Интерпретация результатов» рассказано о способах интерпретации построенных моделей, возможностях работы с ними и механизмах оценки их качества.
Одним из важнейших аспектов анализа является сбор исходных данных. Вопросы определения важности данных для анализа, объемов выборки и представления данных рассматриваются в главе «Подготовка данных для анализа».
Вглаве «Пример создания законченного аналитического решения» рассматривается процесс создания решения на базе платформы Deductor. В ней на конкретном примере подробно описываются все этапы, которые требуется пройти, начиная от постановки задачи и заканчивая подготовкой системы отчетности. Читатель Руководства будет ознакомлен со всеми аспектами применения платформы Deductor в анализе данных и сможет самостоятельно приступить к разработке аналитических моделей и готовых решений на их базе, а также их использованию на практике.
Вглаве «Что делать при возникновении ошибок» рассказывается о наиболее распространенных ошибках, с которыми сталкивается аналитик при создании решения и о способах борьбы с подобными ошибками.
Вконце руководства приведен список литературы, наиболее активно использовавшейся в ходе разработки платформы Deductor. В ней рассматриваются как общие вопросы Data Mining и Knowledge Discovery, так и более узкие темы – нейронные сети, статистические метода анализа, генетические и нечеткие алгоритмы, подходы к решению отдельных проблем анализа (прогнозирование, кластеризация, факторный, корреляционный и другие виды анализа). Кроме того, к списку литературы добавлены несколько полезных ссылок на сайты в Internet, имеющие непосредственное отношение к анализу данных.
стр. 7 из 192