- •Deductor
- •Руководство аналитика
- •Введение
- •Анализ данных – основные принципы
- •Два подхода к анализу данных
- •Базовые методы анализа
- •Online Analytical Processing
- •Knowledge Discovery in Databases
- •Data Mining
- •Поддержка процесса от разведочного анализа до отображения данных
- •Тиражирование знаний
- •Основные модули
- •Подготовка сценариев
- •Визуализация данных
- •Работа с отчетами
- •Работа с избранными узлами
- •Пакетная обработка
- •Многомерное представление данных
- •Физическая реализация Deductor Warehouse
- •Создание хранилища данных
- •Подключение к Deductor Warehouse
- •Создание структуры хранилища с помощью Редактора метаданных
- •Загрузка данных в хранилище
- •Процессы
- •Измерения
- •Автоматическая загрузка данных в хранилище
- •Импорт данных из хранилища
- •Импорт процесса
- •Импорт измерения
- •Кубы в хранилище данных
- •Виртуальное хранилище Virtual Warehouse
- •Работа с OLAP-кубом
- •Кросс-таблица
- •Размещение измерений
- •Способы агрегации и отображения фактов
- •Селектор – фильтрация данных в кубе
- •Функция «Калькулятор»
- •Пример
- •Кросс-диаграмма
- •Описание аналитических алгоритмов
- •Очистка данных
- •Парциальная обработка
- •Заполнение пропусков
- •Редактирование аномалий
- •Сглаживание
- •Очистка от шумов
- •Факторный анализ
- •Корреляционный анализ
- •Обнаружение дубликатов и противоречий
- •Фильтрация
- •Трансформация данных
- •Настройка набора данных
- •Скользящее окно
- •Преобразование даты
- •Квантование значений
- •Сортировка
- •Слияние
- •Замена данных
- •Группировка
- •Разгруппировка
- •Кросс-таблица
- •Свертка столбцов
- •Data Mining
- •Автокорреляция
- •Нейронные сети
- •Линейная регрессия
- •Прогнозирование
- •Логистическая регрессия
- •Деревья решений
- •Карты Кохонена
- •Кластеризация (k-means и g-means)
- •Ассоциативные правила
- •Декомпозиция
- •Пользовательские модели
- •Вспомогательные методы обработки
- •Скрипт
- •Групповая обработка
- •Калькулятор
- •Условие
- •Команда ОС
- •Сценарий Deductor
- •Переменные
- •Интерпретация результатов
- •ROC-анализ
- •Анализ «Что-если»
- •Таблица «Что-если»
- •Диаграмма «что–если»
- •Подготовка данных для анализа
- •Выдвижение гипотез
- •Формализация и сбор данных
- •Представление и минимальные объемы необходимых данных
- •Построение моделей – анализ
- •Оптимизация работы и создания сценариев
- •Какие источники использовать
- •Кэширование
- •Динамические фильтры
- •Быстрая подготовка сценариев (скрипты)
- •Использование переменных
- •Обработка сценариев при помощи Deductor Server
- •Пример создания законченного аналитического решения
- •Создание хранилища данных
- •Прогнозирование объемов продаж
- •Поиск оптимальной наценки
- •Анализ потребительской корзины
- •Аналитическая отчетность
- •Создание отчетности
- •Что делать при возникновении ошибок
- •Заключение
- •Дополнительные источники
- •Контакты
www.basegroup.ru
Анализ «Что-если»
Анализ «Что-если» означает ответ на вопрос: «Что получится, если задать такие значения факторов?» Здесь подразумевается, что есть некоторая величина (а в общем случае может быть несколько величин), которая зависит от различных входных факторов. При изменении входных факторов будут изменяться и значения зависимых величин. Решение обратной задачи, то есть поиск значений входных факторов для получения желаемого результата, является задачей оптимизации.
Рассмотрим пример. Есть зависимость между вероятностью возврата кредита и характеристиками кредитора. Эту зависимость можно представить в виде «черного ящика».
Сумма кредита |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Возраст |
|
|
|
|
|
|
|
|
|
|
|
|
|
Вероятность |
Образование |
|
|
|
|
|
|
|
возврата |
|
|
|
«Черный ящик» |
|
|
|
|
|||
|
|
|
|
|
Площадь квартиры |
|
|
|
|
|
|
|
Срок задержки |
|
|
|
|
|
|
|
|
|
|
возврата |
Автомобиль |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Срок проживания |
|
|
|
|
|
|
|
|
|
Прежде, чем приступать к анализу, нужно построить модель этой зависимости. Для этого в программе есть такие инструменты, как нейронные сети, деревья решений и прочие. Для анализа совершенно безразлично, каким методом была построена модель. Главное, что она имитирует работу «черного ящика», то есть может по входным параметрам вычислить значение выходного. Сделать это можно с помощью таблицы «Что-если».
Таблица «Что-если»
В этой таблице перечислены все входные и выходные поля, указан диапазон значений для числовых полей и количество значений для строковых. В колонке «Значение» для каждого входного поля можно указать значения, по которым требуется вычислить выходное поле.
стр. 161 из 192
www.basegroup.ru
Для вычисления значения служит кнопка Рассчитать выходы на панели инструментов. При вводе в таблицу строковых значений предлагается выбрать значение из списка. Например, для поля Образование может быть список: Среднее, Специальное, Высшее. При вводе числовых значений можно ввести любое число. Однако, желательно вводить числа из диапазона «Минимум» и «Максимум», так как модель была построена на значениях именно из этого диапазона.
Таким образом, таблица «Что-если» имитирует работу «черного ящика». Зная значения входных полей, можно вычислить значения выходных. Это имеет практическую ценность, когда известны значения всех входных полей. Например, при решении задачи оценки кредитоспособности человека.
Диаграмма «что–если»
Часто возникает ситуация, когда необходимо подобрать значение одного из входных полей для получения желаемого значения выходного поля. Например, человеку необходимо взять кредит на определенную сумму. Вероятность возврата, вычисленная в таблице «Что-если», получилась низкой. Это может говорить о слишком высокой сумме кредита, которую он запросил. Возникает вопрос, на какую сумму может рассчитывать этот человек? Ответ на него дает диаграмма «Чтоесли». Эта диаграмма показывает зависимость выходного поля от одного из входных при фиксированных значениях остальных полей. В данном случае нас интересует зависимость вероятности возврата от суммы запрашиваемого кредита.
стр. 162 из 192
www.basegroup.ru
Рассмотрим, например, такую ситуацию.
Человек возрастом 19 лет со средним образованием, квартирой 50 кв. метров, отечественным автомобилем, проживающий 9 лет в данной местности запросил кредит на сумму 46500. Анализ по таблице «Что-если» показал очень низкую вероятность возврата кредита – примерно 1%. Такой риск является неприемлемым. А диаграмма «Что-если» показывает, что для людей с такими характеристиками кредит более 20 000 слишком большой и вероятность возврата низкая (менее 60 %). А вот сумму меньше 20 000 можно выдать.
Чтобы выбрать поле, по которому строить зависимость, нужно использовать кнопку Вход на панели инструментов диаграммы. Нажимая на нее, перебираются все входные поля. А нажав
треугольник рядом с кнопкой, можно выбрать необходимое поле из списка.
Например, зависимость вероятности возврата кредита от наличия и типа автомобиля может быть такой.
стр. 163 из 192
www.basegroup.ru
То есть если придут два человека с абсолютно одинаковыми характеристиками и запросят одну и туже сумму кредита, то его выдача будет зависеть от наличия у них автомобиля.
стр. 164 из 192