Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
guide_analyst_5.2.0.pdf
Скачиваний:
375
Добавлен:
21.03.2015
Размер:
6.37 Mб
Скачать

www.basegroup.ru

В этой таблице сопряженности зафиксировано 18 случаев ложного обнаружения (заемщик признан благонадежным, тогда как по факту он «плохой») и 22 случая ложного пропуска («хорошему» клиенту было отказано). Доля верно классифицированных случаев составила чуть более 73%. Это не самый высокий показатель, и его, скорее всего, можно улучшить, подобрав оптимальную пороговую точку. Это позволяет сделать ROC-анализ (см. соответствующий раздел настоящего Руководства).

Деревья решений

Деревья решений (decision trees) являются одним из наиболее популярных подходов к решению задач добычи данных. Они создают иерархическую структуру классифицирующих правил типа «ЕСЛИ…ТО…» (if-then), имеющую вид дерева. Чтобы принять решение, к какому классу следует отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид «значение параметра А больше В?». Если ответ положительный, осуществляется переход к правому узлу следующего уровня. Затем снова следует вопрос, связанный с соответствующим узлом, и т. д. Приведенный пример иллюстрирует работу так называемых бинарных деревьев решений, в каждом узле которых ветвление производится по двум направлениям (т. е. на вопрос, заданный в узле, имеется только два варианта ответов, например, Да или Нет). Однако, в общем случае ответов и, следовательно, ветвей, выходящих из узла, может быть больше.

Дерево решений состоит из узлов, где производится проверка условия и листьев – конечных узлов дерева, указывающих на класс (узлов решения).

 

 

 

 

 

 

 

Возраст > 40

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нет

 

 

 

 

 

 

 

Да

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Образование

 

 

 

 

 

 

 

Имеется дом

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нет

 

 

Да

 

 

Специальное

 

Среднее

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Месячный доход <

 

 

Выдать кредит

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нет

Да

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выдать кредит

 

 

Отказать

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Область применения деревьев решений в настоящее время весьма широка, но все задачи, решаемые этим аппаратом, могут быть объединены в три класса.

стр. 115 из 192

www.basegroup.ru

1Описание данных. Деревья решений позволяют хранить информацию о данных в компактной форме. Вместо громоздких массивов данных можно хранить дерево решений, которое содержит точное описание объектов.

2Классификация. Деревья решений отлично справляются с задачами классификации, т.е. отнесения объектов к одному из заранее известных классов.

3Регрессия. Если целевая переменная является непрерывной, деревья решений позволяют установить зависимость целевой переменной от независимых (входных) переменных. Например, к этому классу относятся задачи численного прогнозирования (предсказания значений целевой переменной).

ВDeductor в основе обработчика «Дерево решений» лежит модифицированный алгоритм C4.5, который позволяет решать только задачи классификации. Кроме того, предусмотрен режим полуручного построения

Подготовка обучающей выборки

Для построения дерева решений готовится обучающая выборка так же, как это описано для нейросети. Разница заключается в том, что выходное поле для дерева решений может быть только одно и только дискретно.

Нормализация значений полей

Для полей, подаваемых на входы и выход дерева решений, также задается нормализация. Можно задать либо линейную нормализацию, либо нормализацию уникальными значениями (описание в разделе по нейросетям).

Настройка обучающей выборки

Настройка обучающей выборки такая же, как для нейросети.

Обучение дерева решений

Параметры обучения дерева решений следующие:

§Минимальное количество примеров, при котором будет создан новый узел. Задается минимальное количество примеров, которое возможно в узле. Если примеров, которые попадают в данный узел, будет меньше заданного, узел считается листом (т.е. дальнейшее ветвление прекращается). Чем больше этот параметр, тем менее ветвистым получается дерево.

§Строить дерево с более достоверными правилами в ущерб сложности. Включает специальный алгоритм, который, усложняя структуру дерева, увеличивает достоверность результатов классификации. При этом дерево получается, как правило, более ветвистым.

§Уровень доверия, используемый при отсечении узлов дерева. Значение этого параметра задается в процентах и должно лежать в пределах от 0 до 100. Чем больше уровень доверия, тем более ветвистым получается дерево, и, соответственно, чем меньше уровень доверия, тем больше узлов будет отсечено при его построении.

Качество построенного дерева после обучения можно оценить по нескольким параметрам. Вопервых, это число распознанных примеров в обучающем и тестовом наборах данных. Чем выше это число, тем качественнее построенное дерево. Во-вторых, это количество узлов в дереве. При очень большом их числе дерево становится трудным для восприятия. Это также означает очень слабую зависимость выходного поля от входных полей.

Каждое правило характеризуется поддержкой и достоверностью.

§Поддержка – общее количество примеров классифицированных данным узлом дерева.

§Достоверность – количество правильно классифицированных данным узлом примеров.

стр. 116 из 192

www.basegroup.ru

Пример

Продолжим рассматривать пример с оценкой кредитоспособности физических лиц. Очевидно, существуют некоторые правила отнесения заемщиков к тому или иному классу. Но при достаточно большом числе выбранных характеристик вручную практически невозможно определить эти правила. Решить эту задачу позволяют деревья решений. К тому же, в отличие от логистической регрессии деревья решений способны выявить нелинейные зависимости и нетипичные (редкие) случаи.

Обучающая выборка, а также правила получения обучающего и тестового множеств будут теми же, что и в примере с нейронными сетями и логистической регрессии. Нормализация полей в дереве решений не требуется. При построении правил зададим минимальное количество примеров, при котором будет создан новый узел равным 3. Будем строить дерево с более достоверными правилами в ущерб сложности.

Доверимся полностью автоматическому алгоритму построения дерева.

Полученное дерево решений содержит 17 узлов и 9 правил. Откроем визуализатор «Дерево решений».

стр. 117 из 192

www.basegroup.ru

Полученное дерево содержит в себе правила, следуя которым можно отнести заемщика в одну из групп риска и сделать вывод о выдаче кредита. Правила читаются с узлов, расположенных правее. Например, если сумма кредита меньше 4550 и срок проживания меньше 10,5, тогда выдать кредит. Следует заметить, что характеристики, лежащие ближе к вершине дерева, то есть левее, являются более значимыми.

Построенные правила просматриваются в виде списка правил в визуализаторе «Правила».

Нажав на кнопку Упрощать условия можно сразу облегчить их восприятие. Например, условие в правиле

Если Сумма кредита < 4800 И Сумма кредита < 4550 И Срок проживания < 10,5

преобразуется к виду

Если Сумма кредита < 4550 И Срок проживания < 10,5.

стр. 118 из 192

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]