Модели и методы анализа данных

Схема построения дерева решений

Не статистический, много предположений. В основе – прозрачный алгоритм.

Есть переменная У и переменная Х, которая влияет на У. Найти сочетание значений Х, которые будут детерминировать поведение У.

Если рассматривать объекты, то с точки зрения У, объекты ведут себя однозначным образом.

Задача: обнаружить группу (сочетание значений Х), которая, с точки зрения У, ведет себя определенным (однозначным) образом.

Рассматриваем все сочетания значений Х (х1=1, х2=1,х3=1 или например х1=1, х2=1,х3=2 и тд) последовательно. И для каждого сочетания смотрим на распределение значений У (ищем контрастные распределения У). Плохо – когда для всех значений У ведет себя 50 на 50. Хорошо – когда достаточно много узлов (сочетание значений Х), в которых У ведет себя детерминировано.

2. Алгоритм chaid

Ищем сочетание значений предикторов. Выбираем переменную, по которой мы будем разделять выборку (либо переменная пол, либо образования напр.). Выбрать ту, которая сильнее всего связана с У. Связь измеряется Хи-кв. Если значение статистики близко к нулю, то идет практически совпадение mэ и mт – находимся в условии независимости. Чем сильнее отличие от нуля, тем сильнее отличие mэ от mт – дальше от ситуации независимости.

Выбирает тот Х, по которому значение статистики будет максимальным. Когда делим выборку по переменным, которые имеют 2 категории, то мы не обязаны делить ее на количество категорий (склеивание категорий). Задача склеивания решается по критерию Хи-кв: если нет переменной, по которой эта подгруппа была бы связана с У, то эту подгруппу дальше на части не делим (Среди этих признаков отберем тот, для которого имеет наибольшее значение, т.е. тот, для которого связь существует с наибольшей вероятностью. По его градациям мы и будем далее разбивать совокупность респондентов).

Узлы дерева решений. Какие узлы считаются «хорошими»?

Те, в которых Хи-кв имеет max значение. даже Ротмистров об этом говорил!!!!!!!

4.Проверка качества модели. Как выявить ситуацию, когда модель характеризует уникальные свойства конкретной выборки, не имеющие отношения к генеральной совокупности?

Проверка нужна, чтобы результаты перенести на ген. совокупность. Проблема: нет формальных методов переноса. Но если выборка репрезентативна, то можно пользоваться и интеллектуальными методами.

Проблема переноса: мы получим дерево, которое характеризует частные свойства выборки, не характерные для ген. Совокупности.

Проверка качества: пробовать построить модель на нескольких разных выборках. Если модель хорошо работает только на одной и плохо на другой, то это будет означать, что модель характеризовала уникальные свойства выборки и переносить выводы на ген. Совокупность нельзя.

Алгоритм: делим выборку на 2 части и строим на одной модели, проверяем на другой.

Делим выборку на К частей, на 80% модель строим, а на 20% проверяем Потом на других 80% строим и на 20% проверяем (кросс проверка).

Если выборку делили больше, чем на 2 части, то процесс проверки называется v-кратное.

<<< < Предыдущая 1 2 3 45 / 55

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
28.04.2019240.23 Кб1Вопросы FINAL.docx
#
23.12.201853.33 Кб3ВОПРОСЫ дел адм испр.docx
#
18.09.2019172.13 Кб5вопросы зар.кино13-18.docx
#
16.09.201985.07 Кб7Вопросы и Ответы к зачету по бчс.docx
#
21.12.201870.11 Кб8Вопросы и ответы по социологии (Зачет).docx
#
22.09.2019108.03 Кб8Вопросы к зачету (1).doc
#
30.07.2019195.58 Кб9Вопросы к зачету по менеджменту.doc
#
30.07.2019113.66 Кб11Вопросы к зачету по менеджменту.doc
#
30.07.201956.32 Кб7Вопросы к зачету по менеджменту.doc
#
18.08.2019513.46 Кб11Вопросы к зачету, 2 часть.docx
#
12.09.201955.63 Кб10ВОПРОСЫ К МОНИТОРИНГУ ПО ЛИТЕРАТУРЕ.docx