Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вопросы к зачету (1).doc
Скачиваний:
8
Добавлен:
22.09.2019
Размер:
108.03 Кб
Скачать

Модели и методы анализа данных

  1. Схема построения дерева решений

Не статистический, много предположений. В основе – прозрачный алгоритм.

Есть переменная У и переменная Х, которая влияет на У. Найти сочетание значений Х, которые будут детерминировать поведение У.

Если рассматривать объекты, то с точки зрения У, объекты ведут себя однозначным образом.

Задача: обнаружить группу (сочетание значений Х), которая, с точки зрения У, ведет себя определенным (однозначным) образом.

Рассматриваем все сочетания значений Х (х1=1, х2=1,х3=1 или например х1=1, х2=1,х3=2 и тд) последовательно. И для каждого сочетания смотрим на распределение значений У (ищем контрастные распределения У). Плохо – когда для всех значений У ведет себя 50 на 50. Хорошо – когда достаточно много узлов (сочетание значений Х), в которых У ведет себя детерминировано.

2. Алгоритм chaid

Ищем сочетание значений предикторов. Выбираем переменную, по которой мы будем разделять выборку (либо переменная пол, либо образования напр.). Выбрать ту, которая сильнее всего связана с У. Связь измеряется Хи-кв. Если значение статистики близко к нулю, то идет практически совпадение mэ и mт – находимся в условии независимости. Чем сильнее отличие от нуля, тем сильнее отличие mэ от mт – дальше от ситуации независимости.

Выбирает тот Х, по которому значение статистики будет максимальным. Когда делим выборку по переменным, которые имеют 2 категории, то мы не обязаны делить ее на количество категорий (склеивание категорий). Задача склеивания решается по критерию Хи-кв: если нет переменной, по которой эта подгруппа была бы связана с У, то эту подгруппу дальше на части не делим (Среди этих признаков отберем тот, для которого имеет наибольшее значение, т.е. тот, для которого связь существует с наибольшей вероятностью. По его градациям мы и будем далее разбивать совокупность респондентов).

  1. Узлы дерева решений. Какие узлы считаются «хорошими»?

Те, в которых Хи-кв имеет max значение. даже Ротмистров об этом говорил!!!!!!!

4.Проверка качества модели. Как выявить ситуацию, когда модель характеризует уникальные свойства конкретной выборки, не имеющие отношения к генеральной совокупности?

Проверка нужна, чтобы результаты перенести на ген. совокупность. Проблема: нет формальных методов переноса. Но если выборка репрезентативна, то можно пользоваться и интеллектуальными методами.

Проблема переноса: мы получим дерево, которое характеризует частные свойства выборки, не характерные для ген. Совокупности.

Проверка качества: пробовать построить модель на нескольких разных выборках. Если модель хорошо работает только на одной и плохо на другой, то это будет означать, что модель характеризовала уникальные свойства выборки и переносить выводы на ген. Совокупность нельзя.

Алгоритм: делим выборку на 2 части и строим на одной модели, проверяем на другой.

Делим выборку на К частей, на 80% модель строим, а на 20% проверяем Потом на других 80% строим и на 20% проверяем (кросс проверка).

Если выборку делили больше, чем на 2 части, то процесс проверки называется v-кратное.

16