- •Вопросы к зачету по курсу «Концепции гуманитарных измерений»
- •5) Как определяется итоговое значение установки каждого респондента?
- •1) Полученная шкала будет установочной или оценочной? в чем конечный результат построения шкалы?
- •Понятие «шкальный критерий». Метод парных сравнений как шкальный критерий
- •Плюралистичность мнения одного респондента. Нормальное распределение как модель мнения одного респондента. Интерпретация среднего и дисперсии соответствующего нормального распределения.
- •Каким образом на основе имеющихся у нас матриц парных сравнений составляется система уравнений? Как при этом используются таблицы нормального распределения?
- •Как решается система уравнений? Можно ли получить однозначное решение? Как интерпретируются результаты? Почему полученная шкала будет интервальной?
- •Модели и методы анализа данных
- •2. Алгоритм chaid
Модели и методы анализа данных
Схема построения дерева решений
Не статистический, много предположений. В основе – прозрачный алгоритм.
Есть переменная У и переменная Х, которая влияет на У. Найти сочетание значений Х, которые будут детерминировать поведение У.
Если рассматривать объекты, то с точки зрения У, объекты ведут себя однозначным образом.
Задача: обнаружить группу (сочетание значений Х), которая, с точки зрения У, ведет себя определенным (однозначным) образом.
Рассматриваем все сочетания значений Х (х1=1, х2=1,х3=1 или например х1=1, х2=1,х3=2 и тд) последовательно. И для каждого сочетания смотрим на распределение значений У (ищем контрастные распределения У). Плохо – когда для всех значений У ведет себя 50 на 50. Хорошо – когда достаточно много узлов (сочетание значений Х), в которых У ведет себя детерминировано.
2. Алгоритм chaid
Ищем сочетание значений предикторов. Выбираем переменную, по которой мы будем разделять выборку (либо переменная пол, либо образования напр.). Выбрать ту, которая сильнее всего связана с У. Связь измеряется Хи-кв. Если значение статистики близко к нулю, то идет практически совпадение mэ и mт – находимся в условии независимости. Чем сильнее отличие от нуля, тем сильнее отличие mэ от mт – дальше от ситуации независимости.
Выбирает тот Х, по которому значение статистики будет максимальным. Когда делим выборку по переменным, которые имеют 2 категории, то мы не обязаны делить ее на количество категорий (склеивание категорий). Задача склеивания решается по критерию Хи-кв: если нет переменной, по которой эта подгруппа была бы связана с У, то эту подгруппу дальше на части не делим (Среди этих признаков отберем тот, для которого имеет наибольшее значение, т.е. тот, для которого связь существует с наибольшей вероятностью. По его градациям мы и будем далее разбивать совокупность респондентов).
Узлы дерева решений. Какие узлы считаются «хорошими»?
Те, в которых Хи-кв имеет max значение. даже Ротмистров об этом говорил!!!!!!!
4.Проверка качества модели. Как выявить ситуацию, когда модель характеризует уникальные свойства конкретной выборки, не имеющие отношения к генеральной совокупности?
Проверка нужна, чтобы результаты перенести на ген. совокупность. Проблема: нет формальных методов переноса. Но если выборка репрезентативна, то можно пользоваться и интеллектуальными методами.
Проблема переноса: мы получим дерево, которое характеризует частные свойства выборки, не характерные для ген. Совокупности.
Проверка качества: пробовать построить модель на нескольких разных выборках. Если модель хорошо работает только на одной и плохо на другой, то это будет означать, что модель характеризовала уникальные свойства выборки и переносить выводы на ген. Совокупность нельзя.
Алгоритм: делим выборку на 2 части и строим на одной модели, проверяем на другой.
Делим выборку на К частей, на 80% модель строим, а на 20% проверяем Потом на других 80% строим и на 20% проверяем (кросс проверка).
Если выборку делили больше, чем на 2 части, то процесс проверки называется v-кратное.