Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
политанал.doc
Скачиваний:
14
Добавлен:
22.12.2018
Размер:
678.91 Кб
Скачать

40. Дисперсионный анализ

Дисперсионный анализ является одним из основополагающих статистических методов. Важность умения работать с его алгоритмами определяется не только теми возможностями, которые он предоставляет исследователю для самостоятельного анализа данных. Как и в случае с корреляционным анализом, изучение дисперсий переменных входит во многие более сложные статистические методы.

Дисперсионный анализ служит для проверки гипотезы о статистической значимости различий между средними величинами в нескольких группах наблюдений.,

В дисперсионном анализе выборки должны извлекаться случайно из генеральных нормально распределенных совокупностей.

Основной целью дисперсионного анализа является исследование значимости различия между средними. Раздел Элементарные понятия статистики содержит краткое введение в исследование статистической значимости. Если вы просто сравниваете средние в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t-критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений). Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS (от английского Sum of Squares - Сумма квадратов). Далее слово выборочная мы часто опускаем, прекрасно понимая, что рассматривается выборочная дисперсия или оценка дисперсии. В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Рассмотрим следующий набор данных: Основная логика дисперсионного анализа. Подводя итоги, можно сказать, что целью дисперсионного анализа является проверка статистической значимости различия между средними (для групп или переменных). Эта проверка проводится с помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо, нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними.

41!. Дискриминантный анализ.

Определить, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Основная идея дискриминантного анализа заключается в том, чтобы определить, отличаются ли совокупности по среднему какой-либо переменной (или линейной комбинации переменных), и затем использовать эту переменную, чтобы предсказать для новых членов их принадлежность к той или иной группе. Первоначально используются группы с различающимися качественными характеристиками, например, люди, имеющие или не имеющие наркотическую зависимость. Затем эти группы обмеряются разными видами инструментария, не имеющего прямого отношения к целевой качественной характеристике. Дискриминантный анализ позволяет оценить различающую способность этих видов инструментария. Затем использованные косвенные характеристики применяются для прогнозирования попадания новых объектов в каждую из первоначально заданных групп.

Цель: определить, к какому классу относятся объекты с помощью определенных признаков.

Нужно создать классифицирующее правило, позволяющее приписать новый элемент к своей подгруппе в ситуации, когда исследователю неизвестно, в какой совокупности он принадлежит.

Использование линейной функции и прямая связь.

Из большого числа выбираются те переменные, которые лучше влияют на итог классификации.

на каждом шаге смотрят все переменные и находят ту, которая вносит наибольший вклад в различия. И ее включают в следующий шаг

исключение переменных. Все включают. Исключают ту, которая вносит наименьший вклад в различия.

Y = a + b1x1 + b2x2 + … + bnxn

B – коэффициент регрессии переменной. Чем больше В, тем больше вклад.

Последовательность:

вычисление функций от исследуемых показателей

упорядочение самих показателей

вычисление вероятности ошибочной классификации

удачная модель: вероятность распределения по группам не меньше 72-75 %.