18 Занятие «Однофакторный дисперсионный анализ (anova)»
ANOVA это метод сравнения нескольких выборок по признаку, измеренному в метрической шкале. Данный метод допускает сравнение выборок более чем по одному основанию и позволяет проверить гипотезу о том, что изучаемый фактор оказывает влияние на зависимую переменную (средние значения, соответствующие разным градациям фактора, различаются). Нулевая статистическая гипотеза содержит утверждение о равенстве средних значений. При ее отклонении принимается альтернативная – о различии (по крайне мере) двух средних значений. Распределение зависимой переменной в сравниваемых генеральных совокупностях должно характеризоваться нормальным законом и одинаковыми дисперсиями. Выборки должны быть случайными и независимыми. Чем в большей степени вариативность признака обусловлена исследуемыми переменными (факторами) или их взаимодействием, тем выше эмпирическое значение критерия F. Статистически значимые результаты ANOVA свидетельствуют о том, что существует более сильная вариативность признака, чем это предполагалось, но данные этого метода не позволяют судить о том, которые из признаков значимо отличны друг от друга.
Основное предназначение дисперсионного анализа – выявление изменчивости признака под влиянием каких-либо контролируемых переменных факторов, поэтому он оптимально подходит при анализе результатов экспериментов. Синонимом является наименование «анализ вариативности». Автором метода является Р.А. Фишер. Задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака выделить вариативность трех видов:
- случайную вариативность, обусловленную неизвестными исследователю переменными;
- вариативность, обусловленную взаимодействием исследуемых независимых переменных;
- вариативность, обусловленную действием каждой из исследуемых независимых переменных.
Основными показателями при проведении ANOVA являются, их вычисление производится в приведенной последовательности:
- суммы квадратов (SS),
- числа степеней свободы (df),
- средние квадраты (MS),
- F-отношения,
- р-уровни значимости.
Задание 18.1 «Ручные расчеты»
Пример: У вас имеются данные об уровне образования (в годах) в случайной выборке из 38 офицеров полиции города А, города В (30 человек), города С (45 человек). Средний уровень образования для офицеров города А (в годах) составляет 15 лет со стандартным отклонением 2 года; города В – 14 лет и 2.5 года; города С – 16 лет и 1.2 года. Существует ли статистически значимое различие в уровне образования офицеров полиции городов А, В и С? |
Проблема: Средний возраст солдат национальной гвардии трех штатов был изучен методом случайного отбора. В штате О случайная выборка была размером 32 респондента, их средний возраст 38 лет, стандартное отклонение 5.3; в штате В – выборка 25 солдат, средний возраст 42 года, стандартное отклонение 6.1; в штате А – 30 респондентов, средний возраст 29 лет, стандартное отклонение 4.8. Существуют ли статистически значимые различия в среднем возрасте солдат национальной гвардии? |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Формулировка гипотез: Н0: не существует статистически значимых различий в среднем уровне образования офицеров полиции трех городов. На: существуют статистически значимые различия в среднем уровне образования офицеров полиции трех городов. |
Формулировка гипотез: H0: не существует статистически значимых различий в среднем возрасте солдат национальной гвардии трёх штатов. Ha: существуют статистически значимые различия в среднем возрасте солдат национальной гвардии трёх штатов. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Формулирование критериев отклонения Но: Числитель степеней свободы: df=k-1, где k=3 (число независимых выборок), df=2 Знаменатель степеней свободы: df=n-k, где n=113, (сумма всех независимых выборок, т.е. 38+30+45=113) df=110 Определение критических значений: α=0.05, Fкритич=3.08 (по таблице F распределений) |
Формулирование критериев отклонения Но: Числитель степеней свободы: df=k-1, где k=3 (число независимых выборок), df=2 Знаменатель степеней свободы: df=n-k, где n=87, (сумма всех независимых выборок, т.е. 32+25+30=87) df=85 Определение критических значений: α=0.05, Fкритич=3.128 (по таблице F распределений) |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Подсчет статистик теста: Общее среднее:
Подсчет F статистик:
|
Подсчет статистик теста: Общее среднее:
3136/87=36,046
Подсчет F статистик: F= 42,125 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Выводы: Поскольку F-статистика (9.931) превосходит критическое значение (3.08), то можно отвергнуть нулевую гипотезу и придти к выводу, что существуют статистически значимые различия в уровне образования между офицерами полиции трех городов. |
Выводы: Поскольку F-статистика превосходит критическое значение, то можно отвергнуть нулевую гипотезу и придти к выводу, что существуют статистически значимые различия в возрасте солдат нац.гвардии трёх штатов. |