- •1. Анализ пропущенных значений. Методы заполнения пропусков.
- •2. Непараметрические критерии различий двух выборок.
- •3. Графические и аналитические методы анализа.
- •4.Нормальный закон распределения и его значение для прикладной статистики.
- •6.Непараметрические критерии однородности двух выборок.
- •9. Метод кластеризации данных.
- •8.Проверка гипотез о коэфицентах регрессии и коэфицентах корреляции.
- •7.Множественный дисперсионный анализ
- •10. Стандартизация исходных данных
- •11. Основные понятия и алгоритмы кластерного анализа
- •12. Проверка гипотез о коэффициентах регрессии и коэффициентах корреляции
- •Дисперсионный анализ при оценке качества регрессии.
- •Основные возможности пакета Excel для анализа статистических данных.
- •Однофакторный дисперсионный анализ.
- •19. Корреляционный анализ. Парный коэффициент корреляции.
- •20.Основные задачи математической статистики
- •1. Задача определения закона распределения случайной величины (или системы случайных величин) по статистическим данным
- •2. Задача проверки правдоподобия гипотез
- •3. Задача нахождения неизвестных параметров распределения
- •21. Критерий согласия распределения.
- •22. Основные понятия и алгоритмы кластерного анализа
- •23. Основные проверки статистических гипотез
- •24) Критерий Стьюдента (t-критерий) (проверка гипотез о равенстве средних).
- •27)Методы кластеризации данных
- •28. Параметрические и непараметрические методы.
2. Непараметрические критерии различий двух выборок.
Непараметрические критерии - это группа статистических критериев, которые не включают в расчёт параметры вероятностного распределения и основаны на оперировании частотами или рангами:
Q-критерий Розенбаума- Простой непараметрический критерий. Мощность критерия не очень велика.. Данные для применения Q-критерия Розенбаума должны быть представлены хотя бы в порядковой шкале. Признак должен измеряться в значительном диапазоне значений (чем более значительном – тем лучше). Для применения Q-критерия Розенбаума нужно произвести следующие операции:1)Упорядочить значения отдельно в каждой выборке по степени возрастания признака; принять за первую выборку ту, значения признака в которой предположительно выше, а за вторую – ту, где значения признака предположительно ниже.2)Определить максимальное значение признака во второй выборке и подсчитать количество значений признака в первой выборке, которые больше его (S1).3) Определить минимальное значение признака в первой выборке и подсчитать количество значений признака во второй выборке, которые меньше его (S2).4)Рассчитать значение критерия Q = S1 + S2. 5)По таблице определить критические значения критерия для данных n1 и n2. Если полученное значение Q превышает табличное или равно ему, то признается наличие существенного различия между уровнем признака в рассматриваемых выборках (принимается альтернативная гипотеза). Если же полученное значение Q меньше табличного, принимается нулевая гипотеза.
U-критерий Манна-Уитни- Простой непараметрический критерий. Мощность критерия выше, чем у Q-критерия Розенбаума. Этот метод определяет, достаточно ли мала зона перекрещивающихся значений между двумя рядами (ранжированным рядом значений параметра в первой выборке и таким же во второй выборке). Чем меньше значение критерия, тем вероятнее, что различия между значениями параметра в выборках достоверны.
Для применения U-критерия Манна — Уитни нужно произвести следующие операции:1)Составить единый ранжированный ряд из обеих сопоставляемых выборок, расставив их элементы по степени нарастания признака и приписав меньшему значению меньший ранг. Общее количество рангов получится равным: N = n1 + n2, где n1 — количество единиц в первой выборке, а n2 — количество единиц во второй выборке.2) Разделить единый ранжированный ряд на два, состоящие соответственно из единиц первой и второй выборок. Подсчитать отдельно сумму рангов, пришедшихся на долю элементов первой выборки, и отдельно — на долю элементов второй выборки. определить большую из двух ранговых сумм (Tx), соответствующую выборке с nx единиц. 3) Определить значение U-критерия Манна — Уитни по формуле:
4)По таблице для избранного уровня статистической значимости определить критическое значение критерия для данных n1 и n2. Если полученное значение U меньше табличного или равно ему, то признается наличие существенного различия между уровнем признака в рассматриваемых выборках (принимается альтернативная гипотеза). Если же полученное значение U больше табличного, принимается нулевая гипотеза. Достоверность различий тем выше, чем меньше значение U. 5) При справедливости нулевой гипотезы критерий имеет математическое ожидание и дисперсию и при достаточно большом объёме выборочных данных распределён практически нормально.
Критерий Колмогорова - используется для того, чтобы определить, подчиняются ли два эмпирических распределения одному закону, либо определить, подчиняется ли полученное распределение предполагаемой модели.Критерий Колмогорова — Смирнова о проверке гипотезы об однородности двух эмпирических законов распределения является одним из основных и наиболее широко используемых непараметрических методов, так как достаточно чувствителен к различиям в исследуемых выборках.
Т-Критерий Уилкоксона. - непараметрический статистический критерий, используемый для проверки различий между двумя выборками парных измерений. Впервые предложен Франком Уилкоксоном.Данный критерий имеет другие названия: W критерий Уилкоксона, критерий знаковых рангов Уилкоксона, критерий суммы рангов Уилкоксона, Критерий Уилкоксона для связных выборок.Критерий предназначен для сопоставления показателей, измеренных в двух разных условиях на одной и той же выборке испытуемых. Он позволяет установить не только направленность изменений, но и их выраженность, то есть, способен определить, является ли сдвиг показателей в одном направлении более интенсивным, чем в другом.Данный критерий применим в тех случаях, когда признаки измерены, по крайней мере, в порядковой шкале. Это объясняется тем, что разброс значений сдвигов должен быть таким, чтобы появлялась возможность их ранжирования. В случае если сдвиги незначительно отличаются между собой, и принимают какие-то конечные значения, например. +1, -1 и 0, формальных препятствий к применению критерия нет, но, ввиду большого числа одинаковых рангов, ранжирование утрачивает смысл, и те же результаты проще было бы получить с помощью критерия знаков. Суть метода состоит в том, что мы сопоставляем абсолютные величины выраженности сдвигов в том или ином направлении. Для этого сначала все абсолютные величины сдвигов ранжируются, а потом суммируются ранги. Если сдвиги в ту или иную сторону происходят случайно, то и суммы их рангов окажутся примерно равны. Если же интенсивность сдвигов в одну сторону больше, то сумма рангов абсолютных значений сдвигов в противоположную сторону будет значительно ниже, чем это могло бы быть при случайных изменениях. Ограничения критерия: 1)Объем выборки – от 5 до 50 элементов;2)Нулевые сдвиги исключаются из рассмотрения. (Это требование можно обойти, переформулировав вид гипотезы. Например: сдвиг в сторону увеличения значений превышает сдвиг в сторону их уменьшения и тенденцию к сохранению на прежнем уровне); 3)Сдвиг в более часто встречающемся направлении принято считать «типичным», и наоборот.