- •Введение
- •1.Структура пакета STATISTICA
- •Структура данных
- •Редактирование данных
- •Источники данных
- •Открытие файла данных
- •Создание файла данных
- •Сохранение файла
- •Импорт файла данных
- •Экспорт файла данных
- •Вычисление основных статистик и построение графиков
- •2. Лабораторные работы по теории вероятностей
- •Выполнение в пакете STATISTICA
- •. Работа с Probability Distr. Calculator
- •Моделирование распределений случайных величин
- •3. Лабораторные работы по статистическим методам
- •Выполнение в пакете STATISTICA
- •Основные понятия
- •Задание
- •Выполнение в пакете STATISTICA
- •Задания для самостоятельной работы
- •Работа 5. Доверительные интервалы для разности средних и отношения дисперсий
- •Основные понятия
- •Задание
- •Выполнение в пакете STATISTICA
- •Задания для самостоятельной работы
- •Работа 6. Группировка данных по классифицирующему признаку
- •Выполнение в пакете STATISTICA
- •4. Непараметрические методы математической статистики
- •Задания для самостоятельной работы
- •Задания для самостоятельной работы
- •Коэффициент ранговой корреляции Спирмена
- •Задания для самостоятельной работы
- •Задания для самостоятельной работы
- •Задание 1
- •Задание 2
- •4.8. Критерий знаков (Sign test)
- •4.9. Критерий Вилкоксона (Wilcoxon watched pairs test)
- •Задания для самостоятельной работы
- •5. Однофакторный дисперсионный анализ
- •5.1. Основные понятия
- •5.2. Решение примеров в пакете STATISTICA
- •6. Регрессионный анализ
- •Работа 7. Простая линейная регрессия
- •Литература
Задание 2
Решите следующие задачи, используя критерий серий Вальда - Вольфовица.
10. Для 13 деталей получены следующие отклонения контрольного размера от номинального
(мкм):
+8 –11 +10 –4, +5, –4, –5, +15 –9 +21, +7, –3, +6.
Можно ли считать, что полученная выборка представляет результаты случайных и независимых наблюдений? Принять α = 0,05.
11. При подбрасывании монеты 45 раз последовательность результатов (Г - выпадение герба, Р - выпадение решки) имела следующий вид:
ГГГГГГРРРРГГГРРРГРГРРРРРР
ГГГГРРРРРГГГРГГГГРРР.
Является ли такая последовательность случайной выборкой?
Принять α = 0,05.
12. Глубина слоя диффузии, определенная по выборке из партии микросхем, имеет следующие значения (мкм):
9,8; 9,8; 8,6; 9,2; 9,8; 9,0; 10,0; 9,4; 9,0; 11,2; 10,8; 9,2; 9,4.
Проверить гипотезу Н0 о том, что полученные результаты распределены случайным образом. Принять
α = 0,05.
119
4.7. Однофакторный дисперсионный анализ Краскела - Уоллиса и медианный критерий (Kruskal - Wallis ANOVA and
median test)
Критерий Краскела - Уоллиса служит для проверки гипотезы H0: k выборок объемом n1, n2, ..., nk получены из одной генеральной совокупности, т.е. является обобщением U-критерия Манна - Уитни на случай, когда число выборок k > 2.
Статистика критерия H определяется следующим образом. Все выборки записываются в одну последовательность. Эта последовательность записывается в порядке возрастания, т.е. в виде вариационного ряда. Для каждого элемента выборки определяется ранг (так же, как в U-критерии). Пусть Ri - сумма рангов i-й выборки, i = 1, 2, ..., k. Для контроля можно использовать тождество
k |
n(n +1) |
|
|
åRi º |
, |
||
n |
|||
i=1 |
|
||
|
|
где n - число элементов объединенной выборки,
k
n = åni . i=1
Статистика критерия H вычисляется по формуле
12 |
æ |
k |
R2 |
ö |
|
H = |
|
çç |
å |
i |
÷÷ - 3(n +1). |
n(n +1) |
n |
||||
|
|
è i=1 |
i |
ø |
Если гипотеза H0 верна, то при ni ³ 5 и k ³ 4 статистика H имеет распределение c2с(k -1) степенями свободы. Гипотеза H0 отклоняется на уровне
120
значимости α, если выборочное значение Hв статистики H удовлетворяет условию
H> χ2−α (k −1) ,
в1
где χ2 |
(k −1) |
- квантиль распределения χ2 порядка |
1−α |
|
|
(1− α) с (k −1) |
степенями свободы. |
Для ni < 5 и k = 3 имеются точные таблицы критических значений (см. [14]).
Пример 4.9. Ниже приводятся данные о
содержании иммуноглобулина IgA в сыворотке крови у больных четырех возрастных групп:
Возрастная |
|
|
|
Содержание IgA, мг % |
|
|
|
||||
группа |
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
1 |
83 |
85 |
82 |
82 |
84 |
– |
– |
– |
– |
– |
– |
2 |
84 |
85 |
85 |
86 |
86 |
87 |
– |
– |
– |
– |
– |
3 |
86 |
87 |
87 |
87 |
88 |
88 |
88 |
88 |
88 |
89 |
90 |
4 |
89 |
90 |
90 |
91 |
91 |
– |
– |
– |
– |
– |
– |
Проверить гипотезу о том, что содержание иммуноглобулина у всех возрастных групп совпадает. Принять α = 0,01.
Решение. Для проверки гипотезы H0 воспользуемся критерием Краскела - Уоллиса. Суммы рангов по выборкам и объемы выборок равны:
R1 |
= 17,5, |
n1 |
= 5; |
R2 |
= 52, |
n2 |
= 6; |
R3 |
= 186, |
n3 |
= 11; |
R4 |
= 122,5, |
n4 |
= 5. |
4
n = åni = 27. i−1
Выборочное значение статистики критерия H:
Hв = 21,99548.
121
Так как квантиль распределения χ2:
χ0,952 (4 −1) = 7,81,
что меньше Hв, то гипотеза H0 отклоняется на уровне значимости α = 0,05: данные свидетельствуют о различном
содержании иммуноглобулина в крови больных разных возрастных групп.
Этот результат получим в пакете STATISTICA,
введя данные в процедуру Kruskal - Wallis ANOVA and median test. Четыре выборки вводятся подряд в одну переменную (dependent var), а коды выборок (1, 2, 3, 4) вводятся в группирующую переменную
(grouping var).
После выполнения процедуры получим выборочное значение статистики критерия
H = 21,99548
и вычисленный уровень значимости Так как значение р меньше, чем заданный уровень
значимости
α= 0,10, то гипотеза Н0 отклоняется.
Впакете STATISTICA решение выглядит, как на рис.4.8.
Рис.4.8. Решение примера 4.9 Медианный критерий используется для проверки
нулевой гипотезы о том, что все k выборок получены из
122
генеральных совокупностей, имеющих равные медианы. Процедура применения критерия состоит в следующем.
Все выборки объединяются в |
одну выборку |
объемом n = n1 + n2 + ...+ nk . Эта выборка |
записывается в |
виде вариационного ряда и определяется общая медиана: если ряд содержит нечетное число элементов, то медиана равна среднему члену вариационного ряда; если ряд содержит четное число элементов, то медиана равна среднему арифметическому двух средних элементов. Далее для каждой выборки определяется число элементов, лежащих ниже или совпадающих с медианой, и число элементов, лежащих выше медианы. Результаты (частоты) заносятся в таблицу сопряженности 2× k.
Для проверки гипотезы H0: все k генеральных совокупностей имеют равные медианы, можно использовать статистику χ2:
χ2 = å( f0 − fe )2 = å f02 − n, fe fe
где f0 - наблюдаемые частоты; fe - ожидаемые частоты при условии, что гипотеза H0 верна.
Если гипотеза H0 верна, статистика χ2 имеет распределение хи-квадрат с (2 −1)(k −1) = k −1 числом
степеней свободы. Гипотеза H0 отклоняется, если
χ2 > χ2−α (k −1),
в 1
где χ2 |
- выборочное значение статистики χ2, χ2 |
(k −1) - |
|
в |
|
1−α |
|
квантиль распределения χ2 (k −1) |
порядка (1− α). |
|
Для примера 4.9 результаты применения медианного критерия следующие: общая медиана равна 87, таблица сопряженности 2× 4 для наблюдаемых частот f0 имеет вид:
Группа Группа Группа Группа Всего
123
|
1 |
|
2 |
|
|
3 |
4 |
|
|||
Число |
|
|
|
|
|
|
|
|
|
a + b + |
|
элементов, |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
+ c + d |
||
меньших или |
a = 5 |
b = 6 |
c = 4 |
d = 0 |
|||||||
= |
|||||||||||
равных |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
= 15 |
||
медиане |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
||
Число |
|
|
|
|
|
|
|
|
|
e + f + |
|
элементов, |
|
|
|
f = 0 |
|
|
|
|
|
||
e = 0 |
g |
= 7 |
k = 5 |
+ g + |
|||||||
больших |
|||||||||||
|
|
|
|
|
|
|
|
|
k= = 12 |
||
медианы |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
||
Сумма |
a + e = 5 |
b + f = 6 |
c + g = 11 |
d + k = 5 |
n = 27 |
||||||
Ожидаемые |
частоты |
fе определяется следующим |
|||||||||
образом : |
|
|
|
|
|
|
|
|
|
|
|
клетка a = |
(a + b + c + d)(a + e) |
= 2,77... ; |
|
||||||||
|
n |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
||
клетка b = |
(a + b + c + d)(b + f ) |
= 3,33... ; |
|
||||||||
|
n |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
||
клетка c = |
(a + b + c + d)(c + g) |
= 6,11... ; |
|
||||||||
|
n |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
||
клетка d = |
(a + b + c + d)(d + k) |
= 2,77... ; |
|
||||||||
|
n |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
||
клетка e = |
|
(e + f + g + k)(a + e) |
= 2,22... ; |
|
|||||||
|
|
n |
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
||
клетка f = |
(e + f + g + k)(b + f ) |
|
= 2,66... ; |
|
|||||||
|
n |
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
||
клетка g = |
(e + f + g + k)(c + g) |
= 4,88... ; |
|
||||||||
|
n |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
||
клетка k = |
(e + f + g + k)(d + k) |
= 2,22... . |
|
||||||||
|
n |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
Выборочное значение статистики χ2:
χв2 = 16,691.
124