- •Математическая статистика теория и практика
- •220301, 230104, 230201 Очной формы обучения
- •Издательство
- •Оглавление
- •§1. Задачи математической статистики
- •§2. Генеральная и выборочная совокупность. Репрезентативность выборки. Способы отбора (способы организации выборки)
- •§3. Статистическое распределение выборки. Графическое представление распределений
- •Эмпирическая функция распределения
- •§4. Статистические оценки параметров распределения
- •§5. Генеральная средняя. Выборочная средняя. Оценка генеральной средней по выборочной средней
- •§6. Генеральная дисперсия. Выборочная дисперсия. Оценка генеральной дисперсии по исправленной дисперсии
- •§7. Метод моментов и метод наибольшего правдоподобия нахождения оценок параметров. Метод моментов
- •Метод наибольшего правдоподобия
- •§8. Доверительная вероятность. Доверительный интервал
- •Доверительный интервал для оценки математического ожидания
- •§9. Проверка гипотезы о соответствии статистических данных теоретическому закону распределения
- •§ 10. Понятие о корреляционном и регрессивном анализе
- •Индивидуальные задания
- •Ответы и указания
- •Приложения
- •Алгоритм проверки гипотез о законе распределения случайных величин
- •О нормальном законе распределения случайной величины X
- •Критические точки распределения 2
- •Список литературы
- •Учебное издание
- •Математическая статистика теория и практика
§9. Проверка гипотезы о соответствии статистических данных теоретическому закону распределения
Предположение о том, что статистические данные о количественном признаке Х соответствуют теоретическому закону распределения (назовём его А), является статистической гипотезой, обозначаемой чаще всего через Н . Ставится задача – проанализировав экспериментально полученные данные, обосновать выбор одного из двух решений:
1) принять гипотезу о распределении статистических данных по закону А;
2) отвергнуть гипотезу о соответствии данных выборки закону распределения А.
В силу того, что данные выборки случайны, нет гарантии, что принятое решение будет правильным. Возможны два варианта ошибок:
1) ошибка 1-го рода – отвергнута правильная гипотеза;
2) ошибка 2-го рода – принята неправильная гипотеза.
Всю ситуацию можно описать таблицей 4
Таблица 4
Решение |
Гипотеза |
|
правильная |
неправильная |
|
Принять гипотезу |
Нет ошибки |
Ошибка 2-го рода |
Отвергнуть гипотезу |
Ошибка 1-го рода |
Нет ошибки |
Вероятность совершить ошибку 1-го рода называют уровнем значимости гипотезы и обозначают . Величину задают такой, чтобы случайное событие с вероятностью можно было считать практически невозможным. Обычно используют значения , равные 0,01; 0,05; 0,1. Для проверки статистических гипотез используют специально подобранные случайные величины, оценивающие степень расхождения эмпирического и теоретического законов, называемые критериями. Таким образом, гипотеза Н – есть предположение о характере распределения признака Х, а используемый для проверки критерий называют критерием согласия. Выбор теоретического закона распределения А обычно выполняется по гистограмме интервального статистического ряда на основании соответствия её плотности распределения закону А. Наиболее часто выбирается нормальный закон распределения, и для проверки соответствия ему опытных данных используются критерии согласия Пирсона, Ястремского, Колмогорова, Вилкоксона.
Опишем процедуру проверки гипотезы о соответствии экспериментальных данных нормальному закону распределения по критерию согласия Пирсона.
1. Примем определённое значение уровня значимости .
2. Сгруппируем экспериментальные данные в классы (интервалы) таким образом, чтобы в каждый класс попало не менее пяти наблюдений. Число, полученных классов обозначим k. Для расчёта числа классов без учёта объединения существует несколько формул, например
к 1 + 3,2 lg n, где n – объем выборки.
3. Найдём статические оценки параметров нормального распределения:
a и S .
4. Найдём для каждого класса (xi, xi+1) выровненные частоты =Рi n, где n – объём выборки; Ф(х) – функция Лапласа:
(11)
5. В качестве критерия согласия рассмотрим случайную величину, обозначаемую 2 и определяемую по формуле:
(12)
Случайная величина Пирсона 2 имеет специальное распределение, зависящее от числа степеней свободы r. Для гипотезы о нормальном распределении Х, число степеней свободы:
r = k – 3, где k – число классов. (13)
Очевидно, что чем ближе эмпирические частоты ni к теоретическим (выровненным) частотам , тем более достоверна гипотеза о нормальном распределении, и в то же время тем меньше значение 2.
На рисунке 7 изображён график плотности распределения 2 (дифференциальной функции f(2)) для r = 6. Вся площадь между графиком и осью абсцисс равна единице. Незаштрихованная часть площади равна вероятности , заштрихованная площадь равна вероятности .
Рис. 7
Пусть заштрихованная площадь равна уровню значимости:
(16)
г де – вероятность практически невозможного события. Тогда попадание 2 в интервал практически невозможно. Заштрихованную площадь называют критической областью данного уровня значимости.
Очевидно, что чем больше , тем меньшим (при данном числе степеней свободы r) будет значение . Имеются таблицы распределения (Пирсона), в которых приведены значения для различного числа степеней свободы r и уровней значимости . При одном и том же уровне значимости значение возрастает при увеличении числа степеней свободы r.
6. Определяем значение для принятого уровня значимости и числа степеней свободы r.
7. По данным статистического ряда вычисляем наблюдаемое (в данной выборке) значение . Обозначим это значение
(15)
8. Сравнивая и решаем вопрос о принятии или отклонении гипотезы Н о соответствии данных выборки нормальному закону распределения, исходя из следующего:
– если > , то это означает, что наблюдаемое значение попало в критическую область, т.е. произошло событие, которое считали практически невозможным. Следовательно, данные выборки противоречат гипотезе о нормальном распределении, и гипотеза отвергается;
– если , то это означает, что данные выборки не противоречат гипотезе о нормальном распределении, гипотезу можно принять.
Пример 11. Проверка по критерию Пирсона гипотезы о нормальном распределении количественного признака Х по результатам 150 его измерений, сведённых в таблицу частот:
Границы интервала (xi - xi+1) |
Частота ni |
Относительная частота wi |
Середина интервала x*i |
24,5–27,5 |
1 |
0,0067 |
26 |
27,5–30,5 |
4 |
0,0267 |
29 |
30,5–33,5 |
13 |
0,0867 |
32 |
33,5–36,5 |
23 |
0,1533 |
35 |
36,5–39,5 |
22 |
0,1467 |
38 |
39,5–42,5 |
29 |
0,1933 |
41 |
42,5–45,5 |
29 |
0,1933 |
44 |
45,5–48,5 |
16 |
0,1067 |
47 |
48,5–51,5 |
11 |
0,0733 |
50 |
51,5–54,5 |
2 |
0,0133 |
53 |
Построим гистограмму, где по оси абсцисс отложим отрезки [xi; xi+1],
а hi=Wi/xi=Wi/3.
По форме гистограммы выдвинем гипотезу Н : изучаемый признак Х имеет нормальный закон распределения. Найдём оценки числовых характеристик закона:
выборочные средняя и дисперсия:
исправленное среднее квадратичное отклонение:
Вычисляем значения аргумента и значения функции Лапласа (по таблице значений функции Лапласа) в этих точках.
Приведём вычисления для первого и последнего классов.
Для остальных классов выравненные относительные частоты Pi и выравненные частоты определяются аналогично.
Выравненные частоты для укрупненных классов приведены в таблице
Границы интервала xi-xi+1 |
Частота ni |
Относительная частота wi |
Выравненная относительная частота Pi |
Выравненная частота ni'=Pi150 |
|
24,5–27,5 |
|
0,0067 |
|
|
0,12 |
27,5–30,5 |
0,0267 |
||||
30,5–33,5 |
13 |
0,0867 |
0,0711 |
10,67 |
0,51 |
33,5–39,5 |
23 |
0,1533 |
0,1308 |
19,62 |
0,58 |
36,5–39,5 |
22 |
0,1467 |
0,1905 |
28,58 |
1,57 |
39,5–42,5 |
29 |
0,1933 |
0,2043 |
30,65 |
0,09 |
42,5–45,5 |
29 |
0,1933 |
0,1738 |
26,07 |
0,33 |
45,5–48,5 |
16 |
0,1067 |
0,1086 |
16,29 |
0,1 |
48,5–51,5 |
|
0,0733 |
|
|
0,031 |
51,5–54,5 |
0,0133 |
Примечание. Два первых класса и два последних класса объединены ввиду их малочисленности.
Этапы реализации критерия Пирсона:
1. Примем уровень значимости = 0,05.
2. Сгруппируем классы так, чтобы частота в каждом классе была не менее пяти. Для этого объединим два первых класса и объединим два последних класса. При этом частоты ni и выравненные частоты ni’ для объединенных классов суммируются. Число классов стало k = 8. В каждом классе подсчитываем величину .
3 . Из таблицы критических точек распределения (см. приложение 6) найдем для числа степеней свободы r = 8 – 3 = 5 и принятого уровня значимости = 0,05. Получим .
4. По последней таблице подсчитываем наблюдаемое значение критерия
5. Сравним и .
Так как , то гипотезу о нормальном распределении можно считать правдоподобной.
Задачи _______________________________________________________
Результаты взвешивания 50 случайным образом отобранных пачек чая приведены ниже (в граммах): 150; 147; 152; 148; 149; 153; 151; 150; 149; 147; 153; 151; 152; 151; 149; 152; 150; 148; 152; 150; 152; 151; 148; 151; 152; 150; 151; 149; 148; 149; 150; 150; 151; 149; 151; 150; 151; 150; 149; 148; 147; 153; 147; 152; 150; 151; 149; 150; 151; 153. Можно ли утверждать при уровне значимости α = 0,05, что случайная величина X – масса пачки чая – подчинена нормальному закону распределения?
Масса (в граммах) произвольно выбранных 30 пачек полуфабриката «Геркулес» такова: 503; 509; 495; 493; 489; 485; 507; 511; 487; 495; 506; 504; 507; 511; 499; 491; 494; 518; 506; 515; 487; 509; 507; 488; 495; 490; 498; 497; 492; 495. Можно ли при уровне значимости α = 0,05 утверждать, что случайная величина X – масса пачки – подчинена нормальному закону распределения?
Результаты исследования числа покупателей в универсаме, в зависимости от времени работы, приведены ниже:
Часы работы |
[9; 10) |
[10; 11) |
[11; 12) |
[12; 13] |
Число покупателей |
41 |
82 |
117 |
72 |
Можно ли утверждать при уровне значимости α = 0,05, что случайная величина X – число покупателей – подчинена нормальному закону распределения?
При обследовании диаметров карданных валов автомобиля, выпускаемых заводом, были зафиксированы отклонения от номинала Δd (мкм), приведенные в таблице:
-8,760 |
-1,455 |
-1,455 |
-4,665 |
-2,250 |
2,560 |
-1,645 |
0,425 |
0,650 |
-1,220 |
-6,280 |
8,550 |
3,170 |
0,360 |
2,450 |
1,590 |
-5,435 |
4,495 |
5,140 |
-6,520 |
7,655 |
-2,215 |
7,045 |
8,650 |
-1,660 |
1-745 |
-1,460 |
-4,415 |
-0,280 |
3,785 |
-4,790 |
1,240 |
-0,475 |
-7,440 |
-1,805 |
-0,295 |
-2,695 |
-0,390 |
1,145 |
0,970 |
2,075 |
-6,910 |
0,645 |
-11,805 |
-5,435 |
-5,420 |
1,590 |
1,835 |
-4,960 |
2,645 |
Проверить гипотезу о нормальном распределении случайной величины Δd при уровне доверия = 0,9.
Интервал движения поездов метро составляет 2 минуты. В таблице приведены значения случайной величины X – времени ожидания пассажирами поезда:
0,000 |
0,002 |
0,007 |
0,025 |
0,089 |
0,312 |
1,068 |
1,604 |
0,014 |
0,045 |
1,747 |
1,677 |
0,341 |
0,952 |
0,945 |
1,297 |
1,981 |
0,214 |
1,452 |
0,787 |
1,954 |
0,838 |
0,143 |
1,317 |
0,618 |
1,853 |
1,555 |
0,953 |
1,922 |
1,653 |
0,617 |
0,828 |
1,413 |
1,030 |
1,459 |
1,483 |
1,769 |
1,265 |
1,669 |
0,635 |
0,787 |
1,004 |
0,941 |
0,612 |
1,200 |
1,692 |
1,356 |
0,908 |
1,245 |
1,295 |
Проверить гипотезу о нормальном распределении случайной величины X при уровне значимости α = 0,01.
По данным выборочного обследования получено распределение семей по среднедушевому доходу (в усл. ед.):
10,984 |
22,672 |
17,536 |
21,400 |
29,096 |
22,368 |
25,680 |
26,040 |
23,048 |
17,944 |
14,952 |
38,608 |
30,072 |
25,576 |
28,920 |
27,544 |
16,304 |
32,192 |
33,224 |
14,568 |
37,248 |
21,456 |
36,272 |
38,540 |
22,872 |
27,792 |
22,664 |
17,936 |
24,552 |
31,056 |
17,336 |
26,984 |
24,240 |
13,096 |
22,112 |
24,528 |
20,688 |
24,376 |
26,832 |
26,552 |
28,320 |
13,944 |
26,032 |
6,112 |
16,304 |
16,328 |
27,936 |
17,064 |
27,544 |
29,232 |
Проверить гипотезу о нормальном распределении случайной величины – среднедушевого дохода семьи – при уровне доверия = 0,9.
В таблице приведены значения прибыли 50 фирм, принадлежащих одной корпорации, Q (1000 усл. ед.):
4,744 |
9,127 |
7,201 |
8,650 |
11,536 |
9,013 |
10,255 |
10,390 |
9,268 |
7,354 |
6,232 |
15,103, |
11,902 |
10,216 |
11,470 |
10,954 |
6,739 |
12,697 |
13,084 |
6,088 |
14,593 |
8,671 |
14,227 |
15,190 |
9,202 |
11,047 |
9,124 |
7,351 |
9,832 |
12,271 |
7,126 |
10,744 |
9,715 |
5,536 |
8,917 |
9,823 |
8,383 |
9,766 |
10,687 |
10,582 |
11,245 |
5,854 |
10,387 |
2,917 |
6,739 |
6,748 |
10,954 |
11,101 |
7,024 |
11,587 |
Проверить гипотезу о нормальности распределения случайной величины Q при уровне доверия = 0,99.
Имеются данные о годовой мощности М (тыс. т) предприятия цементной промышленности:
11,240 |
18,545 |
15,335 |
17,750 |
22,560 |
18,355 |
20,425 |
20,650 |
18,780 |
15,590 |
13,720 |
28,505 |
23,170 |
20,360 |
22,450 |
21,590 |
14,565 |
24,495 |
25,140 |
13,400 |
27,655 |
17,785 |
27,045 |
28,650 |
18,670 |
71,745 |
18,540 |
15,585 |
19,720 |
23,785 |
15,210 |
21,240 |
19,525 |
12,560 |
18,195 |
19,705 |
17,305 |
19,610 |
21,145 |
20,970 |
22,075 |
13,090 |
20,645 |
8,195 |
14,565 |
14,580 |
21,590 |
21,835 |
15,040 |
22,645 |
Проверить гипотезу о нормальности распределения случайной величины М при уровне доверия = 0,9.
Для определения средней заработной платы работников определённой отрасли было обследовано 100 человек. Результаты представлены в следующей таблице (данные условные):
Зарплата, долл. |
[190; 192) |
[192; 194) |
[194; 196) |
[196; 198) |
[198; 200) |
Число человек |
1 |
5 |
9 |
22 |
28 |
Зарплата, долл. |
[200; 202) |
[202; 204) |
[204; 206) |
[206; 208] |
|
Число человек |
19 |
11 |
4 |
1 |
|
Выяснить, можно ли при уровне значимости α = 0,05 считать нормальным распределение средней заработной платы.
В 1889–1890 годах был измерено рост 1000 взрослых мужчин (рабочих московских фабрик). Результаты измерений представлены в таблице:
Рост, см |
[143; 146) |
[146; 149) |
[149; 152) |
[152; 155) |
[155; 158) |
Число человек |
1 |
2 |
8 |
26 |
65 |
Рост, см |
[158; 161) |
[161; 164) |
[164; 167) |
[167; 170) |
[170; 173) |
Число человек |
120 |
180 |
201 |
170 |
120 |
Рост, см |
[173; 176) |
[176; 179) |
[179; 182) |
[182; 185) |
[185; 188] |
Число человек |
64 |
28 |
10 |
3 |
1 |
Проверить при уровне доверия 0,95 гипотезу, состоящую в том, что рост взрослого мужчины (случайная величина Х) имеет нормальное распределение.