Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Практикум по ТВ Евдокимова.doc
Скачиваний:
113
Добавлен:
01.05.2015
Размер:
5.34 Mб
Скачать

Проверка статистических гипотез. Критерий χ2

Смоленск 2009

Если принятое решение о законе распределения генеральной совокупности или о числовых значениях его параметров проверяется по выборочным данным, то говорят о проверке статистических гипотез. Проверке подвергается гипотеза об отсутствии разности между принятым и найденным по выборке значениями исследуемого параметра. Такую гипотезу называют нулевой. Противоположную ей гипотезу называют альтернативной.

Схема проверки нулевой гипотезы:

1. Рассматривая выборочные данные x1, x2 ,...,xn и учитывая конкретные условия задачи, принимают H0 – нулевую гипотезу и H1 – альтернативную гипотезу, конкурирующую с Н0.

2. Так как решение о справедливости гипотезы Н0 принимается на основе выборочных данных, могут возникать ошибки двух родов:

– гипотеза Н0 отвергается, а на самом деле она верна – это ошибка первого рода; вероятность ошибки первого рода равна уровню значимости α , т.е. ;

– гипотеза Н0 принимается, а на самом деле она неверна – это ошибка второго рода; вероятность ошибки второго рода равна β, т.е. .

Соответственно, вероятность принять первую верную гипотезу равна , а вероятность отвергнуть неверную гипотезуН0 равна .

3. Используя выборочные данные, вводят статистический критерий – некоторую функцию К, зависящую от условий решаемой статистической задачи. Эти функции, являясь случайными величинами, подчинены некоторому известному, затабулированному закону распределения (t-распределение, χ2-распределение или нормальное распределение).

4. В зависимости от принятого уровня значимости из области допустимых значений функции критерия К выделяют критическую область ω. Далее руководствуются следующим правилом: если вычисленное по выборке значение критерия К попадает в критическую область, то Н0 отвергается и принимается гипотеза Н1. При этом возможно, что Н0 справедлива и, следовательно, совершена ошибка первого рода, вероятность которой α, т.е. .

Возможны три варианта расположения критической области:

правосторонняя критическая область, состоящая из интервала , гдеопределяется из условия;

левосторонняя критическая область, состоящая из интервала , гдеопределяется из условия;

двусторонняя критическая область, состоящая из интервалов и, где точкииопределяются из условийи.

5. По выборочным данным находят числовое значение критерия (kr). Если kr попадает в критическую область ω, то гипотеза Н0 отвергается и принимается альтернативная гипотеза Н1. Если kr не попадает в критическую область, то гипотеза Н0 принимается.

При проверке статистических гипотез учитываются конкретные условия рассматриваемой задачи.

На практике часто требуется оценить, соответствуют ли действительности рекламные данные о параметрах того или иного товара. В этом случае возникает задача сравнения выборочной средней с анонсируемым значением этого параметра.

Задача 1. Фирма-поставщик в рекламном буклете утверждает, что средний срок безотказной работы предлагаемого изделия – 2900 ч. Для выборки из 50 изделий средний срок безотказной работы оказался равным 2720 ч при выборочном среднем квадратичном отклонении 700 ч. При 5%-м уровне значимости проверить гипотезу о том, что значение 2900 ч является математическим ожиданием.

Решение. Предположим, что случайная величина срока безотказной работы подчинена нормальному закону распределения. Требуется проверить гипотезу о числовом значении математического ожидания нормально распределенной величины (генеральной средней) при неизвестной генеральной дисперсии. В этом случае в качестве критерия выбирают функцию

,

где – выборочная средняя,а0 – математическое ожидание, s – выборочное среднее квадратичное отклонение. Случайная величина Т имеет t-распределение (распределение Стьюдента) с степенями свободы.В данной задаче речь идет о сравнении выборочной средней 2720 ч с гипотетическим математическим ожиданием=2900 ч, при этом выборочное среднее квадратичное отклонение равно 700 ч.

Требуется найти критическую область для нулевой гипотезы Н0: а0=2900 при альтернативной гипотезе Н1: а1<2900. Очевидно, что другие альтернативные гипотезы (и) нецелесообразны, т.к. потребитель обычно обеспокоен лишь тем, что срок службы изделия может оказаться меньше гарантируемого поставщиком.

Критическая область левосторонняя; находим из условия.

При α=0,05 и l=50-1=49 в таблице t-распределения, используя криволинейную интерполяцию, находим . Таким образом, критическая область. Рассчитаемtr, полагая :

Значение -1,8 попадает в критическую область, поэтому нулевая гипотеза Н0 должна быть отвергнута. Следовательно, фирма в рекламе завышает срок безотказной работы изделия.

Сравнение двух дисперсий.

Пусть имеются две случайные величины ис неизвестными дисперсиями и две независисмые выборких1, х2 ,..., хn и y1, y2 ,..., ym. Требуется по выборочным оценкам

и , гдеи,

проверить гипотезу .

В качестве критерия при проверке гипотезы используют функцию

,

которая имеет F-распределение (распределение Фишера-Снедекора) с l1=n-1 и l2=m-1 степенями свободы, если полученные по выборкам значения , и

с l1=m-1, l2=n-1, если .

Если задаться уровнем значимости α, то можно построить критичские области для проверки гипотезы при двух альтернативных гипотезах:

1) , если, или, если. В этом случае критическая область правосторонняя, гдеопределяется из условия;

2) . В этом случае критическая область двусторонняя. Однако можно использовать только правостороннюю область, гдеопределяется из условия, если, и из условия, если.

Если fr попадает в критическую область, то принимается альтернативная гипотеза Н1, в противном случае принимается гипотеза ; при этом оценкой генеральной дисперсии служит величина

.

Задача 2. Срок хранения продукции, изготовленной по технологии А, составил:

Срок хранения

xi

5

6

7

Число единиц продукции

ni

2

4

4

а изготовленной по технологии В:

Срок хранения

yi

5

6

7

8

Число единиц продукции

mi

1

8

7

1

Предположив, что случайные величины X и Y распределены по нормальному закону, проверить гипотезу при уровне значимости 0,1 и альтернативной гипотезе.

Решение. Вычислим «исправленные» выборочные дисперсии ,. Для этого вначале найдем,:

; .

Тогда

;

.

Учитывая, что , определимfr:

.

Критическое значение находим из условия

.

По таблице F-распределения определяем .

Так как число fr=5,64 попадает в критическую область , то гипотезу о равенстве дисперсий среднего срока хранения продукции, изготовленной по технологиямА и В, отвергаем.

Сравнение двух математических ожиданий.

Пусть имеются две выборки х1, х2,..., xn и y1, y2,..., ym, полученные в результате независимых испытаний. По этим данным рассчитаны оценки и, а так жеи. В предположении, что случайные величиныX и Y распределены по нормальному закону и, требуется проверить на основании выборочных данных гипотезупри условии, что гипотеза о равенстве дисперсий не отвергается.

Задача 3. Средний ежедневный объем продаж за I квартал текущего года для 17 торговцев района А составляет 15 тыс. руб. при «исправленном» среднем квадратичном отклонении 2,5 тыс. руб., а для 10 торговцев района В – 13 тыс. руб. при «исправленном» среднем квадратичном отклонении 3 тыс. руб. Каждую группу можно считать случайной независимой выборкой из большой совокупности. Существенно ли различие объемов продаж в районах А и В при 5%-м уровне значимости?

Решение. Предположим, что ежедневный объем продаж подчинен нормальному закону распределения. Математическое ожидание и среднее квадратичное отклонение законов распределения для районов А и В неизвестны. Предположим, что дисперсии объемов продаж одинаковы. В этих условиях возникает задача оценки статистической гипотезы при альтернативной, если принять заax математическое ожидание объема продаж для района А, за ay – для района В.

Выборочные средние иявляются независимыми нормально распределенными случайными величинами. В этом случае в качестве критерия используют функцию

, где .

Функция Т подчинена t-распределению для степеней свободы.

По таблице t-распределения для и 5%-го уровня значимости (для двусторонней критической области) находимtкр=2,06. Это значит, что критическая область есть интервал и.

Вычислим tr:

,

.

Полученное значение критерия tr не принадлежит критической области, следовательно, разность несущественна и гипотеза принимается. В качестве общей средней выборочной принимают величину

.

Задача 4. В условиях задачи 3 выяснить, существенно ли при 5%-ном уровне значимости превышение обхема продаж в районе А по сравнению с объемом в районе В.

Решение. Вопрос в данной задаче отличается от вопроса в задаче 3 тем, что альтернативной к гипотезе становится не гипотеза, а гипотеза. В этом случае критическая область односторонняя (в частности, правосторонняя), дляl=25 и α=0,05 имеем критическую область . Так какtr=1,86>1,708, то величина tr входит в критическую область, поэтому превышение объема продаж в районе А по сравнению с объемом в районе В существенно и гипотеза отвергается.

Задача 5. Фирма предлагает автоматы по розливу напитков. При выборке n=16 найдена средняя величина г дозы, наливаемой в стакан автоматом №1. По выборкеm=9 найдена средняя величина г дозы, наливаемой в стакан автоматом №2. По утверждению изготовителя, случайная величина наливаемой дозы имеет нормальный закон распределения с дисперсией, равнойг2. Можно ли считать отличия выборочных средних случайной ошибкой при уровне значимости α=0,01?

Решение. Пусть ax и ay – математические ожидания доз, наливаемых автоматом №1 и автоматом №2. Нулевая гипотеза в данном случае при альтернативныхи. Дисперсия известна: σ2=25. В качестве критерия справедливости статистической гипотезы выбирается функция

,

рапределенная по нормальному закону с параметрами (0, 1).

1. Рассмотрим вначале гипотезу для альткрнативной. В этом случае критическая область имеет вид, гдеопределяется из условия.

Так как функция Лапласа – нечетная функция, т.е. , а таблица этой функции содержит только положительные значения, то найдем вначале.

Для этого вычислим значение функции Лапласа в критической точке: . Откуда. Значит, левосторонняя критическая область будет.

Рассчитаем zr:

.

Полученное значение zr= –1,44 не входит в критическую область , поэтому нулевая гипотеза принимается.

2. Рассмотрим гипотезу при альтернативной. В этом случае критическая область двусторонняя и имеет вид. Величиныирассчитываются из условий

и .

Воспользовавшись таблицей функции Лапласа, имеем

,

.

Критическая область имеет вид . Значениеzr= –1,44 не попадает в критическую область, поэтому нулевая гипотеза принимается.

Проверка гипотезы о распределении. Критерий Пирсона.

При проверке статистических гипотез о соответствии отдельных параметров закона распределения случайных величин предполагалось, что законы распределения этих величин известны. Однако при решении практических задач (особенно экономических) модель закона распределения в общем случае заранее неизвестна, поэтому возникает необходимость выбора модели закона распределения, согласующейся с результатами выборочных наблюдений.

Пусть x1, x2 ,...,xn – выборка наблюдений случайной величины Х с неизвестной непрерывной функцией распределения F(x). Проверяется гипотеза Н0, утверждающая, что Х распределена по закону, имеющему функцию распределения F(x), равную функции F0(x), т.е. проверяется нулевая гипотеза .

Критерии, с помощью которых проверяется нулевая гипотеза о неизвестном распределении, называются критериями согласия. Рассмотрим критерий согласия Пирсона.

Схема проверки нулевой гипотезы :

1. По выборке x1 , x2 ,..., xn строят вариационный ряд; он может быть как дискретным, так и интервальным. Рассмотрим для определенности дискретный вариационный ряд

xi

x1

x2

...

xk-1

xk

mi

m1

m2

...

mk-1

mk

2. По данным предыдущих исследований или по предварительным данным делают предположение (принимают гипотезу) о модели закона распределения случайной величины Х.

3. По выборочным данным проводят оценку параметров выбранной модели закона распределения. Предположим, что закон распределения имеет r параметров (например, биномиальный закон имеет один параметр p; нормальный – два параметра (a0 , σx) и т.д.).

4. Подставляя выборочные оценки значений параметров распределения, находят теоретические значения вероятностей

, i=1, 2,..., k.

5. Рассчитывают теоретические частоты , где.

6. Рассчитывают значение критерия согласия Пирсона

.

Эта величина при стремится к распределениюсстепенями свободы. Поэтому для рассчетов используют таблицы распределения.

7. Задаваясь уровнем значимости α, находят критическую область (она всегда правосторонняя) ; значениеопределяют из соотношения. Если численное значениепопадает в интервал, то гипотезаотклоняется и принимается альтернативная гипотеза о том, что выбранная модель закона распределения не подтверждается выборочными данными, при этом допускается ошибка, вероятность которой равна α.

Задача 6. Экзаменационный билет по математике содержит 10 заданий. Пусть Х – случайная величина числа задач, решенных абитуриентами на вступительном экзамене. Результаты сдачи экзамена по математике для 300 абитуриентов таковы:

i

1

2

3

4

5

6

7

8

9

10

11

xi

0

1

2

3

4

5

6

7

8

9

10

mi

13

17

15

35

10

9

40

51

45

33

32

Оценить закон распределения случайной величины Х.

Решение. Для составления гипотезы о модели закона распределения случайной величины Х сделаем следующие предположения:

  • вероятность решения задачи не зависит от исхода решения других задач;

  • вероятность решить любую отдельно взятую задачу одна и та же и равна p, а вероятность не решить задачу равна q=1-p.

При этих допущениях можно предположить, что Х подчинена биномиальному закону распределения (нулевая гипотеза), т.е. вероятность того, что абитуриент решит x задач, может быть подсчитана по формуле

. (1)

Найдем оценку параметра p, входящего в модель (1).

Здесь p – это вероятность того, что абитуриент решит задачу. Оценкой вероятности p является относительная частота p*, которая вычисляется по формуле

,

где – среднее число задач, решенных одним абитуриентом;

v – число задач, решаемое каждым абитуриентом.

Тогда оценку для p получим в виде

Подставим значения p*=0,6 и q*=1-0,6=0,4 в выражение (1) и при различных xi получим теоретические вероятности и частоты(табл. 1).

Таблица 1

Номер группы i

xi

1

0

0,0001

0,03

2

1

0,0016

0,48

3

2

0,0106

3,18

4

3

0,0425

12,75

5

4

0,1115

33,45

6

5

0,2007

60,21

7

6

0,2508

75,24

8

7

0,2150

64,50

9

8

0,1209

36,27

10

9

0,0403

12,09

11

10

0,0060

1,80

Из таблицы видно, что для групп 1, 2, 3 и 11 теоретическая частота . Такие группы обычно объединяются с соседними. Значениядля групп 1, 2 и 3 можно объединить с. Это представляется естественным, потому что за 0, 1, 2 и 3 решенные задачи на экзамене обычно ставится неудовлетворительная оценка. Объединим так же группу 11 с группой 10 и составим табл. 2.

Таблица 2

Номер группы i

1

2

3

4

5

6

7

xi

0-3

4

5

6

7

8

9-10

mi

80

10

9

40

51

45

65

16

33

60

75

64

36

14

По данным табл. 2 рассчитываем величину критерия согласия:

.

Зададимся уровнем значимости α=0,05, тогда для степеней свободы.

Величина, следовательно, нулевая гипотеза должна быть отвергнута.

Задача 7. Результаты взвешиваний 50 случайным образом отобранных пачек чая приведены ниже (в граммах):

150, 147, 152, 148, 149, 153,. 151, 150,149, 147, 153, 151, 152, 151, 149, 152, 150, 148, 152, 150, 152, 151, 148, 151, 152, 150, 151, 149, 148, 149, 150, 150, 151, 149, 151, 150, 151, 150, 149, 148, 147, 153, 147, 152, 150, 151, 149, 150, 151, 153.

Оценить закон распределения случайной величины Х – массы пачки чая – для уровня значимости α=0,05.

Решение. Масса пачки чая – непрерывная случайная величина, но в силу того, что взвешивание проведено с дискретностью 1 г и размах составляет 147÷153 г, непрерывная величина может быть представлена дискретным вариационным рядом:

Таблица 1.

Значение случайной величины Х

xi

147

148

149

150

151

152

153

Частота появления

mi

4

5

8

11

11

7

4

В качестве модели закона распределения выберем нормальный закон , число параметров которогоr=2: a0 – математическое ожидание, σx – среднее квадратичное отклонение.

По выборочным данным получим оценки параметров нормального закона распределения:

;

, s=1,68.

Для рассчета теоретических частот воспользуемся табличными значениями функции Лапласа Ф(z). Алгоритм вычисления состоит в следующем:

• находим по нормированным значениям случайной величины Z значения Ф(z), а затем FN(x):

, .

Например,

x1=147; z1=(147–150,14)/1,68= –1,87; Ф(–1,87)= –0,46926; FN(147)=0,03074;

• находим ;

• находим , и если некоторое, то соответствующие группы объединяются.

Результаты вычисления ,иприведены в табл. 2.

По таблице находим по схеме: для уровня значимостии числа степеней свободы. Следовательно критическая область.

Величина не входит в критическую область, поэтому гипотеза о том, что случайная величинаХ – масса пачки чая – подчинена нормальному закону распределения, согласуется с выборочными данными.

Таблица 2

i

xi+xi+1

mi

Ф(zi)

FN(xi)

FN(xi+1)

= FN(xi+1)–

FN(xi)

0

–∞÷147

0

–0,50000

0,00000

0,03074

0,03074

1,537

1

147÷148

4

–0,46926

0,03074

0,10204

0,07130

3,563

0,237

2

148÷149

5

–0,39796

0,10204

0,24825

0,14621

7,31

0,730

3

149÷150

8

–0,25175

0,24825

0,46812

0,21987

10,99

0,813

4

150÷151

11

–0,03188

0,46812

0,69497

0,22685

11,34

0,010

5

151÷152

11

0,19497

0,69497

0,86650

0,17153

8,58

0,683

6

152÷153

7

0,36650

0,86650

0,95543

0,08893

4,45

2,794

7

153÷∞

4

0,45543

0,95543

1,00000

0,04457

2,23

Σ=50

Σ=1,00000

Σ=5,267

Цель занятий: Привить студентам навыки проверки статистических гипотез. Обратить особое внимание на усвоение понятий, связанных с проверкой гипотез (статистический критерий, ошибки 1 и 2 рода и т.д.). После решения каждой задачи обсудить другие варианты выводов с разными и разными уровнями значимости.

К занятию по данной теме должны быть подготовлены ответы на следующие вопросы:

1. Как изменяются вероятности совершения ошибки первого и второго рода при увеличении объема выборки?

2. Зависят ли вероятности совершения ошибок первого и второго рода от вида альтернативной гипотезы, от применяемого критерия?

  1. В чем состоит односторонность действия статистических критериев значимости?

  2. Можно ли, применяя статистический критерий значимости, сделать вывод: «Проверяемая нулевая гипотеза верна»?

  3. В чем состоит различие между построением двусторонней критической области и построением доверительного интервала для одного и того же параметра?

Задача 1. Были исследованы 200 готовых деталей на отклонение истинного размера от расчетного. Сгруппированные данные исследований приведены в табл.5.

Таблица 5

Границы интервалов

–20 ÷ –10

–10 ÷ – 0

0 ÷ 10

10 ÷ 20

20 ÷ 30

Число деталей с данной величиной отклонения

19

42

71

56

12

По данному статистическому ряду построить гистограмму. По виду гистограммы выдвинуть гипотезу о виде закона распределения (например, предложить, что исследуемая величина имеет нормальный закон распределения). Подобрать параметры закона распределения (равные их оценкам на основе опытных данных). На том же графике построить функцию плотности вероятности, соответствующую выдвинутой гипотезе. С помощью критерия согласия проверить, согласуется ли гипотеза с опытными данными. Уровень значимости взять, например, равным 0,05.

Решение. Для того чтобы получить представление о виде закона распределения изучаемой величины, строим гистограмму. Для этого над каждым интервалом построим прямоугольник, площадь которого численно равна частоте попадания в интервал (рис.8.)

По виду гистограммы можно выдвинуть предположение о том, что исследуемая величина имеет нормальный закон распределения. Параметры нормального закона распределения (математическое ожидание и дисперсию) оценим на основе опытных данных, считая в качестве представителя каждого интервала его середину:

;

.

Итак, выдвигаем гипотезу, что исследуемая величина имеет нормальный закон распределения N(5;111,6), т.е. имеет функцию плотности вероятности

.

График её удобнее строить с помощью таблиц функции

.

Например, точка максимума и точки перегиба имеют ординаты соответственно

,

Вычислим меру расхождения между выдвинутой гипотезой и опытными данными, т.е. . Для этого сначала вычисляем вероятности, приходящиеся на каждый интервал в соответствии с гипотезой

Аналогично ,

, .

Вычисление удобно вести, оформляя запись следующим образом:

19

42

71

56

12

0,069

0,242

0,362

0,242

0,069

13,8

48,4

72,4

48,4

23,8

5,2

-6,4

-1,4

7,5

-1,8

-27,04

40,96

1,96

57,76

3,24

1,96

0,85

0,02

1,19

0,23

Итак, вычислено значение . Построим критическую область для уровня значимости. Число степеней свободы дляравно 2 (число интервалов, а наналожено три связи:,и. В результате). Для заданного уровня значимости и числа степеней свободынаходим из таблицы, распределениятакое значение, чтобы.

В нашем случае , и критической областью будет интервал [5,99;). Значение в критическую область не входит. Вывод: гипотеза опытным данным не противоречит (что не означает, конечно, что гипотеза верна).

Задача 2. В виде статистического ряда приведены сгруппированные данные о времени безотказной работы 400 приборов:

Время безотказной работы в часах

от 0 до 500

500 - 1000

1000- 1500

1500-2000

Число приборов

257

78

49

16

Согласуются ли эти данные с предположением, что время безотказной работы прибора имеет интегральную функцию распределения ? Уровень значимости взять, например, равным0,02.

Решение. Подсчитаем вероятности, приходящиеся в соответствии с гипотезой на интервалы:

p=P(0<X<500)=F(500)-F(0)=1-e-1+e=1- 0,6324;

p=P(500<X<1000)=1-e-1+e=0,3676-0,13510,2325;

p=P(1000<X<1500)=1-e-1+e=0,1351-0,0499=0,0852;

p= P(1500<X<2000)=1-e-1+e=0,0499-0,0182=0,0317;

Вычисляем .

i

pi

npi

i- npi

(i- npi)2

(i-npi)/ npi

257

78

49

16

0,6324

0,2325

0,0852

0,0317

252,96

93

34,08

12,68

4,04

-15

14,92

3,32

16,32

225

222,6

11,02

0,06

2,42

6,53

0,87

=9,88=;

Число степеней свободы равно трём, так как на 4 величины наложена только одна связь=n (r =4 -1=3). Для трех степеней свободы и уровня значимости =0,02 находим из таблицы распределения критическое значение=9,84. Значение =9,88 входит в критическую область. Вывод: гипотеза противоречит опытным данным. Гипотезу отвергаем и вероятность того, что мы при этом ошибаемся, равна 0,02.

Задача 3. Монету подбросили 50 раз. 32 раза выпал герб. С помощью критерия согласия “хи-квадрат ” проверить, согласуются ли эти данные с предположением, что монета была симметричной.

Решение. Выдвигаем гипотезу, что монета была симметричной, т. е. вероятность выпадания герба равна 1/2. В нашем опыте герб выпал 32 раза и 18 раз выпала цифра Вычисляем значение в.

i

pi

npi

i- npi

(i- npi)

(i- npi)/ npi

32

18

1/2

1/2

25

25

7

7

49

49

1,96

1,96

=3,92

Число степеней свободы для равноr = 2–1=1; так как слагаемых два, а на наложена одна связьν+ν=50.

Для числа степеней свободыr =1 и уровня значимости, например, равного β=0,05 находим из таблицы распределения , чтоP(3,84)=0,05, т.е. областью критических значений при уровне значимостиβ=0,05 будет интервал [3.84;). Вычисленное значение =3,92 попадает в критическую область, гипотеза отвергается. Вероятность того, что мы при этом ошибаемся равна 0,05.

Задача 4. Изготовитель утверждает что в данной большой партии изделий только 10% изделий низкого сорта.Было отобрано наугад пять изделий и среди них оказалось три изделия низкого сорта. С помощью леммы Неймана-Пирсона построить критерий и проверить гипотезу о том, что процент изделий низкого сорта действительно равен10 (p=0,1) против альтернативы, что процент не низкосортных изделий больше 10 (p=p>p). Вероятность ошибки первого рода выбрать 0,01, т.е. включить в критическую область столько точек, чтобы вероятность отвергнуть проверяемую гипотезу, если она верна, была 0,01. Эта вероятность назначается приблизительно, чтобы не прибегать к рандомизации, о которой студенты не имеют представления. Если p =0,6, то какова вероятность ошибки второго рода?

Решение. Согласно гипотезе p0=0,1 при альтернативном значении p>p. По лемме Неймана-Пирсона в критическую область следует отнести те значения k, для которых

=>C,

где С- некоторая постоянная,

,

k+ (5 -k),

или

.

Так как ,то выражение в скобке неотрицательно. Поэтому

Значит в критическую область следует включить те из значений {0,2,1,3,4,5}, которые больше некоторого , зависящего от уровня значимости (от вероятности ошибки первого рода). Для определенияв предположении, что гипотеза верна, вычисляем вероятности

,

,

,

.

Если к критической области отнести значения {3,4,5}, то вероятность ошибки первого рода будет равна

.

В условиях задачи оказалось, что среди пяти проверенных три бракованных изделия. Значение входит в критическую область. Гипотезуотвергаем в пользу альтернативы и вероятность того, что мы это делаем ошибочно, меньше0,01.

Вероятностью ошибки второго рода называется вероятность принять гипотезу, когда она не верна. Гипотеза будет принята при. Если вероятность изготовления бракованного изделия на самом деле равна, то вероятность принять ложную гипотезуравна

Задача 5. Известно, что при тщательном перемешивании теста изюмины распределяются в нём примерно по закону Пуассона, т.е. вероятность наличия в булочке изюмин равна приблизительно, где- среднее число изюмин, приходящееся на булочку. При выпечке булочек с изюмом полагается по стандарту на1000 булочек 9000 изюмин. Имеется подозрение, что в тесто засыпали изюму меньше, чем полагается по стандарту. Для проверки выбирается одна булочка и пересчитываются изюмины в ней. Построить критерий для проверки гипотезы о том, что против альтернативы. Вероятность ошибки первого рода взять приблизительно 0,02.

Решение. Для проверки гипотезы: против альтернативыпо лемме Неймана-Пирсона в критическую область следует включить те значениядля которых

,

где - некоторая постоянная.

Тогда

,

,

так как , то

и .

Итак, в критическую область следует включить значения {0,1,2,…,}, где значение зависит от ошибки1-го рода.

При

.

Отсюда следует, что если мы включим в критическую область значения для числа изюмин , то вероятность ошибки первого рода равна

.

Дополнительные задачи.

Задача 1. Для проверки эффективности новой технологии были отобраны две группы рабочих: в первой группе численностью n1=50 чел., где применялась новая технология, выборочная средняя выработка составила (изделий), во второй группе численностьюn2=70 чел. выборочная средняя – (изделий). Предварительно установлено, что дисперсии выработки в группах равны соответственнои. На уровне значимости α=0,05 выяснить влияние новой технологии на среднюю производительность.

Решение. Проверяемая гипотеза , т.е. средние выработки рабочих одинаковы по новой и старой технологиям. В качестве конкурирующей гипотезы можно взятьили(В данной задаче более естественна гипотезаН1, так как ее справедливость означает эффективность применения новой технологии).

Фактическое значение статистики критерия

.

При конкурирующей гипотезе Н1 критическое значение статистики находится из условия , т.е., откудаtкр=t0,95=1,96.

Так как фактически наблюдаемое значение t=4,00 больше критического значения tкр (при любой из взятых конкурирующих гипотез), то гипотеза Н0 отвергается, т.е. на 5%-ом уровне значимости можно сделать вывод, что новая технология позволяет повысить среднюю выработку рабочих.

Задача 2. Произведены две выборки урожая пшеницы: при своевременной уборке урожая и уборке с некоторым опазданием. В первом случае при наблюдении 8 участков выборочная средняя урожайность составила 16,2 ц/га, а среднее квадратическое отклонение – 3,2 ц/га; во втором случае при наблюдении 9 участков те же характеристики равнялись соответственно 13,9 ц/га и 2,1 ц/га. На уровне значимости α=0,05 выяснисть влияние своевременой уборки урожая на среднее значение урожайности.

Решение. Проверяемая гипотеза , т.е. средние значения урожайности при своевременной уборке урожая и с некоторым опозданием равны. В качестве альтернативной гипотезы берем гипотезу, принятие которой означает существенное влияние на урожайность сроков уборки.

Фактически наблюдаемое значение статистики критерия

.

Критическое значение статистики для односторонней области определяется при числе степеней свободы l=n1+n2-2=9+8-2= =15 из условия θ(t,l)=1–2·0,05=0,9, откуда по таблице t-распределения (Приложение 6) находим, tкр=1,75. Так как , то гипотезаН0 принимается. Это означает, что имеющиеся выборочные данные на 5%-ом уровне значимости не позволяют считать, что некоторое запаздывание в сроках уборки оказывает существенное влияние на величину урожая. Еще раз подчеркнем, что это не означает безоговорочную верность гипотезы Н0. Вполне возможно, что только незначительный объем выборки позволил принять эту гипотезу, а при увеличении объемов выборки (числа отобранных участков) гипотеза Н0 будет отвергнута.

Задача 3. Имеются следующие данные об урожайности пшеницы на 8 опытных участках одинакового размера (ц/га): 26,5; 26,2; 35,9; 30,1; 32,3; 29,3; 26,1; 25,0. Есть основание предполагать, что значение урожайности третьего участка x*=35,9 зарегистрировано неверно. Является ли это значение аномальным (резко выделяющимся) на 5%-ном уровне значимости?

Решение. Исключив значение x*=35,9, найдем для оставшихся наблюдений и. Фактически наблюдаемое значениебольше табличного, следовательно, значениеx*=35,9 является аномальным, и его следует отбросить.

Задача 4. На двух токарных станках обрабатываются втулки. Отобраны две пробы: из втулок, сделанных на первом станке n1=15 шт., на втором станке – n2=18 шт. По данным этих выборок рассчитаны выборочные дисперсии (для первого станка) и(для второго станка). Полагая, что размеры втулок подчиняются нормальному закону распределения, на уровне значимости α=0,05 выяснить, можно ли считать, что станки обладают различной точностью.

Решение. Имеем нулевую гипотезу , т.е. дисперсии размера втулок, обрабатываемых на каждом станке, равны. Возьмем в качестве конкурирующей гипотезу(дисперсия больше для первого станка).

.

По таблице P-распределения (Приложение 5) определяем критическое значение F-критерия на уровне значимости α=0,05 при числе степеней свободы l1=n1 –1=14 и l2=n2 –1=17, т.е. . Так какF<fкр, то гипотеза Н0 не отвергается, т.е. имеющиеся данные не позволяют считать, что станки обладают различной точностью.

Замечание. Если в качестве конкурирующей гипотезы в данной задаче взять гипотезу , то следовало взять дыустороннюю критическую область и найтиисоответственно из условийи. При этом гипотезаН0 отвергается, если полученное значение или.

Однако непосредственно по таблицам F-критерия можно найти лишь правую границу (бóльшую единицы), левую же границу(меньшую единицы) находят из соотношения, доказанного дляF-критерия:

.

В данном случае при α=0,05 в задаче следовало найти

и .

Задача 5. На основании сделанного прогноза средняя дебиторская задолженность однотипных предприятий региона должна составить а0=120 ден. ед. Выборочная проверка 10 предприятий дала среднюю задолженность ден. ед., а среднее квадратическое отклонение задолженностиs=20 ден. ед. На уровне значимости α=0,05 выяснить, можно ли принять данный прогноз.

Решение. Проверяемая гипотеза . В качестве альтернативной возьмем гипотезу. Так как генеральная дисперсия σ2 неизвестна, то используем t-критерий Стьюдента. Статистика критерия равна . Критическое значение статистикиtкр=1,83.

Так как |t|>tкр (2,25>1,83), то гипотеза Н0 отвергается, т.е. на 5%-ном уровне значимости сделанный прогноз должен быть отвергнут.

Задача 6. Для эмпирического распределения рабочих цеха по выработке по данным таблицы подобрать соответствующее теоретическое распределение и на уровне значимости α=0,05 проверить гипотезу о согласованности двух распределений с помощью критерия .

i

Выработка в отчетном году в процентах к предыдущему х

Частота (количество рабочих) ni

Частость (доля рабочих)

1

94–100

3

0,03

2

100–106

7

0,07

3

106–112

11

0,11

4

112–118

20

0,20

5

118–124

28

0,28

6

124–130

19

0,19

7

130–136

10

0,10

8

136–142

2

0,02

Σ

100

1,00

Решение. По виду гистограммы распределения рабочих по выработке можно предположить нормальный закон распределения признака. Параметры нормального закона распределения а и σ2, являющиеся соответственно математическим ожиданием и дисперсией случайной величины Х, неизвестны, поэтому заменяем их «наилучшими» оценками по выборке – несмещенными и состоятельными оценками соответственно выборочной средней и «исправленной» выборочной дисперсией. Так как число наблюденийn=100 достаточно велико, то вместо «исправленной» можно взять «обычную» выборочную дисперсиюs2. Имеем ,,.

Для рассчета вероятностей pi попадания случайной величины Х в интервал [xi , xi+1] используем функцию Лапласа в соответствии со свойством нормального распределения:

.

Например,

и соответствующая первому интервалу теоретическая частота np1=100·0,0166≈1,7 и т.д.

Для определения статистики χ2 удобно составить таблицу:

i

Интервал

Эмпирические частоты ni

Вероятности pi

Теоретические частоты npi

1

94–100

0,017

5,76

0,758

2

100–106

0,059

3

106–112

11

0,141

14,1

9,61

0,682

4

112–118

20

0,228

22,8

7,84

0,344

5

118–124

28

0,247

24,7

10,89

0,441

6

124–130

19

0,182

18,2

0,64

0,035

7

130–136

0,087

0,16

0,014

8

136–142

0,029

Σ

100

0,990

99,0

χ2=2,27

Учитывая, что в рассматриваемом эмпирическом распределении частоты первого и последнего интервалов (n1=3, n8=2) меньше 5, при использовании критерия χ2-Пирсона целесообразно объединить указанные интервалы с соседними (см. таблицу).

Итак, фактически наблюдаемое значение статистики χ2=2,27.

Так как новое число интервалов (с учетом объединения крайних) k=6, а нормальный закон распределения определяется r=2 параметрами, то число степеней свободы l=k-r-1=6-2-1=3. Соответствующее критическое значение статистики χ2 по табл. . Так как χ2<, то гипотеза о выбранном теоретическом нормальном законе с параметрамиN(119,2;87,48) согласуется с опытными данными.

Задача 7. В течение месяца выборочно осуществлялась проверка торговых точек города по продаже овощей. Результаты двух проверок по недовесам покупателям одного вида овощей приведены в таблице.

Номер интервала

Интервалы недовесов, г

Частоты

, для выборки 1

, для выборки 2

1

0–10

3

5

2

10–20

10

12

3

20–30

15

8

4

30–40

20

25

5

40–50

12

10

6

50–60

5

8

7

60–70

25

20

8

70–80

15

7

9

80–90

5

5

n1=110

n2=100

Можно ли считать, что на уровне значимости α=0,05 по результатам двух проверок (случайных выборок) недовесы овощей описываются одной и той же функцией распределения?

Решение. Обозначим: и– накопленные частоты соответственно выборок 1 и 2;,– значения их эмпирических функций распределения. Результаты вычислений сведем в таблицу.

xi

10

3

5

0,027

0,050

0,023

20

13

17

0,118

0,170

0,052

30

28

25

0,254

0,250

0,004

40

48

50

0,436

0,500

0,064

50

60

60

0,545

0,600

0,055

60

65

68

0,591

0,680

0,089

70

90

88

0,818

0,880

0,072

80

105

95

0,955

0,950

0,005

90

110

100

1,000

1,000

0,000

Из последнего столбца видно, что .

По формуле наблюдаемое значение статистики критерия Колмогорова-Смирнова приn1=110, n2=100

.

По таблице

Уровень значимости α

0,40

0,30

0,20

0,10

0,05

0,025

0,01

Критическое значение λα

0,89

0,97

1,07

1,22

1,36

1,48

1,63

при α=0,05 λ0,05=1,36.

Так как (0,644<1,36), то нулевая гипотезаН0 не отвергается, следовательно, недовесы покупателям описываются одной и той же функцией распределения, т.е. они являются устойчивым и закономерным процессом при продаже овощей в данном городе.

Домашнее задание.

Задача 1. Среднесуточная продажа хлеба в течение многих лет для данного магазина составляла 6 т при среднем квадратичном отклонении 0,05 т. Сегодня магазином было продано 7 т хлеба. Можно ли при 5%-м уровне значимости предполагать, что и завтра будет продано 7 т хлеба?

Задача 2. Температура в холодильной камере контролируется по двум электронным термометрам. Для сравнения точности термометров их показания фиксируются одновременно. Проведено 10 замеров показаний термометров:

Номер замера

1

2

3

4

5

6

7

8

9

10

Термометр 1

-7,11

-8,63

-6,89

-7,23

-7,51

-7,68

-7,91

-6,97

-7,44

-7,64

Термометр 2

-7,13

-8,49

-7,12

-7,19

-7,67

-7,49

-8,03

-7,15

-7,29

-7,89

При уровне значимости 0,1 проверить гипотезу о равенстве дисперсий.

Задача 3. Акционерное общество выпускает печенье «Русские узоры» в пачках, на которых написано: масса нетто 200 г. Осуществлена выборка для оценки средней массы печенья в пачках, выпущенных московской и санкт-петербургской фабриками АО. Результаты выборок таковы (указана масса пачек печенья «Русские узоры»):

Московская фабрика

201, 195, 197, 199, 202, 198, 199, 203, 195, 196, 198, 199, 194, 203, 195, 202, 197

Санкт-петербургская фабрика

203, 207, 191, 193, 197, 201, 196, 192, 194, 195, 198, 196.

Предполагая, что случайная величина массы пачки печенья распределена по нормальному закону с одинаковыми дисперсиями, и считая выборки независимыми, определить:

а) средние выборочные и «исправленные» средние квадратичные отклонения массы для каждой фабрики;

б) для α=0,05 значимо или нет различие между средними выборочными (если это различие имеется);

в) является ли величина 200 г математическим ожиданием массы при 5%-м уровне значимости?

Задача 4. Расход сырья на единицу продукции составил:

по старой технологии

Расход сырья

xi

305

307

308

Число изделий

ni

1

4

4

по новой технологии

Расход сырья

xi

303

304

305

308

Число изделий

mi

2

6

4

1

Предположив, чтосоответствующие случайные величины X и Y имеют нормальные распределения с математическими ожиданиями ax и ay и одинаковыми дисперсиями, проверить:

а) при уровне значимости 0,1 гипотезу при альтернативной;

б) при уровне значимости 0,05 гипотезу при альтернативной.

СМОЛЕНСКИЙ ГУМАНИТАРНЫЙ УНИВЕРСИТЕТ

Г. С. ЕВДОКИМОВА

ПРАКТИКУМ

ПО ТЕОРИИ ВЕРОЯТНОСТЕЙ

И МАТЕМАТИЧЕСКОЙ

СТАТИСТИКЕ

МОДУЛЬ 11–12