Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
учебное пособие для заочников 2 курс.docx
Скачиваний:
1207
Добавлен:
17.03.2015
Размер:
3.31 Mб
Скачать

Элементы проверки статических гипотез

Оценка закона распределения по данным выборки предполагает последовательное решение трех проблем:1) выбор типа теоретического (генерального) распределения и определение его параметров по результатам выборки; 2) построение теоретического ряда по найденному закону распределения или решение отдельных задач; 3) оценка расхождения (согласия) между теоретическим и опытным рядами.

Элементы корреляционного анализа Линейная корреляция

Корреляционный анализ наряду с выборочным методом представляет собой важнейшее прикладное направление математической статистики. Предметом его исследования является

связь (зависимость) между различными варьирующими признаками (переменными величинами), при которой каждому значению одной переменной соответствует не определенное значение другой (как это имеет место при функциональной зависимости), а ряд распределения с определенной групповой средней.

Конечная цель корреляционного анализа –получение уравнений прямых регрессии, характеризующих форму зависимости и вычисление коэффициента корреляции, определяющего тесноту (силу) связи, если она линейная.

Расчет производится в два основных этапа. На первом –обрабатывают табличные данные для нахождения величины и.

При этом используется упрощенная схема вычисления (т.е. переход от ик условным переменными) и применяются расчетные формулы (6.6.5-6.6.8).

Второй этап –вычисление основных параметров корреляционной зависимости (gy/x, gx/y, r) по формулам (6.6.9), (6.6.10) и оценка их достоверности.

При выполнении контрольной работы необходимо руководствоваться следующим.

Графическое изображение прямых регрессии (обе должны быть построены на одном чертеже) может служить для контроля правильности расчетов: они должны образовывать с осью ОХ либо только острые, либо только тупые углы в зависимости от знака (или r), опытные точки с координатами () и () должны располагаться по обе стороны соответствующих прямых регрессии; прямые регрессии должны пересекаться в центре распределения ().

Чертеж следует выполнять четко и аккуратно, удачно выбирая масштабы по каждой оси (они могут быть разными) и начала отсчетов.

Все расчеты следует вести с разумной степенью точности (как правило, сохраняя два знака после запятой в окончательных данных). Для этого в промежуточных вычислениях достаточно сохранить три знака после запятой (правило «Лишней цифры»).

Основные формулы

Упрощенный способ вычисления средних, дисперсий и величины .

Групповые средние:

, (6.6.5)

где ,

а c, k, c`, k` -произвольные числа.

Общие средние и дисперсии:

; (6.6.6)

. (6.6.7)

Ковариация

. (6.6.8)

Коэффициенты регрессий и корреляций

; (6.6.9)

. (6.6.10)

Уравнение прямых регрессий:

и . (6.6.11)

Построение теоретического закона распределения по опытным данным. Статистическая гипотеза. Понятие о критериях согласия. Критерий 2 Пирсона.

Одной из важных задач математической статистики является установление теоретического закона распределения случайной величины, характеризующей изучаемый признак по эмпирическому распределению, представляющему вариационный ряд.

Для решения этой задачи необходимо определить вид и параметры закона распределения.

Предположение о виде закона распределения может быть выдвинуто, исходя из теоретических предпосылок (например, выполнение условий центральной предельной теоремы может свидетельствовать о возможности нормального закона распределения случайной величины), опыта аналогичных исследований и, наконец, на основании графического изображения эмпирического распределения.

Параметры распределения, как правило, неизвестны, поэтому их заменяют «наилучшими» оценками по выборке.

Как бы хорошо не был подобран теоретический закон распределения, между эмпирическим и теоретическим распределением неизбежны расхождения. Естественно возникает вопрос: объясняются ли эти расхождения только случайными причинами, связанными с ограниченным числом наблюдений, или они являются существенными и связаны с тем, что теоретический закон распределения подобран неудачно? Для ответа на поставленный и аналогичный вопросы в математической статистике разработаны методы проверки статических гипотез.

Статической гипотезой называется любое предположение о виде или параметрах неизвестного закона распределения.

Проверяемую гипотезу обычно называют нулевой и обозначают Н0. Например, гипотеза Н0 : случайная величина Х распределена по нормальному закону с параметрами а=5, 2=2.

Правило, по которому гипотеза Н0 отвергается или принимается (точнее не отвергается), называется статическим критерием. Статические критерии, служащие для проверки гипотез о виде закона распределения, называются критериями согласия.

Вероятность допустить ошибку, а именно: отвергнуть гипотезу Н0, когда она верна, называется уровнем значимости критерия.

Пусть необходимо проверить нулевую гипотезу Н0 о том, что исследуемая случайная величина Х подчиняется определенному закону распределения. Для проверки гипотезы Н0 выбирают некоторую случайную величину U, характеризующую степень расхождения теоретического и эмпирического распределений, закон распределения которой при достаточно больших n известен и практически не зависит от закона распределения случайной величины Х.

Зная закон распределения U можно найти вероятность того, что U приняла значение не меньшее, чем фактически наблюдаемое в опыте u, т.е. Uu. Если вероятность P(Uu)= мала, то это означает в соответствии с принципом практической уверенности, что такие, как в опыте u, и большие отклонения практически невозможны. В этом случае гипотезу Н0 отвергают. Если же вероятность P(Uu)= не мала, т.е. расхождение между эмпирическим и теоретическим распределением не существенно, то гипотезу Н0 можно считать правдоподобной или, по крайней мере, не противоречащей опытным данным.

В наиболее используемом на практике критерии 2 Пирсона в качестве меры расхождения U берется величина 2 («хи-квадрат»).

(*)

где эмпирические (опытные) частоты случайной величины Х;

-теоретические частоты, представляющие произведение числа наблюдений n на вероятность pi, рассчитанные по предполагаемому теоретическому распределению.

Доказано, что выборочная характеристика или, как ее еще называют, статистика 2 (*) при n имеет 2 –распределение с степенями свободы,

где m –число интервалов эмпирического распределения (вариационного ряда);

s –число параметров теоретического распределения, определяемых по опытным данным (например, в случае нормального закона распределения число оцениваемых по выборке параметров s=2).

Схема применения критерия 2 сводится к следующему:

1.Определяемая мера расхождения эмпирических и теоретических частот 2 по (*).

2.Для выбранного уровня значимости  по таблице 2 –распределения находят критическое значение 2,, при числе степеней свободы .

3.Если фактически наблюдаемое значение 2 больше критического, т.е. 2 >2,, гипотеза Н0 отвергается, если 22,, гипотеза Н0 не противоречит опытным данным.

В таблице 1 приводятся наиболее часто используемые на практике значения 2 –критерия Пирсона.

Таблица 6.6.5.Некоторые значения 20,05; k критерия Пирсона

Число степеней свободы k

1

2

3

4

5

6

7

8

9

10

20,05; k

3,84

5,99

7,82

9,49

11,1

12,6

14,1

15,5

16,9

18,3

Замечание 6.6.1. Если в таблице 2 –распределения приводятся вероятности P(2 >2,), то гипотеза Н0 отвергается, если вероятность P(2 >2,) меньше выбранного уровня значимости и –принимается в противном случае.

Замечание 6.6.2. Критерий 2 Пирсона дает удовлетворительные результаты, если в каждом группировочном интервале достаточное число наблюдений ni; если в каком-нибудь интервале число наблюдений меньше, например, 5, имеет смысл объединить соседние интервалы с тем, чтобы в объединенных интервалах ni ,

было меньше 5. Пи этом при вычислении числа степеней свободы к в качестве m берется соответственно уменьшенное число интервалов.

Пример 6.6.5 Получено следующее распределение 100 рабочих цеха по выработке в отчетном году (в процентах к предыдущему году):

Таблица 6.6.6

Выработка в отчетном году

(в % к предыдущему)

94-104

104-114

114-124

124 -134

134 -144

Количество рабочих

6

20

45

24

5

100

На уровне значимости проверить гипотезу о нормальном распределении случайно величины Х – выработки рабочих – с помощью критерияПирсона.

Решение. Параметры теоретического нормального закона распределения а и , являющиеся соответственно математическим ожиданием и дисперсией случайно величины Х, неизвестны, поэтому заменяем их «наилучшими» оценками по выборке – несмещенными и состоятельными оценками соответственно выборочной средней х и «исправленной» выборочной дисперсии. Так как число наблюдений n = 100 достаточно велико, то вместо исправленнойможно взять «обычную» выборочную дисперсию. По данному в условии распределению были вычислены

Для расчета вероятностей р1 попадания случайно величины Х в интервале , где i = 1,2, ...,m, используем функцию Лапласа Ф(х) в соответствии со свойством нормального распределения:

Например,

и соответствующая первому теоретическая частота np1=100*0,49=4,9. Аналогично вычисляем частоты np1 в других интервалах (i = 1, 2, ..., m). Для определения статистики удобно составить таблицу:

Таблица 6.6.7

i

Интервал

i, xi+1]

Эмпирические

частоты

ni

Вероятности

pi

Теоретические

частоты

npi

(ni - npi)2

1

94-104

6

0.049

4.9

1.21

0.247

2

104-114

20

0.239

23.9

15.21

0.636

3

114-124

45

0.404

40.4

21.16

0.524

4

124-134

24

0.248

24.8

0.64

0.026

5

134-144

5

0.053

5.3

0.09

0.017

100

0.993

99.3

-

1.45

Итак, фактически наблюдаемое значение статистики . Так как число интервалов m = 5, а нормальный закон распределения определяетсяпараметрами (которые мы оценили по выборке), то число степеней свободы. Соответствующеекритическое значение статистики по таблице 9, . Так как, то гипотеза о выбранном теоретическом нормальном законе распределения с параметрами а = 119,2 и= 87,96 согласуется с опытными данными.

Изобразить эмпирические распределения можно, например, ступенчатой фигурой, состоящей из прямоугольников с основания

ми, равными величинам интервалов Δхi = хi+1 - хi, и высотами, равными частностям (или частотам n1) этих интервалов, называемой гистограммой. При построении нормальной кривой для каждого интервала по оси ординат откладываем соответствующие вероятности рi (теоретические частоты npi). Выполнив чертеж, можно увидеть, что нормальная кривая теоретического распределения достаточно хорошо «выравнивает» гистограмму эмпирического распределения.

Замечание 6.6.3 Если при проверке гипотезы используется таблица вероятностей , то необходимо найти вероятность Р для вычисленного значенияпри числе степеней свободык = 2. Непосредственно такого значения в таблице нет. Но (при к = 2) для ближайших соседних значений , равных 1 и 2, вероятностьР соответственно равна 0,3679 и 0, 06065. Таким образом, и без интерполяции ясно, что вероятность Р больше заданного уровня значимости , т.е.P > 0,05, следовательно, в соответствии с замечанием 1, нулевая гипотеза Н0 согласуется с опытными данными.

Замечание 2. Если в исходном распределении частоты некоторых интервалов меньше 5, то в соответствии с замечанием 2 их целесообразно объединить с соседними.

Предположим, что в распределении рабочих в последнем интервале выработки 134 Х144 (%) частота (количество рабочих) равняется не 5 (как в рассмотренном примере), а например, 2. В этом случае последний интервал объединяем с предыдущим, полагая при вычисленииего частоту равной 24 + 2 = 26. В этом случае для решения вопроса о справедливости гипотезыН0 вычисленное значениеследовало сравнивать с критическим значениемпри числе степеней свободы k = m –s –1 = 4 – 2 – 1 = 1, уменьшенным на единицу за счет сокращения числа интервалов, т.е..