Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
TV11_1_2.doc
Скачиваний:
24
Добавлен:
12.07.2019
Размер:
2.01 Mб
Скачать

5.4 Проверка статистических гипотез

Во многих практических задачах выборочные данные используются

для проверки предположений (гипотез) относительно тех или иных свойств

112

распределения генеральной совокупности. В частности, задача проверки ста-

тистических гипотез возникает при сравнении различных технологий и ме-

тодов анализа, при контроле качества продукции и т. д.

Пусть X – случайная величина, сформировавшая данную выборку объ-

ема n . Статистической гипотезой H называют предположение отно-

сительно параметров или вида распределения случайной величины X . Ста-

тистическая гипотеза H бывает простой, если она однозначно определяет

распределение случайной величины X , или сложной , когда гипотеза со-

держит два распределения и более. Проверяемая гипотеза называется ну-

левой гипотезой и обычно обозначается H0. Наряду с нулевой гипотезой

рассматривают альтернативные , конкурирующие гипотезы H1. Выбор

альтернативной гипотезы определяется конкретной формулировкой задачи.

Например, гипотеза о том, что для нормального распределения мате-

матическое ожидание равно нулю, а стандартное отклонение равно единице

является простой, а альтернативная гипотеза о том, что в этих же условиях

стандартное отклонение больше единицы –– сложной.

Правило, по которому принимается решение о том, что следует принять

или отклонить гипотезу H0, называют критерием проверки гипотезы .

Так как решение принимается на основе выборочных данных, то необхо-

димо подобрать подходящую статистику Z , называемую в этом случае ста-

тистикой критерия .

Проверка статистической гипотезы основывается на принципе, в соот-

ветствии с которым маловероятные события считаются невозможными, а со-

бытия, имеющие большую вероятность, считаются достоверными. Этот прин-

цип можно реализовать следующим образом.

Перед анализом выборки фиксируется некоторая малая вероятность

α , называемая уровнем значимости . Пусть V множество значений

статистики Z , а Vk⊆ V –– некоторое критическое подмножество обла-

сти V . Вероятность попадания статистики критерия в критическое мно-

жество Vkпри условии истинности гипотезы H0выбирают равной α , т. е.

P (Z ∈ Vk|H0) = α .

Обозначим z∗ выборочное значение статистики Z . Критерий проверки

статистической гипотезы формулируется следующим образом.

Нулевая гипотеза H0отклоняется, если выборочное значение статисти-

ки попадает в критическую область, т. е. z∗ ∈ Vk.

Cчитается, что нулевая гипотеза H0не противоречит выборочным дан-

ным, если выборочное значение статистики попадает в область, дополнитель-

ную к критической области, т. е. z∗ ∈ V \ Vk.

113

Множество Vkвсех значений статистики критерия Z , при которых

принимается решение отклонить гипотезу H0, называют критической об-

ластью, а дополнительное множество V \ Vkназывают областью приня-

тия гипотезы H0.

Таким образом, проверка статистической гипотезы проводится в сле-

дующем порядке.

1. Формируются нулевая гипотеза H0и альтернативная гипотеза H1. Каж-

дая из гипотез может быть простой, содержащей ровно одно распределе-

ние вероятностей, так и сложной, содержащей два и более распределений.

2. Назначается конкретная величина уровня значимости α . Уровень зна-

чимости зависит от важности решаемой практической задачи и часто

назначается, равным значениям 0, 001 , 0, 01 , 0, 05 .

3. Выбирается статистика критерия Z (X1, X2, . . . , Xn) , которая имеет при

нулевой гипотезе удобное для дальнейшего анализа выборочное распре-

деление и позволяет построить критическую область критерия Vk.

В практических задачах часто используются статистики, имеющие рас-

пределения Гаусса, Стъюдента, ѕхи-квадратї или Фишера.

4. Определяется выборочное распределение статистики критерия при усло-

вии, что верна нулевая гипотеза H0, и составляется процедура вычисле-

ния квантилей распределения статистики Z(X1, X2, . . . , Xn) .

5. В зависимости от того, как сформулирована альтернативная гипотеза, за-

дается критическая область Vkс помощью одного из неравенств Z > z1−α

(правосторонняя область), Z < zα (левосторонняя область) или совокуп-

ности неравенств Z > z1−α/2,Z < zα/2 (двусторонняя область). Здесь

zα/2,,z1−α,z1−α/2 – квантили распределения статистики критерия

при условии, что нулевая гипотеза истинна. Отметим, что при указан-

ном выше способе выбора квантилей, вероятность критической области

всегда равна заданному заранее уровню значимости α .

6. По выборочным данным x1, x2, . . . , xnвычисляется выборочное значение

(реализация) z∗ статистики критерия Z (X1, X2, . . . , Xn) .

7. Принимается статистическое решение в следующем виде. Если числовое

значение статистики принадлежит критической области, то нулевая ги-

потеза отвергается, как противоречащая результатам наблюдений. Если,

значение статистики критерия принадлежит дополнительной области, то

114

нулевая гипотеза ѕпринимаетсяї, т.е. считается, что нулевая гипотеза не

противоречит результатам наблюдений.

Статистическое решение может быть ошибочным. При этом ошибки

подразделяют на ошибки первого и второго рода.

Если отклоняется верная нулевая гипотеза, то говорят, что совершена

ошибка первого рода. Вероятность ошибки первого рода равна вероятности

попадания статистики критерия в критическую область при верной нулевой

гипотезе, т. е. P {Z ∈ Vk|H0} = α .

Ошибка второго рода происходит в том случае, если гипотеза H0

принимается, но в действительности верна альтернативная гипотеза H1. Ве-

роятность ошибки второго рода β при простой альтернативной гипотезе H1

вычисляется по формуле P {Z ∈ V \ Vk|H1} = β . Вероятность отвергнуть

неверную нулевую гипотезу P {Z ∈ Vk|H1} в этом случае равна 1 − β и

называется мощностью критерия .

Проверка статистических гипотез с использованием критериев значимо-

сти может быть проведена с помощью доверительных интервалов. Область

принятия гипотезы H0на уровне значимости α совпадает с доверительным

интервалом для оцениваемой характеристики при доверительной вероятно-

сти 1 − α . При этом одностороннему критерию значимости соответствует

односторонний доверительный интервал, а двустороннему критерию значи-

мости –– двусторонний доверительный интервал. Гипотеза H0принимается,

если значение оцениваемой характеристики накрывается соответствующим

доверительным интервалом; в обратном случае гипотеза отклоняется. Такой

подход часто применяется при анализе качества продукции на соответствие

отраслевым стандартам.

В математической формулировке решение указанных практических за-

дач сводится к проверке следующих нулевых гипотез: о равенстве матема-

тического ожидания генеральной совокупности заданному значению m0x ; о

равенстве дисперсии её нормируемому значению Dx0 , о равенстве параметра

p биномиального распределения значению p0, а также о равенстве медианы

hxнепрерывной случайной величины её значению h0x.

Во многих статистических задачах заранее предполагается, что имеют-

ся некоторые сведения об истинном распределении, породившем анализиру-

емые опытные данные. Например, утверждают, что истинное распределение:

дискретно или непрерывно; имеет заданный вид (нормальное, биномиальное

и т.д.); определено однозначно или принадлежит некоторому семейству. Чем

более согласуются сделанные допущения с реальными данными, тем обосно-

ваннее будут последующие статистические выводы.

115

Критериями согласия называют статистические критерии, предна-

значенные для проверки соответствия реальных данных выдвигаемым ги-

потезам о законе распределения случайной величины, породившей выборку.

В статистических пакетах как минимум применяются два критерия согла-

сия: хи-квадратї Пирсона и критерий Колмогорова-Смирнова. Первый из

них является универсальным и пригодным как для дискретных, так и для

непрерывных распределений. Второй критерий выведен в предположении,

что случайная величина, породившая выборку, имеет непрерывное распреде-

ление.

Пример 6. Рассмотрим, как проводится статистическая проверка ги-

потезы о законе распределения по критерию согласия Пирсона, использу-

ющего ѕхи-квадратї распределение. Пусть нулевая гипотеза H0состоит в

том, что выборка объема n порождена случайной величиной X с функцией

распределения F0(x) . Случайная величина X может быть дискретной (рас-

пределения биномиальное, Пуассона и т. д.) или непрерывной (распределения

нормальное, экспоненциальное и т. д.). Будем считать сначала, что гипотеза

простая, т. е. распределение F0(x) задано однозначно.

Решение. Для построения статистики критерия согласия разобьем чис-

ловую ось точками z1< z2, . . . < zr−1 на r непересекающихся промежутков

(−∞; z1), [z1; z2), [z2; z3), . . . , [zr−1 ; ∞).

Обозначим piвероятность попадания случайной величины X на ин-

тервал ti, выразив эти вероятности с помощью известной заранее функции

распределения F0(x) . Тогда справедливы следующие равенства: p1= F0(z1) ;

p2= F0(z2)−F0(z1) ; pi= F0(zi)−F0(zi−1), i = 1, 2, . . . , r−1 ; pr= 1−F0(zr−1).

Обозначим miчисло элементов выборки, попавших в интервал ti.

Составим статистику χ2= ∑ri=1(mi− npi)2/npi, распределение кото-

рой, как доказано К.Пирсоном, в случае справедливости нулевой гипотезы

сходится к ѕхи-квадратї распределению с числом степеней свободы r − 1 .

При этом объем выборки должен быть достаточно большим, а число интер-

валов разбиения выбирают таким, чтобы выполнялось условие npi> 7 .

Зададим уровень значимости α таким малым, чтобы вероятность по-

падания в критическую область при истинности нулевой гипотезы можно

было считать практически невозможной. Обычно полагают α = 0, 01 или

α = 0, 05 . Вычисляем по таблице или с помощью ЭВМ квантиль ѕхи-квадратї

распределения с r − 1 степенями свободы. Далее находим по имеющейся вы-

борке числовую реализацию статистики критерия. Если при этом окажется,

что ˜21−α(r − 1) > χ21−α , то это означает, что выборочное значение статистики

116

попадает в критическую область и мы отвергаем нулевую гипотезу H0как

не согласующуюся с опытными данными. Если же в результате вычислений

получим ˜21−α(r − 1) ≤ χ21−α , то это значит, что выборочные данные не про-

тиворечат тому, что данная выборка порождена случайной величиной X с

функцией распределения F0(x) . Если нулевая гипотеза H0сложная и рас-

пределение F0(x) зависит от одного или нескольких неизвестных параметров,

то вероятности piвычисляют, заменив эти параметры их точечными оцен-

ками. В этом случае число степеней свободы r − 1 должно быть уменьшено

на число оцениваемых параметров распределения F0(x) .

С помощью критерии согласия Колмогорова–Смирнова проверяется ну-

левая гипотеза о том, что функция распределения генеральной совокупно-

сти непрерывна и равна F0(x) против сложной альтернативной гипотезы

F (x)6= F0(x) . В данной задаче используется статистика

Dn= sup |Fn∗ − F0(x)| = max

} k

− F0(x(k)), F0(x(k))k

{

.

x∈R

1≤k≤n

n

n

Замечательное свойство статистики Колмогорова–Смирнова состоит в

том, что ее распределение является одним и тем же для любых непрерывных

распределений, порождающих выборки, и зависит только от объемов выбо-

рок. Учитывая это свойство, критерий Колмогорова–Смирнова рекоменду-

ют применять для тех выборок, которые могут считаться извлеченными из

непрерывных генеральных совокупностей.

Для проверки простой гипотезы о законе распределения предваритель-

но по таблице или с помощью ЭВМ находят квантиль Dn(1 − α) распреде-

ления Колмогорова–Смирнова при доверительной вероятности 1 − α . Далее

определяют числовую реализацию статистики критерия Dn∗ . Если при этом

окажется, что D∗n> Dn(1 − α) , то это означает, что выборочное значение

статистики попадает в критическую область. В этом случае мы отвергаем

нулевую гипотезу H0как не согласующуюся с опытными данными.

Если же в результате вычислений получим Dn∗ ≤ Dn(1 − α) , то это

значит, что выборочные данные не противоречат тому, что F0(x) есть теоре-

тическая функция распределения генеральной совокупности.

Пример 7. Пусть созданы три выборки каждая объёмом в 100 на-

блюдений из трёх распределений: дискретно- равномерного DU (1; 50) , стан-

дартного нормального N (0; 1) и экспоненциального E(1) . Предполагается

, что эти выборки моделируют реальные опытные данные. Далее для каж-

дой выборки выдвигаются три нулевых гипотезы H0: истинное распределе-

ние есть дискретно-равномерное, нормальное или экспоненциальное. Одна из

117

этих гипотез согласуется с реальными опытными данными, а две оставшие-

ся гипотезы не согласуются. Уровни значимости во всех случаях выберем

равными значениям 0, 05 , а все альтернативные гипотезы назначим в виде

отрицания нулевых гипотез. Для всех девяти вариантов (реальные данные /

выдвигаемая гипотеза) проводится принятие решений по критериям согла-

сия ѕхи-квадратї и Колмогорова-Смирнова. Результаты расчётов в рамках

статистического пакета STATGRAPHICS и принятые решения (ѕДаї, если

согласуется, или ѕНетї, если не согласуется) были занесены в итоговый мас-

сив данных.

Как показали расчеты при объемах выборок в 100 наблюдений для

всех распределений (дискретных и непрерывных) по обоим критериям при-

нимаются согласованные и правильные решения.

118

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]