Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Posit1nov (1)

.pdf
Скачиваний:
11
Добавлен:
21.03.2016
Размер:
872.56 Кб
Скачать

На основании соотношений (15.9), (15.10) получаем следующее утверждение.

Наилучшая скорость убывания длины интервалов группировки h = hn c ростом n в классе плотностей распределения f 1C имеет порядок n−1/3. При этом интегральный квадратичный риск убывает со скоростью n−2/3. Такой же порядок

имеют скорости убывания как квадрата интегрального смещения, так и интегральной дисперсии ошибки. Гистограмма является n1/3-состоятельной оценкой плотности распределения f 1C с точки зрения интегрального среднеквадратич-

ного расстояния.

Можно также показать (см. [5]), что не существует оценок неизвестной плотности распределения, которые обеспечивали бы более быстрый порядок убывания интегрального среднеквадратичного риска или расстояния для всех плотностей f 1C . При указанном выборе длин интервалов группировки гистограмма есть наилучшая по порядку оценка неизвестной плотности распределения из класса 1C .

Отметим два важных отличия этих результатов от аналогичных результатов в задачах оценки функции распределения или таких числовых характеристик, как среднее или дисперсия.

1.Порядок точности наилучших оценок есть не n1/2, а ниже – n1/3, то есть оце-

нить плотность распределения сложнее, чем функцию распределения или ее числовые характеристики. Этот порядок точности зависит от класса рассматриваемых

плотностей.

2.Наилучшие оценки являются смещенными, причем имеет место баланс между порядками убывания смещения и случайной ошибки.

16 Критерий хи-квадрат.

16.1Дискретная случайная величина.

Пусть генеральная совокупность X является дискретной с конечным множеством значений t¯ = {t1, ..., tk }, и p¯ = {p1, ..., pk} - набор неизвестных вероятностей

значений. Пусть основная гипотеза является простой и характеризуется набором 0 = {p1,0, ..., pk,0}; pj,0 > 0. Обозначим через P множество векторов

X

P = {p¯ = {p1, ..., pk} : pj ≥ 0; pj = 1}.

j

Тогда 0 можно рассматривать как параметр θ из (k − 1)-мерного множества Ω = P и рассматривать параметрическую задачу проверки согласия с H0 : p¯ = p¯0. Пусть X(n) = (X1, ..., Xn) – выборка из генеральной совокупности X, обозначим через nj количество элементов этой выборки равных tj , а через F0(t) – функцию распределения генеральной совокупности X при условии H0, то есть при p¯ = p¯0.

Критерий хи-квадрат для проверки этой гипотезы основан на статистике

χ2 (x1, ..., xn) =

k

(nj − npj,0)2

,

(16.1)

X

n,k−1

 

 

 

j=1

npj,0

 

 

 

 

 

 

127

которая называется статистикой хи-квадрат с k − 1 степенью свободы. Для этой

статистики справедлив следующий результат, который мы приведем без доказательства

Теорема 16.1 (Пирсона) Пусть справедливо равенство p¯ = p¯0, тогда для функции распределения статистики χ2n,k−1 справедливо при n → ∞ соотношение

sup |PF0 2n,k−1 < u) − χ2k−1(u)| → 0,

u (0,∞)

где χ2k−1(u) – функция распределения хи-квадрат распределения с k − 1 степенью

свободы (см. пример 13.3, формула (13.7)).

Назовем критерием хи-квадрат асимптотического уровня значимости α для про-

верки согласия с гипотезой H : p¯ = p¯ последовательность тестов

0 0

 

 

 

(0

при χn,k2

−1

< tk−1,α,

 

 

ψn(X1, ..., Xn) =

 

1

при

χn,k2

−1

tk−1,α,

 

 

где величина tk−1,α определяется из условия χk2

−1(tk−1,α) = 1 α.

Для критерия хи-квадрат найдем вероятность ошибок I рода

=

1 Pn,F0

χn,k2

 

1 < tk

1,α

 

 

1

χk2

 

1(tk

 

1,α) = α

α(ψn) =

Pn,F0 χn,k2

−1 tk−1,α

 

=

 

 

 

 

 

 

 

 

 

 

 

 

при n → ∞ в силу теоремы Пирсона.

Для оценки вероятностей ошибок II рода критерия хи-квадрат зафиксируем

альтернативу 1 6= p¯0, пусть pj0,1 6= pj0,0, |pj0,1 − pj0,0| = a > 0. Тогда в силу закона больших чисел частота nj0 /n → pj0,1 при n → ∞ с PF -вероятностью 1. Следователь-

но, (nj0 − npj0,0)2 n2a2 при n → ∞, а определенная (16.1) статистика χ2n,k−1 → ∞.

Отсюда

β(ψn, F ) = Pn,F 2n,k−1 < tk−1,α) → 0 при n → ∞.

Таким образом, критерий хи-квадрат является состоятельным критерием асимптотического уровня значимости α.

Критерий хи-квадрат. Дискретизация.

Рассмотрим теперь случайную величину (генеральную совокупность) X общего вида. Пусть основная гипотеза является простой, то есть H0 : FX (x) = F0(x). Чтобы применить критерий хи-квадрат в задаче проверки гипотезы H0, используют дискретизацию данных: множество возможных значений случайной величины X разбивается на k непересекающихся подмножеств I1, ..., Ik, обычно это интервалы

Ij = [aj−1, aj ), j = 1, ..., k, где a1 < ... < ak−1 – точки деления; a0 = −∞, ak = +∞. Для каждого элемента выборки Xi регистрируется номер j = j(Xi) интервала

Ij , в который попадает Xi, то есть исходная случайная величина X заменяется

128

новой дискретной случайной величиной ξk , принимающей значения 1, ..., k, и при

основной гипотезе

pj,0 = P (ξk = j) = P (X Ij ) = F0(aj ) − F0(aj−1),

j = 1, ..., k.

(16.2)

Для случайной величины ξk основная гипотеза имеет вид H0

: p¯ = p¯0 = (p1,0, ..., pk,0)

и для ее проверки можно использовать критерий хи-квадрат, описанный в предыдущем пункте и основанный на статистике χ2n,k−1 вида (16.1).

16.2Проверка параметрической гипотезы.

Пусть основная гипотеза является сложной параметрической, то есть H0 : FX (t) {F (x, θ), θ Ω}, где Ω – область в Rr , r ≥ 0. Тогда при выполнении достаточно

общих предположений "регулярности" в статистике хи-квадрат неизвестные в этом случае вероятности pj,0 можно заменить их оценками, вычисленными по формуле

ˆ

ˆ

(16.3)

j,0 = F (aj , θn) − F (aj−1θn), j = 1, ..., k,

ˆ

где θn – оценки максимального правдоподобия параметра θ Ω. При этом пороговое значение статистики хи-квадрат заменяется на tk−1−r,α.

Замечание 16.1 Если распределение генеральной совокупности имеет плотность – fX (x), то при помощи критерия хи-квадрат можно проверять гипотезы о плотности как простую так и сложную – H0 : fX (x) = f0(x) или

H0 : fX (x) {f (x, θ), θ Ω} при этом

Z Z

ˆ

pj,0 = fX (x)dx или j,0 = fX (x, θn)dx.

Ij Ij

Таким образом, процедура проверки простой или параметрической гипотезы с помощью критерия хи-квадрат состоит из следующих этапов.

1)При сложной основной гипотезе по выборке X1, ..., Xn cтроятся оценки максимального правдоподобия параметра θ Ω Rr для гипотезы.

2)Выбирается допустимый уровень значимости α и определяется порог tk−1−r,α из таблиц распределения хи-квадрат с k − 1 − r степенями свободы.

3)Выбирается точки деления a1 < . . . < ak−1 для разбиения I1, ..., Ik. Подсчитываются количества nj элементов выборки, попадающих в подмножества

Ij , j = 1, ..., k.

4)Рассчитываются вероятности pj,0 или j,0 по формулам (16.2) или (16.3);

разбиение выбирается так, чтобы эти вероятности были положительны (желательно, близкими к 1/k) для всех j = 1, ..., k.

5)Рассчитывается значения статистики χ2n,k−1 по формуле (16.1) (c заменой pj,0 на j,0 для сложной гипотезы) и сравниваются с порогом tk−1−r,α, определяемым из таблиц для заданного α. Основная гипотеза принимается при

χ2n,k−1 < tk−1−r,α и отвергается в противном случае.

Иногда рассчитывают "достигаемый уровень значимости αn" из соотношения: Pk−1−r2n,k−1) = 1 − αn, характеризующий "степень надежности" решения: если αn

129

мало (существенно меньше α), то решение отвергнуть гипотезу считается надежным. Отметим, что значения αn, близкие к 1, не говорят в пользу справедливости гипотезы: для достаточно больших k −1 −r при справедливости гипотезы наиболее вероятны значения αn, близкие к 1/2.

Список литературы

[1]Боровков А. А. Теория вероятностей. – М.: Наука, 1986.

[2]Боровков А. А. Математическая статистика. – М.: Наука, 1984.

[3]Бородин А. Н. Элементарный курс теории вероятностей и математической статистики. – СПб.: Лань, 1998.

[4]Гнеденко Б. В. Курс теории вероятностей. – М.: Наука, 1988.

[5]Ивченко Г. И., Медведев Ю. И. Математическая статистика. – М.: Высшая школа, 1984.

[6]Ингстер Ю. И. Асимптотические методы в статиститке. – С.П.: ПГУПС, 2000.

[7]Кокс Д., Хинкли Д. Теоретическая статистика. – М.: Мир, 1978.

[8]Колемаев В. А. и др. Теория вероятностей и математическая статистика / В. А. Колемаев, О. В. Староверов, В. Б. Турундаевский – М.: Высшая школа, 1991.

[9]Леман Э. Проверка статистических гипотез. – М.: Наука, 1979.

[10]Пугачев В. С. Теория вероятностей и математическая статистика. – М.: Наука, 1979.

[11]Ротарь В. И. Теория вероятностей. – М.: Высшая школа, 1992.

[12]Севастьянов Б. А. Вероятностные модели. – М.: Наука, 1992.

[13]Севастьянов Б. А. Курс теории вероятностей и математической статистики.

– М.: Наука, 1982.

[14]Тюрин Ю. Н., Макаров А. А. Статистический анализ данных на компьютере. – М.: Имфра-М, 1998.

[15]Феллер В. Введение в теорию вероятностей и ее приложения. Т. 1, 2. – М.: Мир, 1984.

[16]Ширяев А. Н. Вероятность. – М.: Наука, 1989.

130

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]