Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

stat_1

.pdf
Скачиваний:
25
Добавлен:
31.05.2015
Размер:
774.61 Кб
Скачать

2.3.5. КРИТЕРИЙ СОГЛАСИЯ КОЛМОГОРОВА ДЛЯ ПРОСТОЙ ГИПОТЕЗЫ.

Итак, проверяется гипотеза Ho о том, что генеральная совокупность, из которой про-

изведена выборка значений {x1 ,x 2 ,...,x n }, подчиняется закону с непрерывной функцией рас-

пределения

Fo (x) .

 

 

 

 

 

Пусть

Fn (x)

- эмпирическая функция распределения. Для оценки степени отличия

функций Fo (x) и

Fn (x) вводится величина: Dn = sup

 

Fo (x) Fn (x)

 

. Очевидно, что Dn -

 

 

 

 

x R

 

 

 

 

случайная величина (статистика), поскольку ее значение зависит от случайного объекта

Fn (x) . Статистику Dn называют статистикой Колмогорова.

Надо отметить, что эмпирическая функция Fn (x) должна определяться только по ста-

тистическому ряду (см. п. 1.3.1). Нельзя использовать интервальный ряд.

Если гипотеза Ho справедлива, то в силу теоремы Бернулли для любого числа x R и

любого ε > 0 выполняется lim P( Fo (x)Fn (x) < ε )=1. Поэтому с вероятностью, близкой к

n→∞

1, при больших объемах выборки n значение статистики должно быть мало. Отсюда следует вывод: гипотеза Ho должна быть отвергнута, если полученное в результате эксперимента

выборочное (наблюдаемое) значение статистики Dn выб окажется неправдоподобно большим

(т.е. больше некоторого критического значения статистики Dn , определенного с учетом уровня значимости). Другими словами, критическая область статистики критерия – правосторонняя (см. п.2.2.2).

Естественно, для того, чтобы иметь возможность находить критические значения ста-

тистики Dn , надо знать ее распределение. Замечательное свойство статистики Колмогорова состоит в том, что ее закон распределения (если гипотеза Ho верна) зависит только от объ-

ема выборки и не зависит от функции Fo (x) . Асимптотические свойства статистики Dn (при условии истинности нулевой гипотезы) описывает найденная в 1933 г. А.Н. Колмогоровым предельная теорема. Теорема Колмогорова утверждает, что при условии справедливости ги-

потезы

Ho для любого λ > 0

существует

предел lim P( n Dn < λ)= K(λ) ,

где

 

 

 

n→∞

 

 

 

 

 

K(λ) =

1 + 2(1) j e2 j2 λ2 . Квантили

λn p распределения случайной величины n Dn

(на-

 

j=1

 

 

 

помним, эти числа определяются из уравнения P(

n Dn < λn p )= p ) имеются в таблицах.

 

53

Таким образом, алгоритм проверки гипотезы следующий. По имеющимся результатам

выборки находим выборочное значение статистики критерия Dn выб

(что, вообще говоря,

является весьма громоздкой задачей), затем находим величину λвыб =

n Dn выб и сравни-

ваем ее с критическим значением λкрит = λn 1−α , где λn 1−α

-

квантиль распределения

n Dn , найденный из таблиц по заданному уровню значимости

α и объему выборки n.

Гипотезу Ho приходится отвергать при выполнении неравенства

λвыб > λкрит .

2.3.6. КРИТЕРИЙ СОГЛАСИЯ ОМЕГА-КВАДРАТ ДЛЯ ПРОСТОЙ ГИПОТЕЗЫ.

Не вдаваясь в подробности, отметим, что этот критерий основан на так называемой ста-

тистике омега-квадрат ω2

=

+∞[F (x) F (x)]2dF (x) (здесь использованы обозначения пре-

n

 

n

o

o

−∞

дыдущего пункта).

Известно, что если гипотеза Ho верна, то закон распределения статистики ω2n зависит только от объема выборки и не зависит от функции Fo (x) . Найдено предельное распределе-

ние статистики n ω2n при условии истинности нулевой гипотезы (это сделал Н.В.Смирнов в

1939 г.), которое и используется при практическом применении критерия омега-квадрат.

Имеются подробные таблицы квантилей ωn p этого распределения.

Для нахождения выборочного значения ω2n выб статистики n ω2n по элементам выбор-

ки, представленной в виде вариационного ряда x (1) , x(2) ,..., x(n) (см. п. 1.3.1), можно исполь-

зовать формулу:

ω2

=

1

+ n

Fn (x(i) )2i 1

2

. Гипотезу Ho

приходится отвергать при

12n

 

 

n выб

 

i=1

 

2n

 

 

 

 

 

 

выполнении неравенства

ω2

 

> ω2

, где

ω2

 

= ω2

1−α

- квантиль распределения

 

 

 

n выб

n крит

 

 

n крит

n

 

n ω2n , найденный из таблиц по заданному уровню значимости α и объему выборки n.

54

ПРИЛОЖЕНИЕ 1.

НЕКОТОРЫЕ ЧАСТО ИСПОЛЬЗУЮЩИЕСЯ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ.

1. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ.

Случайная величина Х непрерывного типа распределена по нормальному закону с па-

раметрами a R

и

σ > 0 (сокращенная записьN(a , σ)), если ее плотность вероятности за-

 

 

 

 

 

1

e

(xa)2

дается формулой

f (x) =

 

2σ2

. Функция распределения этой случайной величины

σ

2π

 

 

 

 

 

 

 

 

 

1

 

x

(ta)2

 

 

 

 

 

2σ2 dt . Ниже приведены графики плотности и функции распре-

имеет вид F(x) =

 

e

 

 

 

σ 2π −∞

 

 

 

 

 

 

деления нормального распределения. График плотности f(x) называется кривой Гаусса (пря-

мая x = a является осью симметрии графика). В связи с этим нормальное распределение еще называют гауссовским.

Известно, что параметр a = M[X] есть математическое ожидание, а σ2 = D[X] - дис-

персия случайной величины X (соответственно, σ - ее среднеквадратическое отклонение). Поэтому, согласно методу моментов (см. п.п. 1.4.2 – 1.4.4), в качестве оценок этих парамет-

ров следует брать: a = Xn , σ2 = s2n (естественно, если мы имеем конкретную реализацию выборки, то должны положить параметры a и σ2 равными выборочным значениям стати-

стик Xn выб и s2n выб ).

Нормальное распределение играет особую роль в теории вероятностей и математической статистике. Как показывает практика, самые разнообразные статистические данные с хорошей степенью точности можно считать выборками из нормально распределенной гене-

55

ральной совокупности. Примерами этого могут служить помехи в электроаппаратуре, ошибки измерений, разброс попадания снарядов при стрельбе по заданной цели, рост наудачу взятого человека, скорость реакции на раздражитель и т.д. На практике считают (что, в принципе, обосновано центральной предельной теоремой теории вероятностей), если случайная величина формируется под воздействием большого числа независимых малых влияний, из которых ни одно не доминирует над остальными, то она подчинена нормальному распределению. Например, большое число не зависящих друг от друга причин влияют на размер изготавливаемой керамической плитки, диаметр проволоки, разрушающую нагрузку для образца бетона и т.п. Поэтому неудивительно, что все эти виды технических измерений очень хорошо описываются нормальным распределением (со своими характерными значениями).

ЗАМЕЧАНИЕ 1. Случайная величина Х, распределенная по закону N(0,1), называется

 

1

e

x2

стандартизованной нормальной величиной. Ее плотность вероятности равна ϕ(x) =

2

2π

 

 

 

и называется малой функцией Лапласа. Функция распределения равна Φ(x) = 1 xet22

2π −∞

dt и

называется функцией нормального распределения или большой функцией Лапласа. Значения этой функции приведены в таблице приложения 2. При использовании данной таблицы следует помнить следующие правила: Φ(x) =1 −Φ(x) , Φ(x) 1 при x > 3,5 и Φ(x) 0 при

x < −3,5 (причем погрешность в этих приближенных равенствах менее, чем 104 ).

ЗАМЕЧАНИЕ 2. Используя замену переменной в интеграле (сделайте это!), легко полу-

чить, что для любой случайной величины, распределенной по закону N(a , σ), ее функция

распределения равна

x a

 

F(x) = Φ

 

 

.

 

σ

 

 

 

 

 

 

 

 

 

 

 

ЗАМЕЧАНИЕ

3. Иногда

в

литературе используются таблицы

значений функции

Φo (x) =

1

xe

t2

dt . В этом случае надо помнить следующие правила:

Φo (x) = −Φo (x) ,

2

 

 

2π o

 

 

 

 

 

Φo (x) = Φ(x) 0,5 , Φo (0) = 0 и Φo (x) 0,5 при x 4 .

2. ЛОГНОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ.

Положительная случайная величина Х непрерывного типа распределена по логнор-

мальному (логарифмически нормальному) закону с параметрами a R и σ > 0 , если ее

56

 

 

1

 

 

(ln xa)2

 

 

плотность вероятности задается формулой f (x) =

 

 

e

2σ2

 

. Функция распределения

 

 

 

 

xσ

 

2π

 

 

 

 

 

 

 

 

 

 

ln x a

Φ(x) - большая

этой логнормальной случайной величины имеет вид

F(x) = Φ

 

 

 

, где

 

σ

 

 

 

 

 

 

 

 

 

функция Лапласа. Ниже приведены графики этих функций.

Можно сказать, что случайная величина Х подчиняется логнормальному распределению, если ее логарифм, т.е. случайная величина Y = ln X , имеет нормальное распределение.

Известно, что математическое ожидание и дисперсия логнормальной случайной вели-

чины Х вычисляются по формулам:

M[X]= e

a+0,5σ2

, D[X]= e

2a

2

 

σ2

 

. Далее, со-

 

 

 

e

 

1

 

 

 

 

 

 

 

 

 

 

гласно методу моментов (см. п.п. 1.4.2 – 1.4.4) в качестве оценок этих параметров следует брать M[X]= Xn , D[X]= s2n . В результате мы получим систему двух уравнений с двумя не-

известными для оценки параметров a и σ по результатам выборки, откуда находим:

 

X 2

 

 

 

s2

 

 

a = ln

 

n

,

σ2

= ln

 

n

+1

(естественно, если мы имеем конкретную реализацию вы-

 

 

 

 

2

2

 

 

 

 

2

 

 

 

Xn

+ sn

 

 

 

Xn

 

 

борки, то получим конкретную оценку этих параметров a выб и σвыб ).

Логнормальное распределение возникает при изучении моделей дробления частиц, моделей роста и т.д. А.Н. Колмогоров показал, что логарифмически нормальному закону подчинены размеры частиц при дроблении.

3. УСЕЧЕННЫЕ НОРМАЛЬНЫЕ РАСПРЕДЕЛЕНИЯ.

Случайная величина Х непрерывного типа имеет усеченное слева нормальное распре-

деление с параметрами a R , σ > 0 и τ (0,1), если ее плотность вероятностей имеет вид

57

(далее в этом пункте мы используем обозначения: ϕ(x)

- малая функция Лапласа , Φ(x) -

 

0, x < x

o

 

 

 

 

большая функция Лапласа):

 

1

 

 

 

 

, где значение xo определяется из

f (x) =

 

x a

, x xo

 

 

 

ϕ

 

 

 

 

σ(1−τ)

 

 

 

 

 

 

σ

 

 

x o a

 

 

 

 

 

 

 

 

, а параметр τ находить

соотношения τ = Φ

 

(в принципе, можно задавать значение x

o

 

 

σ

 

 

 

 

 

 

 

 

из указанного соотношения). Параметр τ

называется степенью усечения. Функция распре-

 

 

 

0, x < xo

 

 

 

 

деления имеет вид:

F(x) =

 

x a

 

 

. Ниже приведены графики этих функций.

 

Φ

 

 

−τ

 

 

 

 

 

 

σ

 

 

, x xo

 

 

 

 

 

 

 

1−τ

 

 

 

Известно, что математическое ожидание и дисперсия усеченного слева нормального распределения вычисляются по формулам: M[X]= a + σ2f (xo ) , D[X]= σ2f (xo )(xo M[X])+

+ σ2 (здесь f(x) – плотность распределения). Согласно методу моментов (см. п.п. 1.4.2 – 1.4.4) в качестве оценок этих параметров следует брать M[X]= Xn , D[X]= s2n . Считая задан-

ной степень усечения

 

τ, мы получим систему трех уравнений с тремя неизвестными для

оценки параметров a,

σ и

xo

по результатам выборки (ниже обозначено γ = Φ1(τ) ):

 

 

 

 

= a + σ

 

ϕ(γ)

 

 

 

 

 

 

 

 

 

 

 

 

 

Xn

 

 

 

 

 

 

 

 

 

1

− τ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ϕ(γ)

 

 

ϕ(

γ)

 

 

 

 

 

 

 

. Ясно, что из второго уравнения мы легко находим оценку

s2

= σ2 1 +

 

 

γ −

 

 

n

 

 

 

1 − τ

 

1 − τ

 

 

 

 

 

 

 

 

x

o

= a + σ γ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

для

параметра σ, затем из первого – оценку для параметра a, после этого вычисляем xo .

Значение γ можно найти, используя таблицу приложения 2.

58

Случайная величина Х непрерывного типа имеет усеченное справа нормальное рас-

пределение с параметрами a R , σ > 0 и τ (0,1), если ее плотность вероятностей имеет

 

0, x > x

o

 

 

x o a

 

 

 

 

 

 

 

вид:

f (x) =

1

x a

 

, где значение xo определяется из соотношения τ = Φ

 

 

 

σ

 

 

 

ϕ

 

 

 

, x xo

 

 

 

 

στ

 

 

 

 

 

σ

 

 

 

 

 

(можно задавать значение xo , а степень усечения

τ

находить из указанного соотношения).

 

1, x

> x

o

 

Функция распределения имеет вид:

 

 

 

. Ниже приведены графики

F(x) = 1

x a

 

 

 

Φ

 

 

 

, x xo

 

 

σ

 

 

τ

 

 

 

 

плотности и функции распределения усеченного справа нормального распределения.

Известно, что математическое ожидание и дисперсия усеченного справа нормального распределения вычисляются по формулам: M[X]= a −σ2f (xo ) , D[X]= σ2f (xo )(M[X]xo )+

+ σ2 (здесь f(x) – плотность распределения). Аналогично, как и для усеченного слева нор-

мального распределения (считая заданной степень усечения τ), мы получим систему трех уравнений с тремя неизвестными для оценки параметров a, σ и xo по результатам выборки:

 

 

 

 

 

 

ϕ(γ)

 

 

 

 

 

 

 

 

 

 

 

 

 

Xn = a −σ

 

 

 

 

 

 

 

 

τ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ϕ(γ)

 

 

ϕ(γ)

 

 

 

 

 

γ +

γ = Φ1 (τ) можно найти, используя таблицу

s2

= σ2 1

 

 

 

, где значение

 

n

 

 

 

τ

 

 

τ

 

 

 

 

 

 

 

 

 

x

o

= a + σ γ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

приложения 2.

59

4. РАСПРЕДЕЛЕНИЕ ПУАССОНА.

Случайная величина Х дискретного типа имеет распределение Пуассона с параметрам λ > 0 , если она принимает целые значения 0, 1, 2, 3, ... с вероятностями P(X = k) =

= λk e−λ , k = 0, 1, 2, 3, ... (напомним, что по определению k! = 1). Известно, что ее матема- k!

тическое ожидание и дисперсия равны параметру распределения: λ = M[X]= D[X]. Поэтому,

согласно методу моментов (см. п. 1.4.2), в качестве оценки этого параметра следует брать λ = Xn (т.е. для конкретной реализации выборки λ ≈ Xn выб ).

На рисунке ниже показаны значения вероятностей P(X = k) для различных значений λ:

 

При

 

рас-

 

λ > 9 распределение Пуассона может быть аппроксимировано нормальным

пределением со средним λ и дисперсией λ (известно, что при λ → ∞

случайная вели-

чина

X −λ , где X - пуассоновская случайная величина с параметром λ, имеет в пределе

 

 

λ

 

 

 

 

 

 

 

стандартное нормальное распределение

N(0,1)). Т.о., при достаточно больших λ можно

 

 

 

 

1

k − λ

 

 

использовать приближенную формулу:

P(X = k)

 

ϕ

 

, где ϕ(x)

- малая функция

λ

 

 

 

 

 

 

λ

 

 

Лапласа.

Распределение Пуассона играет важную роль в ряде вопросов физики, теории связи, теории надежности, теории массового обслуживания и т.д., словом, всюду, где идет речь о распределении числа X (t) некоторых случайных событий (радиоактивных распадов, телефонных вызовов, отказов оборудования, несчастных случаев и т.п.), происходящих в течение

фиксированного интервала времени t: P(X(t) = k )=

(λ t)k e−λt

. Здесь параметр λ играет

k!

 

 

роль среднего числа (плотности) событий в единицу времени.

60

5. РАВНОМЕРНОЕ РАСПРЕДЕЛЕНИЕ.

Случайная величина Х непрерывного типа имеет равномерное распределение на от-

1

, x [a , b]

 

 

 

.

 

резке [a, b], a < b, если ее плотность вероятности задается формулой f (x) = b a

 

0, x [a , b]

 

 

 

 

0, x < a

Функция распределения этой случайной величины равна F(x) = x a , x [a , b]. Ниже при-

b a

1, x > b

ведены графики плотности и функции распределения равномерного распределения.

Математическое ожидание и дисперсия равномерно распределенной на отрезке [a, b]

случайной величины Х вычисляются по формулам: M[X]= a + b

,

D[X]=

(b a)2

. Далее,

12

2

 

 

 

согласно методу моментов (см. п.п. 1.4.2–1.4.4) в качестве оценок этих параметров следует брать: M[X]= Xn , D[X]= s2n . В итоге мы имеем систему двух уравнений с двумя неизвест-

ными для оценки границ отрезка по результатам выборки, откуда находим: b = Xn + 3 sn , a = Xn 3 sn (естественно, если мы имеем конкретную реализацию выборки, то получим конкретную оценку границ a выб и bвыб ).

ЗАМЕЧАНИЕ. Метод наибольшего правдоподобия дает следующие оценки границ от-

резка: a = min{X1, X2 ,..., Xn }, b = max{X1, X2 ,..., Xn }, т.е. a и b - соответственно, минималь-

ный и максимальный элементы выборки {X1 ,X2 ,...,Xn }.

Равномерное распределение возникает при распространении идеи “равномерности” на непрерывный случай. Равномерное распределение имеют случайные величины, характеризующие ошибки измерений при помощи инструмента с круглыми делениями, когда значение округляется до ближайшего целого. Например, равномерное распределение имеют ошибки указания времени часами со скачущей стрелкой.

61

6. ПОКАЗАТЕЛЬНОЕ РАСПРЕДЕЛЕНИЕ.

Случайная величина Х непрерывного типа, принимающая только положительные зна-

чения, имеет показательное (или экспоненциальное) распределение с параметром λ > 0 , ес-

 

0, x < 0

 

ли ее плотность задается формулой

 

. Функция распределения этой слу-

f (x) =

 

λ e−λx , x 0

 

 

 

 

 

0, x

< 0

 

чайной величины равна

 

 

 

. Ниже приведены графики этих функций.

F(x) =

e

λx

 

 

, x 0

 

1

 

Математическое ожидание и дисперсия этой случайной величины равны, соответствен-

но, M[X]= λ1 , D[X]= λ12 . Поэтому, согласно методу моментов (см. п. 1.4.2), в качестве оцен-

ки параметра λ следует братьλ =

 

1

(для конкретной реализации выборки λ ≈

1

).

 

 

 

 

 

 

 

 

 

 

Xn

Xn выб

Укажем две области применения статистических методов, в которых показательное распределение играет базовую роль.

К первой из них относятся задачи типа “времени жизни”. Понимать этот термин следует достаточно широко. В медико-биологических исследованиях под ним может подразумеваться продолжительность жизни больных при клинических исследованиях, в технике - продолжительность безотказной работы устройств, в психологии - время, затраченное испытуемым на выполнение тестовых задач и т.д.

Второй областью активного использования показательного распределения являются задачи массового обслуживания. Здесь речь может идти об интервалах времени между вызовами “скорой помощи”, телефонными звонками или обращениями клиентов и т.д. Длина интервала времени между появлениями последовательных событий имеет показательное распределение.

Показательное распределение среди всех других выделяется, как иногда говорят, от-

62

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]