Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика

.pdf
Скачиваний:
10
Добавлен:
30.05.2015
Размер:
313.16 Кб
Скачать

Пусть наблюдаемая случайная величина X имеет нормальное распределение с неизвестным математическим ожиданием mX ,

которое необходимо оценить, и известной дисперсией σ 2 . Необходимо построить доверительный интервал для параметра mX .

Для начала по наблюдениям строим точечную оценку

математического ожидания, то есть выборочное среднее x = 1 n xi . n i=1

Как было показано ранее, выборочное среднее является несмещенной оценкой математического ожидания и имеет нормальное распределение с параметрами

Mx = mX

и Dx =

σ

2

 

.

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Следовательно, статистика

 

Y =

x mX

 

имеет

стандартное

 

 

 

 

 

 

 

 

 

 

σ

 

 

 

 

n

 

 

нормальное распределение.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Задав уровень значимости α , получаем

 

 

 

 

 

 

 

 

 

x mX

 

 

 

 

 

 

 

 

 

 

 

 

P y1

<

 

< y2

 

 

=1α .

 

 

 

 

 

 

 

 

 

 

 

 

σ

 

n

 

 

 

 

 

 

 

 

 

Учитывая, что распределение Y , получаем, что y1 и

y2 являются

квантилями стандартного нормального распределения, соответственно

уровней α 2 и

1α 2 . То

 

есть,

 

с учетом симметричности

распределения

 

 

 

 

 

 

 

 

 

 

 

y

2

= u

 

,

y = u

 

= −u

.

 

 

 

1

α

 

1

α

1α

 

 

 

 

 

 

2

 

 

2

2

 

 

Следовательно,

с

 

доверительной

вероятностью

p =1α

выполняется неравенство

 

 

 

 

 

 

 

 

 

23

u1α2 < xσmnX < u1α2 .

Разрешая последнее неравенство относительно оцениваемого параметра mX , получаем границы доверительного интервала

xu1α2 σn < mX < x +u1α2 σn .

3.Проверка статистических гипотез

3.1.Нулевая и альтернативная гипотезы

Статистической гипотезой называется некоторое предположение

овиде неизвестного распределения наблюдаемых величин, либо о значениях их параметров.

Например:

рассматриваемая случайная величина подчиняется нормальному закону распределения;

параметр Пуассоновского распределения равен 3;

дисперсии двух нормальных совокупностей равны между собой.

Основное высказываемое предположение называется нулевой гипотезой, которую необходимо принять или отклонить на основании наблюдений в соответствии с выбранным критерием. Наряду с нулевой гипотезой высказывается противоположное предположение, называемое альтернативной гипотезой, которая принимается в случае, если нулевая была отклонена.

24

Гипотеза называется простой, если она однозначно определяет вид распределения. Иначе, она называется сложной.

Примеры.

Для экспоненциального распределения гипотеза H0 : λ = 7

является простой. Гипотеза H0 : 3 < λ < 5 является сложной.

Для нормального распределения гипотеза о равенстве математического ожидания какому-либо конкретному значению при известной дисперсии является простой, при неизвестной дисперсии – сложной.

3.2. Ошибки первого и второго рода

Проверку справедливости нулевой гипотезы осуществляют на основании выборки статистическими методами. Но это решение может быть принято лишь с некоторой долей достоверности. В итоге такой проверки могут быть допущены следующие ошибки.

Ошибка первого рода заключается в том, что будет отвергнута справедливая нулевая гипотеза.

Ошибка второго рода заключается в том, что будет принята неправильная нулевая гипотеза.

Соответственно, имеет смысл рассматривать вероятности ошибок первого и второго рода.

Вероятностьошибки первого рода

α = P(H1 | H0 ).

Вероятностьошибки второго рода

β = P(H0 | H1 ).

25

Можно записать следующую таблицу вероятностей гипотез при условии справедливости гипотез

Вероятности

Условия

 

 

 

Гипотезы

H0

H1

H0

1α

β

H1

α

1β

На практике невозможно добиться одновременно минимальных значений вероятностей обеих ошибок. Уменьшая риск одной, мы, как правило, повышаем риск другой. Поэтому, фиксируют достаточно малое значение вероятности одной ошибки и добиваются при этом минимального значения второй.

Так, величину α называют уровнем значимости и фиксируют ее значение. Обычно выбирают уровень значимости, равный 0.05, 0.01 и т.д.

Мощностью критерия называется величина P(H1 | H1 )=1β , то есть вероятность принять альтернативную гипотезу, при несправедливости нулевой. Следует добиваться того, чтобы мощность критерия была максимальной, что соответствует минимальной вероятности ошибки второго рода β .

3.3. Критерии проверки гипотез

Для проверки статистической гипотезы необходимо выбрать некоторое правило, в соответствии с которым гипотеза будет приниматься или отклоняться. Данное правило называется критерием проверки гипотезы Κ . Поскольку решения должно приниматься на базе имеющейся информации, то есть на основании выборки, необходимо выбрать связанную с этим критерием статистику Ζ.

26

Как правило, выбираемые статистики имеют следующие распределения: нормальное, χ2 , Стьюдента, Фишера. Подробнее об этих распределениях говорилось в параграфе 2.5.

Наблюдаемым значением статистики называют значение статистики ΖB , полученное по выборке.

В зависимости от этого значения в соответствии с выбранным критерием гипотезу H0 либо принимают, либо отклоняют.

3.4. Критическая область и область принятия гипотезы

Пусть V область возможных значений статистики Ζ. Критической областью VK называют совокупность значений

статистики Ζ, соответствующей критерию Κ , при которых нулевую гипотезу H0 отклоняют.

Областью принятия гипотезы (V \ Vk ) называют совокупность значений статистики Ζ, соответствующей критерию Κ , при которых нулевую гипотезу H0 принимают.

Тем самым возникает задача – разбить область возможных значений V статистики Ζ на критическую область VK и область принятия гипотезы V \ VK .

Критическими точками Ζкр называют границы критической

области.

В зависимости от расположения, различают три вида критических областей: левосторонняя, правосторонняя и двусторонняя.

27

Левосторонняя критическая область определяется неравенством:

Ζ < Ζкр .

Правосторонняя критическая область определяется неравенством:

Ζ > Ζкр .

Двусторонняя критическая область определяется двумя значениями Ζ1 и Ζ2 , Ζ1 < Ζ2 , такими, что

Ζ < Ζ1 , Ζ > Ζ2 .

Если распределение статистики симметрично, то Ζ1 = −Ζ2 и

Ζ < −Ζкр , Ζ > Ζкр или Ζ > Ζкр .

Для отыскания границ критической области, задают достаточно малое значение уровня значимости α , определяют распределения статистики в предположении, что гипотеза H0 верна, и в соответствии с этим определяют такое значение Ζкр , которое при заданном α удовлетворяет соотношениям:

P(Ζ < Ζкр )=α для левосторонней критической области;

P(Ζ > Ζкр )=α для правосторонней критической области;

P(Ζ < Ζ1 )= α2 , P(Ζ > Ζ2 )= α2 для двусторонней критической области.

3.5 Алгоритм проверки гипотезы

Пусть сформулированы нулевая гипотеза H0 , которую необходимо принять или отклонить на основании выборочных данных, и альтернативная гипотеза H1 , которая принимается в случае отклонения нулевой гипотезы.

1. Выбирается критерий Κ и соответствующая ему статистика Ζ.

28

2.Определяется распределение статистики Ζ в предположении, что гипотеза H0 верна.

3.Задается уровень значимости α .

4.Определяются границы критической области, соответствующие выбранному уровню значимости и критерию.

5.По выборке вычисляется выборочное (наблюдаемое) значение

статистики ΖB .

6. Если ΖB VK , то гипотезу H0 отклоняют и выносят решение в пользу альтернативной гипотезы H1 . В противном случае, если

ΖB V \ VK , решение выносится в пользу проверяемой гипотезы H0 .

4. Корреляционный анализ

Исследуя совокупность двух и более случайных величин, часто на практике возникает вопрос о наличии связи между ними, то есть обуславливает ли изменение одной переменной изменения другой. На вопрос, существует ли статистическая зависимость между рассматриваемыми случайными величинами, отвечает, в частности, корреляционный анализ.

Для установления наличия статистически значимой корреляционной связи необходимо выбрать подходящий измеритель, корреляционный коэффициент. Его выбор будет зависеть от характера исследуемых величин.

29

4.3 Корреляционный анализ ранговых переменных

Задачей корреляционного анализа ранговых переменных или просто ранговой корреляции является изучение степени тесноты статистической связи между двумя и более порядковыми переменными. Порядковой, или ранговой, переменной является переменная, представляющая место объекта в ряду объектов, упорядоченном по степени проявления в них некоторого свойства. Ранговая переменная может быть получена путем перехода от некоторой количественной переменной, выражающей степень проявления этого свойства. Например, по результатам забега на 100 м, выраженных в секундах, получаем упорядочивание участников от первого до последнего места. По результатам баллов, набранных студентами в семестре, получаем упорядочивание студентов по их успеваемости. Упорядочение кандидатов на какой-либо пост по количеству набранных голосов. При этом рангом будет являться место каждого объекта в соответствующем списке. Но также, ранговая переменная может вообще не выражаться в терминах количественной переменной. Например, упорядочивание продуктов по предпочтениям дегустатора. Упорядочение фильмов по мнениям критиков.

Пример. Пусть имеется 6 однотипных продуктов разных марок: A, B, C, D, E и F. Трем экспертам предложили упорядочить эти продукты по их предпочтениям.

Первый эксперт упорядочил их следующим образом: B, A, D, F, C, E

Второй: A, D, B, C, E, F

30

Третий: A, B, D, C, F, E

Вопрос: можно ли утверждать, что среди предложенных упорядочений есть какая-то зависимость, и что среди предложенных продуктов есть явно лучшие и явно худшие, или предложенные упорядочивания основаны не более, чем на личных вкусовых предпочтениях и носят скорее случайный характер? Ответ на этот вопрос дается путем анализа соответствия между этими тремя вариантами упорядочивания. Для этого данные представим в таблице, в столбцах которой указано место каждого объекта в соответствующем списке

 

1

2

3

Итог

 

 

 

 

 

A

2

1

1

1

 

 

 

 

 

B

1

3

2

2

 

 

 

 

 

C

5

4

4

4

 

 

 

 

 

D

3

2

3

3

 

 

 

 

 

E

6

5

6

6

 

 

 

 

 

F

4

6

5

5

 

 

 

 

 

Еще не будучи знакомыми с методами ранговой корреляции, просто анализируя полученные выборки, можно заметить связь между предложенными упорядочениями и определить, что объект A по мнению экспертов является лучшим, а E – худшим. Но это просто заметить, когда имеется всего 6 объектов и три упорядочивания. Чем больше объектов и их свойств рассматривается, тем сложнее и менее очевиден их анализ.

Для решения задач ранговой корреляции исходные данные представляются в виде таблицы «объект-свойство», состоящей из

элементов x(k ) , i =

 

k =

 

определяющих ранг

i -того объекта

1, n,

1, p,

i

 

31

по k -тому свойству. Величины X (k ) = (x1(k ) , x2(k ) ,..., xn(k ) )T , k =1, p, образующие столбцы матрицы «объект-свойство», называются ранжировками. Под ранговой корреляцией понимается изучение статистической связи между ранжировками X (k ) , k =1, p .

Для измерения степени тесноты статистической связи между

двумя

ранжировками

X (k ) и X ( j) используется коэффициент

корреляции Спирмена, вычисляемый по формуле:

 

 

 

 

 

 

τˆS

=1

 

 

6

 

n

(x(k ) x( j) )2 .

(4.3.1)

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

kj

 

 

n

 

 

i

i

 

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

τ S

 

1, причем

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆkj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

τ S

 

=1 , если x(k )

= x( j) ,

i =

 

, то есть ранги совпадают,

 

 

1, n

 

 

ˆkj

 

 

i

i

 

 

 

 

 

 

 

 

 

 

 

τ S

 

= −1,

если

x(k )

= n x( j)

+1 ,

i =

 

, то есть

ранги

 

1, n

 

ˆkj

 

 

 

i

 

 

i

 

 

 

 

 

 

 

 

противоположны.

Если хотя бы в одной из ранжировок имеются повторяющиеся ранги, формула (4.3.1) не подходит для расчета ранговой корреляции. Для распространения этого результата на более общий случай для ранжировки X (k ) , содержащей повторяющиеся ранги, вычисляют поправку

T (k ) =

1

m(k )[(nl(k ))3 nl(k )],

(4.3.2)

 

 

12 l=1

 

где

m(k ) число групп повторяющихся рангов;

nl(k ) число совпадающих рангов в l -той группе.

32