Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Проверка_стат._гипотез,_май_2011

.pdf
Скачиваний:
51
Добавлен:
10.02.2015
Размер:
1.54 Mб
Скачать

 

φ(t)

=0.90

tнабл=1.86

 

=0.10

0 tкрп=1.28 t

График показывает, что наблюдаемое значение критерия попало в критическую область, поэтому следует сделать тот же вывод, который был получен ранее: средний рост московских и новосибирских юношей значимо отличается.

5. Проверка гипотезы о равенстве вероятностей биномиального

закона распределения (о равенстве долей признака) двух

генеральных совокупностей

Рассмотрим две генеральные совокупности.

Из первой генеральной совокупности делается случайная выборка объемом n1, и

на основе этой выборки выясняется, сколько объектов выборки обладает изучаемым признаком – этих объектов k1.

Из второй генеральной совокупности делается случайная выборка объемом n2;

количество объектов выборки, обладающих изучаемым признаком, - k2.

Выборочные доли признака по двум генеральным совокупностям равны соответственно

w1= k 1 / n1 ; w2= k 2 / n2.

31

В данном пункте мы ограничимся лишь случаем, когда выборки достаточно

большие: n1>30, n2>30.

Постановка задачи:

Н0 : p1 = p2

,

 

( или

WГ1 = WГ2

)

Н1 : p1 p2

....( или

 

WГ1 WГ2 ) ........ .........(1);

 

 

 

 

 

 

 

 

 

 

 

p1 < p2 или

p1 > p2 .......(2)

В такой задаче в качестве критерия используется случайная величина вида

 

t =

 

 

 

w1 - w2

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

~

1

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p(1 - p)(

n

 

+

n

 

)

 

 

 

 

 

 

 

 

 

1

 

2

 

 

 

 

 

 

~

 

k1 + k 2

 

 

 

 

 

 

 

 

 

 

Здесь

p =

 

 

 

-

 

наилучшая точечная оценка вероятности при

n1 + n2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

справедливости нулевой гипотезы.

Если гипотеза H0 справедлива, то введенный выше критерий приближенно имеет стандартный нормальный закон распределения.

Рассмотрим пример, в котором реализуется рассмотренный выше случай..

Пример:

Перед экспертами поставлена задача оценить сравнительную активность электората Москвы и Санкт-Петербурга при избрании депутатов Государственной Думы. С этой целью была осуществлена случайная выборка в двух этих городах из состава населения, которое имеет право голоса. Было выяснено, какая часть выборки реально пришла на избирательный участок для участия в выборах. Данные оказались следующими: в Москве из 1500 потенциальных случайно выбранных избирателей реально в выборах приняли участие 480 человек, а в Санкт-Петербурге из 1630

потенциальных избирателей на избирательные участки пришли 490 человек. На уровне значимости α=10% проверить гипотезу о равенстве генеральных долей избирателей в двух этих городах, реально принявших участие в выборах.

32

Решение:

Постановка задачи:

Н0 : WГ1 = WГ2 ;

Н1 : WГ1 WГ2 .

Здесь генеральные доли московских и питерских избирателей, реально принявших участие в выборах, обозначены WГ1 , WГ2 .

Экспериментальные значения:

n1 = 1500, k1 = 480; n2 = 1630, k2 = 490.

Вычислим на основе экспериментальных данных выборочные доли и точечную оценку вероятности при справедливости нулевой гипотезы:

 

 

w =

 

k1

=

 

480

0.32; w

=

 

k2

 

=

490

 

0.30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

n1

 

 

 

1500

2

 

 

 

n2

1630

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

k1 + k2

480 + 490

 

970

 

0.31.

 

 

 

 

 

 

 

p =

 

 

 

 

=

 

 

 

=

 

 

 

 

 

 

 

 

 

 

n + n

2

1500 +1630

 

3130

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычислим на основе экспериментальных данных наблюдаемое значение

критерия:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t =

 

w1 - w2

 

 

 

 

 

 

 

tнабл =

 

 

 

 

 

 

0.32 - 0.30

 

 

 

 

1.21.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~ ~

1

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

1

1

 

 

 

 

p(1 - p)(

n

+

n

2

 

)

 

 

0.31

0.69 (

1500

+

1630

)

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найдем границы двусторонней критической области, таблично (с помощью

функции Ф0, значения которой даны в Приложении) решив следующее уравнение:

α = 0.10 γ = 1 - α = 1 - 0.10 = 0.90 Ф0 (tкр ) =

γ

=

0.90

= 0.45 => tкр = 1.65.

2

2

 

 

 

33

Покажем все найденные значения на графике плотности стандартного нормального закона распределения, который описывает поведение случайной величины t при справедливости нулевой гипотезы:

 

=0.90

φ(t)

 

 

 

 

tнабл=1.21

/2=0.05

 

/2=0.05

 

 

tкр= -1.65

0

tкр=1.65

t

Поскольку наблюдаемое значение критерия попало в область естественных для данного закона распределения значений (в данном случае стандартного нормального закона распределения), то гипотеза H0 принимается как не противоречащая экспериментальным данным с уровнем доверия 90%, т.е. генеральные доли электората,

реально принявших участие в выборах в Москве и Санкт-Петербурге, значимо не отличаются (их можно считать одинаковыми).

6. Проверка гипотезы о значимости выборочного коэффициента

корреляции Пирсона.

Рассматривается двумерная нормально распределенная генеральная совокупность (X,Y), т.е. случайные величины X и Y в ней распределены нормально. Из этой совокупности извлечена случайная выборка объемом n пар (xi , yi) и по ней вычислен выборочный коэффициент корреляции Пирсона, который оказался отличным от нуля. Возникает вопрос, объясняется ли это действительно существующей линейной связью между случайными величинами X и Y в генеральной совокупности или является следствием случайности отбора переменных в выборку. Можно ли при этом заключить,

34

что и коэффициент корреляции между случайными величинами X и Y во всей генеральной совокупности также отличен от нуля?

Напоминание:

Формула

для вычисления линейног о

коэффициента

 

 

 

n

 

 

 

 

 

 

 

 

 

 

(xi

x

) ( yi

y

)

 

 

 

 

корреляции

Пирсона r

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

n

 

 

 

 

 

 

(xi

x

)2

( yi

y

)2

 

 

 

 

 

i 1

i 1

Постановка задачи:

H0: ρ=0;

H1: ρ≠0.

Если нулевая гипотеза отвергается, то это означает, что коэффициент корреляции в генеральной совокупности значимо отличается от нуля (кратно говоря

«значим»), и, следовательно, в генеральной совокупности признаки X и Y связаны линейной зависимостью. Если же принимается нулевая гипотеза, то следует считать,

что генеральный коэффициент корреляции незначим, и, следовательно, признаки X и Y

вгенеральной совокупности не связаны линейной зависимостью.

Вкачестве критерия проверки нулевой гипотезы используется случайная

величина

t = r n - 2 1 - r 2

Показано, что эта случайная величина (критерий) при справедливости нулевой гипотезы имеет распределение Стьюдента с k = n - 2 степенями свободы. Число степеней свободы на две единицы меньше объема выборки, поскольку в выражении для r задействованы две связи, заданные формулами для вычисления средних значений по выборке:

35

k=7-2=5.

 

n

 

 

n

 

xi

 

 

yi

x =

i=1

;

y =

i=1

.

n

 

 

 

 

n

Ясно также, что при больших объемах выборки (n>30) можно вместо распределения Стьюдента использовать стандартный нормальный закон распределения.

Поскольку конкурирующая гипотеза имеет вид ρ≠0, то следует строить двустороннюю критическую область.

Определив, куда попадает наблюдаемое значение критерия tнабл, делаем вывод о принятии нулевой или же альтернативной гипотезы:

если | tнабл |<tкр, то принимается гипотеза H0; если | tнабл | tкр , то принимается

гипотеза H1.

Пример:

По выборке объема n=7, извлеченной из нормальной двумерной генеральной совокупности, был вычислен коэффициент корреляции Пирсона r=0,57. На уровне значимости α=10% проверить гипотезу H0 о равенстве генерального коэффициента корреляции нулю при конкурирующей гипотезе ρ≠0.

Решение:

Постановка задачи:

H0: ρ=0;

H1: ρ≠0.

Найдем наблюдаемое значение критерия:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t =

r

n - 2

 

tнабл

=

0.57 7 - 2

 

1.55.

 

 

 

 

 

 

 

 

 

1 - r 2

 

 

 

 

 

1 - 0.57 2

 

 

 

Определим значения границ двусторонней критической области из условия, что при малых объемах выборок критерий t распределен (при справедливости нулевой гипотезы) по закону распределения Стьюдента с числом степеней свободы

36

=0.10

Привлечем таблицу «Критические точки распределения Стьюдента» (она приведена в Приложении); в таблице используем ту ее часть, которая относится к

двусторонней критической области, используем и k=5, на основе этих

значений найдем tкр =2.01.

Полученные результаты покажем графически на графике плотности закона распределения Стьюдента, который, как было уже сказано, внешне похож на график плотности стандартного нормального закона распределения:

f(t)

=0.90

tнабл=1.55

/2=0.05

/2=0.05

tкр= -2.01 0

tкр=2.01

t

Поскольку наблюдаемое значение критерия попало в область принятия нулевой гипотезы, то следует принять нулевую гипотезу с уровнем значимости 10%. Это означает, что генеральный коэффициент корреляции равен нулю, т.е. в генеральной совокупности между случайными величинами X и Y линейная связь отсутствует. В этом случае не следует использовать уравнение линейной регрессии для прогнозирования значения одной случайной величины по значению другой случайной величины.

Рассмотрим аналогичный пример, но существенно увеличим в нем объем выборки.

Пример:

По выборке объема n=112, извлеченной из нормальной двумерной генеральной совокупности, был вычислен коэффициент корреляции Пирсона r=0.57. На уровне значимости α=10% проверить гипотезу H0 о равенстве генерального коэффициента корреляции нулю (ρ=0) при конкурирующей гипотезе ρ≠0.

37

Решение:

Постановка задачи:

H0: ρ=0;

H1: ρ≠0.

Найдем наблюдаемое значение критерия:

t =

r

n - 2

tнабл

=

0.57

112 - 2

7.28.

 

 

 

 

 

 

1- r 2

 

 

 

 

1- 0.57 2

 

 

Определим значения границ двусторонней критической области из условия, что при больших объемах выборок критерий t распределен по стандартному нормальному закону распределения при справедливости нулевой гипотезы (в этом случае пользуемся таблицей интеграла вероятности из Приложения):

=1- =1-0,10=0,90→Ф0(tкр)= /2=0.9/2=0,45→tкр=1.65.

Покажем результаты на графике плотности стандартного нормального закона

распределения:

φ(t)

=0.90

tнабл=7.28

/2=0.05

/2=0.05

 

tкр= -1.65 0

tкр=1.65

t

38

Поскольку наблюдаемое значение критерия попало в критическую область, то следует отклонить нулевую гипотезу в пользу альтернативной гипотезы, т.е. принять,

что коэффициент линейной корреляции в генеральной совокупности значим. Из этого утверждения следует, что между двумя случайными величинами X и Y в генеральной совокупности имеется линейная связь, которая позволяет использовать уравнение линейной регрессии для прогнозирования, т.е., задавая конкретное значение величины

X, получать (прогнозировать) значение другой случайной величины Y хотя бы и с некоторой степенью приближения.

Получился интересный результат, который надо иметь в виду. Он заключается в том, что при больших объемах выборок то же самое значение коэффициента корреляции является значимым, т.е. показывает наличие линейной связи между случайными величинами в генеральной совокупности. В то же время при малых объемах выборок это же значение коэффициента корреляции не является значимым и не позволяет сделать вывод о том, что между случайными величинами в генеральной совокупности имеется линейная связь, поскольку для получения такого вывода в случае малых выборок имеется недостаточное количество экспериментальных данных.

7. Проверка гипотезы о значимости выборочного коэффициента

корреляции Спирмена

Постановка задачи:

H0 : ρSГ = 0;

H1 : ρSГ 0.

Здесь через ρSГ обозначен ранговый коэффициент корреляции, связывающий случайные величины в генеральной совокупности (на это указывает индекс «Г»); через

ρS обозначен коэффициент корреляции Спирмена, вычисленный по выборке, иначе выборочный ранговый коэффициент корреляции.

39

Напоминание:

Формулы для вычисления коэффициента Спирмена:

Формула в случае отсутствия

совпадения ранг ов

 

n

2

 

 

 

ρs = 1-

6i=1di

.

n(n2

- 1)

 

 

Формула

в случае

совпадения рангов :

 

 

1

3

n

2

- Ta - Tb

 

 

 

 

 

6

(n - n) -

di

ρs =

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

1 ( n3 - n ) - 2T

 

1

(n3 - n) - 2T

 

 

6

a

 

6

b

 

 

 

 

Пояснения по формулам можно найти в ссылках [1], [5].

При проверке значимости коэффициента корреляции Спирмена поступают совершенно аналогично тому, как мы поступали, имея дело с коэффициентом Пирсона.

Формулы для вычислений используются те же самые с учетом небольших изменений.

Эти изменения таковы:

Если объем выборки совсем маленький (n<9), то для выяснения значимости коэффициента корреляции нужны специальные таблицы, которые приводятся в специальных руководствах (этот случай мы рассматривать не будем).

Если объем выборки n 9, то при справедливости гипотезы H0 критерий

t =

ρS n - 2

 

 

 

 

 

1 - ρS

2

 

 

 

 

имеет распределение Стьюдента с k = n - 2 степенями свободы.

40