Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
VUKOLOV2.pdf
Скачиваний:
136
Добавлен:
05.06.2015
Размер:
2.12 Mб
Скачать

нет,

то

k

=

0,

и

коэффициент ранговой корреляции Кенделла равен

 

 

 

t = 1-

4k

= 1.

 

 

 

 

n(n -1)

 

 

Чтобы определить скорректированное значение tI , предварительно вычислим:

Ux =

1

[2 ×1+ 2×1+ 2×1+ 2×1] = 4; U y

=

1

[4×3 + 3× 2] = 9.

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

Таким образом, tI

 

равно

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1-

2

(4 + 9)

 

 

 

 

 

 

 

 

tI =

 

 

 

 

10×9

 

 

 

 

 

» 0,833.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

æ

-

2× 4

öæ

-

 

 

2×9

ö

 

 

 

 

 

ç1

 

 

 

 

֍1

 

 

 

 

÷

 

 

 

 

 

 

 

 

 

10

×9

 

 

 

 

 

è

 

10×9 øè

 

ø

 

 

 

Задания для самостоятельной работы

В следующих задачах вычислите коэффициенты ранговой корреляции Спирмена и τ Кендалла. Проверьте значимость полученных результатов, сравните коэффициенты ранговой корреляции и прокомментируйте их.

1.Бегуны, ранги которых при построении по росту были 1, 2, …, 10, заняли на состязаниях следующие места:

6, 5, 1, 4, 2, 7, 8, 10, 3, 9.

Как велика ранговая корреляция между ростом и быстротой бега?

2.Цветные диски, имеющие порядок оттенков 1, 2, …, 15, были расположены испытуемым в следующем порядке:

7, 4, 2, 3, 1, 10, 6, 8, 9, 5, 11, 15, 14, 12, 13.

103

Охарактеризовать способность испытуемого различать оттенки цветов с помощью коэффициентов ранговой корреляции между действительными и наблюдаемыми результатами.

3. Найти коэффициент ранговой корреляции между урожайностью пшеницы и картофеля на соседних полях по следующим данным:

Годы

Пшеница, ц

Картофель, ц

1926

20,1

7,2

1927

23,6

7,1

1928

26,3

7,4

1929

19,9

6,1

1930

16,7

6,0

1931

23,2

7,3

1932

31,4

9,4

1933

33,5

9,2

1934

28,2

8,8

1935

35,3

10,4

1936

29,3

8,0

1937

30,5

9,7

4. Для контрольной партии интегральных схем по нескольким параметрам определен критерий годности

K.

Найти коэффициенты ранговой корреляции между значениями K и удельного сопротивления p-кармана Rp , а также между значениями Rp и напряжениями

отсечки Vо по следующим данным:

K 0,2260,1870,6780,1410,197 0,339 0,421 0,1410,1270,819

Rp, (Ом·мм2)/м 905 1004 1119 1200 1340 1261 1140 1190 1060 1130

Vо, B

1,2 1,9 1,7 1,5 4,5

2,2

2,3 2,4 1,8 1,4

104

Проверить значимость полученных коэффициентов при α = 0,10.

5. Измерения длины головы x и длины грудного плавника y у 16 окуней дали результаты (мм):

x 66 61 67 73 51 59 48 47 58 44 41 54 52 47 51 45

y 38 31 36 43 29 33 28 25 36 26 21 30 20 27 28 26

Найти коэффициенты ранговой корреляции. Проверить значимость полученного результата при α = 0,05.

Найти коэффициент корреляции Пирсона и проверить его значимость при α = 0,05 в предположении, что выборка наблюдений получена из нормально распределенной двумерной совокупности.

6. Связь между массой тела x и количеством гемоглобина в крови y у павианов-гамадрилов

характеризуется следующими данными:

 

 

 

 

 

 

 

 

Масса тела,

 

17,7

 

19

 

18

 

19

 

22

 

21

 

21

 

20

 

30

18

 

 

 

 

 

 

 

 

кг

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Гемоглобин

70

74

 

72

 

80

 

77

 

80

 

80

 

89

 

76

 

86

(по Сали)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти коэффициенты ранговой корреляции и

 

проверить их значимость при α = 0,05.

 

 

 

 

 

 

 

 

 

Найти коэффициент корреляции Пирсона.

 

 

 

 

 

 

105

4.4. Критерий серий Вальда -

Вольфовица (Wald - Wolfowitz runs test)

Критерий серий применяется для проверки гипотезы Н0, утверждающей, что две группы данных представляют случайные независимые выборки с объемами n1 и n2 из одной генеральной совокупности,

т.е. не отличаются друг от друга по наблюдаемому признаку.

Результаты наблюдений записываются в виде вариационного ряда объединенной выборки, а принадлежность данных к той или иной группе определяется с помощью кодирующей переменной, принимающей два значения: 0 и 1; + и – ;1 и 2 и так далее. Полученную таким образом последовательность назовем последовательностью кодов.

Серией в последовательности кодов называется всякая подпоследовательность, состоящая из одинаковых кодов и ограниченная противоположными кодами либо находящаяся в начале или конце исходной последовательности. Например, в последовательности кодов:

0 1 0 0 0 1 1 1 1 1 0 0 имеется пять серий: (0), (1), (0 0 0), (1 1 1 1 1), (0 0).

106

Статистикой критерия является число серий N в последовательности кодов. Если гипотеза Н0 верна, то обе выборки должны быть хорошо перемешаны в общем вариационном ряду и число серий N должно быть велико. Если выборки получены из генеральных совокупностей с разными распределениями, различающимися средними значениями или разбросом, то число серий N, по-видимому, будет мало.

Критическая

область определяется неравенствами

N £ N1 и N ³ N2 ,

где значения N1 и N2 определяются по

объему выборок n1 и n2 и уровню значимости α (см.,

например, [1], табл.П11, α = 0,05).

При больших объемах выборок (n1 > 20 и/или n2 > 20) для проверки гипотезы Н0 можно использовать статистику Z:

 

 

 

æ

2n1n2

ö

 

1

 

 

 

 

 

 

N - ç

n + n

 

+1÷

-

2

 

 

 

 

Z =

 

 

è

 

1

 

2

ø

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2n n

(

2n n - n - n

)

 

 

1

2

 

 

1

2

1

 

2

 

 

 

 

 

 

(n + n

 

)2

(n + n -1)

 

 

 

 

 

1

 

2

 

 

1

2

 

 

 

 

 

Если гипотеза Н0 верна, то Z имеет (приближенно) стандартное нормальное распределение N(0,1). Гипотеза Н0 принимается на уровне значимости α, если выборочное значение статистики Z, zв удовлетворяет

условию

 

Zв

 

£ u1−α

, где u1−α

- квантиль нормального

 

 

 

 

 

 

 

2

2

 

 

 

 

 

 

 

 

распределения N(0,1) порядка 1- a

 

; если

 

Z

 

 

> u

, то

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

в

 

1−α

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

гипотеза Н0 отклоняется.

Пример 4.6. При изучении иностранного языка в двух группах студентов использовались две различные методики. После изучения части курса студенты обеих

107

групп написали диктант. Количество ошибок в диктанте таково:

Первая группа

31, 26, 33, 11, 13, 5, 18, 1, 2, 16, 17, 23,

 

20, 21, 9;

Вторая группа

12, 7, 4, 8, 3, 6, 10, 25, 22, 24, 15, 19,

 

14, 36, 34, 32, 27, 29, 30, 35, 28.

Можно ли считать, что применение разных методик не приводит к существенному различию в результатах диктанта? Принять α = 0,01.

Решение. Проверяемая гипотеза H0: обе выборки получены из одной генеральной совокупности. Альтернативная гипотеза H1: выборки получены из разных генеральных совокупностей, т.е. разные методики приводят к различным успехам в изучении языка.

Для проверки гипотезы используем критерий серий. Присвоим элементам первой группы код 1, а элементам второй группы - код 0. Объединим выборки, запишем вариационный ряд и составим последовательность кодов:

1 1 0 0 1 0 0 0 1 0 1 0 1 0 0 1 1 1 0 1 1 0 1 0 0 1 0 0 0 0 1 0

1 0 0 0

Число серий в последовательности кодов N = 22. Первая группа состоит из n1 = 15 элементов, а

вторая - из n2 = 21 элемента. Для проверки гипотезы H0 используем статистику Z. Выборочное значение Z вычисляется по приведенной выше формуле и ровно

zв ≈ 1,044 .

Так как это значение меньше квантили распределения N(0,1) u0,995 = 2,576 , то гипотеза H0 не отклоняется, т.е. различные методики обучения не влияют на результаты диктанта.

108

Чтобы решить задачу в пакете STATISTICA, необходимо записать данные в две переменные. В одну переменную (dependent variables) надо последовательно занести обе выборки, а в другую (grouping variables) - коды, определяющие принадлежность элементов к той или иной выборке (рис.4.5).

Рис.4.5. Критерий серий: ввод данных

В результате получим:

No. of runs (число серий) = 22,

No. of ties (число совпадающих значений) = 0,

Z adjstd (скорректированное на непрерывность выборочное значение Z) = 1,044466

plevel

( p = P é

 

Z

 

> z

ù) = 0,296278.

 

 

ë

 

 

 

 

в û

В пакете STATISTICA решение выглядит, как на рис.4.6.

Рис.4.6. Результаты решения примера 4.6 Таким образом, гипотеза H0 не отклоняется.

109

4.5. Критерий Манна - Уитни (Mann - Whitney U test)

Критерий применяется для сравнения двух независимых выборок объемом n1 и n2 и проверки гипотезы H0, утверждающей, что выборки получены из однородных генеральных совокупностей и, в частности, имеют равные средние и медианы, т.е. применяется в тех же условиях, что и критерий серий.

Статистика W-критерия определяется следующим образом. Расположим n1 + n2 значений объединенной

выборки в порядке возрастания, т.е. в виде вариационного ряда. Каждому элементу ряда поставим в соответствие номер в ряду - ранг.

Если несколько элементов ряда совпадают по величине, то каждому из них присваивается ранг, равный среднему арифметическому их номеров. Последний элемент в ранжированной объединенной выборке должен иметь ранг n1 + n2 . Этот факт можно

использовать при проверке правильности ранжирования.

Пусть R1 - сумма рангов первой выборки; R2 - сумма

рангов второй выборки. Вычислим значения w1 и w2, которые определяются формулами

w1 = n1n2 + n1 (n1 +1) R1, 2

w2 = n1n2 + n2 (n2 +1) R2. 2

Правильность вычислений проверяется по формуле

w1 + w2 = n1n2 .

110

Выборочное значение wв статистики критерия есть наименьшее из чисел w1 и w2.

В таблице (табл.П10 [1]) приводятся вероятности

того, что W < wв , при условии,

что гипотеза H0 верна,

т.е. значения

 

 

 

 

 

p = P

éW < wв

H

 

ù

,

 

ê

0

ú

 

 

ë

 

û

 

для выборок объемом n1 и n2 ( n1 > n2 ).

При односторонней (двусторонней) альтернативной гипотезе H1 гипотеза H0 отклоняется, если p < α , p < 2α ,

где α - заданный уровень значимости. В противном случае гипотеза H0 не противоречит результатам наблюдений.

Если объем каждой из выборок больше 8 , то проверку гипотезы Н0 можно проводить, используя статистику

 

 

 

W -

 

1

n n

 

 

 

 

 

 

2

 

 

 

zв =

 

 

 

 

 

1 2

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

n n

(n + n

+1)

 

 

12

1

2

1

2

 

 

 

имеющую (при условии, что верна гипотеза Н0) приблизительно стандартное нормальное распределение N(0,1). В этом случае гипотеза Н0 отклоняется на уровне значимости α, если выборочное значение zв статистики Z удовлетворяет неравенству

zв < uα (zв > u1−α )

при левосторонней (правосторонней) альтернативной гипотезе H1 и если

zв > u1−α 2

при двусторонней альтернативной гипотезе H1 .

111

Пример. 4.7. Измерялось напряжение пробоя у диодов, отобранных случайным образом из двух партий. Результаты измерения (в вольтах) следующие:

Первая партия

50

41

48

60

46

60

51

42

62

54

42

46

Вторая партия

38

40

47

51

63

50

63

57

59

51

Имеются ли основания утверждать, что напряжение пробоя у диодов обеих партий равно? Решить пример, используя критерий Манна - Уитни. Принять α = 0,10.

Решение. Составим вариационный ряд, отметив принадлежность элемента к первой партии черточкой сверху. В результате получим следующую ранжированную последовательность:

Элемент

38

40

___

 

___

___

 

 

___

 

___

 

47

 

___

___

 

 

50

41

 

42

42

 

 

46

 

46

 

 

48

50

 

 

Ранг

1

2

3

 

4,5

4,5

 

 

6,5

 

6,5

 

8

 

 

9

 

 

10,5

 

10,5

 

Элемент

 

 

 

51

 

51

 

___

 

57

 

59

 

___

 

 

___

 

___

 

63

 

63

 

 

 

___

 

 

 

 

 

 

 

 

 

 

 

 

 

 

51

 

 

 

54

 

 

 

60

 

 

60

 

62

 

 

 

 

Ранг

 

13

 

13

 

13

 

15

 

16

 

17

 

18,5

18,5

 

20

 

21,5

 

21,5

 

Найдем суммы рангов для каждой партии:

R1 = 129,5; R2 =123,5 .

Так как n1 = 12, n2 = 10 , то

w1 = 12×10 + 12×(12 +1) -129,5 = 68,5, 2

w2 = 12×10 + 10×(10 +1) -123,5 = 51,5. 2

Выборочное значение wв статистики критерия таково:

wв = 51,5 .

112

Так как n1 > 8, n2 > 8 , то для проверки гипотезы H0

используем статистику Z. Выборочное значение этой статистики определяется по формуле

 

 

 

51,5 -

1

×12 ×10

 

 

 

zв =

 

 

2

 

 

» -0,56.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

×12×10(12 +10

+1)

 

 

12

 

 

 

 

 

 

Проверяемое предположение соответствует двусторонней альтернативной гипотезе, следовательно, значение zв сравнивается с квантилью стандартного

нормального распределения u1−α 2 , которая определяется

по таблице:

u1−α 2 = u0,95 = 1,645.

Так как /–0,56/ < 1,645, то гипотеза H0 о равенстве напряжения пробоя у диодов обеих партий не отклоняется.

В пакете STATISTICA решение выглядит, как на рис.4.7.

Рис.4.7. Решение примера 4.7

Таким образом, утверждение о том, что напряжение пробоя у диодов обеих партий равно, следует принять.

113

4.6. Двухвыборочный критерий Колмогорова - Смирнова (Kolmogorov -

Smirnov two-sample test)

Тест применяется для проверки гипотезы о том, что две независимые выборки x1 , x2 , …, xn1 и y1 , y2 , …, yn2

получены из одной генеральной совокупности, т.е.

функции распределения F1(х) и F2(х) двух генеральных совокупностей равны (в этом случае говорят, что генеральные совокупности однородны)

H0 : F1 (x) º F2 ( y) y=x

при альтернативной гипотезе H1 : F1 (x) ¹ F2 ( y) y=x .

Статистикой критерия является максимальная разница между эмпирическими функциями распределения, построенными по выборкам:

D = max F1* (x) - F2* ( y) .

Критические значения для статистики D приводятся в таблицах [20].

При больших (> 40) значениях n1 и n2 используются следующие критические значения:

∙ при α = 0,05, D = 1,36 n1n2 ;

крит

 

 

 

 

n1

+ n2

 

 

 

114

 

 

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]