Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
методика. корреляционный анализ для магистров.docx
Скачиваний:
24
Добавлен:
03.06.2015
Размер:
1.16 Mб
Скачать

Коэффициент корреляции для больших выборок Составление корреляционной решетки

Заключается в группировке данных в сопряженные между собой взвешенные ряды. Перед началом группировки следует выбрать независимую переменную (аргумент “X”) и зависимую переменную (функцию “Y”). Выбор аргумента и функции является довольно условным, так как иногда сложно установить, какой признак является причиной взаимного влияния, а какой следствием. Например, в корреляционной связи диаметра и высоты ствола, длины подземной части сеянцев и высоты их надземной части тот и другой признак парной связи может служить и аргументом, и функцией.

В случае затруднений в выборе аргумента и функции ориентируются по корреляционному отношению прямой и обратной связи двух коррелируемых признаков. Если обратное корреляционное отношение больше прямого, то за аргумент принимают другой признак. Вариационный ряд, принимаемый за аргумент, располагается в горизонтальном ряду графика, а принятый за функцию – в вертикальном.

Необходимо иметь ввиду, что корреляционные связи, не слишком отклоняющиеся от прямолинейных, могут быть удовлетворительно оценены коэффициентом корреляции, вычисление которого значительно проще вычисления корреляционного отношения; допустимая степень отклонения корреляционной связи от прямолинейной определяется с помощью критерия криволинейности.

Рассмотрим особенности парной корреляционной связи на примере измерений длины надземной и подземной частей однолетних сеянцев сосны, произведенных студентами лесохозяйственного факультета на лесопитомнике учебно-опытного лесхоза УГЛТУ. Было измерено 100 сеянцев, результаты занесены в корреляционную решетку (Табл. 12).

Таблица 12

Корреляционная решетка распределения подземной части (x) и надземной части (y) однолетних сеянцев сосны и расчет показателей для вычисления коэффициента их корреляции

Высота сеянцев, см.

Длина подземной части сеянцев, см.

4

6

8

10

12

14

16

18

Итого ny

ay

ayny

a2y

a2yny

12

0

6

1

1

+6

6

36

36

11

–5

1

0

5

1

20

1

3

+5

15

25

75

10

0

+4

16

0

9

0

12

2

9

1

12

1

4

+3

12

9

36

8

–6

1

0

2

4

1

8

1

5

+2

10

4

20

7

–3

1

–2

1

–2

2

0

3

1

1

12

6

3

1

15

+1

15

1

15

6

0

1

0

6

0

8

0

0

6

0

4

0

2

27

0

0

0

0

5

6

2

12

6

2

2

0

1

– 4

4

– 6

3

– 6

2

20

–1

–20

1

20

4

12

2

24

6

6

3

0

5

–10

5

–12

3

–8

1

25

–2

–50

4

100

Итого nx

7

19

16

11

18

19

6

4

100

–12

302

ax

–3

–2

–1

0

+1

+2

+3

+4

ax nx

–21

–38

–16

0

18

38

18

16

15

a2x

9

4

1

0

1

4

9

16

a2x nx

63

76

16

0

18

76

54

64

367

nxy·ax· ay

9

34

1

0

–2

10

6

32

90

После построения корреляционной решетки необходимо установить степень криволинейности изучаемой связи. Это можно сделать визуально, построив на корреляционной решетке график эмпирической зависимости, или аналитическим путем. Построенный от руки график свидетельствует о наличии кривизны связи, хотя и слабо выраженной. В этом случае допускается вычисление коэффициента корреляции вместо корреляционного отношения, так как, во-первых, значительно упрощаются вычисления, и, во-вторых, значение коэффициента корреляции будет незначительно отличаться от значения корреляционного отношения и достаточно точно оценивать тесноту связи изучаемых признаков.

При проведении вычислений произвольно выбирают условную средину горизонтального и вертикального рядов распределения. Условная средина должна быть по возможности ближе к средине ряда и совпадать с клеткой, в которой содержится наибольшая частота. Условные отклонения (в нашем примере по горизонтали ах изменяются от–3 до + 4, по вертикали ауот + 6 до– 2). Далее условные отклонения умножают на частоты горизонтального и вертикального рядов, затем квадраты условных отклонений также умножают на частоты; полученные произведения суммируют.

Находят произведения условных отклонений между собой и на совместную для них частоту:

В первом столбце: (–3)·1·2=–6; (–3)·1·1=–3; (–3)·2·(–1) = 6;

(–3)·2·(–2)=12. И так по каждому столбцу. Полученные произведения суммируют в столбцах с соблюдением знаков, получая значенияnxy·ax·ay, которые суммируют (в нашем примере сумма = 90).

В итоге вычислений получают суммы по строкам (х) и по столбцам (у):

∑nx = Nx = 100; ∑ ax nx = 15; ∑ a2x nx = 367

∑ny = Ny = 100; ∑ ay ny = –2; ∑ a2y ny = 302

∑ nxy·ax·ay= 90.

Далее находят стандартное отклонение горизонтального и вертикального коррелируемых рядов распределения по формуле (__):

σх === 1,910

σу = == 1,738

Коэффициент корреляции находят по формуле:

rxy = (44)

rxy 0,276

Ошибка достоверности коэффициента корреляции определяется по формуле:

t=, (45)

где t– критерий Стьюдента при числе степеней свободы У=N-2=

= 100 – 2 = 98.

t== (0,5ln1,767)·9,849 =

Объем выборки, достаточный для достоверности коэффициента корреляции, определяют по таблице 13П (Зайцева). На уровне значимости 0,05 коэффициент корреляции 0,277 достоверен при объеме выборки N, равном 50 (в нашем примереN= 100, следовательно,r= 0,276 статистически достоверен).

Полученное значение коэффициента корреляции 0,276 свидетельствует о слабой связи длины корней и высоты надземной части однолетних сеянцев сосны – лишь 27,7% числа признаков (факторов) являются общими для длины корней и высоты надземной части сеянцев. Возведя коэффициент корреляции в квадрат, получают коэффициент детерминации r2, свидетельствующий о силе связи, о взаимообусловленности изменчивости двух показателей.

r2=0,2762=0,077=7,7%. Только 7,7% изменчивости высоты надземной части однолетних сеянцев сосны вызываются (обуславливаются) изменчивостью длины их корневой системы; остальная доля изменчивости обусловлена действием других, неизвестных факторов.

Коэффициент детерминации является более важным показателем связи в сравнении с коэффициентом корреляции.

Таблица 13

Объем выборки, достаточный для достоверности коэффициента корреляции на трех доверительных уровнях (по Г.Н. Зайцеву, 1984)