- •Методика
- •5.5.9.2. Корреляционный анализ
- •Коэффициент корреляции для больших выборок Составление корреляционной решетки
- •Совместное вычисление коэффициента корреляции и корреляционного отношения между взвешенными рядами
- •Прямое и обратное корреляционное отношение
- •Корреляция рангов
- •5.5.9.3. Регрессионный анализ
- •Линейная регрессия
Коэффициент корреляции для больших выборок Составление корреляционной решетки
Заключается в группировке данных в сопряженные между собой взвешенные ряды. Перед началом группировки следует выбрать независимую переменную (аргумент “X”) и зависимую переменную (функцию “Y”). Выбор аргумента и функции является довольно условным, так как иногда сложно установить, какой признак является причиной взаимного влияния, а какой следствием. Например, в корреляционной связи диаметра и высоты ствола, длины подземной части сеянцев и высоты их надземной части тот и другой признак парной связи может служить и аргументом, и функцией.
В случае затруднений в выборе аргумента и функции ориентируются по корреляционному отношению прямой и обратной связи двух коррелируемых признаков. Если обратное корреляционное отношение больше прямого, то за аргумент принимают другой признак. Вариационный ряд, принимаемый за аргумент, располагается в горизонтальном ряду графика, а принятый за функцию – в вертикальном.
Необходимо иметь ввиду, что корреляционные связи, не слишком отклоняющиеся от прямолинейных, могут быть удовлетворительно оценены коэффициентом корреляции, вычисление которого значительно проще вычисления корреляционного отношения; допустимая степень отклонения корреляционной связи от прямолинейной определяется с помощью критерия криволинейности.
Рассмотрим особенности парной корреляционной связи на примере измерений длины надземной и подземной частей однолетних сеянцев сосны, произведенных студентами лесохозяйственного факультета на лесопитомнике учебно-опытного лесхоза УГЛТУ. Было измерено 100 сеянцев, результаты занесены в корреляционную решетку (Табл. 12).
Таблица 12
Корреляционная решетка распределения подземной части (x) и надземной части (y) однолетних сеянцев сосны и расчет показателей для вычисления коэффициента их корреляции
Высота сеянцев, см. |
Длина подземной части сеянцев, см. | ||||||||||||
4 |
6 |
8 |
10 |
12 |
14 |
16 |
18 |
Итого ny |
ay |
ayny |
a2y |
a2yny | |
12 |
|
|
|
0 |
6 1 |
|
|
|
1 |
+6 |
6 |
36 |
36 |
11 |
|
|
–5 1 |
0 |
5 1 |
|
|
20 1 |
3 |
+5 |
15 |
25 |
75 |
10 |
|
|
|
0 |
|
|
|
|
— |
+4 |
— |
16 |
0 |
9 |
|
|
|
0 |
|
12 2 |
9 1 |
12 1 |
4 |
+3 |
12 |
9 |
36 |
8 |
–6 1 |
|
|
0 2 |
|
4 1 |
|
8 1 |
5 |
+2 |
10 |
4 |
20 |
7 |
–3 1 |
–2 1 |
–2 2 |
0 3 |
1 1 |
12 6 |
3 1 |
|
15 |
+1 |
15 |
1 |
15 |
6 |
0 1 |
0 6 |
0 8 |
0 |
0 6 |
0 4 |
0 2 |
|
27 |
0 |
0 |
0 |
0 |
5 |
6 2 |
12 6 |
2 2 |
0 1 |
– 4 4 |
– 6 3 |
– 6 2 |
|
20 |
–1 |
–20 |
1 |
20 |
4 |
12 2 |
24 6 |
6 3 |
0 5 |
–10 5 |
–12 3 |
|
–8 1 |
25 |
–2 |
–50 |
4 |
100 |
Итого nx |
7 |
19 |
16 |
11 |
18 |
19 |
6 |
4 |
100 |
– |
–12 |
– |
302 |
ax |
–3 |
–2 |
–1 |
0 |
+1 |
+2 |
+3 |
+4 |
– | ||||
ax nx |
–21 |
–38 |
–16 |
0 |
18 |
38 |
18 |
16 |
15 | ||||
a2x |
9 |
4 |
1 |
0 |
1 |
4 |
9 |
16 |
– | ||||
a2x nx |
63 |
76 |
16 |
0 |
18 |
76 |
54 |
64 |
367 | ||||
nxy·ax· ay |
9 |
34 |
1 |
0 |
–2 |
10 |
6 |
32 |
90 |
После построения корреляционной решетки необходимо установить степень криволинейности изучаемой связи. Это можно сделать визуально, построив на корреляционной решетке график эмпирической зависимости, или аналитическим путем. Построенный от руки график свидетельствует о наличии кривизны связи, хотя и слабо выраженной. В этом случае допускается вычисление коэффициента корреляции вместо корреляционного отношения, так как, во-первых, значительно упрощаются вычисления, и, во-вторых, значение коэффициента корреляции будет незначительно отличаться от значения корреляционного отношения и достаточно точно оценивать тесноту связи изучаемых признаков.
При проведении вычислений произвольно выбирают условную средину горизонтального и вертикального рядов распределения. Условная средина должна быть по возможности ближе к средине ряда и совпадать с клеткой, в которой содержится наибольшая частота. Условные отклонения (в нашем примере по горизонтали ах изменяются от–3 до + 4, по вертикали ауот + 6 до– 2). Далее условные отклонения умножают на частоты горизонтального и вертикального рядов, затем квадраты условных отклонений также умножают на частоты; полученные произведения суммируют.
Находят произведения условных отклонений между собой и на совместную для них частоту:
В первом столбце: (–3)·1·2=–6; (–3)·1·1=–3; (–3)·2·(–1) = 6;
(–3)·2·(–2)=12. И так по каждому столбцу. Полученные произведения суммируют в столбцах с соблюдением знаков, получая значенияnxy·ax·ay, которые суммируют (в нашем примере сумма = 90).
В итоге вычислений получают суммы по строкам (х) и по столбцам (у):
∑nx = Nx = 100; ∑ ax nx = 15; ∑ a2x nx = 367
∑ny = Ny = 100; ∑ ay ny = –2; ∑ a2y ny = 302
∑ nxy·ax·ay= 90.
Далее находят стандартное отклонение горизонтального и вертикального коррелируемых рядов распределения по формуле (__):
σх === 1,910
σу = == 1,738
Коэффициент корреляции находят по формуле:
rxy = (44)
rxy 0,276
Ошибка достоверности коэффициента корреляции определяется по формуле:
t=, (45)
где t– критерий Стьюдента при числе степеней свободы У=N-2=
= 100 – 2 = 98.
t== (0,5ln1,767)·9,849 =
Объем выборки, достаточный для достоверности коэффициента корреляции, определяют по таблице 13П (Зайцева). На уровне значимости 0,05 коэффициент корреляции 0,277 достоверен при объеме выборки N, равном 50 (в нашем примереN= 100, следовательно,r= 0,276 статистически достоверен).
Полученное значение коэффициента корреляции 0,276 свидетельствует о слабой связи длины корней и высоты надземной части однолетних сеянцев сосны – лишь 27,7% числа признаков (факторов) являются общими для длины корней и высоты надземной части сеянцев. Возведя коэффициент корреляции в квадрат, получают коэффициент детерминации r2, свидетельствующий о силе связи, о взаимообусловленности изменчивости двух показателей.
r2=0,2762=0,077=7,7%. Только 7,7% изменчивости высоты надземной части однолетних сеянцев сосны вызываются (обуславливаются) изменчивостью длины их корневой системы; остальная доля изменчивости обусловлена действием других, неизвестных факторов.
Коэффициент детерминации является более важным показателем связи в сравнении с коэффициентом корреляции.
Таблица 13
Объем выборки, достаточный для достоверности коэффициента корреляции на трех доверительных уровнях (по Г.Н. Зайцеву, 1984)