Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Konspekt_lekcii Зандер

.pdf
Скачиваний:
16
Добавлен:
01.06.2015
Размер:
624.83 Кб
Скачать

Лекция 2.2.2. Многомерный корреляционный анализ.

Множественный и частный коэффициенты корреляции

Экономические явления чаще всего адекватно описываются многофакторными моделями. Поэтому возникает необходимость обобщить рассмотренную выше двумерную корреляционную модель на случай

нескольких переменных.

 

 

 

Пусть

имеется

совокупность

случайных

переменных

X1; X2; : : : ; Xi; : : : ; Xj; : : : ; Xp, имеющих совместное нормальное

распределение. В этом случае матрицу

 

1

0

1 r12

r13

: : : r1p

 

r21

1 r23

: : : r2p

C

Q = B r31 r32

1

: : : r3p

B

 

 

 

 

 

 

C

B

: : : : : : : : :

: : : : : :

C

B

 

 

 

 

 

 

C

B r

p1

r

p2

: : :

: : : 1

C

B

 

 

 

 

C

@

 

 

 

 

 

 

A

составленную из парных коэффициентов корреляции rij (i; j = 1; 2; : : : ; p), определяемых ранее по формуле, будем называть корреляционной. На основе корреляционной матрицы анализируется связь между переменными, причем анализ взаимосвязи проводится только по тем парным коэффициентам корреляции, которые являются значимыми.

Теснота линейной взаимосвязи одной переменной Xi с совокупностью других (p 1) переменных Xj, рассматриваемой в целом, измеряется с помощью выборочного коэффициента множественной корреляции

Ri (i = 1; p), который является обобщением парного коэффициента корреляции rij и вычисляется по формуле

s

Q

Ri = 1 Qii ;

где Q — определитель корреляционной матрицы,

Qii — алгебраическое дополнение корреляционной матрицы. Коэффициент множественной корреляции заключен в пределах

0 6 R 6 1:

21

Он не меньше, чем абсолютная величина любого парного или частного коэффициента с таким же первичным индексом. С помощью множественного коэффициента (по мере приближения R к 1) делается вывод о тесноте взаимосвязи, но не ее направлении.

Величина R2, называемая выборочным множественным коэффициентом детерминации, показывает, какую долю вариации исследуемой переменной объясняет вариация остальных переменных.

Коэффициент множественной корреляции значимо отличается от нуля, если значение статистики F > F ; f1; f2 , где F рассчитывается по формуле

R2(n p)

F = (1 R2)(p 1);

где n — объем выборки;

p — количество переменных, включенных в уравнение регрессии;

F ; f1; f2 — табличное значение F -критерия на уровне значимости

при числе степеней свободы f1 = p 1 и f2 = n p.

Если переменные коррелируют друг с другом, то на величине коэффициента парной корреляции частично сказывается влияние других переменных. В связи с этим часто возникает необходимость исследовать частную корреляцию между переменными при исключении влияния одной или нескольких других переменных.

Выборочным частным коэффициентом корреляции между переменными Xi и Xj при фиксированных значениях остальных (p 2) переменных называется выражение:

r

 

=

 

Qij

;

ij; 1:::p

pQii Qij

 

 

 

где Qij, Qii и Qjj — алгебраические дополнения соответствующих элементов матрицы парных коэффициентов корреляции.

Частный коэффициент корреляции показывает тесноту связи двух факторов Xi и Xj, когда влияние остальных факторов исключается. Величина частного коэффициента корреляции изменяется в пределах от 1

до +1 и интерпретируется аналогично коэффициенту парной корреляции. Проверка значимости частного коэффициента корреляции проводится так же, как парного коэффициента корреляции, только (n 2) при

22

этом заменяется на (n p), т. е. вычисляется статистика Стьюдента

jrijjpn p t = q

1 rij2

где n — количество наблюдений;

p — количество факторов, задействованных в расчете коэффициента.

Коэффициент частной корреляции считается значимым, если t > t ; , причем значение t ; определяется по таблицам распределения Стьюдента: — уровень значимости, = n p — число степеней свободы.

Незначимость коэффициента частной корреляции может быть обусловлена либо отсутствием взаимосвязи признаков, либо малым объемом выборки.

23

Лекция 2.2.3. Ранговая корреляция

При изучении неколичественных признаков или количественных признаков с непрерывными и неизвестными законами распределения классические подходы корреляционного анализа либо не применены либо не эффективны. Для изучения тесноты связи в этих случаях применяются методы непараметрической статистики, среди которых наиболее распространены методы ранговой корреляции.

Рассмотрим вариационный ряд для признака x:

x1 x2 : : : xj : : : xn:

Напомним, что рангом наблюдаемого значения xj признака x называется номер этого наблюдения в вариационном ряду (т. е. R (xj) = j) при условии, что неравенства — строгие. Если же в вариационном ряду встречаются одинаковые члены, то в качестве одинаковых (связных) рангов берется средняя арифметическая соответствующих номеров.

Например, суммы баллов, набранных студентами за выполнение двух контрольных заданий, были следующими:

5; 10; 8; 7; 9; 10; 5; 5:

Вариационный ряд имеет вид

5; 5; 5; 7; 8; 9; 10; 10:

Ранг трех студентов, попавших в начало ряда, равен (1+2+3)=3 = 2

или R (5) = 2. Далее R (7) = 4; R (8) = 5; ; R (9) = 8; R (10) = (9 + 10)=2 = 9; 5: Очевидно, ранги могут быть не обязательно натуральными числами.

Для измерения связей между признаками, значения которых можно упорядочить по степени проявления ими анализируемых свойств, применяются коэффициенты ранговой корреляции.

Изучим сначала парную связь, т. е. связь между двумя признаками x и y.

Пусть имеется выборка объема n из непрерывно распределенной двумерной генеральной совокупности (x; y):

(x1; y1); : : : ; (xn; yn):

24

При изучении связи между x и y, можно предполагать, что выборка упорядочена по x, тогда такой выборке соответствует следующая матрица (подстановка)

R (1)

R (2)

: : :

R (i) : : :

R (n) !

;

1

2

: : :

i : : :

n

 

в которой первая строка состоит из рангов наблюдений x, а вторая — из рангов y.

Вместо изучения связи между x и y с помощью (количественных) значений x и y будем исследовать эту связь, используя соответствующие ранги. Очевидно, что жесткой (функциональной) положительной связи

между x и y соответствует подстановка

1

2

: : :

i

: : :

n !

;

1

2

: : :

i

: : :

n

 

жесткой отрицательной связи — подстановка

 

 

 

 

!

 

 

1

2

: : :

n

 

 

 

n 1 : : :

:

 

 

n

1

 

Для

измерения степени

сходства между

перестановками

(1; 2; : : : ; n)

и (R (1); R (2); : : : ; R (n)),

степени связи

между x и y

назовем инверсией (беспорядком) между элементами перестановки

R (i) и R (j) (второй строки подстановки), если R (i) стоит левее R (j) и

больше R (j). Если же при том же условии R (i) меньше R (j), то говорят, что элементы R (i) и R (j) инверсии не образуют или образуют порядок.

В качестве меры связи берут разность между суммами чисел порядков N и чисел беспорядков Q, образованных элементами второй строки подстановки.

Руководствуясь комбинаторными подсчетами, можно определить вероятности перестановок с заданной мерой связи. Так, например, для подстановок из четырех элементов рассмотрим расчетную таблицу 1.

25

 

 

 

 

Т а б л и ц а 1

 

 

 

 

 

 

Число

Число

Мера

 

 

 

порядков

инверсий

сходства

Подстановки

Вероятность

 

N

Q

Sk

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

6

6

4321

1=24

 

1

5

4

3421; 4231; 4322

3=24

 

2

4

2

3412; 4132; 4213; 2431; 3241

5=24

 

3

3

0

3214; 2413; 4123; 3142; 1432; 2341

6=24

 

 

 

 

 

 

 

4

2

2

2143; 1423; 2314; 3124; 1342

5=24

 

 

 

 

 

 

 

5

1

4

2134; 1324; 1243

3=24

 

 

 

 

 

 

 

6

0

6

1234

1=24

 

 

 

 

 

 

 

Нетрудно заметить (и доказать для общего случая), что сумма чис-

ла порядков N и инверсий Q равна сумме номеров перестановки, т. е.

1 + 2 + : : : + n = n(n + 1); 2

распределение вероятностей симметрично относительно центра Sk, равного нулю; если сумма номеров четна, то всевозможные значения меры

Sk четны (если же n(n + 2)=2 — нечетное число, то все Sk — нечетные числа). Из сказанного следует, что таблицы для решения задач проверки гипотез относительно меры сходства (или связи) можно давать для неотрицательных значений Sk (четных или нечетных).

Коэффициент ранговой корреляции Кендалла определяется путем

нормирования случайной величины Sk, т. е. деления на n(n 1)=2:

rk =

2Sk

= 1

4Q

=

4N

1:

n(n 1)

 

n(n 1)

n(n 1)

 

Он, очевидно, изменяется в пределах от 1 до +1, которые от-

вечают самым жестким значениям меры сходства — отрицательной и положительной связи между x и y. Нуль соответствует отсутствию связи между признаками в генеральной совокупности. Как обычный парный коэффициент корреляции rxy( xy), коэффициент корреляции Кендалла не является абсолютным измерителем связи (если он равен нулю, то x и y

могут оказаться зависимыми).

При больших объемах n выборки и независимости x и y можно использовать нормальный закон распределения rk с параметрами

2(2n + 5)

Mrk = 0 и Drk = 9n(n 1):

26

Другой коэффициент ранговой корреляции, предложенный Спирменом, использует меру сходства с учетом весов рангов:

 

6SС

 

n

rС = 1

; SС =

(R (i) i)2:

n3 n

 

 

Xi

 

 

 

=1

Этот коэффициент можно получить по формуле парного коэффициента корреляции rxy для выборки (i; R (i)); i = 1; n.

При больших объемах n выборки и независимости x и y коэффициент ранговой корреляции Спирмена подчиняется нормальному закону распределения с параметрами

MrС = 0 и

DrС =

1

:

 

(n 1)

В теории доказывается, что случайные величины rС приблизительно в полтора раза больше rk при больших n, если только их квадраты не слишком близки к единице. При изучении связей между числом признаков, измеряемых в порядковой шкале, число которых больше двух, применяют меру сходства (согласия) соответствующего числа ранжировок (перестановок). Мера является суммой квадратов отклонений сумм рангов наблюдений (объектов) от их общего среднего ранга:

n

 

2

 

n

2

 

i=1 Si

2

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

P

 

 

SW = (Si

 

S) =

 

Si

 

 

;

 

 

 

 

 

X

 

 

 

 

Xi

 

 

n

 

 

i=1

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

n

 

;

 

 

 

 

 

 

S = iP

Si

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

Si =

Xj

 

 

 

 

 

 

 

Rij;

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

где Rij — ранг i-го наблюдения по j-му признаку, i = 1; n; j = 1; k.

В качестве показателя согласованности определяется коэффициент конкордации Кендалла, вычисляемый по формуле

12SW

W = k2(n3 n):

27

Этот коэффициент может изменяться от нуля (абсолютная несогласованность) до единицы (полное совпадение всех ранжировок), что

легко проверяется.

Доказано, что при отсутствии связи между k признаками при боль-

ших значениях n (n > 7) случайные величины

12SW k(n 1)W = kn(n + 1)

приближенно распределены как 2 с числом степеней свободы = n 1.

При k = 2 получается следующее соотношение между W и rС:

1

W = 2(rС + 1):

При малых значениях n и k существуют таблицы распределения Sk,

SС и SW , пригодные для проверки гипотезы независимости признаков. Таблицы 2 и 3 составлены для случая, когда

 

 

 

 

 

 

 

 

 

 

 

 

n = 10; l = P (jSj Sl);

 

 

 

 

 

 

 

где l есть k или С.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sk

 

 

17

19

 

21

 

23

25

27

29

31

 

 

 

 

 

 

k

 

0; 156

0; 108

0; 072

0; 046

0; 028

0; 017

0; 009

0; 005

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а 3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SС

 

248

 

258

 

268

278

288

 

298

308

 

 

 

 

 

 

 

 

 

С

 

0; 144

0; 096

0; 060

0; 034

0; 017

 

0; 007

0; 002

 

 

 

 

Таблица 4 отражает случай

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n = 5; k = 3; = P (jSj SW ):

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а 4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SW

 

 

50

 

56

 

60

 

62

66

74

 

78

82

86

 

 

W

 

 

0; 163

0; 096

0; 063

0; 056

0; 038

0; 015

 

0; 005

0; 003

0; 0006

 

28

При наличии неразличимых объектов по признакам (связных рангах) способы и формулы вычисления несколько меняются.

Для вычисления коэффициента ранговой корреляции Кендалла и других удобно рассматривать таблицу сопряженности признаков x и y, значения которых можно упорядочить (см. табл. 5).

Т а б л и ц а 5

X Y

 

1

: : :

j

: : :

b

ni

 

 

 

1

 

n11

: : :

n1j

: : :

n1b

n1

.

 

.

 

.

 

.

.

.

 

.

: : :

.

: : :

.

.

.

 

.

.

.

.

i

 

ni1

: : :

nij

: : :

nib

ni

.

 

.

 

.

 

.

.

.

 

.

: : :

.

: : :

.

.

.

 

.

.

.

.

a

 

na1

: : :

naj

: : :

nab

na

n j

 

n 1

: : :

n j

: : :

n b

n

В приведенной таблице

nij — число (частота) объектов, наблюдений, имеющих i-й уровень (ранг) по признаку x и j-й уровень (ранг) по признаку y;

 

b

ni =

jP

nij

 

=1

 

b

n j =

jP

nij

 

=1

число объектов, имеющих i-й уровень по признаку x;

число объектов, имеющих j-й уровень по признаку y;

 

a

b

 

 

 

 

iP P

 

 

 

 

n =

nij = n — общее число объектов (объем выборки).

=1 j=1

 

 

 

 

Заметим, что

 

 

 

 

 

 

 

 

a b

a

b

 

 

 

 

n =

XX

Xi

X

 

 

 

 

nij = ni

= n j:

 

 

 

 

i=1 j=1

=1

j=1

 

Вычисляются следующие величины:

 

k>i l<j nkl!;

A = i=1 j=1 nij

k>i l>j nkl!;

B = i=1 j=1 nij

 

a

b

P P

a

b

P P

P P

P P

1

a

 

P P

P P

1

Pb

 

T1 =

2

i=1 ni (ni 1);

Aij = k>i l>j nkl + k<i l<j nkl;

 

 

 

P

 

P P

P P

T2 =

2

j=1 n j(n j 1);

Bij = k>i l<j nkl + k<i l>j nkl:

29

Коэффициент ранговой корреляции Кендалла вычисляется для

квадратных таблицы сопряженности, т. е. при a = b по формуле

 

 

 

r

 

=

 

 

 

 

A B

 

 

 

 

:

 

 

 

 

 

 

 

 

 

k

 

s

n(n 1)

T1

n(n 1)

T2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

2

 

 

 

 

 

Коэффициент ранговой корреляции Спирмена вычисляется по фор-

муле

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a

b

 

 

 

 

nk

n

 

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12 i=1 j=1 nij

k<i nk +

2

 

 

 

 

 

l<j n l +

2l

 

 

!

 

 

 

2

 

2

rc =

 

 

P P

P

 

 

 

 

 

 

P

 

 

 

 

:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

v

 

 

 

 

 

a

 

 

 

 

 

 

 

 

b

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n3 n i=1(ni3 ni )

n3 n j=1(n3j n j)!

 

u

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

u

 

 

 

 

 

P

 

 

 

 

 

 

 

 

P

 

 

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

При n > 10 для проверки гипотезы H0 : c = 0, против H1 : c 6= 0 на уровне значимости можно использовать статистику r с числом степеней свободы = n 2 или статистику Стьюдента

r

1 r2

t = c ; = n 2: n 2

Для прямоугольных таблиц сопряженности упорядоченных значений признаков при a 6= b используется коэффициент связанности Стью-

арта, определяемый по формуле

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

cm

= 2 min a; b

 

A B

 

;

 

 

 

 

 

 

 

 

 

 

f

 

gn2(min a; b

g

1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f

 

 

 

 

 

 

 

при этом для достаточно больших значений n

 

 

 

 

 

 

 

 

 

 

 

 

v

 

 

 

 

 

 

 

 

 

 

 

rст =

2 minfa; bg

 

n2

a b

nij(Aij

 

 

Bij)2

 

4n(A

 

B)2

:

 

 

 

 

 

 

3

 

i=1 j=1

 

n (min

a; b

g

1)u

 

 

 

 

 

 

 

f

 

 

 

u XX

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

 

 

 

При наличии связанных рангов формула для вычисления коэффициента конкордации Кендалла модифицируется:

 

 

 

12SW

 

mj

 

 

 

; Tj =

Xl

 

 

 

k (n n) k Tj

rW =

 

k

(nlj3 nlj);

2

3

jP

 

=1

 

 

 

 

 

=1

 

 

30