Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

10049

.pdf
Скачиваний:
8
Добавлен:
25.11.2023
Размер:
3.78 Mб
Скачать

Лекция № 15 Элементы корреляционного анализа

Две случайные величины X и Y могут быть независимыми между собой, зависимыми строго функционально Y (X) или зависимыми статистически. При статистической зависимости между случайными

величинами распределение одной из величин

зависит

от того, какое

значение

имеет другая случайная величина.

Степень статистической

зависимости величин X и

Y характеризует теоретический коэффициент

корреляции Пирсона

 

 

 

 

 

 

 

 

 

 

 

 

 

M(X

Y) M(X)

M(Y)

,

 

 

XY

 

 

 

 

 

 

 

 

 

D(X) D(Y)

 

 

 

 

 

 

 

 

 

 

 

обладающий следующими свойствами:

 

 

 

 

 

1)

его значение по модулю не превышает единицы

1 ХУ 1.

2)

для независимых величин X и Y

ХУ

0,

 

3)

для линейно зависимых величин

ХУ 1.

 

Сама статистическая зависимость описывается функциями условного распределения, например, для непрерывных случайных величин функциями

плотности

условного распределения

fX (x

y)

или fy(y

x).

Однако

нахождение

этих функций и их практическое

использование

обычно

затруднено и малоэффективно. Чаще статистическая зависимость рассматривается в более простом виде, в виде функциональной зависимости числовых характеристик одной из величин от значения другой величины. Такая зависимость называется корреляционной и описывается функциями регрессии Yˆ(x) или Xˆ (y). Так например, наиболее часто используется регрессия в форме условного математического ожидания:

M(Y х) yfy (y x)dy Yˆ(x).

y

Корреляционная зависимость приближает статистическую зависимость функциональной зависимостью и имеет следующий вид:

Y Yˆ(x) .

Здесь

Y

- объясняемая переменная,

x

- значение объясняющей

переменной

X , а - случайная величина ошибки (невязки) корреляции с

нулевым математическим

ожиданием М( ) 0

при любом значении х.

Дисперсия

же

ошибки

D( )не нулевая,

но

при «хорошей» функции

регрессии она не должна быть большой, и не должна зависеть от переменной х. Построение таких функций регрессии является задачей регрессионного анализа.

90

Um{yˆ(x, 1, 2 ,.. m )}

Для приближенного построения функции регрессии будем искать наилучшее в определенном, но довольно широком, m-параметрическом

классе функций таким образом, что бы дисперсия

ошибки D( , 1, 2 ,.. m ) как функция от параметров k была минимальной. Такое приближение называется среднеквадратической регрессией в классе

Um . Для

приближенного построения функции регрессии

можно так же

воспользоваться данными наблюдений за величинами X и Y,

полученными в

выборке

(хi , yi ) объема n.

Такие оценки для функции регрессии уˆ(x)

ищутся так же в кассе Um ,

имеют минимальное суммарное отклонение от

наблюдаемых значений yi ,

строятся методом наименьших квадратов и

называются выборочной среднеквадратической регрессией.

1. Эмпирическая линейная среднеквадратическая регрессия

Линейная регрессия является простейшей регрессионной моделью, согласно которой функция регрессии является линейной 2-х параметрической функцией:

уˆ(x) а вх,

где а,в- неопределенные коэффициенты, которые оценим по наблюдаемым

данным. Пусть имеется двухфакторная выборка n наблюдений

(хi , yi )

 

за

величинами X и Y ,

которую будем называть корреляционным

полем.

Помимо

выборочных

средних значений

х

,

у

и выборочных

дисперсий

Dx 2x,

Dy

2y ,

 

 

 

 

 

 

 

 

 

 

 

 

 

вычислим так же

среднее произведение

 

 

xy

 

и

 

 

 

 

 

 

 

 

 

 

 

 

 

 

,

выборочный

(эмпирический) коэффициент

 

корреляции

r

xy

 

 

xy

x

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

который является выборочным аналогом теоретического коэффициента корреляции Пирсона XY .

Построим коэффициенты а,в методом наименьших квадратов. Для этого найдем такие значения а,в, которые минимизируют сумму квадратов

отклонения yi

и yˆi yˆ(xi ), то есть

ошибки ei yi

yˆi

 

 

 

 

 

 

n

n

(y

 

yˆ

 

)2

n

(y

 

 

a bx

)2

min

 

 

 

 

 

 

e2

 

i

i

 

i

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

i

 

 

 

 

a,b .

 

 

 

 

 

 

i 1

i 1

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Из необходимых условий минимума найдем искомые значения а,в:

 

 

 

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ei2 2 (yi a bxi ) 0;

 

y

а вх

; a

y

вх

,

 

 

 

 

a

 

 

i 1

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xy

xy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ei2 2 (yi

a bxi )xi 0;

xy

а

x

вх2 ; в

 

.

 

 

 

 

 

 

 

 

 

 

 

 

b i 1

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x2

x

2

 

91

Через выборочный коэффициент корреляции rxy , коэффициент в

представим в форме в r

y

, а уравнение выборочной линейной

 

xy

 

x

 

 

среднеквадратической регрессии имеет одну из следующих форм:

 

y(x)

 

а

 

 

вх;

 

 

y(x)

 

 

y

 

 

в(х

 

x) ;

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

y

 

 

 

 

 

 

yˆ(x)

y

 

 

 

 

(x

x

)

 

y(x)

 

y

 

rxy

 

 

 

(х

 

x);

 

 

 

 

 

 

 

 

rxy

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

y

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2. Свойства линейной регрессии и коэффициента корреляции

Построенная выборочная линейная среднеквадратичная регрессия является простейшим приближение корреляционной зависимости, показывает тенденцию (тренд) этой зависимости и изображается прямой на корреляционном поле, наименее уклоняющейся от его точек. Прямая линия регрессии yˆ(x) а вх проходит через точку (х, у), отсекает от оси х отрезок а, и имеет угол наклона с тангенсом равным в, как это изображено на рис. 15.1.

Рис. 15.1 Прямая линейной среднеквадратической регрессии

Выборочный коэффициент корреляции rxy характеризует степень

корреляционной зависимости наблюдаемых величин Х и У и обладает следующими свойствами:

1)его значения по модулю не превышают единицы ( rxy 1),

2)для независимых Х и У коэффициент близок к нулю(rxy 0),

3)для линейно зависимых величин он близок к единице(rxy 1).

92

ei yi yˆi имеют нулевое среднее значение
(rxy 0)

Геометрически он показывает «тесноту» корреляционного поля возле прямой линии регрессии, что иллюстрирует рис. 15.2 для различных значений коэффициента.

.

Рис. 15.2 Корреляционное поле для различных уровней корреляции величин

Из рис. 15.2 видно, что некоррелированной выборке

соответствует неориентированное шаровое корреляционное поле, с ростом rxy поле сжимается и ориентируется к прямой линии регрессии. Знак

коэффициента говорит о нарастающем или убывающем тренде зависимости.

Ошибки регрессии

 

 

 

 

 

ˆ

 

 

е

0, так как

y

 

в соответствии с методом

 

y , и минимальную

 

 

 

 

 

 

 

1

n

 

 

наименьших квадратов дисперсию De

i 1

ei2

Dy (1 rxy2 ), так называемую

n

остаточную дисперсию, которая тем меньше, чем выше коэффициент корреляции. Величина выборочной дисперсии De является статистической оценкой для дисперсии ошибки D( ), однако, это смещенная оценка.

Несмещенной (исправленной) оценкой

является величина S2

n

De ,

 

 

1

n

 

 

 

 

 

n 2

 

2

 

1/ 2

 

 

 

 

величина

S (

 

i 1

ei

)

 

называется

стандартной ошибкой регрессии.

n 2

 

 

 

 

 

 

 

 

 

 

Ошибки для коэффициентов регрессии вычисляются по формулам:

Sb2

S2

, Sa2

x2 S2

.

n Dx

 

 

 

n Dx

В корреляционном анализе также вводится понятие коэффициента

детерминации R2 DY / DY , показывающего

долю объясненной части

дисперсии, объясняемой переменной Y.

 

Поскольку Dy Dyˆ De , то

коэффициент детерминации представим так же в следующем виде:

R2 1

De

r2

,

 

 

 

 

 

xy

 

 

 

Dy

 

 

показывающем его прямую связь с коэффициентом корреляции.

Известно [9] распределение случайных величин, связанных с введенными выше коэффициентами при условии независимости величин

X и Y :

93

rxy n 2

tn 2 ~ распределение Стьюдента с n 2степенями свободы,

 

 

 

 

 

1 r2

 

 

xy

 

R2 (n 2)

F1,n 2 ~ F-распределение Фишера с 1 1, 2 n 2 степенями

1 R

2

 

 

 

 

 

 

свободы.

Эти величины используется для построения критериев значимости

выборочных коэффициентов rxy и

R2 , и их распределение

приводится

приложениях 3 и 5 соответственно. Действительно, например,

задаваясь

уровнем значимости проверяемой гипотезы

H0 { XY 0},

соответствующей

независимости

величин Х и Y,

можно сравнить

наблюдаемое значение критерия tnab с критическим значением tkr ( ). Если

tnab tkr ( ), то гипотеза принимается, что говорит о незначимости выборочного коэффициента корреляции, мало отличного от нуля. Если же tnab tkr ( ) , то гипотеза отвергается, то есть выборочный коэффициент

корреляции, а значит и уравнение

регрессии, значимы. Значимость

коэффициента корреляции говорит о

том, что полученный по данной

выборке коэффициент неслучайно отличен от нуля, а корреляционная зависимость между наблюдаемыми величинами существенна.

Аналогично строится критерий Фишера для проверки гипотезы

H0 {R2 0} о значимости коэффициента детерминации R2 :

если Fnab Fkr ( ), то гипотеза H0 принимается, т.е.R2 незначим.

Выводы критериев значимости rxy и R2 идентичны [9].

Значимость коэффициентов регрессии может быть оценена по критериям Стьюдента

 

 

a

tn 2 ,

 

b

tn 2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sa

 

Sb

 

 

3. О множественной регрессии

 

На практике, объясняемая переменная Y часто зависит не от одной, а

нескольких объясняющих переменных

Хк . Пусть таких переменных будет

m 1, и

они наблюдаются

вместе

с

переменной

Y в многофакторной

выборке

(yi x1i ,x2i ,...,xmi )

объема

n.

Построим

выборочную линейную

регрессию в форме:

 

 

 

 

 

 

 

уˆ(x1,x2 ,...xm ) b0 b1х1 b2 x2 ..... bm xm e.

Если введем следующие вектора x (1,x1,x2 ,...xm ), b (b0 ,b1,b2 ,.....bm )Т ,

то ее можно записать в векторном виде: yˆ(x) x b .

94

Введем матрицу измерений Х , вектор измерения y и переменных xi (1,x1i ,x2i ,...xmi ), а так же вектор регрессии yˆ :

1

1

Х...

1

x11 x21

x12 x22

... ...

x1n x2n

x

 

...

x

m1

 

 

 

y

 

 

 

x

i1

 

 

 

yˆ

 

 

 

 

31

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

1

 

 

x32

...

xm2

 

 

 

y2

 

 

 

xi2

 

 

 

yˆ2

 

 

...

...

...

 

,

y

 

 

 

,

хi

 

 

 

,

ˆ

 

 

 

,

 

...

 

...

 

y

...

 

x3n

...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xmn

 

 

yn

 

 

 

xin

 

 

 

yˆn

 

 

Тогда вектор регрессии будет yˆ X b , а ошибки регрессии e y yˆ .

Построим оценки коэффициентов регрессии b методом наименьших квадратов, для чего рассмотрим суммарную ошибку регрессии

n ei2 eT e (y yˆ)T (y yˆ) (y X b)T (y X b).

i 1

Подберем такие коэффициенты b, при которых суммарная ошибка регрессии минимальна, для этого рассмотрим условие минимума:

n

 

 

 

 

ei2 2 (X T y XT X b) 0,

 

в (X T X) 1 (XT y).

b i 1

 

 

 

Таким образом, оценка для коэффициентов регрессии - построена. Матрица, входящая в выражение для коэффициентов имеет вид средних перекрестных произведений:

 

 

1

 

 

 

 

 

 

x

 

 

 

 

 

 

 

x

2

 

 

 

 

 

 

 

x

3

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x1

 

 

 

 

 

x1x1

 

 

 

 

 

x1x2

 

 

 

 

 

x1x3

 

Х T X n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

2

 

x

2

x

x

2

x

2

 

x

2

x

3

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

...

 

 

 

 

 

...

 

 

 

 

 

 

...

 

 

 

 

 

 

 

...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

x

 

 

x

 

x

 

 

 

 

x

 

x

 

 

 

x

m

 

 

m

 

 

m

2

 

 

m

3

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

...

 

x

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

...

 

x x

m

 

 

 

 

 

 

1

 

 

 

 

W ,

 

...

 

 

 

 

 

XT

x2 xm

...

...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

...

 

 

 

 

 

 

 

 

 

xm xm

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

yx

 

 

 

 

n

 

 

1

 

 

 

 

yx2

 

y

 

 

 

.

 

 

 

...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yxm

 

 

Значимость построенного уравнения линейной среднеквадратической

регрессии

ˆ

 

 

 

 

b

проверяется

по значимости

коэффициентов

y(x)

 

x

 

регрессии

b

или

коэффициента детерминации

R2

D

 

 

D

e

. Для

 

Y

1

 

 

 

 

 

 

 

 

 

 

 

к

 

 

 

 

 

 

 

 

 

 

 

DY

 

Dy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

n

 

 

 

 

 

 

 

 

 

 

проверки

вычисляются:

De

i 1

ei2

- дисперсия

ошибок

регрессии,

n

 

1

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S2

 

ei2

 

- несмещенная

стандартная

ошибка

регрессии,

 

 

 

 

 

 

n m 1

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S2

S2 W 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b

 

 

 

кк

- несмещенные дисперсии коэффициентов регрессии.

K

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для построения критериев значимости воспользуемся известными статистиками:

95

ei yi yˆi

bk tn m 1 ~ распределение Стьюдента с n m 1степенями свободы,

Sbk

R2

 

n m 1

F ,

 

~ F-распределение Фишера с

1

m,

 

2

n m 1

1 R2

m

 

 

1

2

 

 

 

 

степенями свободы. Задаваясь уровнем значимости проверяемой

гипотезы H0 {bk

0}, соответствующей независимости величин Хr и Y ,

можно сравнить

наблюдаемое значение критерия tnab с критическим

значением tkr ( ).

Если

tnab

tkr

( ), то гипотеза принимается, что говорит

о незначимости

коэффициента

bк , мало отличного от нуля, то есть о

незначимости переменной Хr в уравнении регрессии, такие переменные желательно исключить из модели регрессии. Аналогично проверяется гипотеза о значимости коэффициента детерминации H0 {R2 0}, соответствующей значимости всего уравнения регрессии в целом. Сравнивая

наблюдаемое

значение

критерия Fnab , с критическим значением Fkr ( ),

можно утверждать, что

если Fnab

Fkr ( ), то гипотеза принимается, что

говорит о незначимости

коэффициента R2 , мало отличного от нуля, то

есть о не значимости

уравнения регрессии в целом.

Помимо значимости построенного уравнения регрессии, его качество

оценивается

так же

отсутствием

зависимости между объясняющими

переменными Хr (мультиколлинеарности), отсутствием зависимости величины дисперсии ошибок De от переменных Хк и Y

(гетероскедастичности), отсутствием зависимости ошибок между собой (например, автокорреляции).

Мультиколлинеарность приводит к неустойчивости обращения матрицы W, а ее устранение возможно путем исключения из регрессионной модели малозначимых и сильнозависимых объясняющих переменных (факторов). Для такого исключения построим корреляционную матрицу

парных коэффициентов корреляции: r

xixj

xi

x

j

. Тогда, если

r

1, а

 

 

 

 

ij

xi xj

 

 

 

 

 

 

коэффициент bк незначим или малозначим, то переменную

Хк

можно

исключить из модели регрессии, если коэффициент детерминации при этом значимо не уменьшается.

Гетероскедастичность и автокорреляция могут быть установлены при помощи теста ранговой корреляции Спирмена и теста Дарбина-Уотсона соответственно [1]. Влияние этих нежелательных для качества регрессии факторов может быть ослаблено путем различного рода преобразования переменных регрессионной модели [9].

96

3. О нелинейной регрессии

Иногда линейная модель регрессии бывает недостаточной, с точки зрения ее качества и значимости, поэтому может быть использованы нелинейные модели. В простейшей форме нелинейность может быть учтена

путем введения инструментальных переменных zr r (xk ), которые входят в модель регрессии обычным линейным образом. При этом часто

используются

степенная

функция zr x , логарифмическая

zr ln x,

показательная

zr ex и

иногда тригонометрическая zr Sin( x 0 ) для

выявления циклических факторов в зависимостях. Например, нелинейная модель 2-го порядка может быть построена следующим образом (рис. 15.3):

уˆ(x) b0 b1х b2 x2 e

уˆ(x,z2 ) b0 b1х b2 z2 e,

где z2 x2 - инструментальная

переменная. Введение новых членов в

модель регрессии, в том числе и инструментальных, оправдано тогда, когда значимо повышается коэффициент детерминации.

Рис.15.3 Кривая нелинейной среднеквадратической регрессии 2-го порядка.

Иногда

строится

мультипликативная

модель

регрессии

уˆ(x1,x2 ,...xm ) b0

х1b1 x2b2

.... xmbm e, которая путем логарифмирования

может быть сведена к обычной аддитивной линейной модели для инструментальных переменных z ln y, zк ln xk .

97

98

99

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]