10049
.pdfЛекция № 15 Элементы корреляционного анализа
Две случайные величины X и Y могут быть независимыми между собой, зависимыми строго функционально Y (X) или зависимыми статистически. При статистической зависимости между случайными
величинами распределение одной из величин |
зависит |
от того, какое |
||||||||
значение |
имеет другая случайная величина. |
Степень статистической |
||||||||
зависимости величин X и |
Y характеризует теоретический коэффициент |
|||||||||
корреляции Пирсона |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
M(X |
Y) M(X) |
M(Y) |
, |
|
||
|
XY |
|
|
|
|
|
||||
|
|
|
|
D(X) D(Y) |
|
|
|
|||
|
|
|
|
|
|
|
|
|||
обладающий следующими свойствами: |
|
|
|
|
|
|||||
1) |
его значение по модулю не превышает единицы |
1 ХУ 1. |
||||||||
2) |
для независимых величин X и Y |
ХУ |
0, |
|
||||||
3) |
для линейно зависимых величин |
ХУ 1. |
|
Сама статистическая зависимость описывается функциями условного распределения, например, для непрерывных случайных величин функциями
плотности |
условного распределения |
fX (x |
y) |
или fy(y |
x). |
Однако |
нахождение |
этих функций и их практическое |
использование |
обычно |
затруднено и малоэффективно. Чаще статистическая зависимость рассматривается в более простом виде, в виде функциональной зависимости числовых характеристик одной из величин от значения другой величины. Такая зависимость называется корреляционной и описывается функциями регрессии Yˆ(x) или Xˆ (y). Так например, наиболее часто используется регрессия в форме условного математического ожидания:
M(Y х) yfy (y x)dy Yˆ(x).
y
Корреляционная зависимость приближает статистическую зависимость функциональной зависимостью и имеет следующий вид:
Y Yˆ(x) .
Здесь |
Y |
- объясняемая переменная, |
x |
- значение объясняющей |
|
переменной |
X , а - случайная величина ошибки (невязки) корреляции с |
||||
нулевым математическим |
ожиданием М( ) 0 |
при любом значении х. |
|||
Дисперсия |
же |
ошибки |
D( )не нулевая, |
но |
при «хорошей» функции |
регрессии она не должна быть большой, и не должна зависеть от переменной х. Построение таких функций регрессии является задачей регрессионного анализа.
90
Для приближенного построения функции регрессии будем искать наилучшее в определенном, но довольно широком, m-параметрическом
классе функций таким образом, что бы дисперсия
ошибки D( , 1, 2 ,.. m ) как функция от параметров k была минимальной. Такое приближение называется среднеквадратической регрессией в классе
Um . Для |
приближенного построения функции регрессии |
можно так же |
|
воспользоваться данными наблюдений за величинами X и Y, |
полученными в |
||
выборке |
(хi , yi ) объема n. |
Такие оценки для функции регрессии уˆ(x) |
|
ищутся так же в кассе Um , |
имеют минимальное суммарное отклонение от |
||
наблюдаемых значений yi , |
строятся методом наименьших квадратов и |
называются выборочной среднеквадратической регрессией.
1. Эмпирическая линейная среднеквадратическая регрессия
Линейная регрессия является простейшей регрессионной моделью, согласно которой функция регрессии является линейной 2-х параметрической функцией:
уˆ(x) а вх,
где а,в- неопределенные коэффициенты, которые оценим по наблюдаемым
данным. Пусть имеется двухфакторная выборка n наблюдений |
(хi , yi ) |
|
за |
||||||||||||||||||
величинами X и Y , |
которую будем называть корреляционным |
полем. |
|||||||||||||||||||
Помимо |
выборочных |
средних значений |
х |
, |
у |
и выборочных |
дисперсий |
||||||||||||||
Dx 2x, |
Dy |
2y , |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
вычислим так же |
среднее произведение |
|
|
xy |
|
и |
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
, |
|||||||
выборочный |
(эмпирический) коэффициент |
|
корреляции |
r |
xy |
|
|
xy |
x |
y |
|||||||||||
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
x |
y |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
который является выборочным аналогом теоретического коэффициента корреляции Пирсона XY .
Построим коэффициенты а,в методом наименьших квадратов. Для этого найдем такие значения а,в, которые минимизируют сумму квадратов
отклонения yi |
и yˆi yˆ(xi ), то есть |
ошибки ei yi |
yˆi |
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
n |
n |
(y |
|
yˆ |
|
)2 |
n |
(y |
|
|
a bx |
)2 |
min |
||||||||||||||||||
|
|
|
|
|
|
e2 |
|
i |
i |
|
i |
||||||||||||||||||||||||||
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
i |
|
|
|
|
a,b . |
||||||||||||||||
|
|
|
|
|
|
i 1 |
i 1 |
|
|
|
|
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Из необходимых условий минимума найдем искомые значения а,в: |
|||||||||||||||||||||||||||||||||||||
|
|
|
|
|
n |
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ei2 2 (yi a bxi ) 0; |
|
y |
а вх |
; a |
y |
вх |
, |
|
|
|||||||||||||||||||||||||
|
|
a |
|||||||||||||||||||||||||||||||||||
|
|
i 1 |
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
n |
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xy |
xy |
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
ei2 2 (yi |
a bxi )xi 0; |
xy |
а |
x |
вх2 ; в |
|
. |
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||
|
|
|
|
||||||||||||||||||||||||||||||||||
|
b i 1 |
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x2 |
x |
2 |
|
91
Через выборочный коэффициент корреляции rxy , коэффициент в
представим в форме в r |
y |
, а уравнение выборочной линейной |
|
|
|||
xy |
|
x |
|
|
|
среднеквадратической регрессии имеет одну из следующих форм:
|
y(x) |
|
а |
|
|
вх; |
|
|
y(x) |
|
|
y |
|
|
в(х |
|
x) ; |
|
|
|
|
||||||||
|
ˆ |
|
|
|
|
|
|
|
|
|
|
ˆ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
ˆ |
|
|
|
|
|
y |
|
|
|
|
|
|
yˆ(x) |
y |
|
|
|
|
(x |
x |
) |
|
|||||||
y(x) |
|
y |
|
rxy |
|
|
|
(х |
|
x); |
|
|
|
|
|
|
|
|
rxy |
|
|
|
|
|
. |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
x |
|
|
|
|
|
y |
|
|
|
|
x |
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2. Свойства линейной регрессии и коэффициента корреляции
Построенная выборочная линейная среднеквадратичная регрессия является простейшим приближение корреляционной зависимости, показывает тенденцию (тренд) этой зависимости и изображается прямой на корреляционном поле, наименее уклоняющейся от его точек. Прямая линия регрессии yˆ(x) а вх проходит через точку (х, у), отсекает от оси х отрезок а, и имеет угол наклона с тангенсом равным в, как это изображено на рис. 15.1.
Рис. 15.1 Прямая линейной среднеквадратической регрессии
Выборочный коэффициент корреляции rxy характеризует степень
корреляционной зависимости наблюдаемых величин Х и У и обладает следующими свойствами:
1)его значения по модулю не превышают единицы ( rxy 1),
2)для независимых Х и У коэффициент близок к нулю(rxy 0),
3)для линейно зависимых величин он близок к единице(rxy 1).
92
Геометрически он показывает «тесноту» корреляционного поля возле прямой линии регрессии, что иллюстрирует рис. 15.2 для различных значений коэффициента.
.
Рис. 15.2 Корреляционное поле для различных уровней корреляции величин
Из рис. 15.2 видно, что некоррелированной выборке
соответствует неориентированное шаровое корреляционное поле, с ростом rxy поле сжимается и ориентируется к прямой линии регрессии. Знак
коэффициента говорит о нарастающем или убывающем тренде зависимости.
Ошибки регрессии
|
|
|
|
|
ˆ |
|
|
|||
е |
0, так как |
y |
|
в соответствии с методом |
||||||
|
y , и минимальную |
|
||||||||
|
|
|
|
|
|
1 |
n |
|
|
|
наименьших квадратов дисперсию De |
i 1 |
ei2 |
Dy (1 rxy2 ), так называемую |
|||||||
n |
остаточную дисперсию, которая тем меньше, чем выше коэффициент корреляции. Величина выборочной дисперсии De является статистической оценкой для дисперсии ошибки D( ), однако, это смещенная оценка.
Несмещенной (исправленной) оценкой |
является величина S2 |
n |
De , |
|||||||
|
||||||||||
|
1 |
n |
|
|
|
|
|
n 2 |
||
|
2 |
|
1/ 2 |
|
|
|
|
|||
величина |
S ( |
|
i 1 |
ei |
) |
|
называется |
стандартной ошибкой регрессии. |
||
n 2 |
|
|||||||||
|
|
|
|
|
|
|
|
|
Ошибки для коэффициентов регрессии вычисляются по формулам:
Sb2 |
S2 |
, Sa2 |
x2 S2 |
. |
n Dx |
|
|||
|
|
n Dx |
В корреляционном анализе также вводится понятие коэффициента
детерминации R2 DY / DY , показывающего |
долю объясненной части |
|||
дисперсии, объясняемой переменной Y. |
|
Поскольку Dy Dyˆ De , то |
||
коэффициент детерминации представим так же в следующем виде: |
||||
R2 1 |
De |
r2 |
, |
|
|
|
|||
|
|
xy |
|
|
|
Dy |
|
|
показывающем его прямую связь с коэффициентом корреляции.
Известно [9] распределение случайных величин, связанных с введенными выше коэффициентами при условии независимости величин
X и Y :
93
rxy n 2 |
tn 2 ~ распределение Стьюдента с n 2степенями свободы, |
||||
|
|
|
|
|
|
1 r2 |
|||||
|
|
xy |
|
||
R2 (n 2) |
F1,n 2 ~ F-распределение Фишера с 1 1, 2 n 2 степенями |
||||
1 R |
2 |
|
|
||
|
|
|
|
свободы.
Эти величины используется для построения критериев значимости
выборочных коэффициентов rxy и |
R2 , и их распределение |
приводится |
||
приложениях 3 и 5 соответственно. Действительно, например, |
задаваясь |
|||
уровнем значимости проверяемой гипотезы |
H0 { XY 0}, |
|||
соответствующей |
независимости |
величин Х и Y, |
можно сравнить |
наблюдаемое значение критерия tnab с критическим значением tkr ( ). Если
tnab tkr ( ), то гипотеза принимается, что говорит о незначимости выборочного коэффициента корреляции, мало отличного от нуля. Если же tnab tkr ( ) , то гипотеза отвергается, то есть выборочный коэффициент
корреляции, а значит и уравнение |
регрессии, значимы. Значимость |
коэффициента корреляции говорит о |
том, что полученный по данной |
выборке коэффициент неслучайно отличен от нуля, а корреляционная зависимость между наблюдаемыми величинами существенна.
Аналогично строится критерий Фишера для проверки гипотезы
H0 {R2 0} о значимости коэффициента детерминации R2 :
если Fnab Fkr ( ), то гипотеза H0 принимается, т.е.R2 незначим.
Выводы критериев значимости rxy и R2 идентичны [9].
Значимость коэффициентов регрессии может быть оценена по критериям Стьюдента
|
|
a |
tn 2 , |
|
b |
tn 2 . |
|
|
|
|
|
|
|||
|
|
|
|
|
|
||
|
|
Sa |
|
Sb |
|
||
|
3. О множественной регрессии |
|
|||||
На практике, объясняемая переменная Y часто зависит не от одной, а |
|||||||
нескольких объясняющих переменных |
Хк . Пусть таких переменных будет |
||||||
m 1, и |
они наблюдаются |
вместе |
с |
переменной |
Y в многофакторной |
||
выборке |
(yi x1i ,x2i ,...,xmi ) |
объема |
n. |
Построим |
выборочную линейную |
||
регрессию в форме: |
|
|
|
|
|
|
|
|
уˆ(x1,x2 ,...xm ) b0 b1х1 b2 x2 ..... bm xm e. |
Если введем следующие вектора x (1,x1,x2 ,...xm ), b (b0 ,b1,b2 ,.....bm )Т ,
то ее можно записать в векторном виде: yˆ(x) x b .
94
Введем матрицу измерений Х , вектор измерения y и переменных xi (1,x1i ,x2i ,...xmi ), а так же вектор регрессии yˆ :
1
1
Х...
1
x11 x21
x12 x22
... ...
x1n x2n
x |
|
... |
x |
m1 |
|
|
|
y |
|
|
|
x |
i1 |
|
|
|
yˆ |
|
|
|
|
|
31 |
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
1 |
|
|
||
x32 |
... |
xm2 |
|
|
|
y2 |
|
|
|
xi2 |
|
|
|
yˆ2 |
|
|
|||||
... |
... |
... |
|
, |
y |
|
|
|
, |
хi |
|
|
|
, |
ˆ |
|
|
|
, |
||
|
... |
|
... |
|
y |
... |
|
||||||||||||||
x3n |
... |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xmn |
|
|
yn |
|
|
|
xin |
|
|
|
yˆn |
|
|
Тогда вектор регрессии будет yˆ X b , а ошибки регрессии e y yˆ .
Построим оценки коэффициентов регрессии b методом наименьших квадратов, для чего рассмотрим суммарную ошибку регрессии
n ei2 eT e (y yˆ)T (y yˆ) (y X b)T (y X b).
i 1
Подберем такие коэффициенты b, при которых суммарная ошибка регрессии минимальна, для этого рассмотрим условие минимума:
n |
|
|
|
|
|
ei2 2 (X T y XT X b) 0, |
|
в (X T X) 1 (XT y). |
|
b i 1 |
|
|
|
Таким образом, оценка для коэффициентов регрессии - построена. Матрица, входящая в выражение для коэффициентов имеет вид средних перекрестных произведений:
|
|
1 |
|
|
|
|
|
|
x |
|
|
|
|
|
|
|
x |
2 |
|
|
|
|
|
|
|
x |
3 |
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
x1 |
|
|
|
|
|
x1x1 |
|
|
|
|
|
x1x2 |
|
|
|
|
|
x1x3 |
|
|||||||||||
Х T X n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
x |
2 |
|
x |
2 |
x |
x |
2 |
x |
2 |
|
x |
2 |
x |
3 |
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
... |
|
|
|
|
|
... |
|
|
|
|
|
|
... |
|
|
|
|
|
|
|
... |
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x |
|
x |
|
|
x |
|
x |
|
|
|
|
x |
|
x |
|
|
|||||||||
|
x |
m |
|
|
m |
|
|
m |
2 |
|
|
m |
3 |
|
||||||||||||||||||
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
... |
|
x |
m |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
... |
|
x x |
m |
|
|
|
|
|
|
|
1 |
|
|
|
|
W , |
|
||
... |
|
|
|
|
|
XT |
|||
x2 xm |
|||||||||
... |
... |
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
... |
|
|
|
|
|
|
|
|
|
xm xm |
|
|
|
|
|
y |
|
|
|
||
|
|
|
|
|
|
|
||
|
|
|
yx |
|
|
|
||
|
n |
|
|
1 |
|
|
|
|
|
yx2 |
|
||||||
y |
|
|
|
. |
||||
|
|
|
... |
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
yxm |
|
|
Значимость построенного уравнения линейной среднеквадратической |
|||||||||||||||||||||
регрессии |
ˆ |
|
|
|
|
b |
проверяется |
по значимости |
коэффициентов |
||||||||||||||
y(x) |
|
x |
|
||||||||||||||||||||
регрессии |
b |
или |
коэффициента детерминации |
R2 |
D |
|
|
D |
e |
. Для |
|||||||||||||
|
Y |
1 |
|
|
|||||||||||||||||||
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
к |
|
|
|
|
|
|
|
|
|
|
|
DY |
|
Dy |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
1 |
n |
|
|
|
|
|
|
|
|
|
|
|
проверки |
вычисляются: |
De |
i 1 |
ei2 |
- дисперсия |
ошибок |
регрессии, |
||||||||||||||||
n |
|||||||||||||||||||||||
|
1 |
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
S2 |
|
ei2 |
|
- несмещенная |
стандартная |
ошибка |
регрессии, |
||||||||||||||||
|
|
|
|
||||||||||||||||||||
|
|
n m 1 |
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
S2 |
S2 W 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
b |
|
|
|
кк |
- несмещенные дисперсии коэффициентов регрессии. |
||||||||||||||||||
K |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Для построения критериев значимости воспользуемся известными статистиками:
95
bk tn m 1 ~ распределение Стьюдента с n m 1степенями свободы,
Sbk
R2 |
|
n m 1 |
F , |
|
~ F-распределение Фишера с |
1 |
m, |
|
2 |
n m 1 |
1 R2 |
m |
|
||||||||
|
1 |
2 |
|
|
|
|
степенями свободы. Задаваясь уровнем значимости проверяемой
гипотезы H0 {bk |
0}, соответствующей независимости величин Хr и Y , |
можно сравнить |
наблюдаемое значение критерия tnab с критическим |
значением tkr ( ). |
Если |
tnab |
tkr |
( ), то гипотеза принимается, что говорит |
о незначимости |
коэффициента |
bк , мало отличного от нуля, то есть о |
незначимости переменной Хr в уравнении регрессии, такие переменные желательно исключить из модели регрессии. Аналогично проверяется гипотеза о значимости коэффициента детерминации H0 {R2 0}, соответствующей значимости всего уравнения регрессии в целом. Сравнивая
наблюдаемое |
значение |
критерия Fnab , с критическим значением Fkr ( ), |
||
можно утверждать, что |
если Fnab |
Fkr ( ), то гипотеза принимается, что |
||
говорит о незначимости |
коэффициента R2 , мало отличного от нуля, то |
|||
есть о не значимости |
уравнения регрессии в целом. |
|||
Помимо значимости построенного уравнения регрессии, его качество |
||||
оценивается |
так же |
отсутствием |
зависимости между объясняющими |
переменными Хr (мультиколлинеарности), отсутствием зависимости величины дисперсии ошибок De от переменных Хк и Y
(гетероскедастичности), отсутствием зависимости ошибок между собой (например, автокорреляции).
Мультиколлинеарность приводит к неустойчивости обращения матрицы W, а ее устранение возможно путем исключения из регрессионной модели малозначимых и сильнозависимых объясняющих переменных (факторов). Для такого исключения построим корреляционную матрицу
парных коэффициентов корреляции: r |
xixj |
xi |
x |
j |
. Тогда, если |
r |
1, а |
|
|
|
|
|
|||||
ij |
xi xj |
|
iк |
|
||||
|
|
|
|
|||||
коэффициент bк незначим или малозначим, то переменную |
Хк |
можно |
исключить из модели регрессии, если коэффициент детерминации при этом значимо не уменьшается.
Гетероскедастичность и автокорреляция могут быть установлены при помощи теста ранговой корреляции Спирмена и теста Дарбина-Уотсона соответственно [1]. Влияние этих нежелательных для качества регрессии факторов может быть ослаблено путем различного рода преобразования переменных регрессионной модели [9].
96
3. О нелинейной регрессии
Иногда линейная модель регрессии бывает недостаточной, с точки зрения ее качества и значимости, поэтому может быть использованы нелинейные модели. В простейшей форме нелинейность может быть учтена
путем введения инструментальных переменных zr r (xk ), которые входят в модель регрессии обычным линейным образом. При этом часто
используются |
степенная |
функция zr x , логарифмическая |
zr ln x, |
показательная |
zr ex и |
иногда тригонометрическая zr Sin( x 0 ) для |
выявления циклических факторов в зависимостях. Например, нелинейная модель 2-го порядка может быть построена следующим образом (рис. 15.3):
уˆ(x) b0 b1х b2 x2 e |
уˆ(x,z2 ) b0 b1х b2 z2 e, |
где z2 x2 - инструментальная |
переменная. Введение новых членов в |
модель регрессии, в том числе и инструментальных, оправдано тогда, когда значимо повышается коэффициент детерминации.
Рис.15.3 Кривая нелинейной среднеквадратической регрессии 2-го порядка.
Иногда |
строится |
мультипликативная |
модель |
регрессии |
уˆ(x1,x2 ,...xm ) b0 |
х1b1 x2b2 |
.... xmbm e, которая путем логарифмирования |
может быть сведена к обычной аддитивной линейной модели для инструментальных переменных z ln y, zк ln xk .
97
98
99