Регрессии и корреляции
.pdfОбсуждение коэффициентов уравнения регрессии
bi называются коэффициентами условно чистой регрессии:
значение bi показывает величину изменения Y при условии, что соответствующий фактор Xi изменяется на принятую для него единицу измерения (при этом требуется, чтобы все прочие факторы оставались постоянными), то есть влияние Xi на Y очищено от влияния прочих факторов, входящих явно в уравнение. Однако есть неявные факторы модели – случайные - поэтому bi “условно очищенные”.
Может оказаться, что какой-то из βi =0, а соответствующая ему оценка bi≠0 в следствие случайных колебаний выборки. Т.е. нужна проверка статистической значимости теоретических коэффициентов регрессии βi.
Если какой-то коэффициент βi окажется несущественным, то отвечающая ему факторная переменная xi вносит незаметный вклад в объяснение результативного признака, следовательно, такую переменную xi можно исключить из модели.
Проверка существенности каждого коэффициента βi является задачей проверки гипотез: Н0: βi = 0; Н1: βi ≠ 0.
По выборочным данным вычисляем статистику t = bi / Sbi. Здесь
bi – оценка i-го коэффициент регрессии, Sbi – стандартная ошибка bi. Статистика t при справедливости Н0 распределена по Стьюденту. При заданном уровне значимости α находим критическое значение распределения Стьюдента с параметрами α /2 и числом степеней свободы (n-k-1).
Если |
|
bi / S b i |
|
≥ t (α / 2 , n − k − 1 ) |
|
|
|||
|
|
|
|
|
то Н0 отвергается и коэффициент регрессии βi будет существенным.
Проводя проверку существенности каждого коэффициента регрессии, мы определяем влияние соответствующей независимой переменной на характер изменения зависимой переменной.
Существенность уравнения регрессии в целом устанавливается через проверку основной гипотезы Н0: β1 = β2 = …= βk = 0. Альтернативная гипотеза предполагает, что хотя бы один из истинных параметров регрессии отличен от нуля.
Если Н0 верна, то между зависимой и независимыми переменными нет реальной линейной связи и уравнение
регрессии целиком незначимо. |
F |
= |
R 2 / k |
По данным выборки вычисляем статистику |
(1 − R 2 ) /(n − k −1) |
которая при справедливости Н0 распределена по Фишеру. Критическое значение F-распределения с параметрами α (уровень значимости), k – число степеней свободы числителя, (n – k -1) – число степеней свободы знаменателя: F(α, k, n-k-1)
При F > F(α, k, n-k-1) гипотеза Н0 отвергается на заданном уровне значимости: уравнение регрессии в целом статистически значимо
F-статистика проверяет превышает ли коэффициент детерминации
то значение, которое м.быть получено случайно, а не является следствием закономерности в линейной связи между изучаемыми в модели признаками.
у |
х1 |
x2 |
x3 |
x4 |
0,904 |
115,0 |
75,5 |
3343 |
77,0 |
|
|
|
|
|
0,922 |
123,0 |
78,5 |
3001 |
78,2 |
|
|
|
|
|
0,763 |
74,0 |
78,4 |
3101 |
68,0 |
|
|
|
|
|
0,923 |
111,0 |
77,7 |
3543 |
77,2 |
|
|
|
|
|
0,918 |
113,0 |
84,4 |
3237 |
77,2 |
|
|
|
|
|
0,906 |
110,0 |
75,9 |
3330 |
77,2 |
|
|
|
|
|
0,905 |
119,0 |
76,0 |
3808 |
75,7 |
|
|
|
|
|
0,545 |
146,0 |
67,5 |
2415 |
62,6 |
|
|
|
|
|
ПРИМЕР:
У-индекс человеческого развития x1 – ВВП 1997 г., % к 1990 г
x2 – расходы (% к ВВП)
x3 – калорийность питания
x4 – продолжительность жизни
Сервис/Анализ данных/Корреляция
И т.д. |
|
у |
х1 |
x2 |
x3 |
x4 |
|
у |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
х1 |
-0,00274 |
1 |
|
|
|
|
x2 |
0,170503 |
-0,618 |
1 |
|
|
|
x3 |
0,75145 |
0,077585 |
0,185509 |
1 |
|
|
|
|||||
|
|
|||||
|
x4 |
0,962033 |
0,163606 |
0,04856 |
0,703927 |
1 |
|
|
|
|
|
|
|
Тесно связаны y и х4 (0,962), связь y и х3 слабее (0,751) - исключаем х3
Теснота связи всех прочих факторов между собой ниже допустимой величины 0.7, поэтому сохраняем их. Тогда уравнение регрессии:
yˆ = b0 + b1 x1 + b2 x2 + b4 x4 Найдём значения bi: РЕГРЕССИЯ
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
Y-пересечение |
-0,676869 |
0,105607641 |
-6,40928053 |
х1 |
-0,000471098 |
0,000206803 |
-2,278002908 |
x2 |
0,000554306 |
0,000977217 |
0,567229787 |
x4 |
0,020630702 |
0,001029649 |
20,03663258 |
Значимость коэффициентов: критическое t(0,05; 21) = 2,08><|t-статистики| ?
ВЫВОД: х2 неинформативный фактор, его следует удалить из модели.
Новое уравнение регрессии: |
ˆ |
= |
b0 |
+ |
b1 x1 |
+ |
b4 x4 |
y |
|
|
|
у |
х1 |
x4 |
0,904 |
115,0 |
77,0 |
|
|
|
0,922 |
123,0 |
78,2 |
|
|
|
0,763 |
74,0 |
68,0 |
|
|
|
0,923 |
111,0 |
77,2 |
|
|
|
0,918 |
113,0 |
77,2 |
|
|
|
0,906 |
110,0 |
77,2 |
|
|
|
0,905 |
119,0 |
75,7 |
|
|
|
0,545 |
146,0 |
62,6 |
|
|
|
n-k-1=25-2-1 → t(0,05;22) = 2.07.
Все коэффициенты значимы, тогда оценочное уравнение регрессии:
)
y =−0,63−0,00055x1 +0,0207x4
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
Y-пересечение |
-0,6344146 |
0,073348734 |
-8,649291805 |
х1 |
-0,000545615 |
0,000157235 |
-3,470048056 |
X4 |
0,020743408 |
0,0009946 |
20,85602392 |
|
|
|
|
проверка x1 и x4 на линейную связь (мультиколлинеарность)
выполняется путём проверки гипотезы Н0 : ∆* = Det (rxi x j ) = 1
(в отсутствие линейной связи недиагональные элементы матрицы парных корреляций rxi,xk близки к нулю).
Матрица rxi,xk : СЕРВИС_АНАЛИЗ ДАННЫХ_КОРРЕЛЯЦИЯ
х1 x4
х1 |
1 |
0,163606 |
x4 |
0,163606 |
1 |
элементы треугольной матрицы копируем относительно главной диагонали, тогда
∆* → МОПРЕД(rxi,xk)
Вычисляем |
χ 2 = n − 1 − |
1 |
( 2 k + 5 ) lg( ∆* ) |
|
|
6 |
|
При χ2 > χ2(α, n·(n-1)/2) линейная связь между х1 и х4 отсутствует
существенно ли ухудшилось качество описания Y в
результате исключения из модели факторов х2 и х3?
С этой целью проверим гипотезу H0: R12 = R22
Здесь R12 оценивает качество исходной модели с m=4 факторами; R22 - качество конечной модели после исключения j факторов.
|
|
|
2 |
− R |
2 |
|
n − m − 1 |
|
F |
= |
R1 |
2 |
|
||
Вычисляем статистику: |
|
2 |
|
j |
|||
|
|
|
|
|
|||
|
|
1 − R1 |
|
|
которая при выполнении Н0 распределена по Фишеру.
Если F < F(α, j, n-m-1), то Н0 не отклоняется: отбрасывание
j = 2 объясняющих переменных (х2 и х3) не привело к заметному ухудшению качества уравнения регрессии.
Замечание. Критическое значение F(α, j, n-m-1) можно вычислить встроенной функцией Excel: FРАСПОБР(α, j, n-m-1).
Заключение по примеру
На практике считают, что связь между изучаемыми показателями достаточно тесна и модель практически пригодна, если скорректированный коэффициент детерминации превышает хотя бы 0.5, т. е. есть модель объясняет более половины вариации результативного признака.
В нашем примере скорректированный коэффициент детерминации (см. результаты РЕГРЕССИИ) равен R 2 = 0,95 , таким образом, 95% вариации индекса человеческого развития объясняются вариацией входящих в модель факторов, а 5% вариации индекса человеческого развития объясняются прочими, не входящими в модель причинами.
Суммируя все промежуточные выводы можно сказать, что
уравнение регрессии в нашем примере в целом надежно и, следовательно, может быть использовано для содержательных оценок и прогнозирования.
Стандартизованные коэффициенты регрессии
Коэффициенты уравнения регрессииy = b0 + b1 x1 + b2 x2 + ... + bk xk являются размерными, т.е. их нельзя сравнивать между собой.
Поэтому уравнение регрессии преобразуют к стандартизованному
виду путём замены переменных: ty =(y−y)/σy; txi =(xi −xi )/σxi В новых переменных уравнение регрессии примет вид:
ty =Β1tx1 +Β2tx2 +...+Βk txk здесь Βi =bi σxi /σy
Коэффициенты стандартизованного уравнения регрессии имеют сравнимые единицы измерения и пригодны для ранжирования факторов Хi по степени влияния на изучаемый признак Y:
максимальный по величине Вi указывает на фактор Xi, вариация которого сильнее всего сказывается на вариации признака Y.
Замечание: для некоторого i можем получить Вi ≈ 0, это повод для исключения фактора xi из уравнения регрессии.