Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Регрессии и корреляции

.pdf
Скачиваний:
17
Добавлен:
12.04.2015
Размер:
884.32 Кб
Скачать

Обсуждение коэффициентов уравнения регрессии

bi называются коэффициентами условно чистой регрессии:

значение bi показывает величину изменения Y при условии, что соответствующий фактор Xi изменяется на принятую для него единицу измерения (при этом требуется, чтобы все прочие факторы оставались постоянными), то есть влияние Xi на Y очищено от влияния прочих факторов, входящих явно в уравнение. Однако есть неявные факторы модели – случайные - поэтому bi “условно очищенные”.

Может оказаться, что какой-то из βi =0, а соответствующая ему оценка bi≠0 в следствие случайных колебаний выборки. Т.е. нужна проверка статистической значимости теоретических коэффициентов регрессии βi.

Если какой-то коэффициент βi окажется несущественным, то отвечающая ему факторная переменная xi вносит незаметный вклад в объяснение результативного признака, следовательно, такую переменную xi можно исключить из модели.

Проверка существенности каждого коэффициента βi является задачей проверки гипотез: Н0: βi = 0; Н1: βi ≠ 0.

По выборочным данным вычисляем статистику t = bi / Sbi. Здесь

bi – оценка i-го коэффициент регрессии, Sbi – стандартная ошибка bi. Статистика t при справедливости Н0 распределена по Стьюденту. При заданном уровне значимости α находим критическое значение распределения Стьюдента с параметрами α /2 и числом степеней свободы (n-k-1).

Если

 

bi / S b i

 

t (α / 2 , n k 1 )

 

 

 

 

 

 

 

то Н0 отвергается и коэффициент регрессии βi будет существенным.

Проводя проверку существенности каждого коэффициента регрессии, мы определяем влияние соответствующей независимой переменной на характер изменения зависимой переменной.

Существенность уравнения регрессии в целом устанавливается через проверку основной гипотезы Н0: β1 = β2 = …= βk = 0. Альтернативная гипотеза предполагает, что хотя бы один из истинных параметров регрессии отличен от нуля.

Если Н0 верна, то между зависимой и независимыми переменными нет реальной линейной связи и уравнение

регрессии целиком незначимо.

F

=

R 2 / k

По данным выборки вычисляем статистику

(1 R 2 ) /(n k 1)

которая при справедливости Н0 распределена по Фишеру. Критическое значение F-распределения с параметрами α (уровень значимости), k – число степеней свободы числителя, (n – k -1) – число степеней свободы знаменателя: F(α, k, n-k-1)

При F > F(α, k, n-k-1) гипотеза Н0 отвергается на заданном уровне значимости: уравнение регрессии в целом статистически значимо

F-статистика проверяет превышает ли коэффициент детерминации

то значение, которое м.быть получено случайно, а не является следствием закономерности в линейной связи между изучаемыми в модели признаками.

у

х1

x2

x3

x4

0,904

115,0

75,5

3343

77,0

 

 

 

 

 

0,922

123,0

78,5

3001

78,2

 

 

 

 

 

0,763

74,0

78,4

3101

68,0

 

 

 

 

 

0,923

111,0

77,7

3543

77,2

 

 

 

 

 

0,918

113,0

84,4

3237

77,2

 

 

 

 

 

0,906

110,0

75,9

3330

77,2

 

 

 

 

 

0,905

119,0

76,0

3808

75,7

 

 

 

 

 

0,545

146,0

67,5

2415

62,6

 

 

 

 

 

ПРИМЕР:

У-индекс человеческого развития x1 – ВВП 1997 г., % к 1990 г

x2 – расходы (% к ВВП)

x3 – калорийность питания

x4 – продолжительность жизни

Сервис/Анализ данных/Корреляция

И т.д.

 

у

х1

x2

x3

x4

 

у

1

 

 

 

 

 

 

 

 

 

 

 

 

х1

-0,00274

1

 

 

 

 

x2

0,170503

-0,618

1

 

 

 

x3

0,75145

0,077585

0,185509

1

 

 

 

 

 

 

x4

0,962033

0,163606

0,04856

0,703927

1

 

 

 

 

 

 

 

Тесно связаны y и х4 (0,962), связь y и х3 слабее (0,751) - исключаем х3

Теснота связи всех прочих факторов между собой ниже допустимой величины 0.7, поэтому сохраняем их. Тогда уравнение регрессии:

yˆ = b0 + b1 x1 + b2 x2 + b4 x4 Найдём значения bi: РЕГРЕССИЯ

 

Коэффициенты

Стандартная ошибка

t-статистика

Y-пересечение

-0,676869

0,105607641

-6,40928053

х1

-0,000471098

0,000206803

-2,278002908

x2

0,000554306

0,000977217

0,567229787

x4

0,020630702

0,001029649

20,03663258

Значимость коэффициентов: критическое t(0,05; 21) = 2,08><|t-статистики| ?

ВЫВОД: х2 неинформативный фактор, его следует удалить из модели.

Новое уравнение регрессии:

ˆ

=

b0

+

b1 x1

+

b4 x4

y

 

 

 

у

х1

x4

0,904

115,0

77,0

 

 

 

0,922

123,0

78,2

 

 

 

0,763

74,0

68,0

 

 

 

0,923

111,0

77,2

 

 

 

0,918

113,0

77,2

 

 

 

0,906

110,0

77,2

 

 

 

0,905

119,0

75,7

 

 

 

0,545

146,0

62,6

 

 

 

n-k-1=25-2-1 → t(0,05;22) = 2.07.

Все коэффициенты значимы, тогда оценочное уравнение регрессии:

)

y =−0,630,00055x1 +0,0207x4

 

Коэффициенты

Стандартная ошибка

t-статистика

Y-пересечение

-0,6344146

0,073348734

-8,649291805

х1

-0,000545615

0,000157235

-3,470048056

X4

0,020743408

0,0009946

20,85602392

 

 

 

 

проверка x1 и x4 на линейную связь (мультиколлинеарность)

выполняется путём проверки гипотезы Н0 : * = Det (rxi x j ) = 1

(в отсутствие линейной связи недиагональные элементы матрицы парных корреляций rxi,xk близки к нулю).

Матрица rxi,xk : СЕРВИС_АНАЛИЗ ДАННЫХ_КОРРЕЛЯЦИЯ

х1 x4

х1

1

0,163606

x4

0,163606

1

элементы треугольной матрицы копируем относительно главной диагонали, тогда

∆* → МОПРЕД(rxi,xk)

Вычисляем

χ 2 = n 1

1

( 2 k + 5 ) lg( * )

 

 

6

 

При χ2 > χ2(α, n·(n-1)/2) линейная связь между х1 и х4 отсутствует

существенно ли ухудшилось качество описания Y в

результате исключения из модели факторов х2 и х3?

С этой целью проверим гипотезу H0: R12 = R22

Здесь R12 оценивает качество исходной модели с m=4 факторами; R22 - качество конечной модели после исключения j факторов.

 

 

 

2

R

2

 

n m 1

 

F

=

R1

2

 

Вычисляем статистику:

 

2

 

j

 

 

 

 

 

 

 

1 R1

 

 

которая при выполнении Н0 распределена по Фишеру.

Если F < F(α, j, n-m-1), то Н0 не отклоняется: отбрасывание

j = 2 объясняющих переменных (х2 и х3) не привело к заметному ухудшению качества уравнения регрессии.

Замечание. Критическое значение F(α, j, n-m-1) можно вычислить встроенной функцией Excel: FРАСПОБР(α, j, n-m-1).

Заключение по примеру

На практике считают, что связь между изучаемыми показателями достаточно тесна и модель практически пригодна, если скорректированный коэффициент детерминации превышает хотя бы 0.5, т. е. есть модель объясняет более половины вариации результативного признака.

В нашем примере скорректированный коэффициент детерминации (см. результаты РЕГРЕССИИ) равен R 2 = 0,95 , таким образом, 95% вариации индекса человеческого развития объясняются вариацией входящих в модель факторов, а 5% вариации индекса человеческого развития объясняются прочими, не входящими в модель причинами.

Суммируя все промежуточные выводы можно сказать, что

уравнение регрессии в нашем примере в целом надежно и, следовательно, может быть использовано для содержательных оценок и прогнозирования.

Стандартизованные коэффициенты регрессии

Коэффициенты уравнения регрессииy = b0 + b1 x1 + b2 x2 + ... + bk xk являются размерными, т.е. их нельзя сравнивать между собой.

Поэтому уравнение регрессии преобразуют к стандартизованному

виду путём замены переменных: ty =(yy)/σy; txi =(xi xi )/σxi В новых переменных уравнение регрессии примет вид:

ty 1tx1 2tx2 +...k txk здесь Βi =bi σxi /σy

Коэффициенты стандартизованного уравнения регрессии имеют сравнимые единицы измерения и пригодны для ранжирования факторов Хi по степени влияния на изучаемый признак Y:

максимальный по величине Вi указывает на фактор Xi, вариация которого сильнее всего сказывается на вариации признака Y.

Замечание: для некоторого i можем получить Вi ≈ 0, это повод для исключения фактора xi из уравнения регрессии.