Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

МУ Эконометрика 1583

.pdf
Скачиваний:
31
Добавлен:
11.03.2015
Размер:
1.3 Mб
Скачать

 

11

 

 

 

 

 

 

 

n

 

 

 

n

 

 

 

 

 

 

 

(yi

 

)2 (yˆi

 

) (yi yˆi) 2

 

y

y

 

i 1

 

 

 

i 1

 

 

 

 

 

 

(22)

n

 

 

 

n

 

 

 

n

 

 

 

 

 

 

 

(yˆi

 

y

)2 (yi

yˆi)2 2 (yˆi

y

)(yi

yˆi)

i 1

 

 

 

i 1

 

 

 

i 1

 

или

 

 

 

Q = QR + Qe,

 

 

 

(23)

 

 

 

 

 

 

 

где Q – общая сумма квадратов отклонений зависимой переменной от средней, а QR и Qe – соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.

Схема дисперсионного анализа имеет вид, представленный в табл. 1.

Средние квадраты sR2 и s2 (табл. 1) представляют собой несмещен-

ные оценки дисперсий зависимой переменной, обусловленных соответственно регрессией или объясняющей переменной Х и воздействием неучтенных случайных факторов и ошибок; m – число оцениваемых параметров уравнения регрессии; п – число наблюдений.

При отсутствии линейной зависимости между зависимой и объяс-

няющими(ей)

переменными

случайные

величины

sR2

 

 

QR

 

и

 

m 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2

Qe

имеют 2-распределение соответственно с т – 1 и п т сте-

n m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

пенями свободы.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Компоненты

 

 

 

 

 

 

 

 

Число

 

Средние

 

 

Сумма квадратов

 

степеней

 

 

дисперсии

 

 

 

квадраты

 

 

 

 

 

 

 

 

 

свободы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

QR

 

 

 

 

 

QR (yˆi

 

 

 

)2

 

 

 

sR2

 

 

 

 

Регрессия

y

m – 1

 

 

 

 

m 1

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

Qe

 

Остаточная

 

Qe (yˆi

yi)2

 

n m

 

s2

 

 

 

n m

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Q (yi

 

 

)2

 

 

 

 

 

 

 

 

 

 

 

Общая

y

n – 1

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Поэтому уравнение регрессии значимо на уровне , если фактически наблюдаемое значение статистики

12

 

Q

R

(n m)

 

s

2

 

 

 

F

 

 

 

 

R

F

,

(24)

Qe (m 1)

s

 

 

 

2

;k1

;k2

 

где F ;k1;k2 табличное значение F-критерия Фишера Снедекора, оп-

ределяемое на уровне значимости при k1 = m – 1 и k2 = n m степенях свободы.

Учитывая смысл величин sR2 и s2, можно сказать, что значение F по-

казывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней.

Для парной линейно регрессии т = 2, и уравнение регрессии значимо на уровне (отвергается нулевая гипотеза), если

F QR (n 2) F . (25)

Qe

;2;n 2

Следует отметить, что значимость уравнения парной линейной регрессии может быть проведена и другим способом, если оценить значи-

мость

коэффициента

регрессии

b1,

который

имеет

t-распределение Стьюдента с k = n – 2 степенями свободы.

 

Уравнение парной регрессии или коэффициент регрессии b1

значимы

на уровне (иначе – гипотеза Н0 о равенстве параметра b1 нулю, т.е. Н0:b1 = 0, отвергается), если фактически наблюдаемое значение статистики

 

b 0

n

 

 

 

 

 

 

t

1

(xi x)2

(26)

s

 

i 1

 

больше критического (по абсолютной величине), т.е. |t| > t1 ; n 2. Коэффициент корреляции r значим на уровне (Н0: r = 0), если

 

 

r

 

n 2

 

t

 

 

 

 

 

t1 ;n 2 .

(27)

 

 

 

 

 

 

 

 

 

 

1 r2

 

Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, характеристикой прогностической силы анализируемой регрессионной модели является ко-

эффициент детерминации, определяемый по формуле:

 

R2

QR

1

Qe

.

(28)

Q

 

 

 

Q

 

Величина R2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату корреляции, т.е. R2 = r2.

13

Доверительный интервал для индивидуальных значений зависи-

мой переменной y0* .

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

s

 

 

y

*

 

ˆ

 

+ t1 ; n 2

 

s

 

,

(29)

 

 

 

 

 

y

 

t1 – ; n 2

 

yˆ0

 

 

 

y

 

yˆ

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

0

 

 

0

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2 1

 

 

(x

 

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где sy2ˆ

 

s

 

 

x

 

оценка дисперсии индивидуальных

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

0

 

n

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(xi

x)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

значений у0 при х = х0.

Доверительный интервал для параметров регрессионной мо-

дели.

b1 t1 ;n 2

 

s

b1 t1 ;n 2

 

s

 

 

 

 

 

1

 

 

 

(30)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

n

 

 

(xi

x

)2

 

 

 

 

(xi

x

)2

 

 

 

 

i 1

 

 

i 1

1.2. Гетероскедастичность и автокорреляция остатков

При оценке параметров уравнения регрессии мы применяем метод наименьших квадратов. При этом делаем определенные предпосылки относительно случайной составляющей . В модели

у = а + b1 x +

случайная составляющая представляет собой ненаблюдаемую величину. После того как проведена оценка параметров модели, рассчитав разности фактических и теоретических значений результативного признака у, можно определить оценки случайной составляющей (у yˆx ). При изменении спецификации модели, добавлении в нее новых наблюдений выборочные оценки остатков i, могут меняться. Поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений i, т.е. остаточных величин.

В предыдущем разделе рассматривались формальные проверки статистической достоверности коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента и F-критерия. При использовании этих критериев делаются предположения относительно поведения остатковi. Остатки представляют собой независимые случайные величины, и их среднее значение равно 0; они имеют одинаковую (постоянную) дисперсию и подчиняются нормальному распределению.

Оценки параметров регрессии должны отвечать определенным критериям: быть несмещенными, состоятельными и эффективными.

Несмещенность оценки означает, что математическое ожидание ос-

14

татков равно нулю. Следовательно, при большом числе выборочных оцениваний остатки не будут накапливаться и найденный параметр регрессии bi можно рассматривать как среднее значение из возможного большого количества несмещенных оценок.

Для практических целей важна не только несмещенность, но и эффективность оценок. Оценки считаются эффективными, если они характеризуются наименьшей дисперсией.

Степень реалистичности доверительных интервалов параметров регрессии обеспечивается, если оценки будут не только несмещенными и эффективными, но и состоятельными. Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки.

Исследования остатков i предполагают проверку наличия следующих пяти предпосылок МНК (см. условия Гаусса Маркова):

1. Случайный характер остатков.

Для этого строится график зависимости остатков i от теоретических значений результативного признака yˆ . Если на графике нет направлен-

ности в расположении точек i, то остатки i представляют собой случайные величины и МНК оправдан, теоретические значения yˆx хорошо

аппроксимируют фактические значения у.

2. Нулевая средняя величина остатков, не зависящая от хi.

Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что (у yˆx ) = 0. Это выполнимо для линейных мо-

делей и моделей, нелинейных относительно включаемых переменных. Для моделей, нелинейных по оцениваемым параметрам и приводимых к линейному виду логарифмированием, средняя ошибка равна нулю для логарифмов исходных данных. Так, для модели вида

b

b

bp

,

 

 

 

0

y x11

x22

xp

ln y ln yx

 

 

 

 

 

 

 

 

3.Гомоскедастичность дисперсия каждого отклонения i одинакова для всех значений х.

В соответствии с третьей предпосылкой метода наименьших квадратов требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора хi остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то име-

ет место гетероскедастичность (рис. 1).

Гомоскедастичность остатков означает, что дисперсия остатков i одинакова для каждого значения х.

Наличие гетероскедастичности в отдельных случаях может привести к смещенности оценок коэффициентов регрессии, хотя несмещенность оценок коэффициентов регрессии в основном зависит от соблюдения

15

второй предпосылки МНК, т.е. независимости остатков и величин факторов.

Рис. 1. Примеры гетероскедастичности

Гетероскедастичность будет сказываться на уменьшении эффективности оценок bi. В частности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии Sbi , пред-

полагающей единую дисперсию остатков для любых значений фактора.

Рассмотрим тесты, которые позволяют провести анализ модели на гомоскедастичность.

При малом объеме выборки, что наиболее характерно для эконометрических исследований, для оценки гетероскедастичности может использоваться метод Гольдфельда Квандта, разработанный в 1965 г. Гольдфельд и Квандт рассмотрели однофакторную линейную модель, для которой дисперсия остатков возрастает пропорционально квадрату фактора. Для того чтобы оценить нарушение гомоскедастичности, они предложили параметрический тест, который включает в себя следующие шаги:

1.Упорядочение п наблюдений по мере возрастания переменной х.

2.Исключение из рассмотрения С центральных наблюдений; при этом (п С)/2 > р, где р число оцениваемых параметров.

Из экспериментальных расчетов, проведенных авторами метода для случая одного фактора, рекомендовано при п = 30 принимать С = 8, а при п = 60 – соответственно С = 16.

3.Разделение совокупности из (п С) наблюдений на две группы (соответственно с малыми и большими значениями фактора х) и определение по каждой из групп уравнений регрессии.

4.Определение остаточной суммы квадратов для первой (S1) и вто-

рой (S2) групп и нахождение их отношения: R = S1/S2, где

S1 > S2.

При выполнении нулевой гипотезы о гомоскедастичности отношение R будет удовлетворять F-критерию с (п С 2р)/2 степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превыша-

16

ет табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Критерий Гольдфельда Квандта используется и при проверке остатков множественной регрессии на гетероскедастичность.

Наличие гетероскедастичности в остатках регрессии можно проверить и с помощью ранговой корреляции Спирмэна. Суть проверки заключается в том, что в случае гетероскедастичности абсолютные остатки i коррелированы со значениями фактора хi. Эту корреляцию можно измерять с помощью коэффициента ранговой корреляции Спирмэна:

1

6 d

2

,

(31)

n(n

2

 

 

 

1)

 

где d абсолютная разность между рангами значений хi и | i|. Статистическую значимость можно оценить с помощью

t-критерия:

t (n 2) . (32) (1 2)

Сравнив эту величину с табличной величиной при = 0,05 и числе степеней свободы (п m). Принято считать, что если t > t , то корреляция между i и хi статистически значима, т. е. имеет место гетероскедастичность остатков. В противном случае принимается гипотеза об отсутствии гeтероскедастичности остатков.

Рассмотренные критерии не дают количественной оценки зависимости дисперсии ошибок регрессии от соответствующих значений факторов, включенных в регрессию. Они позволяют лишь определить наличие или отсутствие гетероскедастичности остатков. Поэтому если гетероскедастичность остатков установлена, можно количественно оценить зависимость дисперсии ошибок регрессии от значений факторов. С этой целью могут быть использованы тесты Уайта, Парка, Глейзера и др.

Тест Уайта предполагает, что дисперсия ошибок регрессии представляет собой квадратичную функцию от значений факторов, т.е. при наличии одного фактора 2 = а+ bx + cx2 + u, или при наличии факторов:

2 = a + b1x1 + b11 x12 + b2x2 + b22 x22 + b12x1x2 + … + bpxp + bpp x2p +

+ b1px1xp + b2px2xp + … + u.

Так что модель включает в себя не только значения факторов, но и их квадраты, а также попарные произведения. Поскольку каждый пара-

метр модели i2 = f(хi) должен быть рассчитан на основе достаточного

числа степеней свободы, то чем меньше объем исследуемой совокупности, тем в меньшей мере квадратичная функция сможет содержать попарные произведения факторов. Например, если регрессия строится по

17

30 наблюдениям как yi = a + b1x + i, то последующая квадратичная функция для остатков может быть представлена лишь как

2 = а + b1x + b11х2 + u,

поскольку на каждый параметр при х должно приходиться не менее 6 7 наблюдений. В настоящее время тест Уайта включен в стандартную программу регрессионного анализа в пакете Econometric Views. О наличии или отсутствии гетероскедастичности остатков судят по величине F-критерия Фишера для квадратичной функции регрессии остатков. Если фактическое значение F-критерия выше табличного, то, следовательно, существует четкая корреляционная связь дисперсии ошибок от значений факторов, включенных в регрессию, и имеет место гетероскедастичность остатков. В противном случае (Fфакт < Fтабл) делается вывод об отсутствии гeтероскедастичности остатков регрессии.

Тест Парка также относится к формализованным тестам гетероскедастичности. Предполагается, что дисперсия остатков связана со значениями факторов функций ln 2 = а + b ln х + и. Данная регрессия строится для каждого фактора в условиях многофакторной модели. Проверяется значимость коэффициента регрессии b по t-критерию Стьюдента. Если коэффициент регрессии для уравнения ln 2 окажется статистически значимым, то, следовательно, существует зависимость ln 2 от lnх, т.е. имеет место гетероскедастичность остатков.

Если тесты Уайта и Парка предназначены для оценки гетероскедастичности для квадрата остатков 2, то тест Глейзера основывается на регрессии абсолютных значений остатков | |, т.е. рассматривается функ-

ция | i| = а + b xic + иi. Регрессия | i| от хi строится при разных значениях

параметра с, и далее отбирается та функция, для которой коэффициент регрессии b оказывается наиболее значимым, т.е. имеет место наибольшее значение t-критерия Стьюдента или F-критерия Фишера и R2.

При обнаружении гетероскедастичности остатков регрессии ставится цель ее устранения, чему служит применение обобщенного метода наименьших квадратов (см. ниже).

4.Отсутствие автокорреляции остатков. Значения остатков i, распределены независимо друг от друга.

Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений.

При построении регрессионных моделей чрезвычайно важно соблюдение данного условия. Коэффициент корреляции между i и i-1, где i остатки текущих наблюдений, i-1 остатки предыдущих наблюдений может быть определен как

 

18

 

 

 

r

cov i, j

,

(33)

 

i j

i

j

 

 

 

что соответствует формуле линейного коэффициента корреляции. Если этот коэффициент окажется существенно отличным от нуля, то остатки автокоррелированы и функция плотности вероятности F( ) зависит от j-й точки наблюдения и от распределения значений остатков в других точках наблюдения.

Отсутствие автокорреляции остатков обеспечивает состоятельность и эффективность оценок коэффициентов регрессии. Особенно актуально соблюдение данной предпосылки МНК при построении регрессионных моделей по рядам динамики, где при наличии тенденции последующие уровни динамического ряда, как правило, зависят от своих предыдущих уровней.

5. Остатки подчиняются нормальному распределению.

Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t и F. Вместе с тем оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т.е. при нарушении пятой предпосылки метода наименьших квадратов.

Наряду с предпосылками метода наименьших квадратов как метода оценивания параметров регрессии при построении регрессионных моделей должны соблюдаться определенные требования относительно переменных, включаемых в модель. Прежде всего, число переменных т

n

должно быть не больше, чем m 6,7 . Иначе параметры регрессии

оказываются статистически незначимыми. В общем виде применение МНК возможно, если число наблюдений п превышает число оцениваемых параметров т, т.е. система нормальных уравнений имеет решение только тогда, когда п > т.

При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрессии, которые обладают свойством несмещенности, имеют меньшее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии. Этой цели, как уже указывалось, служит применение обобщенного метода наименьших квадратов.

19

1.3. Обобщенный метод наименьших квадратов

При нарушении гомоскедастичности и наличии автокорреляции ошибок рекомендуется заменять традиционный метод наименьших квадратов (Ordinary Least Squares OLS) обобщенным методом (Generalized Least Squares GLS).

Обобщенный метод наименьших квадратов применяется к преобразованным данным и позволяет получать оценки, которые обладают не только свойством несмещенности, но и имеют меньшие выборочные дисперсии. В этом разделе остановимся на использовании обобщенного МНК для корректировки гетероскедастичности.

Как и раньше, предположим, что среднее значение остатков равно нулю, а дисперсия их пропорциональна величине Кi, т. е.

 

 

2

2 K

i

(34)

 

 

i

 

 

где

2

дисперсия ошибки при конкретном

i-м значении фактора;

i

2 постоянная дисперсия ошибки при соблюдении предпосылки о гомоскедастичности остатков; Кi коэффициент пропорциональности, меняющийся с изменением величины фактора, что и обусловливает неоднородность дисперсии.

При этом предполагается, что 2 неизвестна, а в отношении величины К выдвигаются гипотезы, характеризующие структуру гeтероскедастичности.

В общем виде для уравнения yi = a + b x + i при

2

 

2

Ki

мо-

i

 

дель примет вид:

 

 

 

 

 

 

 

yi = + i xi +

 

i.

 

 

 

 

(35)

Ki

 

 

 

 

В данной модели остаточные величины гeтероскедастичны. Предположив в них отсутствие автокорреляции, перейдем к уравнению с гомоскедастичными остатками, поделив все переменные, зафиксированные в

ходе i-го наблюдения, на Ki . Тогда дисперсия остатков будет величи-

ной постоянной, т.е. 2

2 . Иными словами, от регрессии у по х мы

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

перейдем к регрессии на новых переменных:

 

 

y

 

и

 

x

 

. Уравнение

 

 

 

 

 

 

 

регрессии примет следующий вид:

 

 

 

 

 

 

 

K

 

K

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

 

 

 

 

 

 

x

i .

(36)

 

 

 

 

 

 

 

 

 

 

 

 

 

Ki

Ki

 

 

Ki

 

 

 

 

 

 

 

 

 

 

 

 

 

Исходные данные для этого уравнения будут иметь вид:

20

y1 x1

K1 K1 y2 x2

 

 

 

 

 

 

 

 

 

 

y K2 ,

x K2

(37)

yn xn

Kn Kn

По отношению к обычной регрессии уравнение с новыми, преобразованными переменными представляет собой взвешенную регрессию, в

которой переменные у и х взяты с весами 1 .

K

Оценка параметров уравнения с преобразованными переменными дается с помощью взвешенного метода наименьших квадратов, для которого необходимо минимизировать сумму квадратов отклонений вида

1

2

S

 

yi a b xi .

Ki

Если преобразованные переменные х и у взять в отклонениях от средних уровней, то коэффициент регрессии b можно определить как

 

 

 

1

 

x y

 

b

K

 

 

 

 

.

(38)

 

1

 

 

 

x2

 

 

 

K

 

 

 

 

 

 

 

 

 

 

Как видим, при использовании обобщенного МНК с целью корректировки гетероскедастичности коэффициент регрессии b представляет собой взвешенную величину по отношению к обычному методу наименьших квадратов с весами 1/К.

Аналогичный подход возможен не только для уравнения парной, но и для уравнения множественной регрессии.

Например, при рассмотрении зависимости сбережений у от дохода х по первоначальным данным было получено уравнение регрессии

у = 1,081 + 0,1178х.

Применив обобщенный МНК к данной модели в предположении, что ошибки пропорциональны доходу, было получено уравнение для преоб-

разованных данных y 0,1026 0,8538 1 . x x

Коэффициент регрессии первого уравнения сравнивают со свободным членом второго уравнения, т.е. 0,1178 и 0,1026 оценки параметром b зависимости сбережений от дохода.

Обобщенный метод наименьших квадратов устраняет гетероскеда-