- •Алгебра линейной регрессии
- •6.1. Линейная регрессия
- •6.2. Простая регрессия
- •6.3. Ортогональная регрессия
- •6.4. Многообразие оценок регрессии
- •6.5. Упражнения и задачи
- •Глава 7
- •Основная модель линейной регрессии
- •7.1. Различные формы уравнения регрессии
- •7.2. Основные гипотезы, свойства оценок
- •7.3. Независимые факторы: спецификация модели
- •7.4. Прогнозирование
- •7.5. Упражнения и задачи
- •Глава 8
- •Нарушение гипотез основной линейной модели
- •8.3. Автокорреляция ошибок
- •8.4. Ошибки измерения факторов
- •8.5. Метод инструментальных переменных
- •8.6. Упражнения и задачи Упражнение 1
Глава 8
Нарушение гипотез основной линейной модели
Обобщенный метод наименьших квадратов (взвешенная регрессия)
Пусть нарушена гипотеза g4 и матрица ковариации ошибок по наблюдени- ям равна не σ2IN , а σ2Ω, где Ω — вещественная симметричная положительно полуопределенная матрица (см. Приложение A.1.2), т.е. ошибки могут быть кор- релированы по наблюдениям и иметь разную дисперсию. В этом случае обычные МНК-оценки параметров регрессии (7.26) остаются несмещенными и состоятель- ными, но перестают быть эффективными в классе линейных несмещенных оценок.
Ковариационная матрица оценок МНК в этом случае приобретает вид
Ma = σ2 .ZtZ.−1 ZtΩZ .ZtZ.−1 .
Действительно, a − E (a) = a − α = (ZrZ)−1 Zrε, поэтому
E .(a − E(a)) (a − E(a))r. = (ZrZ)−1 ZrE (εεr) Z (ZrZ)−1 =
= σ2 (ZrZ)−1 ZrΩZ (ZrZ)−1 .
(Ср. с выводом формулы (7.28), где Ω = σ2I .)
258 Глава 8. Нарушение гипотез основной линейной модели
e
По этим причинам желательно применять обобщенный МНК (ОМНК), заклю- чающийся в минимизации обобщенной остаточной дисперсии
1
etΩ−1e.
N
В обобщенной остаточной дисперсии остатки взвешиваются в соответствии со структурой ковариационной матрицы ошибок. Минимизация приводит к полу- чению следующего оператора ОМНК-оценивания (ср. с (7.13), где Ω = IN ):
a = (ZtΩ−1Z)−1ZtΩ−1X. (8.1)
Для обоснования ОМНК проводится преобразование в пространстве наблю- дений (см. параграф 6.4) с помощью невырожденной матрицы D размерности N × N , такой, что D−1Dt−1 = Ω (такое представление допускает любая ве-
щественная симметричная положительно определенная матрица, см. Приложение
A.1.2):
DX = DZα + Dε. (8.2)
Такое преобразование возвращает модель в «штатную» ситуацию, поскольку новые остатки удовлетворяют гипотезе g4:
E(DεεtDt) = Dσ2ΩDt = σ2DD−1Dt−1Dt = σ2IN .
Остаточная дисперсия теперь записывается как вания — как a = (ZtDtDZ)−1ZtDtDX .
1
etDtDe, а оператор оцени-
N
Что и требовалось доказать, поскольку DtD = Ω−1.
Обычно ни дисперсии, ни тем более ковариации ошибок по наблюдениям не из- вестны. В классической эконометрии рассматриваются два частных случая.
Гетероскедастичность ошибок
Пусть ошибки не коррелированы по наблюдениям, и матрица Ω (а вслед за ней и матрица D) диагональна. Если эта матрица единична, т.е. дисперсии ошибок
8.2. Гетероскедастичность ошибок 259
одинаковы по наблюдениям (гипотеза g4 не нарушена), то имеет место гомос- кедастичность или однородность ошибок по дисперсии — «штатная» ситуация. В противном случае констатируют гетероскедастичность ошибок или их неодно- родность по дисперсии.
i
i
одинаковы, а гетероскедастичность — что среди
них есть несовпадающие.
Факт неоднородности остатков по дисперсии мало сказывается на качестве оце- нок регрессии, если эти дисперсии не коррелированы с независимыми факторами. Это — случай гетероскедастичности «без негативных последствий».
Данное утверждение можно проиллюстрировать в случае, когда в матрице Z все- го один столбец, т.е. n = 1 и свободный член отсутствует. Тогда формула (7.33) приобретает вид:
σ2 2
E(s2) = 1
σ2
i zi
i .
e N
i − z2
i i i
i
ду N − 1 σ2 , и N s2
оказывается несмещенной оценкой σ2 , как и было пока-
N N − 1 e
1
i
N
можно утверждать, что
σ2 ,
i
σ2 2
2 2
i z,i σ
z
i
i
z,i
z
=
σ
,
i
i
т.е. ситуация остается прежней. И только если σi и zi положительно (или отрица- тельно) коррелированы, факт гетероскедастичности имеет негативные последствия.
σ2 2
Действительно, в случае положительной корреляции
i zi
z
i
> σ2 и, следова-
тельно, E
N 2
s
< σ2 . Обычная «несмещенная» оценка остаточной диспер-
сии оказывается по математическому ожиданию меньше действительного значе-
ния остаточной дисперсии, т.е. она (оценка остаточной дисперсии) дает основания для неоправданно оптимистичных заключений о качестве полученной оценки модели.
Следует заметить, что факт зависимости дисперсий ошибок от независимых факторов в экономике весьма распространен. В экономике одинаковыми по диспер-
сии скорее являются относительные (εz ), а не абсолютные (ε) ошибки. Поэтому,
когда оценивается модель на основе данных по предприятиям, которые могут иметь
260 Глава 8. Нарушение гипотез основной линейной модели
и, как правило, имеют различные масштабы, гетероскедастичности с негативными последствиями просто не может не быть.
Если имеет место гетероскедастичность, то, как правило, дисперсия ошибки связана с одной или несколькими переменными, в первую очередь — с факторами регрессии. Пусть, например, дисперсия может зависеть от некоторой перемен- ной yi , которая не является константой:
σ2
(yi), i = 1, . . . , N.
Как правило, в качестве переменной yi берется один из независимых факторов или математическое ожидание изучаемой переменной, т.е. x0 = Zα (в качестве его оценки используют расчетные значения изучаемой переменной Za).
В этой ситуации желательно решить две задачи: во-первых, определить, имеет ли место предполагаемая зависимость, а во-вторых, если зависимость обнаружена, получить оценки с ее учетом. При этом могут использоваться три группы методов. Методы первой группы позволяют работать с гетероскедастичностью, которая за-
дается произвольной непрерывной функцией σ2(·). Для методов второй группы функция σ2(·) должна быть монотонной. В методах третьей группы функция σ2(·)
предполагается известной с точностью до конечного числа параметров.
Примером метода из первой группы является критерий Бартлетта, который заключается в следующем.
Пусть модель оценена и найдены остатки ei, i = 1, . . . , N . Для расчета bc — статистики, лежащей в основе применения этого критерия, все множество наблю- дений делится по какому-либо принципу на k непересекающихся подмножеств. В частности, если требуется выявить, имеется ли зависимость от некоторой пе- ременной yi, то все наблюдения упорядочиваются по возрастанию yi, а затем в соответствии с этим порядком делятся на подмножества. Пусть
k
Nl — количество элементов в l-м подмножестве,
s2
Nl = N ;
l=1
l — оценка дисперсии остатков в l-м подмножестве, найденная на основе
остатков ei ;
k
1 Nls2
bs =
N
l=1
l
— отношение средней арифметической дисперсий к сред-
. k
s
l
.1/N
l=1
ней геометрической; это отношение в соответствии со свойством мажорантности средних (см. п. 2.2) больше или равно единице, и чем сильнее различаются диспер- сии по подмножествам, тем оно выше.
8.2. Гетероскедастичность ошибок 261
e
i
s
2
s
s
1 4
s
s
3 yi
Рис. 8.1
Тогда статистика Бартлетта равна
bc = N
k
1 1
ln bs.
1+ l=1 Nl − N
3(k − 1)
При однородности наблюдений по дисперсии (нулевая гипотеза) эта статистика
χ
k−1
. Проверка нулевой гипотезы проводится по обычному ал-
горитму.
Если нулевую гипотезу отвергнуть не удалось, т.е. ситуация гомоскедастична, то исходная оценка модели удовлетворительна. Если же нулевая гипотеза отверг- нута, то ситуация гетероскедастична.
Принцип построения статистики Бартлетта иллюстрирует рисунок 8.1.
Классический метод второй группы заключается в следующем. Все наблюдения упорядочиваются по возрастанию некоторой переменной yi. Затем оцениваются две вспомогательные регрессии: по K «малым» и по K «большим» наблюдениям (с целью повышения мощности критерия средние N − 2K наблюдения в расчете не участвуют, а K можно, например, выбрать равным приблизительно трети N ).
Пусть s2 — остаточная дисперсия в первой из этих регрессий, а s2 — во второй.
1 2
В случае гомоскедастичности ошибок (нулевая гипотеза) отношение двух дисперсий
распределено как
2
s
1
Здесь следует применять обычный F -критерий. Нулевая гипотеза о гомос- кедастичности принимается, если рассчитанная статистика превышает 95%-ный квантиль F -распределения.
262 Глава 8. Нарушение гипотез основной линейной модели
e
i
s
2
s
1 yi
Рис. 8.2
Такой подход применяется, если ожидается, что дисперсия может быть только по- ложительно коррелирована с переменной yi . Если неизвестно, положительно или отрицательно коррелирована дисперсия с рассматриваемым фактором, то следу- ет отклонять нулевую гипотезу как при больших, так и при малых значениях ста-
s2
2
1
. Можно применить следующий прием: рассчитать статистику как
1
и s2
к минимальной. Такая статисти-
2
Данный метод известен под названием метода Голдфельда—Квандта.
2
s2 2 2
2 считаются на основе остатков из проверяемой регрессии. При этом s1 и s2 не
будут независимы, и их отношение будет иметь F -распределение только прибли-
женно. Этот метод иллюстрирует рисунок 8.2.
Для того чтобы можно было применять методы третьей группы, требуется обладать конкретной информацией о том, какой именно вид имеет гетероскеда- стичность.
Так, например, если остатки прямо пропорциональны значениям фактора (n = 1):
x = zα + β + zε,
и ε удовлетворяет необходимым гипотезам, то делением обеих частей уравнения на z ситуация возвращается в «штатную»:
x = α + 1 β + ε,
Z Z
Гетероскедастичность ошибок 263
e
i
s
2
s
1 yi
Рис. 8.3
в которой, правда, угловой коэффициент и свободный член меняются местами. Тем самым применяется преобразование в пространстве наблюдений такое, что диаго-
нальные элементы матрицы D равны 1zi .
Если зависимость дисперсии от других переменных известна не точно, а только с точностью до некоторых неизвестных параметров, то для проверки гомоскеда- стичности следует использовать вспомогательные регрессии.
Так называемый метод Глейзера состоит в следующем. Строится регрессия модулей остатков |ei| на константу и те переменные, которые могут быть коррели- рованными с дисперсией (например, это может быть все множество независимых факторов или какое-то их подмножество). Если регрессия оказывается статисти- чески значимой, то гипотеза гомоскедастичности отвергается.
Построение вспомогательной регрессии от некоторой переменной yi показано на рисунке 8.3.
i
Если с помощью какого-либо из перечисленных критериев (или других анало- гичных критериев) проверены различные варианты возможной зависимости и ну- левая гипотеза во всех случаях не была отвергнута, то делается вывод, что ситуа- ция гомоскедастична или гетероскедастична без негативных последствий и что для оценки параметров модели можно использовать обычный МНК. Если же нуле- вая гипотеза отвергнута и поэтому, возможно, имеет место гетероскедастичность с негативными последствиями, то желательно получить более точные оценки, учи- тывающие гетероскедастичность.
Это можно сделать, используя для оценивания обобщенный МНК (см. уравне- ние (8.2)). Соответствующее преобразование в пространстве наблюдений состоит
264 Глава 8. Нарушение гипотез основной линейной модели
в том, чтобы каждое наблюдение умножить на di , т.е. требуется оценить обычным методом наименьших квадратов преобразованную регрессию с переменными diXi и diZi. При этом не следует забывать, что если матрица факторов Z содержит свободный член, то его тоже нужно умножить на di , поэтому вместо свободного члена в регрессии появится переменная вида (d1, . . . , dN ). Это приводит к тому, что стандартные статистические пакеты выдают неверные значения коэффициен- та детерминации и F -статистики. Чтобы этого не происходило, требуется поль- зоваться специализированными процедурами для расчета взвешенной регрессии. Описанный метод получил название взвешенного МНК, поскольку он равнозначен
N
минимизации взвешенной суммы квадратов остатков
d2e2 .
i i
i=1
Чтобы это можно было осуществить, необходимо каким-то образом получить оценку матрицы D, используемой для преобразования в пространстве наблюдений. Перечисленные в этом параграфе методы дают возможность не только проверить гипотезу об отсутствии гетероскедастичности, но и получить определенные оценки матрицы D (возможно, не очень хорошие).
Если S2 — оценка матрицы σ2Ω , где S2 — диагональная матрица, состав- ленная из оценок дисперсий, то S−1 (матрица, обратная к ее квадратному кор- ню) — оценка матрицы σD.
Так, после проверки гомоскедастичности методом Глейзера в качестве диа-
гональных элементов матрицы S−1 можно взять 1
c , где |ei|c — расчетные
|ei|
l
матрицы S−1 можно взять 1sl .
В методе Голдфельда—Квандта требуется дополнительно получить оценку дис- персии для пропущенной средней части наблюдений. Эту оценку можно получить непосредственно по остаткам пропущенных налюдений или как среднее (s2 +s2)/2.
1 2
Если точный вид гетероскедастичности неизвестен, и, как следствие, взвешенный МНК неприменим, то, по крайней мере, следует скорректировать оценку ковариа- ционной матрицы оценок параметров, оцененных обычным МНК, прежде чем про- верять гипотезы о значимости коэффициентов. (Хотя при использовании обычного МНК оценки будут менее точными, но как уже упоминалось, они будут несмещенны- ми и состоятельными.) Простейший метод коррекции состоит в замене неизвестной
ковариационной матрицы ошибок σ2Ω на ее оценку S2 , где S2 — диагональная
i
ной матрицы a (оценка Уайта или устойчивая к гетероскедастичности оценка):
(ZrZ)−1 ZrS2Z (ZrZ)−1 .
Автокорреляция ошибок 265