23. Оценка максимального правдоподобия коэффициентов регрессии
Наряду с методом наименьших квадратов (МНК) возможен и другой подход к оцениванию параметров линейного регрессионного уравнения по данным наблюдений - метод максимального правдоподобия. Рассмотрим его применение к оцениванию параметров парной регрессии. Предположим, что мы ищем параметры нормальной линейной регрессионной модели
yt = a + bxt + εt Ошибки регрессии εt независимы и распределены по нормальному закону: εt ~ N(0,σ2), или, что является эквивалентной записью.
Y ~ N(a + bX, σ2). Имея набор наблюдений ( xt ,yt), t = 1,..., n, мы можем попытаться ответить на вопрос: при каких значениях параметров а, b, σ2 модели вероятность получить этот набор наблюдений наибольшая? Другими словами, каковы наиболее вероятные значения параметров модели для данного набора наблюдений?
Чтобы ответить на этот вопрос, составим функцию правдоподобия, равную произведению плотностей вероятности отдельных наблюдений (мы считаем все εt независимыми):
где р обозначает плотность вероятности, зависящую от xt, yt и параметров а
b, σ2 . Чтобы найти наиболее правдоподобные значения параметров, нам необходимо найти такие их значения, при которых функция правдоподобия L достигает своего максимума. Так как функции L и lnL одновременно достигают своего максимума, достаточно искать максимум логарифма функции правдоподобия
Необходимые условия экстремума функции lnL имеют вид:
Решением системы уравнений являются оценки максимального правдоподобия.
Отметим, что оценки максимального правдоподобия (ML) параметров a, b совпадают с оценками метода наименьших квадратов (OLS). Это легко видеть из того, что уравнения совпадают с соответствующими уравнениями метода наименьших квадратов. Оценка максимального правдоподобия для σ2 не совпадает с (OLS)-оценкой σ2
которая, как мы знаем, является несмещенной оценкой дисперсии ошибок. Т.о.,
Является смещенной, но, тем не менее, состоятельной оценкой σ2
24. Гетероскедастичность и ее последствия. Тесты на гетероскедастичность. Метод взвешенных наименьших квадратов
В реальных эконометрических измерения, любая из гипотез, лежащих в обосновании линейной регрессионной модели, может быть нарушена. Так применение нелинейной регрессии «отменяет» первую гипотезу о линейности спецификации модели. При нарушении принципа независимости регрессоров (вторая гипотеза) получаем проблемы с мультиколлинеарностью.
Рассмотрим проблемы, возникающие при нарушениях третьей гипотезы, о независимости дисперсии ошибок от значения регрессора и о некоррелирован-ности ошибок регрессии между собой. Нарушение первого из этих принципов называют гетероскедастичностью, а второго автокорреляцией ошибок.
Наличие гетероскедастичности может в отдельных случаях привести к смещенности оценок коэффициентов регрессии, хотя несмещенность оценок коэффициентов регрессии в основном зависит от соблюдения второй предпо-сылки МНК, т.е. независимости остатков и величин факторов. Гетероскеда-стичность будет сказываться на уменьшении эффективности оценок bi. В част-ности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии Sb, предполагающей единую дисперсию ос-татков для любых значений фактора.
С этой целью рекомендуется использовать обобщенный метод наимень-ших квадратов, который эквивалентен обыкновенному МНК, примененному к преобразованным данным.
Чтобы убедиться в необходимости использования обобщенного МНК, обычно не ограничиваются визуальной проверкой гетероскедастичности, а про-водят ее эмпирическое подтверждение.
При малом объеме выборки, что наиболее характерно для эконометриче-ских исследований, для оценки гетероскедастичности может использоваться метод Гольдфельда – Квандта, разработанный в 1965 г. Гольдфельд и Квандт рассмотрели однофакторную линейную модель, для которой дисперсия остат-ков возрастает пропорционально квадрату фактора. Чтобы оценить нарушение гомоскедастичности, они предложили параметрический теcm, который вклю-чает в себя следующие шаги.
Упорядочение п наблюдений по мере возрастания переменной х.
Исключение из рассмотрения С центральных наблюдений; при этом (п – С)/2 > р, где р — число оцениваемых параметров.
Разделение совокупности из (п – С) наблюдений на две группы (соответ-ственно с малыми и большими значениями фактора х) и определение по каждой из групп уравнений регрессии.
Определение остаточной суммы квадратов для первой (S1) и второй (S2) групп и нахождение их отношения: R= S1 / S2
При выполнении нулевой гипотезы о гомоскедастичности отношение R будет удовлетворять F-критерию с (п - С - 2р) / 2 степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F -критерия тем более нарушена предпосылка о равенстве дисперсий остаточных величин.
При нарушении гомоскедастичности и наличии автокорреляции ошибок рекомендуется традиционный метод наименьших квадратов (известный в английской терминологии как метод OLS - Ordinary Least Squares) заменять обобщенным методом, т.е. методом GLS (Generalized Least Squares).
Обобщенный метод наименьших квадратов применяется к преобразованным данным и позволяет получать оценки, которые обладают не только свойством несмещенности, но и имеют меньшие выборочные дисперсии. Рассмотрим использование обобщенного МНК для корректировки гетероскедастичности.
Как и раньше, будем предполагать, что среднее значение остаточных величин равно нулю. А вот дисперсия их не остается неизменной для разных значений фактора, а пропорциональна величине Кt, т.е.
где - дисперсия ошибки при конкретном t-м значении фактора; - постоянная дисперсия ошибки при соблюдении предпосылки о гомоскедастичности остатков; Кt - коэффициент пропорциональности, меняющийся с изменением величины фактора, что и обусловливает неоднородность дисперсии.
При этом предполагается, что неизвестна, а в отношении величины К выдвигаются определенные гипотезы, характеризующие структуру гетероске-дастичности.
В общем виде для уравнения yt = a + bxt + εt при модель примет вид
В ней остаточные величины гетероскедастичны. Предполагая в них отсутствие автокорреляции, можно перейти к уравнению с гомоскедастичными остатками, поделив все переменные, зафиксированные в ходе t-то наблюдения на . Тогда дисперсия остатков будет величиной постоянной, т.е.
Иными словами, от регрессии у по х мы перейдем к регрессии на новых переменных: и . Уравнение регрессии примет вид:
По отношению к обычной регрессии уравнение с новыми, преобразованными переменными представляет собой взвешенную регрессию, в которой переменные у и х взяты с весами .
Оценка параметров нового уравнения с преобразованными переменными приводит к взвешенному методу наименьших квадратов, для которого необходимо минимизировать сумму квадратов отклонений вида
При обычном применении метода наименьших квадратов уравнению линейной регрессии для переменных в отклонениях от средних уровней коэффициент регрессии b определяется по формуле
Для нашего случая эта формула примет вид
Как видим, при использовании обобщенного МНК с целью корректировки гетероскедастичности коэффициент регрессии b представляет собой взвешенную величину по отношению к обычному МНК с весами 1/К.
Аналогичный подход возможен не только для уравнения парной, но и для множественной регрессии. Предположим, что рассматривается модель вида
для которой дисперсия остаточных величин оказалась пропорциональна . Kt - представляет собой коэффициент пропорциональности, принимающий различные значения для соответствующих t-х значений факторов х1 и х2. Ввиду того, что рассматриваемая модель примет вид
где ошибки гетероскедастичны
Для того чтобы получить уравнение, где остатки гомоскедастичны, перейдем к новым преобразованным переменным, разделив все члены исходного уравнения на коэффициент пропорциональности К. Уравнение с преобразованными переменными составит
Это уравнение не содержит свободного члена. Вместе с тем, найдя переменные в новом преобразованном виде и применяя обычный МНК к ним, получим иную спецификацию модели
Параметры такой модели зависят от концепции, принятой коэффициента пропорциональности Kt . В эконометрических исследованиях довольно часто выдвигается гипотеза, что остатки пропорциональны значениям фактора. Так, если в уравнении y = a + b1 x1 + b2 x2 + … + bp xp + E предположить, что Е = εх1, т.е. K=х1, то обобщенный МНК предполагает оценку параметров следующего трансформированного уравнения:
Применение в этом x1 случае обобщенного МНК приводит к тому, что наблюдения с меньшими значениями преобразованных переменных х/K имеют при определении параметров регрессии относительно больший вес, чем с первоначальными переменными. Вместе с тем следует иметь в виду, что новые преобразованные переменные получают новое экономическое содержание и их регрессия имеет иной смысл, чем регрессия по исходным данным.