- •4.Гетероскедастичность
- •Для всех наблюдений.
- •Обнаружение гетероскедастичности
- •Тест ранговой корреляции Спирмена
- •Тест Голдфелда—Квандта
- •Тест Уайта
- •Взвешенный метод наименьших квадратов
- •5. Автокоррелироавнность случайного члена. Автокорреляция и связанные с ней факторы
- •Обнаружение автокорреляции первого порядка. Критерий Дарбина—Уотсона
- •1, Модель парной регрессии
- •2. Многомерная линейная регрессия.
- •Мультиколлинеарность
- •Разный масштаб признаков
- •Частная корреляция
- •3. Фиктивные переменные
- •6.Оценивание систем одновременных уравнений
1, Модель парной регрессии
Линейная регрессия находит широкое применение в эконометрике в виде чёткой экономической интерпретации её параметров.
Линейная регрессия сводится к нахождению уравнения вида (1) или (2). Уравнение (1) позволяет по заданным значениям фактора х иметь теоретические значения результативного признака, подставляя в него фактические значения фактора х. Уравнение (2) рассматривает у как зависимую переменную, состоящую из двух составляющих:
1) неслучайную составляющую , где выступает как объясняющая (независимая) переменная, а и - параметры уравнения;
2) случайного члена - (возмущение)
x |
x1 |
x2 |
x3 |
x4 |
y |
y1 |
y2 |
y3 |
y4 |
Если , то получим точки .
Случайный член существует по ряду причин:
1) невключение объясняющих переменных (есть ещё другие факторы, влияющие на у), но измерить их невозможно (например, психологические);
2) агрегирование переменных (объединение некоторого числа микроэкономического соотношения);
3) неправильное описание структуры модели (временные ряды зависят не только от t, но и от t-1);
4) неправильная функциональная спецификация (не линейная, а какая-то другая);
5) ошибки измерения.
εi = сумма всех этих факторов.
Рассмотрим задачу определения параметров модели, то есть коэффициентов и - оценке параметров модели.
Оценки параметров линейной регрессии могут быть найдены разными методами, например можно построить поле корреляции, взять 2 точки и провести через них прямую.
оценка параметра , то есть отрезок отсекаемой прямой на оси ;
, - угловой коэффициент прямой,
- оценка параметра .
Необходимо с самого начала признать, что мы не сможем рассчитать истинные значения и . Мы можем получить только оценки, и они могут быть или хорошими или плохими. Построение линии регрессии на глаз является достаточно субъективным.
Отрезок ε1 (остаток), ε2. Остатки должны быть min. .
Существует целый ряд критериев:
1. МНК min суммы квадратов отклонений.
2. Минимизируется сумма модулей отклонений.
3. Функция Хубера , где - «мера» с которой отклонение входит в функционал.
Рассмотрим достоинства и недостатки перечисленных функционалов.
1) сумма квадратов отклонений:
«+» лёгкость вычисления, хорошие статистические свойства, простота математических выводов делают возможным построить развитую теорию, позволяющую провести тщательную проверку различных статистических гипотез;
«-» чувствительность к выбросам;
2) сумма модулей отклонений:
«+» робастость, то есть нечувствительность к выбросам;
«-» сложность вычислительной процедуры, большим отклонениям надо придавать больший вес (лучше 2 отклонения по 1, чем одно 0 и 2), неоднозначность, то есть разным значениям параметра могут соответствовать одинаковые суммы модулей отклонений.
Функция Хубера является попыткой совместить достоинства двух первых функционалов.
Рассмотрим МНК:
Из множества линий регрессии на графике выбирается та, сумма квадратов отклонений была минимальной.
Чтобы найти min надо взять частные производные по и функции S и приравнять их нулю.
Получим систему нормальных уравнений для оценки параметров a и b. (3)
(3)
Решая систему (3) любым методом: исключение, Крамера (через определители), найдем оценки параметров a и b. МНК даёт самые точные несмещённые и эффективные оценки и .
Можно воспользоваться формулами: если 1 уравнение системы (3)
- ковариация признаков;
- дисперсия признака х.
Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата (у) с изменением фактора х на одну единицу. Зависимость между расходами на питание (у) и располагаемым личным доходом (х) за период 1959 по 1983 г. В США описывается уравнением регрессии.
, х увеличился на 1 единицу, а у на 0,093ед.
Х увеличился на 1 млрд $, то у (расходы на питание) возрастут на 93 млн $ (т. е. из 1 $ дохода 9,3 цента – на питание).
Параметр а, . Уравнение регрессии теряет смысл, «а» - не имеет экономического содержания. Интерпретировать можно только знак при параметре а. - относительное изменение параметра у, происходит медленнее, чем изменение фактора или вариации результата.
Коэффициенты вариации ; ;
Если , то ;
Если , то
Возможность чёткой экономической интерпретации коэффициента регрессии сделала линейное уравнение регрессии достаточно распространенным в экономических исследованиях.
Статистические свойства оценок метода наименьших квадратов.
Поскольку полученные оценки a и b коэффициентов линейной регрессии опираются на статистические данные и являются случайными величинами, то естественно установить свойства названных оценок; как случайных величин. Более того, не выяснив этих свойств, невозможно сделать обоснованные выводы относительно качества и надежности полученных оценок. Необходимо, в частности, определить такие их статистические характеристики, как математическое ожидание и дисперсия. К желательным свойствам оценок относятся также несмещенность и состоятельность. Далее, если бы удалось установить вид распределения (плотности распределения) оценок, можно было бы построить доверительные интервалы для истинных значений параметров регрессии (т. е. получить интервальные оценки коэффициентов) и реализовать процедуры проверки гипотез относительно их значений. Важную роль играет также изучение статистических свойств остатков оцененной регрессии.
Все эти задачи можно решить, основываясь на некоторых правдоподобных теоретических предпосылках (гипотезах) модели, выполнение которых на практике подлежит проверке с помощью специально разработанных для этого статистических процедур.
Основные предпосылки РА ( εi – случайная величина, xi – неслучайная величина):
Предположение относительно независимых переменных
В дальнейшем будем допускать, что х — детерминированная (неслучайная) величина, т. е. значения независимых переменных заранее известны. Данное предположение (предпосылка), к сожалению, на практике при моделировании реальных социально-экономических процессов часто не выполняется. Это связано с тем, что здесь в качестве независимых переменных часто выступают стохастические неконтролируемые величины, такие как интенсивность потока покупателей (в одном из примеров главы 1) или рыночный индекс в рыночной модели, который также является случайной величиной. При нарушении вышеупомянутой предпосылки ряд «хороших» свойств оценок сохраняется (при некоторых условиях), но в отдельных случаях требуется корректировка модели (оценок).
Предположения относительно случайной составляющей модели
При выполнении предпосылки относительно переменной х статистические свойства оценок параметров и зависимой переменной, а также, остатков, целиком определяются вероятностными свойствами случайной составляющей регрессионной модели. Относительно случайной составляющей в классическом регрессионном анализе предполагают выполнение следующих условий, которые называются условиями Гаусса-Маркова и играют ключевую роль при изучении свойств оценок, полученных по методу наименьших квадратов:
1. Первое условие заключается в том, что математическое ожидание случайной составляющей во всех наблюдениях должно быть равно нулю. Формально это записывается так
М{εt} = 0, для всех t = 1,2,...,п.
Смысл этого условия заключается в том, что не должно быть систематического смещения случайной составляющей. В линейной регрессии систематическое смещение линии регрессии учитывается с помощью введения параметра смещения εi и поэтому данное условие можно считать всегда выполненным.
2. Дисперсия случайной составляющей постоянна для всех наблюдений (т. е. не зависит от номера наблюдения). Это условие записывается так:
D{εt}=M{εt2}=σ2,
где дисперсия σ2 — величина постоянная.
Это свойство дисперсии ошибок называется гомоскедастичностью (однородностью) (запомните этот термин).
Выполнение условия гомоскедастичности при построении конкретных эконометрических моделей необходимо проверять с помощью специальных статистических процедур. Поскольку истинные дисперсии ошибок неизвестны, их можно лишь приближенно оценить на основе наблюдаемых (точнее, вычисляемых) значений остатков модели в каждом наблюдении. Таким образом, и свойство гомоскедастичности на практике проверяется (диагностируется) на самом деле для остатков модели, а не для истинных ошибок, и может выполняться лишь приближенно. Если условие гомоскедастичности не выполнено (т. е. дисперсия ошибок не постоянна), то говорят, что имеет место условие гетероскедастичности (запомните этот термин). Понятия «гомоскедастичность» и «гетероскедастичность» являются ключевыми в эконометрике.
Графическая иллюстрация понятий «гомоскедастичность» и «гетероскедастичность»
Рис. 2.6а
Гомоскедастичность Рис.2.6б Рис. 2.6в
Гетероскедастичность Гетероскедастичные остатки
3. Случайные составляющие модели для различных наблюдений некоррелированы. Это условие записывается таким образом:
М{εi, εj}=0, для всех i≠j (i, j=1,2,…,n)
Выполнение данного условия означает отсутствие систематической (статистической) связи между значениями случайного члена в любых двух наблюдениях. Это свойство на практике также проверяется с помощью статистических процедур на основе анализа остатков модели.
Если оно нарушается, то процедура оценки параметров должна быть скорректирована.
4. Четвертое условие Гаусса-Маркова записывается так:
M{xI, εj}=0, для всех i и j,
и означает, что объясняющие переменные и случайные составляющие некоррелированы для всех наблюдений. Ранее мы предположили, что объясняющая переменная в модели не является стохастической. В этом случае четвертое условие выполняется автоматически.
Регрессионная модель с детерминированными регрессорами, удовлетворяющая предпосылкам Гаусса-Маркова, называется классической регрессионной моделью.
Дополнительное предположение о нормальном распределении ошибок
При выполнении условий Гаусса-Маркова, оценки наименьших квадратов обладают такими свойствами, как несмещенность, состоятельность и оптимальность (эффективность). Однако, для построения доверительных интервалов и проверки гипотез относительно истинных значений параметров, необходимо дополнительное предположение о распределении случайной составляющей εi. В классическом регрессионном анализе допускается, что эта составляющая распределена по нормальному закону и тогда модель называют классической нормальной линейной регрессией. (1-4) достаточно, а 5 необходимо для оценки точности уравнения регрессии.
Данное предположение является, пожалуй, наиболее спорным. Дело в том, что предположение о нормальности можно считать правдоподобным, если значения случайной величины порождаются в результате воздействия большого количества независимых случайных факторов, каждый из которых не обязательно имеет нормальное распределение. Примером такого воздействия является так называемое броуновское движение (хаотичное движение малых частиц в жидкости как результат совокупного воздействия на частицу — ударов, соударения — большого количества молекул жидкости).
В экономических процессах распределения случайных величин, как правило, отличаются от нормального, поскольку механизм их порождения более сложный. Тем не менее, чаще всего именно нормальное распределение используется в эконометрических исследованиях (как, впрочем, и в статистике). Это обусловлено следующими причинами. Во-первых, нормальный закон действительно часто достаточно хорошо (с приемлемой для практики точностью) аппроксимирует (приближенно описывает) распределение случайной составляющей. Во-вторых, что очень важно, на основе нормального распределения можно получить процедуры проверки гипотез и построения доверительных интервалов, удобные для расчетов и применения на практике. В любом случае, не изучив базовые результаты (процедуры), основанные на предположении нормальности, нельзя продвигаться на более высокий уровень изучения и применения более реалистичных моделей, не использующих эту предпосылку и позволяющих получать более точные результаты.
Замечание. Если случайные величины в модели распределены по нормальному закону, то из свойств некоррелированности в третьем и четвертом условиях Гаусса-Маркова следует и независимость соответствующих случайных величин.
Оценкой модели является уравнение:
а - оценка они определяются МНК
b - оценка
Несмещенная оценка остаточной дисперсии учитывает воздействие факторов и ошибок неучтенных в модели, определяется с помощью дисперсии возмущения (ошибок) или остаточной дисперсии σ2, - это выборочная остаточная дисперсия.
Являются ли оценки a, b и s2 наилучшими выясняется по условиям Гаусса-Маркова: если регрессионная модель удовлетворяет предпосылкам 1-4, то оценки a и b имеют наименьшую дисперсию в классе линейных несмещенных оценок.
Свойства выборочных вариаций (дисперсий) и ковариаций.
Для дальнейшего изложения нам понадобится установить ряд правил, которые можно использовать при преобразовании выражений, содержащих выборочные вариации и ковариации.
Пусть а — некоторая постоянная, а х, у, z — переменные, принимающие в i-м наблюдении значения xi,yi,zi,i=1,..., п (n — количество наблюдений). Тогда а можно рассматривать как переменную, значение которой в i-м наблюдении равно а, и
Соv(х, а) =
откуда следует свойство:
1. Cov(x, a) = 0.
Далее, нетрудно видеть, что имеют место равенства:
2. Cov(x, у) = Cov(y, х);
3. Cov(x, x) = Var(x).
Кроме того,
Cov(ax, y) = =
откуда следует свойство:
Cov(ax. у) = aCov(x, у).
Далее, имеем
Cov(xy,z) = =
так что можно сформулировать еще одно свойство:
5. Cov(x. у + z) =Cov(x, у) + Cov(x,z).
На основе вышеназванных свойств находим, что
6. Var(a)=0 ,
т. е. постоянная не обладает изменчивостью и
7. Var(ax)=a2Var(x).
Таким образом, при изменении единицы измерения переменной в раз, во столько же раз преобразуется и величина стандартного отклонения этой переменной (напомним, что стандартное отклонение равно квадратному корню из дисперсии).
8. Var(x+a)=Var(x)
т. е. сдвиг начала отсчета не влияет на вариацию переменной.
Далее, имеем:
Var(x+y)=Cov(x+y,x+y)= Cov(x, х) + Cov(x, у) + Cov(y, x) + Cov(x, у).
Таким образом, доказано свойство
9.Var(x+y)=Var(x)+Var(y)+2Cov(x,y),
означающее, что вариация суммы двух переменных отличается от суммы вариаций этих переменных на величину, которая равна удвоенному значению ковариации между названными переменными.
Свойства остатков
Теперь установим почти очевидные соотношения, которые следуют из условии минимума критерия наименьших квадратов. Определим величину
ŷi=a +bx,
— оценку переменной у при оптимальных значениях коэффициентов регрессии и фиксированном значении х в i-ом наблюдении. Такую оценку называют прогнозом зависимой переменной. Тогда, очевидно, ошибка модели в i-ом наблюдении будет равна εi=yi - ŷi и из условия следует, что
т. е сумма квадратов ошибок оценок переменной у (остатков модели) при оптимальных параметрах регрессии а и b равна нулю.
Далее, вытекает, что
т. е., при оптимальных параметрах регрессии ошибки ортогональны наблюдениям независимой переменной.
Несмещенность МНК-оценок
Статистическая оценка некоторого параметра называется несмещенной, если ее математическое ожидание равно истинному значению этого параметра.
Для случая парной линейной регрессии это означает, что опенки а и b будут несмещенными, если
М{а} = α,
M{b}=β.
Докажем это свойство. Используя правила преобразования выборочных ковариаций, можно записать:
Cov(x, у) = Cov(x[a + βx + и]) =
= Cov(x, а) + Cov(x, βх) + Cov(x, и) = βVar(x) + Cov(x, и).
Применив формулу для коэффициента, а также полученное выше соотношение, составим выражение:
Далее, поскольку х — неслучайная величина, будем иметь:
и, таким образом, оценка b является несмещенной.
Несмещенность оценки а следует из цепочки равенств:
М{а}=
Замечание. Свойство несмещенности оценок можно доказать и при более слабой форме 4-го условия Гаусса-Маркова, когда х—случайная, но некоррелированная со случайной переменной ε, величина.
Состоятельность оценок
Свойство состоятельности оценок заключается в том, что при неограниченном возрастании объема выборки, значение оценки должно стремиться (по вероятности) к истинному значению параметра, а дисперсии оценок должны уменьшаться и в пределе стремиться к нулю. Дисперсии оценок коэффициентов регрессии определяются выражениями:
;
Или, используя равенство , можно записать в виде:
Вывод: чем больше число наблюдений n, тем меньше будут дисперсии ошибок.
Эффективность (оптимальность) оценок
До сих пор мы говорили об оптимальности оценок в смысле минимума квадратичного критерия. Оказывается, что при выполнении условий Гаусса-Маркова они являются также оптимальными в смысле минимума дисперсии.
Оценка называется эффективной, если она имеет минимальную дисперсию по сравнению с другими оценками заданного класса.
Таким образом, оценки наименьших квадратов являются эффективными, т. е. наилучшими в смысле минимума диспепсии, в классе всех линейных несмещенных оценок параметров.
Рассмотрим функции плотности вероятности и одиночного наблюдения и выборочного среднего.
Величина х считается распределённой. Распределения и симметрично относительно -теоретического среднего. Разница в том, что распределение - уже и выше. Величина , ближе к , чем значение единичного наблюдения, поскольку её случайная составляющая , есть среднее от чисто случайных составляющих в выборке и они как-бы «гасят» друг друга при расчёте среднего.
Вычтем из (1) (2):
, то есть оценка теоретической дисперсии зависит от (и только от) числа случайной составляющей наблюдений х в выборке. Поскольку эти составляющие меняются от выборки к выборке, так от выборки к выборке меняется и величина оценки .
Несмещённость.
Поскольку оценки являются случайными переменными, их значения лишь по случайному совпадению могут в точности равняться характеристикам генеральной совокупности. Обычно будет присутствовать определённая ошибка, которая может быть большой, или малой, положительной или отрицательной, в зависимости от чисто случайных составляющих величин х в выборке.
Желательно, чтобы оценка в среднем за достаточно длительный период была аккуратной. То есть математическое ожидание оценки = соответствующей характеристике генеральной совокупности. Такая оценка называется несмещённой. Если это не так, то оценка называется смещённой и разница, между её М. О. и соответствующей теоретической характеристикой генеральной совокупности называется смещением.
Полученная оценка – не единственно возможная несмещённая оценка . Рассмотрим выборку из всего двух наблюдений и . Любое взвешенное среднее наблюдений и было бы несмещённой оценкой, если сумма весов равна 1. Докажем, это. Рассмотрим обобщённую форму оценки:
,
то ,
z – несмещенная оценка.
Эффективность.
Несмещённость – желательное свойство оценок, но не единственное свойство. Ещё одна их важная сторона – это надёжность. Конечно, немаловажно, чтобы оценка была точной в среднем за длительный период. Пусть имеем две оценки теоретического среднего, рассчитанных на основе одной и той же информации. Поскольку функция плотности вероятности для В более «сжата», чем для А, с её помощью мы скорее получим более точное значение. Таким образом оценка В более эффективна. Эффективна та оценка, дисперсия которой min.
Противоречия между несмещённостью и минимальной дисперсией.
Для оценки желательна несмещённость и наименьшая возможная дисперсия. Эти критерии совершенно различны, и иногда они могут противоречить друг другу.
А – несмещённая
у В меньшая дисперсия.
Данный выбор зависит от обстоятельств. Если возможные ошибки вас не очень тревожат при условии, что за длительный период они «погасят» друг друга, то тогда выбираем А.
С другой стороны, если для вас приемлемы малые ошибки, но неприемлемы большие, то вам следует выбрать В.
Выбор определяется функцией потерь, стоимостью сделанной ошибки как функции её размера. Обычно выбирают оценку, дающую наименьшее ожидание потерь, и делается это путём взвешивания функции потерь по функции плотности вероятности.
Влияние увеличения размера выборки на точность оценок.
При увеличении n оценка становится более точной. В единичном эксперименте большая по размеру выборка необязательно даст более точную оценку, всегда может присутствовать элемент везения. Так как дисперсия , то она тем меньше, чем больше n.
Влияние увеличения размера выборки на распределение .
P = предел по вероятности.
Состоятельность.
Если предел по вероятности равен истинному значению характеристики генеральной совокупности, то эта оценка называется состоятельной. Таким образом, состоятельной называется такая оценка, которая даёт точное значение для большой выборки независимо от входящих в неё конкретных наблюдений.
Необходимо иметь в виду, что состоятельная оценка в принципе может на малых выборках работать хуже, чем состоятельная (иметь большее СКО) и поэтому требуется осторожность.