Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Эконометрика. Начальный курс

.pdf
Скачиваний:
15
Добавлен:
20.11.2023
Размер:
21.93 Mб
Скачать

1.3. Типы данных

31

и др.) по разным фирмам в один и тот же момент времени (про­ странственный срез). Другим примером могут являться данные по курсам покупки/продажи наличной валюты в какой-то день по обменным пунктам в Москве.

Примерами временных данных могут быть ежеквартальные данные по инфляции, средней заработной плате, национально­ му доходу, денежной эмиссии за последние годы или, например, ежедневный курс доллара США на ММВБ, цены фьючерсных контрактов на поставку доллара США (МТБ) и котировки ГКО (ММВБ) за два последних года.

Отличительной чертой временных данных является то, что они естественным образом упорядочены по времени, кроме того, наблюдения в близкие моменты времени часто бывают зависи­ мыми.

Глава 2

Модель парной регрессии

2.1.Подгонка кривой

Пусть у нас есть набор значений двух переменных Xt, Yt, t = можно отобразить пары (Xt,Yt) точками на плоскости

X - Y (рис. 2.1).

Предположим, что нашей задачей является подобрать («по­ догнать») функцию У = f {X) из параметрического семейства функций /(X,/?), «наилучшим» способом описывающую зависи­ мость У от X. Подобрать функцию в данном случае означает

32

2.1. Подгонка кривой

33

выбрать «наилучшее» значение параметра 0. (Примером парамет­ рического семейства может служить семейство линейных функ­ ций f( X ,0 ) = a + 0X.)

В качестве меры отклонения функции f(X ,0) от набора на­ блюдений можно взять:

1)

 

П

-

/(Я*,/3))2,

сумму квадратов отклонений F —

 

 

ы

 

 

2)

 

п

-

f ( X t,0)\, или, в

сумму модулей отклонений F = £

 

 

ы

 

 

 

общем случае,

 

 

3)

П

g(Yt - f ( X t,0)), где д — «мера», с которой отклоне-

F = £

 

t=i

f { X tf0) входит в функционал F.

 

 

ние Yt -

 

Примером такой «меры» может служить функция Хубера, ко­ торая при малых отклонениях квадратична, а при больших линей­ на:

Рассмотрим достоинства и недостатки перечисленных функ­ ционалов.

Сумма квадратов отклонений

Плюсы метода:

-легкость вычислительной процедуры;

-хорошие статистические свойства, простота математических выводов делают возможным построить развитую теорию, позволяющую провести тщательную проверку различных статистических гипотез;

34

Гл 2 Модель парной регрессии

минусы метода:

- чувствительность к «выбросам» (outliers).

Сумма модулей отклонений

Плюсы метода:

- робастность, т. е. нечувствительность к выбросам; минусы метода:

-сложность вычислительной процедуры;

-возможно, большим отклонениям надо придавать больший вес (лучше два отклонения величиной 1, чем два отклонения величиной 0 и 2);

-неоднозначность, т.е. разным значениям параметра /3 мо­ гут соответствовать одинаковые суммы модулей отклонений (см. упражнение 2.И).

Функция Хубера является попыткой совместить достоинства двух первых функционалов.

Вопрос. Что будет, если взять в качестве функционала

—с с

где g(X) = X 2 для |Х| < с, и д(Х) = 0 для |Х| > с? (Pindyck, Itubinfeld, 1991, п.1.1, рис. 1.3b, сгр.6).

2.2.Метод наименьших квадратов (МНК)

Рассмотрим задачу «наилучшей» аппроксимации набора наблю­

дений X t, У/, t =

линейной функцией f ( X ) = а + ЬХ

2.2. Метод наименьших квадратов (МНК)

35

в смысле минимизации функционала

 

^ = E ( ^ t - ( a + bXt))2.

(2.1)

t=i

 

Запишем необходимые условия экстремума (First Order Сопditition, FOC):

а р

п

f)F

’*

 

 

= - 2 Y J X t - a - b X t ) = 0 , ^

= ^ Y ^ X t M - a - b X t ) = 0,

ИЛИ

п

п

 

 

 

 

 

 

- a - 6Xt) = 0 ,

£ а

д - a - 6Xt) = 0.

(2.2)

 

t=i

t=i

 

 

Раскроем скобки n получим стандартную форму нормальных уравнений (для краткости опустим индексы суммирования у зна­ ка суммы 53):

о n + b £

x t = £ V t, О £ x t + b

£ x t2 = £

x ty,. (2.3)

Решения а, Ь системы (2.3) можно легко найти:

 

* Z X , Y , - ( Z X , ) ( Z Y , )

Cov(X, Y)

(2.4а)

 

«ЕЛ?-(£*)’

V"(X)

 

'

 

 

 

(2.46)

Замечание 1.

Из первого уравнения системы (2.3) следует

 

F = a + bX,

 

(2.5)

т.е. уравнение прямой линии У = а + 6Х, полученное в результа­ те минимизации функционала (2.1), проходит через точку (X ,F ). Здесь через X и F обозначены выборочные средние значения пе­ ременных X t и Yt: X = (l/n)53X t, F = (1/п)53У -

Замечание 2. Мы предполагаем здесь, что среди X t, t = 1 ,..., п, не все числа одинаковые, т.е. Var(X) Ф 0 и (2.4а) имеет смысл.

36 Гл. 2. Модель парной регрессии

Уравнения в отклонениях

Обозначим через xt = X t X, yt = У* —У отклонения от средних по выборке значений X t и Yu X — (1/п) 53 X*, У = (1/п) 53 Vi.

(Проверьте, что х = у = 0.)

Решим теперь ту же задачу: подобрать линейную функцию /(х) = a + bx, минимизирующую функционал

F = ~ (а + btt))2- t=i

Из геометрических соображений ясно, что решением задачи бу­ дет та же прямая на плоскости (х,у), что и для исходных дан­ ных Xt, Yt. В самом деле, в силу (2.5) переход от X , Y к от­ клонениям х, у означает лишь перенос начала координат в точ­ ку (X , 7 ). Вычисления, которые необходимо проделать для ре­ шения задачи, вполне аналогичны предыдущим (с заменой X , Y на х, у). Заменив в (2.4а), (2.46) X t, Yt на xt, yt и учитывая, что х = у — (1/п) 53xt = (1/п) 53У* = 0, получим

,

t £ * *

£ №

- Х ) ( У , - 7 )

, . г,

°

- 0'

^ (

х Г - Х ) Т —

(26>

Таким образом, мы получили другое выражение для углового коэффициента прямой Ъ(ср. (2.4а)).

Геометрическая интерпретация

Рассмотрим n-мернос векторное пространство Rn, снабженное стандартным евклидовым скалярным произведением: (х , у ) = х 'у = 53 X tYt, где х' — транспонированная матрица, т. е. в данном случае 1 х п вектор-строка. Пусть

х ;

V,'

Т

V

X = . У =

. 1=

,

е = j

Хп.

Уп.

1

.« В .

у - аг + bx, е = у - у,

где а, Ъ— числовые коэффициенты, у — вектор, лежащий в дву­ мерной гиперплоскости я, натянутой на векторы t, х. (Здесь мы

2.2. Метод наименьших квадратов (МНК)

37

снова предполагаем, что векторы ги х неколлинеарны; ср. Заме­ чание 2, стр. 35.) Поставим задачу: найти такие а, Ь, чтобы вектор е имел наименьшую длину. (Другими словами, мы хотим наилуч­ шим образом аппроксимировать вектор у вектором у, лежащим в подпространстве я.) Очевидно, решением является такой век­ тор у, для которого вектор е перпендикулярен плоскости я. Для этого необходимо и достаточно, чтобы вектор е был ортогонален векторам г и *, порождающим плоскость тг:

г'е = 0

«=>

£ е‘ = О

<=s>

HQ 1* - a - b X t) = 0,

.

х'е = 0

 

£ * t e t = 0

«=»

£ X t(yt - a - b X t) = 0.

 

Нетрудно заметить, что мы опять получили необходимые условия экстремума (2.2).

Матричная форма записи

Обозначим теперь через X матрицу размерности п х 2

‘1

* г

 

v r

X =

 

 

a

х п

. У -

, /3 = ь

1

 

У*

— 2 x 1 матрица (вектор) коэффициентов, е = у - Х/3, условие (2.7) ортогональности вектора е плоскости тг теперь записывается

как Х 'е = О, или Х ' ( у

— Х(3) = Х 'у — X 'X fl =

О. Отсюда

получаем Х 'Х (5 — Х 'у , или

 

3

= (•Х ' Х ) - хХ ' у ,

(2.8)

в предположении, конечно, что векторы *, х линейно независимы и, следовательно, матрица Х ' Х обратима.

Нетрудно проверить, что (2.8) совпадает с (2.4а), (2.46):

3 = { Х ' Х Г ' Х ' у ' п

Z X , ' -1

£ « 1

 

£*?J

E * .n J

Га " ' ' ' "

Отметим, что матрица Х ' Х невырождена, так как матрица X имеет максимальный ранг 2 (см. Замечание 2, стр. 35, см. при­ ложение ЛА, п. 10).

38

Гл. 2. Модель парной регрессии

2.3.Линейная регрессионная модель с двумя переменными

Впредыдущем разделе нас интересовало только качество подгон­ ки кривой. Теперь добавим к постановке задачи некоторые стати­ стические свойства данных.

На самом деле, для одного X мы можем наблюдать разные значения У.

Пример 1. X - возраст индивидуума, У — его зарплата.

Пример 2. X -• доход семьи, У — расходы на питание.

Запишем уравнение зависимости У от Xt в виде

У = а + bXt + £t, t 1 ,..., п,

где Xt — неслучайная (детерминированная) величина, а У, et — случайные величины. У называется объясняемой (зависимой) пе­ ременной, a X t — объясняющей (независимой) переменной или регрессором. Уравнение, приведенное выше, также называется ре-

грессионньш уравнением.

Какова природа ошибки £t ?

Есть две основные возможные причины случайности:

а) Наша модель является упрощением действительности и на самом деле есть еще другие параметры (пропущенные пере­ менные, omitted variables), от которых зависит У. Зарплата, например, может зависеть от уровня образования, стажа ра­ боты, пола, типа фирмы (государственная, частная) и т. п.

б) Трудности в измерении данных (присутствуют ошибки из­ мерений). Например, данные по расходам семьи на питание составляются на основании записей участников опросов, ко­ торые, как предполыается, тщательно фиксируют свои еже­ дневные расходы. Разумеется, при этом возможны ошибки.

Таким образом, можно считать, что £t — случайная величи­ на с некото|Юй функцией распределения, которой соответствует функция распределения случайной величины У.

2.3. Линейная регрессионная модель с двумя переменными

39

Основные гипотезы:

1.Yt = а + bXt + £t, t = 1,.. •,n, — спецификация модели.

2.X t — детерминированная величина; вектор (X i,... , Х„)' не коллинеарен вектору * = (1 ,..., 1)'.

За. Ее* = 0, Е(е*) = V(et) = а 1 — не зависит от t.

3b. E(£t£*) = 0 при t Ф s, некоррелированность ошибок для разных наблюдений.

Часто добавляется условие:

Зс. Ошибки £(, t = 1 ,..., п, имеют совместное нормальное рас­ пределение: £{ ~ N (0,<72).

В этом случае модель называется нормальной линейной ре­ грессионной (Classical Normal Linear Regression model).

Замечание. В случае нормальной линейной регрессионной моде­ ли условие ЗЬ эквивалентно условию статистической независимо­ сти ошибок £t, £, при t ф s (см. приложение МС, п. 4, N4).

Замечание. Позже будет показано, что многие свойства модели сохраняются при замене условий За,Ь на более слабое условие (X может быть случайной величиной):

3'a,b. Cov(Xt,£*) = 0 для всех £,»,

Е(£( | X ) = 0, Е(е? | X ) = а2 при всех t, E(£t£« | X ) = 0 при всех t Ф s.

Обсудим гипотезы, лежащие в основе линейной регрессионной модели.

1. Спецификация модели отражает паше представление о меха­ низме зависимости Yi от X t и сам выбор объясняющей перемен­ ной Xt.

За,Ь. Эти условия в векторной форме могут быть записаны чак:

Ее = О, V(£) = о21п,

40

Гл. 2. Модель парной регрессии

где е (ех,... ,еп)/, 1п — я * п единичная матрица, V($) — п х п матрица ковариаций.

Условие Ее = О означает, что EYt = о + bXt, т.е. при фикси­ рованном Xt среднее ожидаемое значение Yt равно а + bXt.

Условие независимости дисперсии ошибки от номера наблю­ дения (от регрессора X t): Е(е?) = V(et) = о2, t = на­ зывается гомоскедастпичностъю (homoscedasticity); случай, когда условие гомоскедастичности не выполняется, называется гетероскедастичностыо (heteroscedasticity). На рис. 2.2а приведен при­ мер типичной картинки для случая гомоскедастичности ошибок; на рис. 2.26 — пример данных с гетероскедастичными ошибками (возможно, что в этом примере V(et) ~ *?)•

Условие Е (£(£,) = О, t ф S указывает на некоррелированность ошибок для разных наблюдений. Это условие часто нарушает­ ся в случае, когда наши данные являются временными рядами. В случае, когда это условие не выполняется, говорят об автокор- ]>еляцш ошибок (serial correlation).

Для простейшего случая автокорреляции ошибок, когда E(et£t+i) = р ф 0, типичный вид данных представлен на рис. 2.3а (р > 0) и рис. 2.36 < 0).

Отметим, что условия За,Ь можно также написать в терминах зависимой переменной: ЕУ* = a+bXt, V(Vt) = о*, Cov(yt, Y3) = 0, t ^ s .