Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Эконометрика. Начальный курс

.pdf
Скачиваний:
15
Добавлен:
20.11.2023
Размер:
21.93 Mб
Скачать

Упражнения

201

Таблица 6.12

Переменная Описание

пНомер по порядку

distc

Удаленность от центра, км

distm

Удаленность от метро, мин

totsq

Общая площадь квартиры, кв.м

kitsq

Площадь кухни, кв.м

livsq

Площадь комнаты, кв.м

floor

Этаж, 0 —первый или последний, 1 —нет

cat

Категория дома, 1 —кирпичный, 0 — нет

date

Дата рекламного объявления

price

Цена квартиры, тыс. долл.

а) Найдите среднее, стандартное отклонение и другие выборочные статистики переменных. Найдите коэффициенты корреляции пе­ ременных с ценой квартиры. Соответствуют ли полученные зна­ чения экономической интуиции?

б) Исследуйте значимость влияния различных факторов на цену квартиры. (Вы можете брать в качестве зависимой переменной цену квартиры, цену квадратного метра общей площади или их логарифмы.)

в) Есть ли существенная зависимость цены квартиры от расстояния до центра? От расстояния до метро? Как интерпретировать ре­ зультаты?

г) Подберите модель, которая наилучшим способом прогнозирует цену квартиры по имеющимся данным. Проверьте наличие гетероскедастичности.

6.16. Выборка состоит из 70 объявлений о продаже двухкомнатных квартир из газеты «Недвижимость» за сентябрь 1997 г. Были отобраны квартиры в окраинных районах Москвы (новостройки). Данные нахо­ дятся в файле гоош2.х1в, таблица 6.13 содержит описание переменных.

а) Найдите среднее, стандартное отклонение и другие выборочные статистики переменных. Найдите коэффициенты корреляции пе­ ременных с ценой квартиры. Соответствуют ли полученные зна­ чения экономической интуиции?

б) Исследуйте значимость влияния различных факторов на цену квартиры. (Вы можете брать в качестве зависимой переменной

202

Гл. 6 Гетероскедастичность и корреляция по времени

Таблица 6.13

Переменная Описание

пНомер по порядку

price Цена квартиры, тыс. долл. totsq Общая площадь квартиры, кв.м livsq Жилая площадь квартиры, кв.м kitsq Площадь кухни, кв.м

distm Расстояние пешком до метро, мин

floor Этаж, 0 —первый или последний, 1 — нет cat Категория дома, 1 —кирпичный, 0 —нет tel Телефон, 1 —есть, 0 — нет

lift Лнфт, 1 —есть, 0 —нет bale Балкон, 1 —есть, 0 —нет

цену квартиры, цену квадратного метра общей площади или их логарифмы.)

в) Есть ли существенная зависимость цены квартиры от расстояния до метро? От наличия телефона? лифта? Как интерпретировать результаты?

г) Что «стоит дороже»: квадратный метр кухни, коридора или комиаты?

д) Подберите модель, которая наилучшим способом прогнозирует цену квартиры по имеющимся данным. Проверьте наличие гетероскедастичности.

6.17. (Arthur van Soest, Tilburg University) Файл wages.xls содержит данные о 75 мужчинах и 75 женщинах, работавших на полную ставку (не менее 4 дней в неделю в 1987 г.). Данные получены на основании опроса. В таблице 6.14 приведено описание переменных.

Вопросы для обсуждения

-Верно ли, что зарплата мужчин выше, чем зарплата женщин? Если да, то может ли это быть объяснено разницей в возрасте или образовании?

-Какова отдача от образования?

-Одинакова ли зависимость зарплаты от возраста для мужчин и женщин?

Упражнения

203

Переменная

Таблица 6.14

Описание

 

W

Зарплата, гульденов/час до вычета налогов (1987 г.)

 

AGE

Возраст, лет

 

SEX

Пол, 1 —для мужчин, 2 —для женщин

 

EDU

Уровень образования,

 

 

1 —начальная школа или менее;

 

 

2 —низшее ремесленное;

 

 

3 —среднее;

 

 

4 — высшее ремесленное;

 

 

5 —университет

а)

Вычислите описательные статистики. Постройте матрицу корре­

 

ляций.

 

б)

Создайте переменную 5 = SE X - 1. Обсудите регрессию W =

 

0Q+ 0iS +fcAGE. Проделайте тест на гетероскедастичность. По­

 

лучите оценку Уайта стандартных отклонений коэффициентов в

 

МНК-оценивании. Проделайте двухшаговую процедуру коррек­

 

ции на гетероскедастичность.

в) Обсудите регрессию W = fa +PiS+foAGE+foEDU. Что можно сказать о коэффициенте при 5 в этой и предыдущей регрессиях? Насколько реалистична эта модель?

г) Обсудите регрессию W = 0o + 0iS +faAGE + foEDU + (hAGE2.

Что будет, если взять полулогарифмическую модель? При каком возрасте зарплата наибольшая? Зависит лн этот возраст от уров­ ня образования? Как интерпретировать коэффициент при S в предыдущих регрессиях?

Глава 7

Прогнозирование в регрессионных моделях

Одна из важнейших целей моделирования заключается в про­ гнозировании поведения исследуемого объекта. Обычно термин «прогнозирование» используется в тех ситуациях, когда требует­ ся предсказать состояние системы в будущем. Для регрессионных моделей он имеет, однако, более широкое значение. Как уже отме­ чалось, данные могут не иметь временной структуры, но и в этих случаях вполне может возникнуть задача оценить значение зави­ симой переменной для некоторого набора независимых, объясня­ ющих переменных, которых нет в исходных наблюдениях. Именно в этом смысле — как построение оценки зависимой переменной — и следует понимать прогнозирование в эконометрике.

Проблема прогнозирования имеет много различных аспектов. Можно различать точечное и интервальное прогнозирование. В первом случае оценка — это конкретное число, во втором — ин­ тервал, в котором истинное значение переменной находится с за­ данным уровнем доверия. Выделяют также безусловное и услов­ ное прогнозирование в зависимости от того, известны ли интере­ сующие нас объясняющие переменные точно или приближенно. Кроме того, для временных рядов при нахождении прогноза су­ щественно наличие или отсутствие корреляции по времени между ошибками.

204

7 1. Безусловное прогнозирование

205

Рассмотрим вначале классическую регрессионную модель

у = Х(3 + г ,

(7.1)

где, как и раньше, у — п х 1 вектор зависимых переменных, X — п х к матрица независимых переменных, е — п х 1 вектор ошибок, /3 — к х 1 вектор параметров, Ее = 0, V(e) = а2!. Предположим теперь, что есть еще один набор » n+i = (xn+i,i, • ■•. хп+\,кУ объяс­ няющих переменных и известно, что соответствующая зависимая переменная удовлетворяет модели (7.1), т. е.

Уп+1 = *п+ "I”®п+1»

(7-2)

где Een+i = 0, V(en+i) = сг2, и случайная величина еп+1 нс кор­ релировала с е. Требуется по (у, Х , х п+\) оценить уп+1- Подчерк­ нем, что в данном случае надо построить оценку не параметра, а случайной величины.

7.1.Безусловное прогнозирование

Термин безусловное прогнозирование означает, что вектор незави­ симых переменных *„+1 известен точно.

Предположим, что мы знаем значения параметров /3 и сг2. Тогда естественно в качестве оценки yn+i = у величины уп+\ взять E(yn+i) = х'п+ф . Среднеквадратичная ошибка такого про­ гноза есть Е(уп+1 —у)2 = Е(е2+1) = сг2. Если дополнитель­ но предположить, что en+i имеет нормальное распределение, то (у - oza/2 , у + сгга/2) есть интервал, в котором yn+i находится с ве­ роятностью 1 —а, где za/2 есть 100(о:/2)%-ная точка стандартного нормального распределения.

Предположим теперь, что параметры /3 и сг2 неизвестны, что, как правило, и бывает на практике. Обозначим /3 и s2 их МНК-

оценки на основании модели (7.1): /3 = (X'X )~lХ'у,

s2 =

е'е/(п к). Возьмем в качестве оценки yn+i величину

 

У = *n+i3-

(7.3)

206 Гл. 7. Прогнозирование в регрессионных моделях

Нетрудно проверить, что поскольку Е/3 = /3, то Еу = Eyn+i> т. е. оценка у является несмещенной. Оказывается, в классе линей­ ных (по у) несмещенных оценок она обладает наименьшей сред­ неквадратичной ошибкой.

Теорема. Пусть у = d y — оценка величины у„+ь где с = (ci,.. -, СпУ некоторый вектор, и пусть оценка у несмещенная,

Еу = Еу„+1 = х'п+х0.

(7.4)

Тогда

 

 

E (y -y „ + i)2 > Е(у - y„+i)2.

 

Д о к а з а т е л ь с т в о .

Так как в силу (7.4) Еу = с'Х/З =

x'n+i/3 при любом /3, то

= x'n+v

(7.5)

с 'Х

Далее,

 

 

Е(у - yn+i)2 = Е(у - у + у - yn+i)2 = Е ( у - у )2

 

+ Е(у - уп+1)2 + 2Е((у - у)(У ~ 1/n+i))-

(7 6)

Покажем, что

 

 

е ( ( 5 - 5 Х » - у« 1 » = 0 -

<7-7>

Имеем

Е((у - у)(у - Уп+i)) = Е(с'ух'п+1р) - E(®^+i3*n+i3)

- Е (с'у(x'n+i/3+ en+i))

+ Е (®п+1^(хл+1^ + e«+i)) •

Первое слагаемое:

Е(с'у®^+13) = Е(с'yfixn+ i)

=E(c,yy,X (X ,X )-1®n+i)

=c,E(yy,)X (X ,A ')-1®n+i

=с'(<т21 + Х/3/3'Х,)Х (Х /Х )" 1х„+1

=а2с,Х (Х ,Х )-1хп + 1

+с 'Х / 3 / 3 'Х 'Х ( Х 'Х Г 1®п+1

(в силу (7.5)) = о*х'п+х(Х ' Х )~ 1х п+1 + a s 'n + i^ n + b

7.1. Безусловное прогнозирование

207

 

Второе слагаемое:

E(®n+i3*n+i3) = х,п+1Е (33,)*п+1

= ^x'n+ iiX 'X y'xn+ i + х'п+г/ЗрХп+г.

Третье слагаемое:

E(c'y(*n+i0 + £n+i)) = c'E(y)/3'*n+i

 

= c’X pfi'xn+ i

(в силу (7.5))

= ®n+i&&*п+1-

Четвертое слагаемое:

 

E(*n+l3(®n+l/5 + £n+l)) = x'n+lPP ®n+l-

(Мы постоянно пользуемся тем, что для векторов ж и у одинако­ вой размерности х 'у = у'х.)

Таким образом, выполнено (7.7), и теорема доказана.

Нетрудно проверить, что среднеквадратичная ошибка прогно­

за есть

 

Е(у - уп+1)2 = <г2(1 + ж;+1(Х ,Х ) - 1жп+1).

(7.8)

Заменим а2 на ее оценку s2 и обозначим

 

6 = yjs2(l + x'n+l{ X 'X )~ 'x n+1).

Используя те же аргументы, что и в п. 3.5, получаем, что если ошибки (e,en+i) имеют совместное нормальное распределение, то случайная величина {у-уп+г)/8 имеет распределение Стьюдента с п —к степенями свободы. Поэтому доверительным интервалом для Уп+1 с уровнем доверия 1 - а будет интервал (у - 8ta/2,у + 8ta/2),

где ta /2 есть 100(а/2)%-ная

точка распределения Стьюдента с

п — к степенями свободы.

 

Можно показать, что в случае парной регрессии, т. е. когда

система (7.1) имеет вид

 

y t = P i +

t = l , . . . , 7 l ,

формула (7.8) выглядит так:

 

E(*-^->w H +r ^ ) ' (м>

208

Гл. 7. Прогнозирование в регрессионных моделях

где х = ± £ х £. Из (7.9) следует, что среднеквадратичная ошибка прогноза минимальна при xn+i = 5, и чем дальше xn+i от х, тем шире соответствующий доверительный интервал (см. рис. 7.1).

Рис. 7.1

7.2.Условное прогнозирование

Впредыдущих рассуждениях мы предполагали, что независимая переменная xn+i известна точно. Однако на практике встреча­ ются ситуации, когда в xn+i содержатся ошибки. Так, при про­ гнозировании временных рядов часто приходится прогнозировать значения независимых переменных, что неизбежно приводит к от­ клонениям от истинных значений. Поэтому рассмотрим теперь за­ дачу условного прогнозирования. Пусть выполнены соотношения (7.1) и (7.2), но вектор xn+i наблюдается с ошибкой

z = ®п+1 + и >

(7.10)

где и к х 1 случайный вектор, не зависящий от (e,en+i), Е й = О,

V(it) = о*1. Прогноз (7.3) заменяется теперь на

.а

y = z'/3 .

(7.11)

Пусть е = у 2/,l+i — ошибка прогнозирования. Тогда

Ее = E(z'3) - ж'п+1/3 = E((®n+i + и)'Щ - х'п+ф

= Е(®^+13) + Е(и'З) ~ ®п+1/3 = 0,

7.3. Прогнозирование при наличии авторегрессии ошибок

209

так как и н (3 независимы и Ей = 0. Иными словами, оценка (7.11) является несмещенной. Можно проверить (мы оставляем это читателю в виде упражнения), что

Ее2 = о2{ 1 + ^ 1( Х 'Х Г 1х п+1 + < £ ъ ({Х 'Х )-1))+ о * р 0 . (7.12)

Таким образом, при наличии ошибок в независимой перемен­ ной к ошибке прогнозирования (7.8) добавляются два новых по­ ложительных слагаемых, пропорциональных дисперсии сг2.

В случае условного прогнозирования нельзя так же просто, как при безусловном прогнозировании, построить доверительный интервал для y„+i- Это связано с тем, что при нормально рас­ пределенных ошибках (e,en+ i,u ) оценка у есть скалярное про­ изведение двух независимых нормальных векторов. Поэтому до­ верительный интервал нельзя найти аналитически, однако суще­ ствуют численные процедуры, позволяющие строить его прибли­ женно.

7.3.Прогнозирование при наличии авторегрессии ошибок

В заключение остановимся на задаче прогнозирования, когда ошибки в исходной модели (7.1), (7.2) коррелированы по времени, а именно, образуют авторегрессионный процесс первого порядка:

= P^t-i + Щу

t = 1,... ,n ,n + 1,

(7-13)

где {щ, t = l , ... ,n ,n + 1} — последовательность независимых нормально распределенных случайных величин с нулевым сред­ ним и постоянной дисперсией о2, \р\ < 1. Покажем, как можно использовать информацию об ошибках (7.13) для улучшения про­ гнозирования. Предположим, как и в начале этого раздела, что все параметры (/?, р) известны. Но теперь в качестве оценки у ве­ личины yn+i возьмем не х'п+113, как раньше, а

У = *п+1Р + р£п = *п+10 + Р(Уп ~ х'пР)-

(7.14)

210

Гл 7. Прогнозирование в регрессионных моделях

Нетрудно проверить, что

е = Уп+i ~ У = Vn+1.

откуда сразу следует, что Ее = 0 и

Ее2 = о2 = (1 - р2К 2.

(7.15)

Таким образом, удается уменьшить ошибку прогноза по срав­ нению со случаем некоррелированных ошибок.

Реально параметры регрессии неизвестны, поэтому при про­ гнозировании величины уп+i в формуле (7.14) значения /3 и р за­ меняют их оценками, полученными с помощью, например, одной из процедур, описанных в п. 6.2:

У - < + i 3 + г{Уп ~ *пЗ)-

(7.16)

Мы не можем дать аналитическое выражение для среднеквад­ ратичной ошибки прогноза. На практике используют формулу (7.15) с заменой величины о2 на ее оценку, получаемую из ре­ грессии (6.11), (6.12).

Выводы:

1)прогноз у величины yn+i в модели (7.1), (7.2) задается par венством (7.3), где /3 — МНК-оценка вектора /3, полученная в регрессии (7.1);

2)эта оценка обладает минимальной среднеквадратичной ошибкой в классе линейных несмещенных оценок величины

Уп+1;

3)среднеквадратичная ошибка прогнозирования определяется равенством (7.8);

4) при наличии ошибок в независимых переменных ошиб­ ка прогнозирования возрастает в соответствии с формулой (7.12);

5)если ошибки в модели (7.1), (7.2) образуют авторегрессион­ ный процесс первого порядка, то можно уменьшить ошибку прогнозирования, воспользовавшись формулой (7.16).