Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

УП Основы эконометрики

.pdf
Скачиваний:
34
Добавлен:
08.03.2015
Размер:
992.48 Кб
Скачать

б) оценки имеют большие стадартные ошибки, малую значимость, в то время, как модель в целом является значимой (высокое значение ко-

эффициента детерминации R2 и соответствующей F -статистики);

в) оценки коэффициентов имеют неправильные с точки зрения экономической теории знаки или неоправданно большие значения.

Что же делать, если по всем признакам имеется мультиколлинеарность? Однозначного ответа на этот вопрос нет. У неискушенного исследователя при столкновении с проблемой мультиколлинеарности может возникнуть естественное желание отбросить «лишние» независимые переменные, которые, возможно, служат ее причиной. Однако, следует помнить, что при этом могут возникнуть новые трудности. Во-первых, не всегда ясно, какие переменные являются лишними в указанном смысле. Мультиколлинеарность означает лишь приблизительную линейную зависимость между столбцами матрицы X , но это не всегда выделяет «лишние» переменные. Во-вторых, во многих ситуациях удаление каких-либо независимых переменных может значительно отразиться на содержательном смысле модели. Наконец, отбрасывание так называемых существенных переменных, т. е. независимых переменных, которые реально влияют на изучаемую зависимую переменную, приводит к смещенности МНК-оценок. Более подробно методы устранения мультиколлинеарности описаны в [3].

4.2. Фиктивные переменные

Независимые переменные в регрессионных моделях, как правило, имеют «непрерывные» области изменения (национальный доход, уровень безработицы, размер зарплаты и т. д.). Однако теория не накладывает никаких ограничений на характер регрессоров, в частности, некоторые переменные могут принимать всего два значения или, в более общей ситуации, дискретное множество значений. Необходимость рассматривать такие переменные возникает довольно часто в тех случаях, когда требуется принимать во внимание какой-либо качественный признак. Например, при исследовании зависимости зарплаты от различных факторов может возникнуть вопрос, влияет ли на ее размер и, если да, то в какой степени, наличие у работника высшего образования. Также можно задать вопрос, существует ли дискриминация в оплате труда между мужчинами и женщинами. В принципе можно оценивать соответствующие уравнения внутри каждой категории, а затем изучать различия между ними, но введение дискретных переменных позволяет оценивать одно уравнение сразу по всем категориям.

Рассмотрим пример с заработной платой. Пусть y (руб.) - заработная

плата работника, x = (x1 , x2 ,K, xk )T - набор объясняющих (независимых)

переменных или количественных признаков, от которых может зависеть величина y (трудовой стаж, категория оплаты и т. д.). В действительно-

61

сти, y и x j – это логарифмы соответствующих характеристик, так как

связь между заработной платой и определяющими ее признаками имеет мультипликативный (степенной) характер. Логарифмирование степенной зависимости позволяет перейти к линейной аддитивной модели:

y

i

= b x

i1

+ b x

+K+ b x

+ ε

i

= x T b +ε

i

, i =1,K, n, (3.19)

 

1

2

i2

k ik

 

i

 

где yi – размер зарплаты

i –го работника.

 

 

 

 

Теперь нам интересно включить в рассмотрение такой фактор, как наличие или отсутствие у работника высшего образования. Введем новую, бинарную, переменную d , полагая

 

 

 

если в i

- том наблюдении индивидуум

1,

 

имеет высшее образование;

 

 

 

di =

 

 

 

 

 

 

 

 

в противном случае.

 

 

 

 

 

 

0,

 

 

 

 

 

 

 

Рассмотрим новую систему

 

 

 

 

 

 

 

= z T a + ε

 

 

y

i

= b x

i1

+ b

2

x

i2

+K+ b

k

x

ik

+ cd

i

+ ε

i

i

, i =1,K, n, (3.20)

 

 

 

1

 

 

 

 

 

 

 

 

i

 

где z = (x , x

2

,K, x

k

, d )T = (X T ,d )T ,

a = (b ,b ,K,b ,c)T .

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2

 

k

 

 

Иными словами, принимая модель (3.20), мы считаем, что средняя

зарплата есть

X T B при отсутствии высшего образования и X T B + c

при его наличии. Таким образом, величина c интерпретируется как среднее изменение зарплаты при переходе из одной категории (без высшего образования) в другую (с высшим образованием) при неизменных значениях остальных параметров. К модели (3.20) можно применить МНК и получить оценки соответствующих коэффициентов. Тестируя гипотезу H 0 : c = 0, мы проверяем предположение о несущественном различии в

зарплате между категориями.

В англоязычной литературе по эконометрике переменные указанного выше типа называются dummy variables («фиктивные» переменные). Следует, однако, ясно понимать, что d такая же «равноправная» переменная, как и любой из регрессоров x j (j =1,K, k ). Ее «фиктивность» со-

стоит только в том, что она количественным образом описывает качественный признак.

Качественное различие можно формализовать с помощью любой переменной, принимающей два значения, а не обязательно значения 0 или 1. Однако в эконометрической практике почти всегда используют лишь фиктивные переменные типа «0 - 1», поскольку в этом случае интерпретация выглядит наиболее просто. Если бы в рассмотренном выше примере переменная d принимала значение, скажем, 5 для работника с высшим образованием и 2 для работника без высшего образования, то коэффициент при этом регрессоре равнялся бы трети среднего изменения зарплаты при получении высшего образования.

62

Если включаемый в рассмотрение качественный признак имеет не два, а несколько значений, то в принципе можно было бы ввести дискретную переменную, принимающую такое же количество значений. Но этого фактически никогда не делают, так как тогда трудно дать содержательную интерпретацию соответствующему коэффициенту. В этих случаях целесообразно использовать несколько бинарных или фиктивных переменных.

Типичным примером подобной ситуации является исследование сезонных колебаний.

Пусть, например, yi - объем потребления некоторого продукта в i

ый месяц, например, мороженого, и есть все основания считать, что потребление зависит от времени года. Для выявления влияния сезонности

можно ввести три фиктивные переменные d1 , d2 , d3 :

 

di1

1,

если месяц i является зимним

 

=

в остальных случаях;

 

 

0,

 

di2

1,

если месяц i является весенним

 

=

в остальных случаях;

 

 

0,

 

di3

1,

если месяц i является летним

 

=

в остальных случаях

 

 

0,

 

и оценивать уравнение

yi = b0 + b1di1 + b2di2 + b3di3 + εi .

(3.21)

 

 

Отметим, что мы не вводим четвертую переменную d4 , относящуюся

к осени, иначе тогда для любого месяца i выполнялось бы тождество di1 + di2 + di3 + di4 =1, что означало бы линейную зависимость регрессо-

ров в (3.21) и, как следствие, невозможность получения МНК-оценок. Интерпретация коэффициентов в (3.21) будет такой:

 

 

 

ˆ

,

среднемесячный объем потребления для осенних месяцев - b0

ˆ

 

ˆ

 

 

для зимних – (b0

+ b1 ),

 

 

 

ˆ

ˆ

 

 

для весенних – (b0

+ b2 ),

 

 

ˆ

 

ˆ

 

 

для летних - (b0 + b3 ).

 

 

Таким образом,

 

ˆ

i =1,2,3 , показывают

оценки коэффициентов bi ,

средние сезонные отклонения в объеме потребления по отношению к осенним месяцам. Тестируя, например, стандартную гипотезу H0 : b3 = 0 ,

мы проверяем предположение о несущественном различии в объеме потребления между летним и осенним сезоном. Гипотеза H0 : b1 = b2 экви-

валентна предположению об отсутствии различия в потреблении между зимой и весной и т. д.

63

Фиктивные переменные, несмотря на свою внешнюю простоту, являются весьма гибким инструментом при исследовании влияния качественных признаков. Кроме этого фиктивные переменные позволяют строить и оценивать так называемые кусочно-линейные модели, которые можно применять для исследования структурных изменений.

Рассмотрим пример. Пусть y – зависимая переменная и пусть для

простоты есть только две независимые переменные: x и постоянный (свободный) член. Предположим, что x и y представлены в виде вре-

менных рядов { (xt , yt ), t =1,K,n}. Например, xt - размер основного фонда некоторого предприятия в период t , yt - объем продукции, выпущен-

ной в этот же период.

Из некоторых априорных соображений исследователь считает, что в момент t0 произошла структурная перестройка и линия регрессии будет

отличаться от той, что была до момента t0 , но общая линия остается не-

прерывной (см. рис. 3.3).

Чтобы оценить такую модель введем бинарную переменную Rt , пола-

0,

t t0

и запишем следующее регрессионное уравнение

 

гая Rt =

t > t0

 

1,

yt = b1 + b2 xt + b3 (xt xt0 )Rt + εt .

 

 

 

(3.22)

y

x xt0

Рис. 3.3.

Нетрудно проверить, что линия регрессии, соответствующая уравнению (3.22), имеет коэффициент наклона b2 для t t0 и b2 + b3 для t > t0 ,

и разрыва в точке xt0

не происходит.

Действительно, для t >t0 имеем

 

yt = b1 + b2 xt + b3 xt b3 xt0 + εt

или

yt =b1 + (b2 + b3 )xt b3 xt0 + εt ,

64

т. е. угловой коэффициент равен b2 + b3 . Таким образом, тестируя гипотезу H0 : b3 = 0 , мы проверяем предположение о том, что фактически

структурного изменения не произошло.

В заключение отметим, что с помощью фиктивных переменных можно исследовать влияние разных качественных признаков (например, уровень образования и наличие или отсутствие детей), а также их взаимное влияние (эффект взаимодействия). Следует только быть внимательным, чтобы при включении нескольких бинарных переменных не нарушить линейную независимость регрессоров (см. пример с сезонными колебаниями).

Пример 3.2. ([8]). Рынок квартир в Москве (данные для этого исследования собраны студентами РЭШ в 1994 и 1996 гг).

После проведенного анализа по n = 464 наблюдениям была выбрана логарифмическая форма модели:

ln y = 7,106 + 0,670ln x1 + 0,431ln x2 + 0,147 ln x3 0,114ln x4 0,0686d1 + 0,134d2 + 0,042d3 + 0,114d4 + 0,214d5 + 0,140d6 + 0,164d7 + 0,169d8 ,где

y - цена квартиры (в долларах США), x1 - жилая площадь (в кв.м.),

x2 - площадь нежилых помещений (в кв.м.), x3 - площадь кухни (в кв.м.),

x4 - расстояние от центра Москвы (в км). Фиктивные переменные:

d1

1,

если квартира на 1 - ом или последнем этаже,

=

в противном случае,

 

0,

d2

1,

если квартира в кирпичном доме,

=

в противном случае,

 

0,

d3

1,

если в квартире есть балкон,

=

в противном случае,

 

0,

d4

1,

если вдоме есть лифт,

=

в противном случае,

 

0,

d5

1,

для однокомнатных квартир,

=

для всех остальных,

 

0,

d6

1,

для двухкомнатных квартир,

=

для всех остальных,

 

0,

d7

1,

для трехкомнатных квартир,

=

для всех остальных,

 

0,

65

1, длячетырехкомнатных квартир, d8 = 0, для всех остальных.

Из анализа t –статистик получено,что все коэффициенты регрессии, кроме коэффициентов при d5 и d6 , значимы при доверительной вероятности γ = 0,95 .

Коэффициент при ln x1 , равный 0,67, означает, что увеличение жилой

площади квартиры на 1% увеличивает ее цену на 0,67%. Иначе говоря, эластичность цены квартиры по жилой площади равна 0,67.

Отрицательное значение коэффициента при x4 (-0,114) означает, что

увеличение расстояния от центра города на 1% уменьшает цену кварти-

ры на 0,11%.

Рассмотрим интерпретацию фиктивных переменных d1,K,d8 . Отрицательный коэффициент при d1 означает, что квартира на 1-ом

или последнем этаже стоит на 6,9% дешевле аналогичной квартиры на средних этажах. Квартира в кирпичном доме стоит на 13,4% дороже аналогичной квартиры в панельном доме, присутствие лифта увеличивает стоимость на 11,4%, а наличие балкона – на 4,2%.

Переменные d5 ,d6 ,d7 ,d8 были включены в регрессию, чтобы учесть

возможные различия в структуре рынка жилья для квартир с разным количеством комнат. Отмечается, что в выборке были 5-ти,6-ти и даже 8-ми комнатные квартиры, поэтому переменные d5 + d6 + d7 + d8 ≠1 (т. е. в

сумме не дают константу, что означает отсутствие полной коллинеарности факторов).

Было показано, что коэффициенты при d6 ,d7 , d8 можно считать рав-

ными. Из уравнения регрессии видно, что квартиры с числом комнат от 2 до 4 стоят дороже многокомнатных, а однокомнатные – еще дороже (при прочих равных условиях).

4.3.Частная корреляция

Втом случае, когда имеется одна независимая переменная x и одна зависимая y , естественной мерой их линейной связи является (выбо-

рочный) коэффициент корреляции rB (2.18) или парный коэффициент корреляции ryx . Для многомерной регрессии мы можем найти значения таких коэффициентов для y и каждой из независимых переменных x1,K, xk . Из парных коэффициентов корреляции можно составить матри-

цу парных коэффициентов корреляции и сделать вывод о наличии или отсутствии в построенной модели мультиколлинеарности факторов.

Высокое значение коэффициента корреляции между исследуемой зависимой и какой-либо независимой переменной может, как и раньше, означать высокую степень зависимости, но может быть обусловлено и дру-

66

гой причиной. А именно, есть третья переменная, которая оказывает сильное влияние на две первые, что и служит в конечном счете причиной их высокой коррелированности. Поэтому возникает естественная задача найти «чистую» корреляцию между двумя переменными, исключая (линейное) влияние других факторов. Это можно сделать с помощью коэффициента частной корреляции.

Для простоты предположим, что имеется обычная двумерная регрессионная модель

Y = b0 + b1 X1 + b2 X 2 + ε, где

Y - (n ×1) вектор наблюдений зависимой переменной, X1, X 2 - (n ×1)

векторы независимых переменных, b0 ,b1, b2 - (скалярные) параметры, ε

-

(n ×1)

вектор ошибок. Наша цель – определить корреляцию между y

и,

например, первым регрессором x1 после исключения влияния x2 .

 

Соответствующая процедура устроена следующим образом:

 

1)

Осуществим регрессию Y

на

X 2 и константу и получим прогноз-

 

ные значения

 

 

 

 

ˆ

=αˆ1

+αˆ2 X 2 ;

 

 

Y

 

2)Осуществим регрессию X1 на X 2 и константу и получим прогнозные значения

ˆ

=γˆ1 +γˆ2 X 2

;

 

 

X1

 

 

 

 

ˆ

ˆ

;

3) Удалим влияние X 2 , взяв остатки eY =Y Y

и eX1 = X1 X1

4) Определим (выборочный) коэффициент частной корреляции между y и x1 при исключении влияния x2 как (выборочный) коэффициент кор-

реляции между eY и eX1 :

ryx

x

2

= re ,e

X

.

(3.23)

1

 

Y

 

 

 

 

 

 

1

 

 

Из свойств МНК следует, что остатки eY и eX1 не коррелированы с X 2 . Именно в этом смысле указанная процедура соответствует интуи-

тивному представлению об «исключении» (линейного) влияния переменной x2 .

Прямыми вычислениями можно показать, что справедлива следующая формула, связывающая коэффициенты частной и обычной корреляции:

 

ryx ryx

2

rx x

2

 

 

 

ryx1 x2 =

1

 

 

1

 

 

).

(3.24)

(1 r2

 

)(1

r2

 

 

yx

2

 

 

 

x x

2

 

 

 

 

 

 

 

1

 

 

Здесь значения частного коэффициента корреляции ryx1 x2 лежат в интервале [1,1] как у обычного коэффициента корреляции. Если

67

ryx1 x2 = 0 , то говоря нестрого, это означает отсутствие прямого (линейного) влияния переменной x1 на y .

Существует тесная связь между коэффициентом частной корреляции ryx1 x2 и коэффициентом детерминации R2 , а именно:

1 R2 = (1 ryx2 2 ) (1 ryx2 1x2 ).

Описанная выше процедура очевидным образом обобщается на случай, когда исключается влияние не одной, а нескольких переменных: достаточно переменную x2 заменить на набор переменных x2 ,K, сохраняя

определение (3.23). Формула (3.24) естественно усложнится. Подробнее об этом можно прочесть в книге [3].

Проиллюстрируем приведенное выше понятие частных коэффициентов корреляции и их отличие от обычных коэфффициентов корреляции на следующем примере.

Пример 3.2. Изучается зависимость выработки продукции на одного работника ( y - млн. руб.) от ввода в действие новых основных фондов (в

% от стоимости фондов на конец года, x1 - коэффициент обновления ос-

новных фондов) и от удельного веса рабочих высокой квалификации в общей численности рабочих ( x2 - %). По результатам наблюдений с ис-

пользованием ППП Статграф были обоснованы гипотезы, лежащие в основе множественного регрессионного анализа. В результате получено уравнение

y =1,8353 + 0,9459x1 + 0,0856x2 .

ˆ

=1,8353 оценивает агрегированное влияние прочих (кроме

Здесь b0

x1, x2 ) факторов на объясняемую переменную y

ˆ

и

ˆ

указывают, что

; b1

b2

с увеличением x1 и x2 на единицу их значений, результат увеличивается,

соответственно, на 0,9459 млн. руб. и на 0,0856 млн. руб. Сравнивать эти значения не следует, т.к. они зависят от единиц измерения каждого признака и потому несопоставимы между собой.

Соответствующие t - статистики:

t

ˆ

=3,9, t ˆ = 4,45,

t ˆ =1,42. Так как tкрит 2 3 ,

b0

b1

b2

то b2

– статистически незначим, т.е. x2 можно исключить из модели как

несущественно влияющий или неинформативный.

Значения линейных коэффициентов парной корреляции, представленные ниже в матрице парных коэффициентов, определяют тесноту парных зависимостей переменных, указанных в данном уравнении множественной регрессии.

Таблица 3.5

Парная корреляция

68

 

 

 

 

 

 

 

 

 

 

 

y

x1

x2

 

y

 

 

1

0,9699

0,9408

 

x1

 

 

0,9699

1

0,9428

 

x2

 

 

0,9408

0,9428

1

ryx

= 0,9699 и ryx

2

= 0,9408 говорит о весьма тесной связи выработки

1

 

 

 

 

« y » как с коэффициентом обновления основных фондов - x1 , так и с долей рабочих высокой квалификации - x2 .

Межфакторная связь rx1x2 = 0,9428 весьма тесная и превышает тес-

ноту связи x2 с y , ryx2 = 0,9408. Связь между x1, x2 : rx1x2 = 0,9428 , т.е. имеет место мультиколлинеарность факторов.

Ниже в матрице приведены линейные коэффициенты частной корреляции, которые оценивают тесноту связи значений двух переменных, исключая влияние всех других переменных, представленных в уравнении множественной регрессии:

Таблица 3.6

Частная корреляция

 

 

 

 

 

y

x1

x2

y

1

0,7335

0,3247

x1

0,7335

1

0,3679

x2

0,3247

0,3679

1

Коэффициенты частной корреляции дают более точную характеристику тесноты зависимости двух признаков, чем коэффициенты парной корреляции, так как «очищают» парную зависимость от взаимодействия данной пары признаков с другими признаками, представленными в модели.

Наиболее тесно связаны y

и x1 ,

ryx

x

2

= 0,7335, связь

y с x2

гораз-

до слабее, т. к. ryx

 

x = 0,3247 ,

 

1

 

 

 

 

 

и x2

2

а межфакторная зависимость x1

 

1

 

x2 ,

rx x

 

y = 0,3679 > ryx

 

 

 

 

выше, чем парная частная y

и

2

2

x

= 0,3247 . Все

 

 

 

 

 

1

 

 

1

 

 

это приводит к выводу о необходимости исключить фактор x2 – доля вы-

сококвалифицированных рабочих – из правой части уравнения множественной регрессии.

Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи:

ryx1 = 0,9699 ~ ryx1 x2 = 0,7335

69

ryx2 = 0,9408 ~ ryx2 x1 = 0,3247 .

Именно по этой причине рекомендуется при наличии сильной коллинеарности (мультиколлинеарности) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота

0,9408 < 0,9428

межфакторной связи .

0,3247 < 0,3679

4.4. Линейные ограничения

При изучении общей линейной эконометрической модели, т. е. при оценивании ее коэффициентов, следует иметь в виду возможность линейных ограничений на эти коэффициенты. Экономическая теория часто указывает на линейные ограничения, которым должны удовлетворять коэффициенты рассматриваемых соотношений. Например, постоянная отдача от единицы масштаба в производственной функции Кобба-Дугласа означает, что сумма показателей степени при соответствующих переменных равна единице, а отсутствие «денежной иллюзии» со стороны потребителей означает равенство нулю суммы, образованной денежным доходом и эластичностями функции спроса по ценам.

С этими ограничениями можно поступить двояко:

1)Первый путь состоит в оценке интересующей нас зависимости без учета всяких ограничений. После чего проверяют, будут ли оцененные коэффициенты удовлетворять этим ограничениям.

2)Второй путь, альтернативный, состоит в попытке инкорпорировать ограничение в процесс подгонки так, чтобы оцененные коэффициенты точно ему удовлетворяли. В некоторых случаях это гораздо проще сделать, если сразу же выбрать специальную форму оцениваемого уравнения для конкретного рассматриваемого случая.

В «качестве» иллюстрации расмотрим производственную функцию Кобба-Дугласа:

Y = AKα Lβ с условием α + β =1

Здесь Y – выпуск, K - затраты капитала, L - затраты труда,α и β

эластичности выпуска по капиталу и труду.

Возьмем логарифмы от обеих частей равенства и добавим случайное возмущение

y = a +αx2 + βx3 +ε, где

(3.25)

y = lnY, x2 = ln K, x3 = ln L.

Чтобы инкорпорировать условие α + β =1 в процесс оценивания, мы

перепишем (3.25) в виде

y = a +αx2 + (1 α)x3 + ε, т.к. β =1 α.

Теперь нам нужно найти aˆ и αˆ из условия

70