Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Konspekt_lekcii Зандер

.pdf
Скачиваний:
16
Добавлен:
01.06.2015
Размер:
624.83 Кб
Скачать

щью метода наименьших квадратов. Ошибки некоторых пара-

метров уравнения могут стать очень большими.

2.Выборочные характеристики регрессионной модели становятся крайне неустойчивыми. При добавлении (исключении) некоторого количества наблюдений или факторов к массиву исходной информации может произойти резкое изменение оценок параметров.

3.Из-за неустойчивости модели резко сокращаются возможности содержательной интерпретации модели, а также прогноза значений зависимой переменной y в точках, существенно удаленных от значений объясняющих переменных в выборке ввиду ненадежности получаемых результатов.

Признаки наличия мультиколлинеарности:

1.Небольшие изменения в данных приводят к широким колебаниям оценок параметров.

2.Коэффициенты регрессии имеют высокие стандартные ошибки и высокий уровень значимости, несмотря на тот факт, что совместно они высоко значимы и достаточно высоко значение множественного коэффициента детерминации.

3.Коэффициенты могут иметь неверный знак или неправдоподобную величину.

Вкачестве формальных рассматриваются следующие критерии мультиколлинеарности:

1)Критерий 2 строится на использовании корреляционной матрицы объясняющих переменных x1; x2; : : : ; xp. Высокая коррелированность переменных проявляется в близости к нулю определителя матрицы парных коэффициентов корреляции R = jrijj. Основная и альтернативная гипотезы процедуры проверки мультиколлинеарности x1; x2; : : : ; xp:

51

H0 : между объясняющими переменными мультиколлинеарность отсутствует;

H1 : объясняющие переменные высококоррелированы.

Для проверки гипотезы вычисляется определитель корреляционной матрицы R и строится критерий

2 = (n 1) (2p + 5) ln jRj; 6

который имеет 2-распределение с количеством степеней свобо-

ды, равным

= p(p 1): 2

По таблице распределения 2 определяется значение, соответствующее числу степеней свободы и уровню значимости . Если 2расч 6 2; , то принимается нулевая гипотеза. В противном случае принимается гипотеза о наличии мультиколлинеарности.

2)Число обусловленности матрицы XT X.

Число называется собственным значением (или характеристическим числом) квадратной матрицы A порядка n, если можно подобрать такой n-мерный ненулевой вектор x, что

Ax = x:

Множество всех собственных значений матрицы A совпадает с множеством всех решений уравнения

jA Ej = 0;

где — независимая переменная.

Пример. Найти собственные значения матрицы

!

1 2

A =

1 4

Характеристическое уравнение матрицы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

A

 

E

j

=

 

1 2

 

= 2

 

5 + 6 = 0

,

1 = 2; :

 

 

 

1 4

 

 

2 = 3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

52

Обусловленность матрицы определяется отношением максимального собственного числа max к минимальному max:

r

= max :min

Если min ! 0, то бесконечно велико и присутствует мультиколлинеарность. Для > 20 наблюдается приближенная коллинеарность объясняющих переменных. Для < 20 можно считать, что мультиколлинеарность отсутствует. Для полностью независимых переменных = 1.

Для устранения или уменьшения мультиколлинеарности используется ряд методов. Один из них заключается в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (> 0; 8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из анализа, решают в первую очередь из экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной.

Другим из возможных методов устранения или уменьшения мультиколлинеарности является использование пошаговых процедур отбора наиболее информативных переменных. Вначале рассматривается линейная регрессия зависимой переменной Y от объясняющей переменной, имеющей с ней наиболее высокий коэффициент корреляции (или индекс корреляции при нелинейной форме связи). На втором шаге включается в рассмотрение та объясняющая переменная, которая имеет наиболее высокий частный коэффициент корреляции с Y , и вычисляется коэффициент (индекс) множественной корреляции. На третьем шаге вводится новая объясняющая переменная, которая имеет наибольший частный коэффициент корреляции с Y и вновь вычисляется коэффициент множественной корреляции и т. д. Процедура введения новых переменных продолжается до тех пор, пока добавление следующей объясняющей переменной существенно не увеличивает коэффициент множественной кор-

53

реляции.

Вообще говоря, все существующие схемы формирования наборов переменных можно объединить в две большие группы: это схемы полного перебора и пошаговые процедуры. Недостатком процедур полного перебора является большое возможное число вариантов. При переборе q

факторов из общего количества факторов p число вариантов равно Cpq, а при рассмотрении полного числа наборов при изменении q от 1 до p

число вариантов будет 2p. Преодоление этого недостатка связано с применением методов, позволяющих каким-то образом ограничивать количество рассматриваемых наборов переменных, исходя из экономической содержательности каждого набора.

Существенного сокращения числа генерируемых для сравнения наборов предсказывающих переменных позволяют пошаговые процедуры генерации наборов переменных. Хотя ни одна из пошаговых процедур не гарантирует получения оптимального по заданному критерию набора переменных, все же обычно получаемые с их помощью наборы переменных являются достаточно хорошими для практического применения. Основными пошаговыми процедурами генерации наборов являются:

процедура последовательного присоединения,

процедура присоединения-удаления,

процедура последовательного удаления.

При этом последовательное выполнение процедуры удаления обычно проводится с точки зрения минимального уменьшения коэффициента детерминации, выполнение процедуры присоединения строится на основе выбора того фактора, который имеет максимальное значение квадрата коэффициента частной корреляции с Y . Критериями остановки пошаговых процедур могут быть следующие:

1.Исследователь достиг желаемого количества факторов.

2.Исследователь достиг желаемого значения показателей качества уравнения регрессии.

54

3.Среди набора факторов, еще не включенных в уравнение, нет более независимых, и, соответственно, при их введении возникнет мультиколлинеарность.

При использовании любого алгоритма отбора существенных факторов необходимо сравнение подмножеств факторов по некоторому критерию качества уравнения регрессии. Остановимся на этом подробнее и рассмотрим наиболее часто используемые критерии.

1.Коэффициент детерминации (или квадрат коэффициента множественной корреляции)

R2 = 1 Qост = Qобъясн :

Qобщ Qобщ

Недостаток этого критерия заключается в том, что значение коэффициента детерминации не убывает с ростом предсказывающих переменных, входящих в модель. Однако для сравнения уравнений регрессии с одинаковым числом зависимых переменных этот критерий является вполне подходящим.

2. Скорректированный коэффициент детерминации

 

=

 

n 1

 

(1 R2):

R2

 

 

 

 

n

 

q

 

1

 

 

 

 

Здесь n — число наблюдений, q — число факторов в уравнении.

В отличие от обычного скорректированный коэффициент детерминации может уменьшаться с ростом числа предсказывающих переменных, если в результате введения дополнительной переменной изменение (1 R2) оказывается недостаточным для компенсации увеличения отношения (n 1)=(n q 1).

3.Статистика Мэллоуза. Предлагается использовать Cqстатистику как меру качества уравнения регрессии с q предсказывающими переменными:

Cq =

(n q 1)(1 Ry:X2 (q))

1 Ry:X2 (p) n + 2q + 2

55

4.Средний квадрат ошибки предсказания определяет среднюю квадратическую ошибку прогноза на контрольной выборке, причем неизвестное значение дисперсии y2 заменяется ее оценкой максимального правдоподобия. Окончательно используемая как критерий оценка имеет вид:

СКОП (q) =

(n2 n 2)(n 1)Sy2(1 Ry:X2

(q))

:

n(n q 1)(n q 2)

 

 

 

 

56

Модуль 3 Прикладная эконометрика

Тема 3.1. Анализ временных рядов

Лекция 3.1.1. Составляющие временного ряда. Выделение

долгосрочной тенденции развития

Временным рядом называют последовательность наблюдений, обычно упорядоченную во времени, хотя возможно упорядочение и по какому-то другому параметру. Временной ряд имеет два главных отличия от рассматриваемых наблюдений анализируемого признака, образующих случайные выборки:

а) образующие временной ряд наблюдения, рассматриваемые как случайные величины, не являются взаимно-независимыми, и, в частности, значение, которое мы получим в момент времени tk, может существенно зависеть от того, какие значения были зарегистрированы до этого момента времени;

б) наблюдения временного ряда (в отличие от элементов случайной выборки) не образуют стационарной последовательности, т.е. закон распределения вероятностей k-го члена временного ряда не остается одним и тем же при изменении его номера k; в частности от tk могут зависеть основные числовые характеристики случайной переменной xk — ее среднее значение и дисперсия. Иначе говоря, при исследовании временных рядов существенное значение имеет тот порядок, в котором проводились наблюдения над исследуемой величиной.

Посредством анализа временных рядов могут решаться следующие задачи: описание характерных особенностей ряда, объяснение механизма поведения ряда, прогнозирование поведение ряда, моделирование совместного развития во времени многих переменных и др.

Динамика рядов экономических показателей в общем случае складывается из четырех компонентов:

57

1.тенденции, характеризующей долговременную основную закономерность развития исследуемого явления;

2.периодического компонента, связанного с влиянием сезонности развития изучаемого явления;

3.циклического компонента, характеризующего циклические колебания, свойственные любому воспроизводству (например, циклы обновления, связанные с чисто техническими проблемами);

4.случайного компонента как результата влияния множества случайных факторов.

Под тенденцией понимают некоторое общее направление развития, долговременную эволюцию. Тенденцию ряда динамики представляют в виде гладкой кривой (траектории), которая аналитически выражается некоторой функцией времени, называемой трендом. Тренд характеризует основную закономерность движения во времени, свободную в основном (но не полностью) от случайных воздействий.

В большинстве случаев полученная траектория связывается исключительно со временем. Предполагается, что, рассматривая любое явление как функцию времени, можно выразить влияние всех основных факторов. Механизм их влияния в общем виде не учитывается. В связи с этим под трендом обычно понимают регрессию на время. Более общее понятие тренда — это детерминированная составляющая динамики развития, определяемая влиянием постоянно действующих факторов. Отклонение от тренда есть некоторая случайная составляющая, характеризуемая влиянием случайных факторов. Исходя из этого модель временного ряда описывается уравнением

yt = f (t) + "t;

где y1; y2; : : : ; yT (t = 1; T ) — уровни временного ряда;

f (t) — систематическая (детерминированная) составляющая, характеризующая основную тенденцию ряда во времени;

"t — случайная составляющая.

58

Во временных рядах можно наблюдать тенденции трех видов: тенденцию среднего уровня, тенденцию дисперсии, тенденцию автокорреляции.

Тенденцию среднего уровня наглядно можно представить графиком временного ряда. Аналитически она выражается в виде функции f (t), вокруг которой варьируют фактические значения изучаемого явления. Тенденция дисперсии — это изменения отклонений эмпирических значений временного ряда от значений, вычисленных по уровню тренда. Тенденция автокорреляции — это тенденция изменения связи между отдельными уровнями временного ряда.

Первоначально анализ временных рядов базировался на моделях, в которых влияние временного параметра проявлялось только в систематической составляющей. В таких моделях предполагается, что течение времени никак не отражается на случайной составляющей, т. е. математическое ожидание случайной величины равно нулю (M"t = 0), дисперсия равна некоторой постоянной (D"t c = const) и значения " в разные моменты времени некоррелированы:

cov ("t1 ; "t2 ) = 0 для любых не равных между собой t1; t2 2 1; T :

Долговременная тенденция формируется под воздействием факторов, ведущих к постепенному изменению экономического показателя, поэтому такие зависимости могут моделироваться с использованием полиномов низких степеней. Циклические последовательности (как долговременные, так и сезонные) моделируются при помощи тригонометрических функций.

Проверка гипотезы о существовании тенденции

Один из способов проверки основан на сравнении средних уровней ряда: временной ряд разбивают на две примерно равные части по числу членов, каждая из которых рассматривается как некоторая самостоятельная выборочная совокупность, имеющая нормальное распределение. Если временной ряд имеет тенденцию, то средние, вычисленные для каждой совокупности, должны существенно (значимо) отличаться

59

между собой. Если же расхождение будет незначимым, несущественным (случайным), то временной ряд не имеет тенденции. Таким образом, проверка наличия тренда в исследуемом ряду сводится к проверке гипотезы о равенстве средних двух нормально распределенных совокупностей.

Процедура проверки наличия тренда осуществляется в следующей последовательности: временной ряд делится на две примерно равные части, для каждой из которых вычисляются величины средних и дисперсий (y1; y2; S12; S22). После этого проверяется гипотеза о равенстве дисперсий при уровне значимости , для чего формируются две гипотезы:

H0 : 12 = 22;

H1 : 12 6= 22:

Значимость различий проверяется путем вычисления

S2

Fрасч = S22 1

и сравнением ее с критическим значением F при числе степеней свободы, равном f1 = n2 1 и f2 = n1 1 и уровне значимости . Если

Fрасч < Fтабл, то принимается нулевая гипотеза о равенстве дисперсий генеральных совокупностей (выборочные дисперсии незначимо различаются, расхождение между ними случайно). После этого проверяется основная гипотеза H0 : y1 = y2 и гипотеза H1 : y1 6= y2, для чего рассчитывается величина

Tрасч =

 

(n

1)S2 + (n

1)S2

s

 

pn1 + n2

 

:

 

 

 

y1

 

y2

 

 

 

n1n2(n1 + n2

2)

 

 

p

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

1

 

2 2

 

 

 

 

 

 

 

Если jTрасчj < tкрит( ; n 2), то принимается нулевая гипотеза о равенстве средних, расхождение между вычисленными средними незначимо. Отсюда делается вывод, что тренд отсутствует. В противном случае, когда различие между средними будет значимо, принимается гипотеза H1

и делается вывод о наличии тренда.

Существует еще ряд относительно простых методов для выявления тренда. Рассмотрим метод Ф. Фостера и А. Стюарта, который дает более надежный результат. По данным исследуемого ряда определяются величины ut и lt путем последовательного сравнения уровней ряда.

60