Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Konspekt_lekcii Зандер

.pdf
Скачиваний:
16
Добавлен:
01.06.2015
Размер:
624.83 Кб
Скачать

Сначала следует обратить внимание на то, что условия (9) эквивалентны требованиям

TlB l = Bl; TlA l = Al;

(15)

где TlB — k kl-матрица, полученная из Ik вычеркиванием столбцов, соответствующих тем изучаемым переменным, которые исключены из l-го уравнения;

TlA – аналогичная (n + 1) (nl + 1)-матрица для Al.

Bl и Al имеют нулевые компоненты, соответствующие исключенным из l-го уравнения переменным.

Далее необходимо учесть, что параметры структурной формы, удовлетворяющие условиям (15), должны для своей идентификации еще удовлетворять соотношениям (8). Тем самым получается система уравнений для нахождения параметров структурной формы:

DTlBbl TlAal = 0;

или по определению матрицы TlB:

Dlbl TlAal = 0;

где Dl – оценки параметров приведенной формы уравнений для изучаемых переменных, вошедших в l-е уравнение, или, наконец,

Dl = Dl

bl + T Aal;

(16)

 

l

 

где Dl — оценки параметров l-го уравнения в приведенной форме,

Dl — оценки параметров приведенной формы уравнений для изучаемых переменных, вошедших в правую часть l-го уравнения.

Эти матрицы коэффициентов приведенной формы представляются следующим образом:

Dl = (Z0Z) 1Z0Xl; Dl = (Z0Z) 1Z0Xl; Dl = (Z0Z) 1Z0Xl :

Система уравнений (16) может быть также получена умножением обеих частей системы (14) слева на (Z0Z) 1Z0, т.к. третье слагаемое правой части отбрасывается (МНК-остатки должны быть ортогональны

101

регрессорам), а во 2-м слагаемом (Z0Z) 1Z0Zl заменяется на TlA (т.к. по определению этой матрицы Zl = ZTlA).

Вобщем случае, матрица этой системы Dl TlA имеет размерность (n + 1) (kl+nl). Первый ее блок имеет размерность (n+1) (kl 1), второй — (n + 1) (nl + 1).

Вслучае точной идентификации и строгого выполнения условий

(12)эта матрица квадратна и не вырождена. Система (16) дает единственное решение — оценку параметров структурной формы l-го уравнения косвенным методом наименьших квадратов.

Если уравнение не идентифицировано, переменных в системе (14) оказывается больше, чем уравнений, и эта система представляет бесконечное множество значений параметров структурной формы. Чтобы выбрать из этого множество какое-то решение, часть параметров структурной формы надо зафиксировать, т.е. сделать уравнение идентифицированным.

Для сверхидентифицированного уравнения система (14) является переопределенной, и ее уравнения не могут выполняться как равенства. Различные методы оценки такого уравнения реализуют различные подходы к минимизации невязок по уравнениям этой системы.

Одним из таких методов является двухшаговый метод (2М) наименьших квадратов.

На первом шаге с помощью МНК оцениваются параметры приве- денной формы для переменных Xl :

Xl = ZDl + V l;

где V l — N (kl 1)-матрица остатков по уравнениям; и определяются расчетные значения этих переменных уже без ошибок:

Xlc = ZDl :

На втором шаге с помощью МНК оцениваются искомые параметры структурной формы из уравнения:

Xl = Xlc bl + Zlal + el:

(17)

 

 

Применим обычный МНК.

102

Можно определить единый оператор 2M-оценивания. Поскольку

Xlc = F Xl ;

где F = Z(Z0Z) 1Z0, уравнение (15) записывается как:

 

 

 

Xl = F Xl

Zl

all! + el;

 

 

(18)

 

 

 

 

 

 

b

 

 

 

 

 

а оператор, входящий в него, как:

 

 

 

 

 

 

 

b

 

!

=

Xl0 F Xl

Xl0 Zl

1

Xl0 F X

!

:

(19)

al

Zl0 Xl

Zl0 Zl

!

 

Zl0 Xl

 

l

 

 

 

 

 

 

 

l

 

 

 

 

 

 

 

 

 

 

 

Такой оператор оценивания сверхидентифицированного уравнения можно получить, если МНК применить к системе (14) (в этом случае она переопределена и в ее уравнениях возникают невязки), умножив

предварительно обе ее части слева на Z.

Отсюда, в частности, следует, что для точно идентифированного уравнения 2М-оценка совпадает с КМ-оценкой, т.к. параметры структурной формы уравнения, однозначно определяемые соотношениями (14),

удовлетворяют в этом случае и условиям (16).

 

 

Соотношения

(19) — первая

форма

записи оператора

2М-

оценивания. Если в (15) учесть, что Xlc = Xl

V l, этот оператор можно

записать в более прозрачной второй форме:

 

 

 

bl

=

Xl0 Xl V l0 V l

Xl0 Zl

1

(Xl0 V l0 )Xl

:

(20)

al

!

Zl0 Xl

Zl0 Zl

!

Zl0 Xl

!

 

Попытка применить оператор 2М-оценивания для не идентифицированного уравнения не имеет смысла, т.к. обращаемая матрица в данном операторе вырождена.

Для сверхидентифицированного уравнения можно использовать также метод наименьшего дисперсионного отношения (МНДО). Строгое обоснование его применимости вытекает из метода максимального правдоподобия.

Пусть bl в уравнении (13) оценено, и Xlbl рассматривается как единая эндогенная переменная. В результате применения МНК опреде-

103

ляются:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

al = (Zl0 Zl) 1Zl0 Xlbl;

 

 

 

 

 

 

 

 

 

 

 

e

 

I

F l

Xlbl;

где F l

=

Zl

Zl0 Zl

1Zl0 ;

(21)

 

l = (

N

)

 

 

 

(

 

 

)

 

 

 

 

e0e

l =

bl0 W lbl;

 

где W l

=

Xl0

I

N

F l

Xl:

 

 

l

 

 

 

 

 

 

(

)

 

 

Теперь находится остаточная сумма квадратов при условии, что все экзогенные переменные входят в l-е уравнение. Она равна bl0 W bl, где W = Xl0 (IN F )Xl. Тогда bl должны были бы быть оценены так,

чтобы

bl0 W lbl

 

=

 

! min

bl0 W bl

Иначе было бы трудно понять, почему в этом уравнении присутствуют не все экзогенные переменные.

Решение этой задачи приводит к следующим условиям:

 

(W l W )bl = 0:

(22)

Следовательно, находится как минимальный корень характери-

стического уравнения

W l W

 

 

 

 

 

= 0;

 

а bl определяется из (22) с точностью

до постоянного множителя, т.е. с

точностью до нормировки bll = 1.

В общем случае min > 1, но при правильной спецификации модели

minN!!11.

 

 

 

 

 

 

Оператор

 

 

 

 

 

bl

=

Xl0 Xl kV l0 V l

Xl0 Zl

1

(Xl0 kV l0 )Xl

!

al

!

Zl0 Xl

Zl0 Zl

!

Zl0 Xl

позволяет получить так называемые оценки k-класса (не путать с k —

количеством эндогенных переменных в системе).

При k = 0, они являются обычными МНК-оценками для l-го уравнения, что легко проверяется; при k = 1, это — 2М-оценки; при k =

min — МНДО-оценки (принимается без доказательства). 2М-оценки занимают промежуточное положение между МНК- и МНДО-оценками (т.к. min > 1). Исследования показывают, что эффективные оценки получаются при k < 1.

104

Оценка параметров системы идентифицированных уравнений

Из приведенной формы системы уравнений следует, что

x0" = (B 1)0A0z0" + (B 1)0"0":

Как и прежде, в любом наблюдении E(") = 0; E("0") = 2 , и ошибки не коррелированы по наблюдениям. Тогда

E(x0") = (B 1)0E("0") = 2(B 1)0 ;

т.е. в общем случае все эндогенные переменные коррелированы с ошибками во всех уравнениях. Это является основным препятствием для применения обычного МНК ко всем уравнениям по отдельности.

Но в случае, если в матрице B все элементы, расположенные ниже главной диагонали, равны нулю, т.е. в правой части l-го уравнения могут появляться только более младшие эндогенные переменные xl0 ; l0 < l, и последней компонентой любого вектора xl является xl, а матрица диагональна, то "l не коррелирует с переменными xl при любом l.

Это — рекурсивная система, и для оценки ее параметров можно применять МНК к отдельным уравнениям.

Для оценки параметров всех идентифицированных уравнений системы можно применить трехшаговый метод (3М) наименьших квадратов.

Первые два шага 3М совпадают с 2М, но представляются они по сравнению с предыдущим пунктом в несколько иной форме.

Предполагается, что идентифицированы все k уравнений:

Xl = Xl l + Zl l + "l = Ql l + "l; l = 1; : : : ; k;

где Ql = [Xl ; Zl], l = [ l l ]0. Учитывая указанные выше свойства остатков:

E("l"0l) = 2!llIN ; E("l0 "0l) = 2!l0lIN :

Теперь обе части l-го уравнения умножаются слева на Z0:

Z0Xl = Z0Ql l + Z0"l;

(23)

105

и Z0Xl рассматривается как вектор n + 1 наблюдений за одной эндогенной переменной, а Z0Ql — как матрица n + 1 наблюдений за nl + kl

экзогенными переменными, включая свободный член. Так как все уравнения идентифицированы, и выполнено условие (12), во всех этих новых регрессиях количество наблюдений не меньше количества оцениваемых параметров. Для сверхидентифицированных уравнений количество наблюдений в новой регрессии будет превышать количество оцениваемых параметров. Это более естественный случай. Поэтому 3М-метод обычно применяют для всех сверхидентифицированных уравнений системы.

Матрица ковариации остатков по уравнению (23) равна 2!llZ0Z. Она отлична от 2IN , и для получения оценок cl параметров l этого уравнения нужно использовать ОМНК:

cl = (Ql0 Z(Z0Z) 1Z0Ql) 1Ql0 Z(Z0Z) 1Z0Xl; или cl = (Ql0 F Ql) 1Ql0 F Xl:

Сравнив полученное выражение с (19), легко убедится в том, что cl

2М-оценка.

Если 2М на этом заканчивается, то в 3М полученные оценки cl

используются для того, чтобы оценить el, и затем получить оценки W матрицы 2 :

 

 

 

wll =

1

el0el; wl0l =

1

el00 el:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

N

 

 

 

Теперь все уравнения (23) записываются в единой системе:

0Z0X21

0 0

Z0Q2

 

0

10 21

0Z0

"21

 

B

Z0X1

 

Z0Q1

0

...

0

 

1

Z0

"1

 

... C

= B ...

...

...

CB ... C

+ B ... C

; (24)

B

C

B

 

 

 

 

 

CB C

B

C

 

BZ0XkC

B

0

0

 

Z0QkCB kC

BZ0

"kC

 

B C

B

 

 

 

 

CB C

B C

 

@

A

@

 

 

 

 

 

A@ A

@

A

 

или

Y = Q + ;

где Y — соответствующий k (n + 1)-вектор-столбец наблюдений за изу-

чаемой переменной;

k

P

Q — k(n + 1) (kl + nl)-матрица наблюдений за экзогенными пе-

l=1

ременными;

106

k

P

— (kl + nl)-вектор-столбец параметров регрессии;

l=1

— k(n + 1)-вектор-столбец остатков по наблюдениям.

Легко проверить, что матрица ковариации остатков удовлетворяет следующему соотношению:

E( 0) = 2 (Z0Z):

Для нее имеется оценка: k(n + 1) (n + 1)-матрица = W (Z0Z). Эта матрица отлична от 2Ik(n+1), поэтому на третьем шаге 3М-оценивания к единой системе (24) применяется ОМНК и получается окончательная оценка c параметров :

c = (Q0 1Q) 1Q0 1Y:

107

Тема 3.3. Основные понятия и модели

дисперсионного анализа

Лекция 3.3.1. Основные понятия дисперсионного анализа.

Однофакторная дисперсионная модель

Дисперсионным анализом называется метод организации (планирования), статистического анализа и интерпретации результатов экспериментов, в которых изучается зависимость количественной переменной y от сочетания градаций качественных переменных X. Предположим, что нас интересует зависимость объема выпуска продукции в цехе от типа производственного процесса, уровня образования рабочих, стиля руководства администрации и др. Использование дисперсионного анализа (далее — ДА) позволяет установить наличие либо отсутствие влияния каждого качественного фактора, а также оценить величину «вклада» каждого качественного фактора в изменение результирующего количественного признака.

В приведенном примере рассматривается модель с постоянными факторами. Если же нас интересует не объем выпуска продукции отдельным цехом, а «вклад» в общую изменчивость выпуска, которую вносит разная работа цехов, то постоянный фактор, связанный с характеристикой работы отдельного цеха, заменяют на случайную величину (случайный фактор). Модели ДА, содержащие только случайные факторы, называют моделями со случайными факторами. Модели, куда входят одновременно постоянные и случайные факторы, называют смешанными моделями дисперсионного анализа. Возникают ситуации, когда необходимо в модель дисперсионного анализа ввести дополнительные количественные переменные (называемые регрессионными). Тогда методы изучения моделей, в которых часть переменных является неколичественными, а часть количественными (регрессионными) называются

ковариационным анализом.

Для дисперсионного анализа существенна классификация, основанная на способе организации исходных данных, т. е. на том, как градации одних факторов (переменных) в исходных данных сочетаются с

108

теми или иными градациями других переменных и как распределено общее число имеющихся наблюдений между различными возможными сочетаниями градаций переменных. Поэтому ДА наиболее эффективен тогда, когда исследователь активно вмешивается в организацию сбора данных (или участвует в планировании экспериментов).

Предположим, что в исследование включено K факторов (i = 1; K), причем i-ый фактор имеет P градаций (j = 1; P ). Если каждому из возможных условий соответствует хотя бы одно наблюдение, то такую организацию экспериментов называют полным K-факторным планом. Практически это трудно организовать, поэтому больше распространены неполные планы.

В случае, когда требуется сравнить в эксперименте совокупности условий, группируют эксперименты в блоки (например, цеха по типу производственного процесса) так, чтобы внутри блока результаты эксперимента (выпуск продукции) были бы более похожи друг на друга, чем на результаты экспериментов в других блоках. Если внутри каждого блока удается разместить весь набор условий, то такой план эксперимента называют полным блочным планом, если только часть из них — то

неполным блочным планом. Для того, чтобы нивелировать влияние не учитываемых при анализе факторов, размещение условий внутри блоков часто производят случайно и тогда такие планы экспериментов называют

случайными или рандомизированными планами.

Рассмотрим модель однофакторного дисперсионного анализа, когда оценивается влияние одного качественного признака на количественную переменную. Математическая модель однофакторного ДА имеет вид:

yij = y + j + "ij;

109

где yij — значение результирующего показателя для i-го (i = 1; nj)

наблюдения при уровне градации j (j = 1; P ) качественного признака;

nj — количество наблюдений, когда фактор находится на

уровне j

j=1 nj = N; j = 1; P !;

 

n

 

P

y — среднее значение результирующего показателя по всем наблюдениям всех градаций качественного признака;

j — эффект влияния фактора на j-ом уровне;

"ij — случайная компонента, отражающая влияние всех прочих факторов (предполагается, что случайные погрешности независимы между собой и имеют нормальное распределение с нулевым средним и дисперсией 2).

С содержательной точки зрения однофакторный ДА можно рассматривать как P рядов (каждый длины nj) независимых наблюдений над нормально распределенными случайными величинами. Рассмотрим табличную форму представления исходных данных для проведения однофакторного ДА (см. таблицу 6).

В ДА обычно проверяется гипотеза об отсутствии влияния рассматриваемых неколичественных переменных на результирующий показатель. Для проверки этой гипотезы общая вариация зависимой переменной раскладывается на две составляющие:

1.обусловленную влиянием неколичественного фактора (межгрупповую или объясненную сумму квадратов). Эта составляющая вычисляется как сумма квадратов отклонений групповых средних yj от общего среднего y;

2.обусловленную случайной вариацией зависимого признака (внутригрупповую или остаточную сумму квадратов). Эта составляющая вычисляется как сумма квадратов отклонений наблюдаемых значений от соответствующих групповых средних.

110