Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методэконометрика для заочников.DOC
Скачиваний:
2
Добавлен:
04.12.2018
Размер:
2.78 Mб
Скачать

Множественный линейный регрессионный анализ

Экономические явления обычно определяются большим числом одновременно и совокупно действующих факторов. В связи с чем часто возникает задача исследования зависимости объясняемой переменной y от нескольких объясняющих переменных х1, х2, х3, …, хр. Эта задача решается с помощью множественного регрессионного анализа.

Предположим, что по генеральной совокупности между объясняемой переменной y и совокупностью P-объясняющих переменных существует гипотетическая линейная зависимость

(25)

И по выборке из n-наблюдений (yi, xi1, xi2,…,xip) i = 1,…, n будем строить аппроксимирующую зависимость:

(26)

В дальнейшем мы предположим, что спецификация модели (26) правильная (т.е. вид модели выбран правильно и в нее включены только те объясняющие переменные, которые в нее должны входить). Также будем полагать, что для случайной величины ε, участвующей в зависимости (25), справедливы условия Гаусса – Маркова 1 – 4 и вдобавок к ним справедливо еще 5 – ое [4]: объясняющие переменные х1, х2, х3, …, хр линейно независимы.

Параметры b0, b1, b2, …, bp , входящие в модель (26) будем определять методом наименьших квадратов, т.е. исходя из условия:

(27)

Из необходимого условия экстремума функции многих переменных имеем:

(28)

После преобразования системы уравнений (28) и записи ее в более привычной форме, она примет вид:

(29)

Система (29) представляет собой систему линейных алгебраических уравнений состоящую из р + 1 уравнения с р + 1 одним неизвестным. Решив эту систему одним из известных методов, например Гаусса или Гаусса - Жордана, найдем значения параметров b0, b1, b2,…, bp и тем самым построим модель (26) наилучшим образом аппроксимирующую искомую модель (25) в смысле наименьших квадратов.

Для того, чтобы система (29) имела единственное решение, т.е. матрица ее коэффициентов была невырожденной должно выполняться условие линейной независимости столбцов матрицы:

, (30)

матрицы значений объясняющих переменных в выборке наблюдений, по которой строится модель (26). Выполнение этого условия гарантируется выполнением 5 – го условия Гаусса – Маркова. Кроме этого полагают, что число имеющихся наблюдений каждой из объясняющих и объясняемой переменных превосходит ранг матрицы X, т.е. n > p + 1, потому что в противном случае в принципе невозможно получение сколько-нибудь надежных статистических выводов.

Решение системы линейных алгебраических уравнений (29) а также выполнение дальнейшего статистического анализа построенной модели (26) при p > 2 является очень трудоемкой задачей и для его реализации нужно использовать специальные пакеты прикладных программ, например MSExcel, или ППП Statistika 5.0.

Рассмотрим как решается задача построения уравнения линейной множественной регрессии при р = 2, т.е. в случае когда модель (25) приобретает вид:

, (31)

а модель (26) имеет вид:

(32)

Для определения значений параметров b0, b1, b2 по выборке объема n по методу наименьших квадратов получаем следующую систему:

(33)

Первое уравнение системы (33) можно записать в виде:

(34)

После подстановки выражения для b0 в два оставшихся уравнения системы (33) они приобретают вид:

или

(35)

Решив систему (35) методом, например, подстановок получаем следующие выражения для b1 и b2:

; (36)

. (37)

Статистический анализ построенной модели производится так же как и в случае парной линейной регрессии.

Вначале покажем, что коэффициенты b0, b1, b2 являются несмещенными оценками параметров β0, β1, β2. Несмещенность оценок покажем на примере коэффициента b1. Из формулы (36) имеем:

(38)

Из (38) видно, что значение коэффициента b1 определяется неслучайной составляющей β1 и случайной составляющей, определяемой выражением:

.

Теперь покажем, что математическое ожидание b1 равняется β1:

(39)

Совершенно аналогично можно показать, что М(b0) = β0, М(b2) = β2

Далее найдем дисперсии коэффициентов. Сначала это сделаем для коэффициента b1:

)

С учетом формулы (39) имеем:

(40)

Формула для дисперсии коэффициента b2 получается из формулы (40) путем замены характеристик х1 на соответствующие характеристики х2, т.е. она имеет вид:

(41)

После проведения аналогичных выкладок для дисперсии коэффициента b0 получаем следующую формулу:

(42)

Как видно из формул (40) – (42) коэффициенты регрессии b0, b1, b2 являются более точными:

а) чем больше число наблюдений в выборке;

б) чем больше дисперсии объясняющих переменных в выборке;

в) чем меньше теоретическая дисперсия случайного члена;

г) чем меньше связаны между собой объясняющие переменные.

Первые три из желательных условий повторяют те, которые были справедливы и для случая парной регрессии. Лишь четвертое условие является новым. Из этого условия следует, что желательно иметь как можно более слабую корреляцию между х1 и х2.

Стандартная ошибка коэффициента множественной регрессии имеет такой же смысл, как и в парном регрессионном анализе. Как и в парном регрессионном анализе, формула для стандартной ошибки коэффициента регрессии может быть выведена на основе формулы дисперсии коэффициента регрессии путем замены дисперсии случайного члена σ2 на ее несмещенную оценку и извлечения квадратного корня.

Несмещенной оценкой σ2 является величина S2 (остаточная дисперсия):

(43)

С учетом соотношений (40) –(43) стандартные ошибки коэффициентов регрессии b0, b1, b2 будут определяться по следующим формулам:

, (44)

, (45)

. (46)

t - тесты для коэффициентов множественной линейной регрессии реализуются так же как это делается в парном регрессионном анализе. Отметим, что критический уровень t при любом уровне значимости зависит от числа степеней свободы, которое равно (n-k-1): где n – число наблюдений в выборке, k – число объясняющих переменных. Доверительные интервалы определяются точно так же, как и в парном регрессионном анализе в соответствии с указанным примечанием относительно числа степеней свободы.

Как и в парном регрессионном анализе, коэффициент детерминации R2 определяет долю дисперсии y объясненную регрессией и вычисляется по формуле:

Коэффициент R2 никогда не уменьшается (а обычно увеличивается) при добавлении еще одной объясняющей переменной в уравнение регрессии, если все ранее включенные объясняющие переменные сохраняются в уравнении. Для компенсации такого увеличения R2 вводится скорректированный коэффициент детерминации с поправкой на число степеней свободы:

(47)

Если увеличение доли разброса объясняемой переменной y, объясненной регрессией при добавлении новой переменной мало, то скорректированный коэффициент детерминации может уменьшиться, следовательно, добавлять новую объясняющую переменную в уравнение регрессии нецелесообразно.

Кроме того, если объясняющие переменные х1 и х2 сильно коррелированы между собой, то они объясняют одну и ту же часть разброса переменной у, поэтому в этом случае трудно оценить вклад каждой из переменных в объяснении поведения у.

Для проверки адекватности построенного уравнения регрессии используется F – критерий. Для этого выдвигаем нулевую гипотезу H0: F = 0, затем вычисляем статистику:

, (48)

здесь k = 2 – число объясняющих переменных в уравнении регрессии.

Статистика F подчиняется распределению Фишера – Снедекора. В таблице распределения критерия Фишера - Снедекора находим для заданного уровня значимости α и числа степеней свободы k1 = k и k2 = nk - 1 критическое значение Fкр= F(α, k1, k2). Если F < Fкр у нас нет оснований отвергнуть гипотезу H0, если же F > Fкр мы отвергаем нулевую гипотезу H0 и признаем, что построенное уравнение регрессии адекватно описывает наблюдаемые в выборке значения объясняемой переменной у и им можно пользоваться для прогнозирования значений у при соответствующих значениях объясняющих переменных.

Применение изложенной теории рассмотрим на примере решения следующей задачи: изучается зависимость между сменной добычей торфа на одного работающего y(т), мощностью пласта x1(м) и уровнем механизации работ x2(%) по следующим (условным) данным, характеризующим процесс добычи торфа в n = 10 карьерах. Данные приведены в таблице 3.

Таблица 3

I

1

2

3

4

5

6

7

8

9

10

Xi1

4

11

14

9

8

8

15

9

8

12

Xi2

30

70

50

40

20

60

100

10

50

40

yi

2

8

10

6

4

5

12

4

5

9

Предположим, что между объясняемой переменной y и объясняющими переменными x1 и x2 существует линейная зависимость:

. (49)

По имеющейся у нас выборке наблюдений методом наименьших квадратов построим зависимость:

. (50)

Будем предполагать, что все условия Гаусса – Маркова для случайного члена в зависимости (49) выполнены.

Для удобства и повышения наглядности расчетов составим вспомогательную таблицу 4:

Теперь по ранее полученным формулам вычисляем значения величин:

;

;

;

;

Таблица 4

x1

x2

y

x12

x22

y2

1

2

3

4

5

6

7

8

9

10

4

11

14

9

8

8

15

9

8

12

30

70

50

40

20

60

100

10

50

40

2

8

10

6

4

5

12

4

5

9

16

121

196

81

64

64

225

81

64

144

900

4900

2500

1600

400

3600

10000

100

2500

1600

4

64

100

36

16

25

144

16

25

81

98,600

27,600

12,600

5,600

48,600

-23,400

275,600

29,600

-5,400

-15,400

26,100

1,800

14,700

0,400

4,500

2,700

28,600

2,000

2,700

5,500

98

470

65

1056

28100

511

454,000

89,000

Среднее

значение

9,8

47

6,5

105,6

2810

51,1

45,400

8,900

Продолжение таблицы 4

Аi

1

2

3

4

5

6

7

8

9

10

76,500

34,500

10,500

3,500

67,500

-19,500

291,500

92,500

-4,500

-17,500

1,408

8,121

9,916

5,662

4,286

5,452

12,166

4,787

5,161

8,040

0,351

0,015

0,007

0,114

0,082

0,205

0,028

0,600

0,026

0,923

20,250

0,250

12,250

0,250

6,250

2,250

30,250

6,250

2,250

6,250

29,750

1,450

0,850

5,667

7,175

8,940

1,317

19,750

3,140

10,678

535,000

0,370

88,500

88,720

Среднее

значение

53,500

0,237

8,850

8,872

;

;

;

;

;

;

;

;

;

;

;

;

;

;

Далее задаемся уровнем значимости α = 0,05; вычисляем число степеней свободы по формуле v = nk – 1 = 10 – 2 – 1 = 7 и по таблице распределения критерия Стьюдента определяем tкр = t(0,05; 7) = 2,360; выдвигаем гипотезу H0: β0 = 0, так как tb0 = 5,201 > tкр = 2,360, то гипотезу H0 отвергаем и поэтому делаем заключение что β0 значимо отличается от 0. Аналогичные заключения делаем и по коэффициентам β1 и β2 так как справедливы неравенства: tb1= 10,716 > tкр = 2,360 и tb2 = 3,222 > tкр = 2,360.

Теперь проверим адекватность построенного уравнения регрессии наблюдаемым значениям объясняемой переменной y. Для этого вычислим статистику F:

.

Выдвигаем нулевую гипотезу Н0: F = 0 Для уровня значимости α = 0,05 числа степеней k1 = k = 2 и k2 = nk – 1 = 10 – 2 – 1 = 7 по таблице распределения критерия Фишера - Снедекора определяем Fкр = F(0,05; 2, 7) = 4,740 так как F=117,018 > Fкр = 4,740 нулевую гипотезу Н0: F = 0 отвергаем и признаем, что построенное уравнение регрессии адекватно описывает наблюдаемые в выборке значения объясняемой переменной у.

Таким образом, построенное уравнение регрессии имеет вид:

. (51)

Оно показывает, что увеличение только мощности пласта торфа x1 (при неизменном x2) на 1 метр приводит к увеличению добычи торфа на одного рабочего в среднем на 0,793 тонны; а увеличение только уровня механизации x2 (при неизменном x1) на 1% приводит к увеличению добычи торфа на одного рабочего в среднем на 0,029 т. Коэффициент b0 = -2.637, в данном случае, ясного экономического смысла не имеет.