Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методэконометрика для заочников.DOC
Скачиваний:
2
Добавлен:
04.12.2018
Размер:
2.78 Mб
Скачать

Остаточной дисперсией называется величина

(11)

В знаменателе остаточной дисперсии стоит число степеней свободы равное (n – 2), а не n, так как две степени свободы теряются при определении двух параметров (a, b).

Далее вычислим значения математических ожиданий и дисперсий для коэффициентов а и b. Для коэффициента a мы имеем:

(12)

Для коэффициента b получаем:

(13)

Подставив в выражения теоретических дисперсий параметров a и b вместо σ2 ее оценку S2, получим оценки дисперсий этих параметров:

, (14)

. (15)

Для проверки значимости коэффициентов a и b вычислим статистики:

, , (16)

здесь Sa, Sb - стандартные ошибки коэффициентов регрессии т. е.

; .

Статистики ta и tb подчиняются распределению Стьюдента с числом степени свободы v = n – 2. Выдвинем гипотезу Н0: a = 0 и для заданного уровня значимости α (обычно α = 0,05) и числа степеней свободы v = n – 2 найдем из таблицы распределения критерия Стьюдента критическое значение tкр = t(α,v).

Если ta > tкр гипотезу Н0 отвергаем и считаем коэффициент а значимо отличным от нуля.

Если ta > tкр у нас нет оснований отвергать гипотезу Н0 т. е. в этом случае считаем, что коэффициент а не значимо отличается от нуля.

Аналогично производится проверка на значимость и коэффициента b.

Выборочный коэффициент парной корреляции между переменными x и y определяемый по выборке из n наблюдений вычисляется по формуле: (17)

Более удобным для практических расчетов значений rxy является формула: (18)

Выборочный коэффициент парной корреляции дает количественную оценку тесноты линейной связи между переменными x и y. Он является безразмерной величиной и изменяется в диапазоне -1 ≤ rxy ≤ 1. Если rxy = 1, это означает, что между переменными x и y существует прямо пропорциональная линейная функциональная зависимость, если rxy = -1 это означает, что между переменными x и y существует обратно пропорциональная линейная функциональная зависимость. Если rxy = 0, то это означает, что между переменными x и y линейной зависимости нет (хотя нелинейная зависимость может существовать), в этом случае говорят, что переменные x и y некоррелированы. В случае, когда -1 < rxy < 1, говорят что переменные x и y стохастически (вероятностно) линейно связаны. Значимость этой зависимости проверяется следующим образом: вычисляется статистика:

(19)

Статистика tr подчиняется распределению Стьюдента с числом степени свободы v = n – 2. Выдвигается нулевая гипотеза Н0: ρxy = 0. Далее для заданного уровня значимости α и числа степени свободы v = n – 2 по таблице распределения критерия Стьюдента находим tкр = t(α, v).

Если |tr| > tкр, то нулевая гипотеза об отсутствии линейной зависимости между переменными x и y отвергается, в этом случае переменные x и y считаются коррелированными.

Если |tr| < tкр, то у нас нет оснований для того, чтобы отвергнуть нулевую гипотезу, в этом случае мы должны признать, что между переменными x и y не существует значимой линейной зависимости т. е. они не коррелированы.

Теперь покажем, что проверка на значимость выборочного коэффициента парной корреляции rxy и коэффициента детерминации R2 эквивалентны. С одной стороны:

(20)

с другой стороны

(21)

Из формул (20) и (21) следует, что

(22)

Из формулы (22) следует, что tr = из чего делаем вывод о том, что проверка на значимость выборочного коэффициента парной корреляции rxy и коэффициента детерминации R2 эквивалентны.

Наблюдаемые значения объясняемой переменной yi () отличаются от прогнозируемых значений , рассчитанных по уравнению регрессии. Чем меньше эти отличия, тем ближе прогнозируемые значения подходят к наблюдаемым значениям yi, и тем лучше качество построенной модели. Величина отклонения наблюдаемого и прогнозируемого значения объясняемой переменной по каждому наблюдению представляет собой ошибку аппроксимации. Так как может быть как величиной положительной, так и отрицательной, то ошибку аппроксимации для каждого наблюдения принято определять в процентах и по модулю.

Выражение можно рассматривать как абсолютную ошибку аппроксимации, а выражение:

как относительную ошибку аппроксимации для i-го наблюдения.

Чтобы иметь показатель, характеризующий качество модели в целом, определяют среднюю ошибку аппроксимации по всем наблюдениям в выборке по формуле:

.

Считается [2, 3], что построенное уравнение регрессии достаточно хорошо прогнозирует наблюдаемые значения объясняемой переменной, если .

В прогнозных расчетах по построенному уравнению регрессии (2) определяется предсказываемое значение, как точечный прогноз при x = xp, т. е. путем подстановки в уравнение регрессии (2) соответствующего значения объясняющей переменной x. Однако надо признать, что точечный прогноз явно не реален. Поэтому он дополняется расчетом стандартной ошибки т.е. и соответственно интервальной оценкой наблюдаемых значений.

Ошибка предсказания равна разности между предсказанным и действительным значениями:

.

Ошибка предсказания имеет нулевое математическое значение:

Вычислим дисперсию прогноза, поскольку

то для дисперсии прогноза имеем

Из этой формулы следует, что чем больше xp отклоняется от выборочного среднего , тем больше дисперсия ошибки предсказания, и чем больше объем выборки n, тем меньше дисперсия.

Заменяя в дисперсии прогноза на ее оценку S2 и извлекая квадратный корень, получим стандартную ошибку предсказания

.

Доверительный интервал для действительного значения yp определяется выражением:

,

где tкр – критическое значение t – статистики при заданном уровне значимости и соответствующем объему выборки числе степеней свободы.

На Рис. 1 отрезок отмеченный стрелками определяет доверительный интервал истинного значения объясняемой переменной yp относительно предсказанного по уравнению регрессии значения .

Рис. 1

Теперь рассмотрим на конкретном примере, как применяется на практике изложенная выше теория парного линейного регрессионного анализа.

В качестве примера рассмотрим зависимость между сменной добычей торфа на одного рабочего y(т) и мощностью пласта x(м) по следующим (условным) данным, характеризующим процесс добычи торфа в n = 10 карьерах.

Таблица 1

I

1

2

3

4

5

6

7

8

9

10

xi

4

11

14

9

8

8

15

9

8

12

yi

2

8

10

6

4

5

12

4

5

9

Для определения вида зависимости между x и y построим корреляционное поле ( смотрите Рис. 2 ):

Рис. 2

По расположению точек на корреляционном поле полагаем, что зависимость между x и y линейная: y = a + bּx.

По формулам, приведенным ранее, находим:

;

;

;

;

;

;

;

;

;

;

;

;

Для повышения наглядности вычислений по МНК построим таблицу 2:

Таблица 2

xi

yi

x2i

xiּyi

y2i

Аi

1

4

2

16

8

4

1.100

20.250

29.155

0.809

44.950

2

11

8

121

88

64

7.617

2.250

1.248

0.147

4.775

3

14

10

196

140

100

10.410

12.250

15.288

0.168

4.110

4

9

6

81

54

36

5.755

0.250

0.555

0.066

4.667

5

8

4

64

32

16

4.824

6.25

2.808

0.679

20.625

6

8

5

64

40

25

4.824

2.25

2.808

0.031

3.500

7

15

12

225

180

144

11.341

30.25

23.435

0.424

5.483

8

9

4

81

36

16

5.755

6.25

0.555

3.081

43.900

9

8

5

64

40

25

4.824

2.25

2.808

0.031

3.500

10

12

9

144

108

81

8.548

6.25

4.195

0.204

5.011

98

65

1056

726

511

65

88.50

82.856

5.044

139.92

среднее

9.8

6.5

105.6

72.6

51.1

6.5

8.85

8.286

0.564

13.992

Теперь определим значимость параметров a = -2.623 и b = 0,931, входящих в построенное уравнение регрессии. Для этого зададимся уровнем значимости α = 0,05; вычислим число степеней свободы v = n – 2 = 10 – 2 = 8. И далее по таблице распределения критерия Стьюдента определим tкр = t(α,v1) = t(0,05; 8) = 2,301. Так как ta = 2,972 > tкр = 2,301 и tb = 10.837 > tкр = 2,301 оба параметра значимо отличаются от нуля и должны быть оставлены в модели. Значит, построенное уравнение регрессии будет иметь вид:

(23)

Теперь определим, насколько хорошо построенное уравнение регрессии описывает наблюдаемые значения y. Для этого снова зададимся уровнем значимости α = 0,05; найдем по формулам: k1 = 1, k2 = n – 2 = 10 – 2 = 8 числа степеней свободы; далее по таблице распределения критерия Фишера - Снедекора найдем Fкр = F(α, k1, k2) = F(0,05;1;8) = 5,320. Так как F = 117,000 > Fкр = 5,320; то делаем вывод, что построенное уравнение регрессии адекватно описывает наблюдаемые значения переменной y и им можно пользоваться для прогнозирования значений y при соответствующих значениях x.

Для построенной модели значение коэффициента детерминации R2 = 0,936; что свидетельствует о том, что 93,6% вариации значений переменной y объясняется изменчивостью переменной x, и только 6,4% вариации значений y объясняется воздействием случайного фактора.

Для построенной модели значение выборочного коэффициента корреляции есть rxy = 0,968. По формуле (19) вычислим значение . (24)

Выдвинем гипотезу Н0: ρxy = 0. Зададимся уровнем значимости α = 0,05, вычислим v = n – 2= 10 – 2 = 8 и по таблице распределения критерия Стьюдента найдем tкр = 2,310.

Для tкр и tr выполняется неравенство tr = 10.823 > tкр = 2,301 из которого мы делаем вывод, что нулевая гипотеза должна быть отвергнута и мы должны признать, что между переменными x и y существует значимая линейная зависимость. Это является еще одним подтверждением адекватности построенного уравнения регрессии (23).