Задание для выполнения практической работы по дисциплине эконометрика
корреляция регрессия гетероскедастичность
Работа включает в себя анализ реальных экономических данных при помощи изученных эконометрических моделей.
Работа должны быть выполнена в соответствии со следующими этапами:
1) Рассчитайте корреляцию между, экономическими показателями (не менее 5) из статистических данных по выборке не менее 30 наблюдений (из Интернета, печатных источников или Вашего предприятия). Интерпретируйте полученные данные.
2) Постройте линейную и не линейную (на свой выбор) множественную регрессию. Определите теоретическое уравнение множественной регрессии. Оцените адекватность построенной модели. Определите значимость переменных, найдите среднюю ошибку аппроксимации (вручную в экселе), коэффициент детерминации, линейные коэффициенты корреляции между всеми членами регрессии, найти критерий Фишера, Т-статистику и т. д.
3) Проверьте модели на отсутствие автокорреляции.
4) Проверка на гетероскедастичность моделей.
5) Сравните модели между собой выберете лучшую
Работа выполняется на листах формата А4, с титульным листом и обязательными выводами по работе. Решение: Сбор данных из интернет – источников получены данные средней продолжительности жизни, ВВП в паритетах покупательной способности, темпы прироста населения по сравнению с предыдущим годом, %; темпы прироста рабочей силы по сравнению с предыдущим годом, %; коэффициент младенческой смертности. Изучим зависимость продолжительности жизни от нескольких факторов по данным за 2005 г., представленным в табл.1.
Таблица 1. Обзор социальных показателей стран третьего мира.
Страна |
У |
Х1 |
Х2 |
Х3 |
Х4 |
Мозамбик |
47 |
3,0 |
2,6 |
2,4 |
113 |
Бурунди |
49 |
2,3 |
2,6 |
2,7 |
98 |
Чад |
48 |
2,6 |
2,5 |
2,5 |
117 |
Непал |
55 |
4,3 |
2,5 |
2,4 |
91 |
Буркина-Фасо |
49 |
2,9 |
2,8 |
2,1 |
99 |
Мадагаскар |
52 |
2,4 |
3,1 |
3,1 |
89 |
Бангладеш |
58 |
5,1 |
2,0 |
2,1 |
79 |
Гаити |
57 |
3,4 |
2,0 |
1,7 |
72 |
Мали |
50 |
2,0 |
2,9 |
2,7 |
123 |
Нигерия |
53 |
4,5 |
2,9 |
2,8 |
80 |
Кения |
58 |
5,1 |
2,7 |
2,7 |
58 |
Того |
56 |
4,2 |
3,0 |
2,8 |
88 |
Индия |
62 |
5,2 |
1,8 |
2,0 |
68 |
Бенин |
50 |
6,5 |
2,9 |
2,5 |
95 |
Пакистан |
68 |
7,4 |
3,1 |
4,0 |
46 |
Мавритания |
59 |
7,4 |
2,8 |
2,7 |
73 |
Зимбабве |
47 |
4,9 |
3,1 |
2,8 |
124 |
Гондурас |
60 |
8,3 |
2,9 |
3,3 |
90 |
Китай |
51 |
5,7 |
2,5 |
2,7 |
96 |
Камерун |
57 |
7,5 |
2,4 |
2,2 |
55 |
Конго |
67 |
7,0 |
3,0 |
3,8 |
45 |
Шри-Ланка |
69 |
10,8 |
1,1 |
1,1 |
34 |
Египет |
57 |
7,8 |
2,9 |
3,1 |
56 |
Индонезия |
51 |
7,6 |
2,9 |
2,6 |
90 |
Филиппины |
72 |
12,1 |
1,3 |
2,0 |
16 |
Марокко |
63 |
14,2 |
2,0 |
2,7 |
56 |
Папуа - Новая |
64 |
14,1 |
1,6 |
2,5 |
51 |
Гвинея |
66 |
10,6 |
2,2 |
2,7 |
39 |
Гватемала |
65 |
12,4 |
2,0 |
2,6 |
55 |
Эквадор |
57 |
9,0 |
2,3 |
2,3 |
64 |
Доминиканская Республика |
66 |
12,4 |
2,9 |
3,5 |
44 |
Ямайка |
69 |
15,6 |
2,2 |
3,2 |
36 |
Принятые в таблице обозначения:
у — средняя продолжительность жизни, лет;
х1 - ВВП в паритетах покупательной способности, млрд. долл.;
х2 - темпы прироста населения по сравнению с предыдущим годом, %;
х3 - темпы прироста рабочей силы по сравнению с предыдущим годом;
х4 - коэффициент младенческой смертности, %с.
Корреляционный анализ
Корреляционный анализ проводился с использованием компьютерной программы EXCEL с помощью пакета анализа данных
Таблица 2. Корреляционная зависимость продолжительности жизни от различных факторов.
|
У |
Х1 |
Х2 |
Х3 |
Х4 |
У |
1 |
|
|
|
|
Х1 |
0,7782 |
1 |
|
|
|
Х2 |
-0,524 |
-0,49 |
1 |
|
|
Х3 |
0,1123 |
0,096 |
0,6963 |
1 |
|
Х4 |
-0,928 |
-0,763 |
0,523 |
-0,032 |
1 |
На основании полученных данных можно сделать вывод, что наибольшее влияние на продолжительность жизни оказывает фактор Х1- ВВП в паритетах покупательной способности, у остальных факторов наблюдается слабый корреляционный отклик.
3. Для выбора наилучшей регрессионной функции необходимо ее проанализировать по набору критериев: коэффициенты попарной корреляции, коэффициенты множественной корреляции, критерий Фишера, статистики Стьюдента.
Строим регрессионную функцию по всем регрессорам, использую при этом пакет анализа данных MS Excel «Регрессия»
Таблица 3. Регрессионная статистика
Множественный R |
0,9546 |
R-квадрат |
0,9112 |
Нормированный R-квадрат |
0,8981 |
Стандартная ошибка |
2,3541 |
Наблюдения |
32 |
Пояснения к таблице 2. Регрисеонная статистика содержит строки, характеризующие построенное уравнение регрессии:
Для парной регрессии Множественный R равен коэффициенту корреляции (rxу). Множественный коэффициент корреляции R определяется как коэффициент корреляции между наблюдаемыми значениями Yi и расчетными, прогнозируемыми значениями. По его значению 0,9546 можно сказать, что между X и Y существует сильная линейная зависимость.
Строка R–квадрат равна коэффициенту корреляции в квадрате, он близок к 1, это означает что данная модель хорошо описывает данные
Нормированный R–квадрат рассчитывается с учетом степеней свободы числителя (n-2) и знаменателя (n-1) по формуле:
Стандартная ошибка (S) регрессии вычисляется по формуле 1.4.
Последняя строка содержит количество выборочных данных (n). Значимость уравнения в целом оценивается с помощью F-критерия Фишера
Если найденное значение F больше табличного для уровня значимости α и степеней свободы (n-m-1) и m, то с вероятность 1 - α делаем заключение о статистической значимости уравнения в целом.
Таблица 4 Дисперсионный анализ
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
4 |
1535,9 |
383,97 |
69,285 |
8,42972E-14 |
Остаток |
27 |
149,63 |
5,5418 |
|
|
Итого |
31 |
1685,5 |
|
|
|
Пояснения к таблице дисперсионного анализа: число регрессоров m = 4 число n-m-1 = 27, где n – число наблюдений
Для уровня значимости α = 0,05 и при степенях свободы 4, 27 табличное значение критерия Фишера Fтаб = 2,71.
Значение F =69,285 существенно превышает табличное, что говорит о статистической значимости уравнения в целом.
Таблица 5 Коэффициенты регрессии
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
Y-пересечение |
72,846 |
3,4746 |
20,965 |
3E-18 |
65,717 |
79,976 |
Х1 |
0,0031 |
0,1929 |
0,0163 |
0,9871 |
-0,3925 |
0,3989 |
Х2 |
-6,173 |
1,9298 |
-3,199 |
0,0035 |
-10,132 |
-2,213 |
Х3 |
5,1218 |
1,5086 |
3,395 |
0,0021 |
2,02631 |
8,2173 |
Х4 |
-0,18 |
0,0258 |
-6,98 |
2E-07 |
-0,2326 |
-0,127 |
В столбце «Коэффициенты» получены коэффициенты уравнения регрессии.
Коэффициент b0= 72,846 в Таблице анализа – это Y-пересечение. Таким образом, получили уравнение регрессии:
У=72,846+0,0031Х1-6,173Х2+5,122Х3-0,18Х4
Коэффициент b1=0,0013 показывает, что при увеличении ВВП на 1 млр. дол. Средняя продолжительность жизни увеличивается в среднем на 0,0031 лет, увеличение темпов прироста населения на 1%,. приводит в среднем уменьшению продолжительности жизни на 6,173 лет, увеличение темпов прироста рабочей силы на 1% приводит к увеличению продолжительности жизни на 5,122 лет, а увеличение коэффициента младенческой смертности, на 1% ведет к уменьшению средней продолжительности жизни на 0,18 лет.
Стандартные ошибки mi, t-статистики ti могут быть вычислены по формулам
Где σY - среднее квадратическое отклонение для отклика Y, σXi - среднее квадратическое отклонение для регрессора Xi (X1, X2, …)R2- коэффициент детерминации для уравнения множественной регрессии, - коэффициент детерминации для зависимости отклика Y от всех регрессоров кроме Xi, - коэффициент детерминации для зависимости Xi от всех регрессоров кроме Xi.
Табличные t–критерии Стьюдента зависят от принятого уровня значимости и от числа степеней свободы (n-m-1). Если вычисленные значения t–критерия превышают табличные, то говорят, что соответствующий коэффициент регрессии является статистически значимым и на него можно опираться в анализе и прогнозе.
Более того, используя табличное значение t-критерия и стандартную ошибку mi коэффициента регрессии bi можно с вероятностью 1 - α сделать вывод о том, что истинное значение коэффициента регрессии попадет в интервал (bi – tтаб*mi , bi + tтаб*mi).
Они составляют:
m(X1) =0.192, m(X2) =1,9289, m(X3) =1,5086, m(X4) =0.0258, m(y) =3.4746
t(X1) =0.0163, t(X2) =-3.199, t(X3) =3.395, t(X4) =-6.98, t(y) =20.965
Табличное значение t–критерия Стьюдента при уровне значимости α = 0,05 и числе степеней свободы 27 tтаб =2,051. Коэффициенты t- статистики при регрессорах Х1 , Х2 и Х4 меньше t таб., и согласно t–критерию не являются статистически значимыми.
По величине Р-значения возможно определять значимость коэффициентов, не находя критическое значение t-статистики. Если значение t-статистики велико, то соответствующее значение вероятности значимости мало – меньше 0,05, и можно считать, что коэффициент регрессии значим. И наоборот, если значение t-статистики мало, соответственно вероятность значимости больше 0,05 – коэффициент считается незначимым.
Для коэффициентов b0, b2, b3, b4 значения вероятности близко к нулю, следовательно, b1 можно считать значимым, b1- близко к единице, коэффициент не значим.
Далее представлены доверительные интервалы (нижняя и верхняя границы) для рассчитанных коэффициентов.
Таблица 6 Расчет относительной ошибки аппроксимации
Страна |
У |
у ожидаемое |
остатки E |
остатки/у |
Мозамбик |
47 |
48,735 |
-1,73 |
0,0369 |
Бурунди |
49 |
52,969 |
-3,97 |
0,081 |
Чад |
48 |
49,143 |
-1,14 |
0,0238 |
Непал |
55 |
53,316 |
1,68 |
0,0306 |
Буркина-Фасо |
49 |
48,485 |
0,52 |
0,0105 |
Мадагаскар |
52 |
53,552 |
-1,55 |
0,0299 |
Бангладеш |
58 |
57,027 |
0,97 |
0,0168 |
Гаити |
57 |
56,234 |
0,77 |
0,0134 |
Мали |
50 |
46,617 |
3,38 |
0,0677 |
Нигерия |
53 |
54,877 |
-1,88 |
0,0354 |
Кения |
58 |
59,56 |
-1,56 |
0,0269 |
Того |
56 |
52,819 |
3,18 |
0,0568 |
Индия |
62 |
59,73 |
2,27 |
0,0366 |
Бенин |
50 |
50,647 |
-0,65 |
0,0129 |
Пакистан |
68 |
65,915 |
2,08 |
0,0307 |
Мавритания |
59 |
56,25 |
2,75 |
0,0466 |
Зимбабве |
47 |
45,724 |
1,28 |
0,0272 |
Гондурас |
60 |
55,648 |
4,35 |
0,0725 |
Китай |
51 |
53,956 |
-2,96 |
0,058 |
Камерун |
57 |
59,399 |
-2,40 |
0,0421 |
Конго |
67 |
65,687 |
1,31 |
0,0196 |
Шри-Ланка |
69 |
65,577 |
3,42 |
0,0496 |
Египет |
57 |
60,742 |
-3,74 |
0,0657 |
Индонезия |
51 |
52,062 |
-1,06 |
0,0208 |
Филиппины |
72 |
72,195 |
-0,20 |
0,0027 |
Марокко |
63 |
64,082 |
-1,08 |
0,0172 |
Папуа - Новая |
64 |
66,61 |
-2,61 |
0,0408 |
Гвинея |
66 |
66,082 |
-0,08 |
0,0012 |
Гватемала |
65 |
63,929 |
1,07 |
0,0165 |
Эквадор |
57 |
58,912 |
-1,91 |
0,0335 |
Доминиканская Республика |
66 |
64,964 |
1,04 |
0,0157 |
Ямайка |
69 |
69,197 |
-0,20 |
0,0029 |
сумма |
1,0424 |
|||
средняя ошибка аппроксимации |
3,2574 |
Средняя ошибка аппроксимации показывает среднее отклонение расчетных значений от фактических и рассчитывается по формуле:
Средняя ошибка аппроксимации составляет 3,2574 %. Это значит, что качество тренда, исходя из относительных отклонений по каждому наблюдения, признается хорошим, так в норме средняя ошибка аппроксимации колеблется в пределах до 10%