Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глава 2.docx
Скачиваний:
3
Добавлен:
01.06.2015
Размер:
128.05 Кб
Скачать

2.3 Статистическое оценивание модели и проверка ее на адекватность

Проведем процедуру регрессионного анализа с помощью метода наименьших квадратов. Получим оценки параметров:

b0

-14546,4

Класс отеля

b1

12471,7

Длительность отдыха

b2

1848,81

Тип питания

b3

12172,7

Категория номера

b4

-457,349

Расположение отеля (линия)

b5

4913,2

Курорт

b6

-11632,1

Горящий тур

b7

-434,074

Пляж

b8

4211,7

Исходная эконометрическая модель нашей задачи, таким образом, принимает вид:

у̂= -14546,4+12471,7х1 +1848,81х2+ 12172,7х3 -457,349х4+4913,2х5-11632,1х6-434,074х7+4211,7 х8+е.

Проведем проверку на наличие мультиколлинеарности методом инфляционных остатков:

Класс отеля 1,477

Продолжительность отдыха 1,296

Тип питания 1,083

Категория номера 1,455

Горящая путевка 1,158

Курорт 1,084

Расположения отеля (линия) 1,227

Пляж 1,294

Все инфляционные факторы меньше 10, значит, мультиколлинеарность отсутствует.

Проверка значимости уравнения регрессии

Подобная процедура поможет нам установить, соответствует ли эконометрическая модель имеющимся данным.

Н0: все βi=0. Подтверждение этой гипотезы говорит о незначимости построенной модели. Сформулируем альтернативную гипотезу

Н1: βj≠0 о существовании хотя бы одного параметра, отличного от нуля, что свидетельствовало бы о значимости модели.

Для проверки гипотезы будем использовать F-критерий:

Для нашей модели, используя возможность проведения дисперсионного анализа в Gretl, находим:

=2089100000,00 /164803000,00= 12,68

Сопоставим с Fтабл= 2,17399, с числом степеней свободы ν1=8, ν2=41 и доверительной вероятностью 95%:

Fтабл < , делаем заключение, что выборочные данные не подтверждают нулевую гипотезу. Все или некоторые переменные имеют влияние на результирующий признак. Узнаем, какие именно.

Проверка значимости оценок параметров уравнения регрессии

Сформулируем две гипотезы:

Н0: о том, что параметр генерального уравнения регрессии βi не значимо отличается от нуля, что означает отсутствие влияния на результирующую переменную i-го фактора. А также вторую гипотезу

Н1: βj≠0 о значимом отличии от нуля параметра, следствие из которого – признание влияния фактора на функцию отклика.

В качестве статистического критерия будем использовать t-статистику Стьюдента.

Определим значение

и сопоставим его с табличным значением, при количестве степеней свободы ν=41 =1,6828.

Если , то βj значим, если соотношение не выполняется, то оценка признается незначимой.

Для значимого параметра построим доверительный интервал:

Произведем вычисления и занесем их в таблицу 5.

Таблица 6 – Проверка значимости оценок параметров уравнения регрессии

Коэффициент

Оценка

Ст.ошибка

tрасч

tтабл

Вывод

Доверительный интервал

b0

-14546,4

25094,6

-0,5797

1,68288, р=0,05

Не значим

b1 (hotel)

12471,7

3184,46

3,9164

1,68288, р=0,05

Значим

6040,59;18902,9

b2 (duration)

1848,81

1348,7

1,3708

1,68288, р=0,05

Не значим

b3 (meal)

12172,7

2596,51

4,6881

1,68288, р=0,05

Значим

6928,93;17416,4

b4 (room)

4913,2

1576,83

3,1159

1,68288, р=0,05

Значим

1728,72; 8097,67

b5 (line)

-434,074

2646,47

-0,1640

1,68288, р=0,05

Не значим

b6 (place)

4211,7

1925,53

2,1873

1,68288, р=0,05

Значим

323,004; 8100,39

b7 (last_min)

-11632,1

3936,54

-2,9549

1,68288, р=0,05

Значим

-19582,1;-3682,04

b8 (beach)

-457,349

4985,72

-0,0917

1,68288, р=0,05

Не значим

Таким образом, оценки b1,b3, b4, b6 и b7 значимы при 95% доверительной вероятности, а b0, которую мы могли бы проинтерпретировать, как среднее значение цены, b2, b5, b8 оказались не значимым. Вновь обратимся к процедуре МНК. Последовательно исключим незначимые факторы из уравнения, обращая внимание на значение R2.

Исходное уравнение имело вид:

у̂= -14546,4+12471,7х1 +1848,81х2+ 12172,7х3 -457,349х4+4913,2х5-11632,1х6-434,074х7+4211,7 х8+е, R2=0,7121.

Исключим переменную х8 (пляж) из уравнения, так как она имеет наименьшую по модулю tрасч, получим R2= 0,7120.

Далее удалим х5 (расположение отеля), R2=0,7119.

После исключения const, R2= 0,9799 и значимой стала оценка b2.

Таким образом, получили следующее выборочное уравнение регрессии:

̂у= 11484,3 х1 + 1077,14х2+11732,7х3+ 4707,24 х4 +3935,34 х6 - 12350,0х7+е.

Проверим качество уравнения регрессии по коэффициенту детерминации R2.

R2=0,9799 и R2испр=0,9776, что говорит о достаточно хорошей описательной способности модели.

Проанализируем статистическую значимость коэффициента детерминации. Сформулируем гипотезы:

Н0: R2=0. Если данная гипотеза подтверждается, то мы можем утверждать, что совокупное влияние объясняющих переменных на объясняемую статистически несущественно.

Н1: R2>0, что говорит о качестве модели.

Для проверки гипотез используем F-статистику Фишера:

Fрасч=.

Если Fрасч > Fтабл, при ν1=8, ν2=41, то гипотеза Н0 отклоняется в пользу Н1 и мы говорим о том, что построенная модель хорошо объясняет поведение зависимого признака.

Если Fрасч ≤ Fтабл , то подтверждается Н0.

Для нашей модели Fрасч=249,85 , Fтабл =2,17399, при α=0,05. Следовательно, коэффициент детерминации признается значимым с 95% вероятностью.

Тестирование гетероскедастичности при помощи критерия Уайта

Построим гипотезы:

Н0: σi2=σ2 и

Н1: σi2≠σ2 для всякого наблюдения.

При подтверждении исходной гипотезы, мы сделаем вывод о постоянстве дисперсии отклонений случайной компоненты, о гомоскедастичности, в противном случае – о гетероскедастичности.

Критерием выступит величина n* R2, которая в случае гомоскедастичности асимптотически распределена, как χр-12, где R2 – коэффициент детерминации уравнения регрессии квадратов этих остатков и всех факторы нашей модели.

Имеем R2 = 0,736470, χрасч2=n* R2=36,82, а критическое значение χ52= 11,0705, χрасч2> χ52 , следовательно, Но отвергается в пользу гипотезы о гетероскедастичности.

Для устранения этого недостатка применим взвешенный метод наименьших квадратов при построении итоговой модели.

Данный метод применяется при известных для каждого наблюдения значениях σi2. В этом случае устранить гетероскедастичность можно, разделив каждое наблюдаемое значение на соответствующее ему значение среднеквадратического отклонения.

Выбрав в качестве весовой переменной выберем х1, подразумевающую класс отеля, построим уравнение регрессии, включающее все имеющиеся факторы и проверим оценки параметров на значимость с помощью критерия Стьюдента t с числом степеней свободы ν=41 р=0,05: t=1,68288 (таблица 7).

О качестве модели: R2=0,726833, F5,45= 21,22756.

Таблица 7 – Оценки параметров, полученные по ВМНК.

Признак

Оценка

Значение

Ст. ошибка

t-статистика

const

b0

-14546,4

25094,6

-0,5797

Класс отеля

b1

12471,7

3184,46

3,9164

Продолжительность

b2

1848,81

1348,7

1,3708

Тип питания

b3

12172,7

2596,51

4,6881

Категория номера

b4

4913,2

1576,83

3,1159

Расположение отеля

b5

-434,074

2646,47

-0,1640

Курорт

b6

4211,7

1925,53

2,1873

Горящая путевка

b7

-11632,1

3936,54

-2,9549

Пляж

b8

-457,349

4985,72

-0,0917

Проведем окончательное построение модели, пошагово удаляя незначимые факторы6:

уберем из факторного пространства х8 (пляж), получили R2=0,726833.

Далее вычтем из набора х5 (расположение отеля относительно моря), R2=0,726379, и значимой стала оценка влияния х2 (длительность отдыха) с tрасч=1,704. Устраним const, R2=0,718367, b2 стала вновь незначимой, удалим х2 из набора объясняющих переменных, получили уравнение с R2=0,702258.

Таблица 8 – Оценки параметров итоговой модели

Признак

Переменная

Коэффициент

Ст. ошибка

t-статистика

Класс отеля

х1

14211,9

1917,94

7,4099

Тип питания

х3

12430

2366,75

5,2519

Категория номера

х4

4611,36

1466,74

3,1440

Горящая путевка

х7

-11096,1

3708,27

-2,9923

Курорт

х6

5248,71

1620,86

3,2382

Проверим на нормальность распределение остатков модели с помощью критерия χ2 (см. Рисунок 2)

Н0: распределение остаков является нормальным,

Н1 : распределение не является нормальным.

С помощью программы Gretl получили χ2расч = 0,6996 и χ2крит= 9,48773 (при р=0,05, ν=4).

0,6996<9,48773, следовательно, нулевая гипотеза о нормальном распределении подтверждается.

Рисунок 2 – График распределения остатков

Итоговая модель: у̂=14211,9х1+12430х3+4611,36 х4+5248,71х6 -11096,1х7.

Для сравнения влияния на зависимую переменную различных объясняющих переменных вычислим стандартизированные коэффициенты регрессии, коэффициенты эластичности. Интерпретация этих коэффициентов затрудняется тем, что признаки в нашей модели качественные, поэтому будем рассматривать вычисленные коэффициенты по большому счету не с точки зрения содержания, а как критерий меры связи.

Стандартизованный коэффициент регрессии определим по формуле

Коэффициент эластичности рассчитаем, как:

полученные значения занесем в таблицу 9.

Таблица 9 – Стандартизированные коэффициенты регрессии и коэффициенты эластичности

Признак

Ст. отклонение

Стандартизированный коэф. регрессии

Среднее

Коэф.эластичности, %

Класс отеля

0,69985

0,454465204

3,2

57,09697

Тип питания

0,73512

0,41751578

1,42

23,7206

Категория номера

1,4028

0,295575418

1,46

8,452649

Горящий тур

0,50143

-0,254228481

0,44

-6,12963

Курорт

0,40975

0,098268667

2,42

2,899454

Максимальный вклад в вариацию зависимого признака вносит признак, означающий класс отеля, что логично, так как проживание в отеле занимает значительную долю в стоимости турпакета и может предопределять некоторые другие параметры отдыха. Далее, чуть меньшее влияние, оказывает тип питания. Так как отдых бывает продолжительным, совокупный расходы на питание в отеле получаются значительными. Самое минимальное значение коэффициент регрессии принимает в отношении характеристики влияния выбранного курорта Бали на цену турпутевки.

Можно отметить, что наиболее эластичной является связь между классом отеля и ценой турпакета, наименее эластичной – между ценой турпакета и курортом.

Применим построенную модель для построения прогнозов цены турпакетов и оценим результаты.

Таблица 9 – Прогнозные и фактические значения

Фактическое

Расчетное

Остатки

1

116319,

88360,3

27958,7

2

78402,0

51351,1

27050,9

3

106797,

104106,

2690,61

4

78749,0

70174,4

8574,62

5

51106,0

74526,2

-23420,2

6

57579,0

70811,7

-13232,7

7

60008,0

79397,1

-19389,1

8

60516,0

74785,7

-14269,7

9

75783,0

60573,9

15209,1

10

52800,0

51351,1

1448,85

11

106797,

102702,

4094,70

12

50953,0

49477,7

1475,26

13

57232,0

59078,2

-1846,24

14

106797,

91606,2

15190,8

15

94650,0

84575,6

10074,4

16

96038,0

79326,9

16711,1

17

79254,0

93161,0

-13907,0

18

52878,0

59715,6

-6837,59

19

45922,0

40255,0

5666,99

20

48218,0

54466,9

-6248,88

21

51981,0

40255,0

11726,0

22

73480,0

66896,9

6583,12

23

74837,0

77264,1

-2427,12

24

68369,0

59078,2

9290,76

25

83576,0

59078,2

24497,8

26

58115,0

72145,6

-14030,6

27

90107,0

70811,7

19295,3

28

107522,

92971,6

14550,4

29

107712,

91827,1

15884,9

30

108627,

104106,

4520,61

31

108627,

118469,

-9841,97

32

89760,0

102325,

-12564,5

33

91590,0

89257,2

2332,82

34

114684,

118318,

-3634,26

35

114684,

116536,

-1852,39

36

115252,

113220,

2031,74

37

109731,

106039,

3692,03

38

61712,0

55962,5

5749,49

39

65780,0

65563,0

216,986

40

55600,0

76060,4

-20460,4

41

89820,0

90423,0

-603,016

42

91296,0

102325,

-11028,5

43

95404,0

95034,4

369,620

44

60554,0

66896,9

-6342,88

45

62993,0

77264,1

-14271,1

46

69282,0

80731,0

-11449,0

47

63859,0

69575,7

-5716,66

48

65143,0

75860,0

-10717,0

49

76085,0

77901,5

-1816,47

50

79551,0

74187,0

5363,98

По данной таблице мы можем проверить качество и точность расчетов по сформированному нами уравнению. Наглядно данные представлены на рисунке 3. Например, турпутевка № 35, предполагающая 11-тидневный отдых в 4*-ном отеле первой линии Bali Tropik Resort & Spa на курорте Нуса-Дуа с питанием по типу полупансион в номере категории deluxe рядом с муниципальным пляжем, стоит 114684 руб. По нашей модели

у̂=14211,9х1+12430х3+4611,36 х4+5248,71х6 -11096,1х7, при

х1=4 (класс отеля), х3=2 (тип питания), х4=3 (категория номера), х6=4 (курорт), х7=0 (горящий тур),

такая путевка оценивается в 116536 руб, то есть ошибка прогноза -1852,39руб.

В целом, прогнозы по нашей модели можно охарактеризовать следующими показателями.

Стандартная ошибка регрессии (SE)= 12845,9 показывает возможные отклонения значений от уравнения регрессии:

Средняя ошибка прогноза (МЕ) = 726,88 показывает, какие, в среднем, ошибки прогноза по нашей модели можно ожидать при увеличении числа прогнозов.

Средняя абсолютная ошибка в процентах (MAPE) = 13,248% позволяет оценить точность наших прогнозов по имеющемуся проценту ошибок.

Рисунок 3 – Расчетные и прогнозные значения