Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Контрольная работа №1 вариант 5 Построение наилучшей модели регрессии..doc
Скачиваний:
21
Добавлен:
20.05.2014
Размер:
490.5 Кб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ЭЛЕКТРОНИКИ И МАТЕМАТИКИ

(ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

Контрольная работа №1 по дисциплине «Эконометрика»

Построение наилучшей модели регрессии.

(Вариант №5)

Выполнили:

МОСКВА 2010

Исходный набор данных представляет собой реализацию случайных величин. Мы предполагаем, что каждый элемент выборки получен случайным образом.

Для анализа взяты данные по двухкомнатным квартирам в кирпичных домах на крайних этажах. Данные взяты с сайта www.statsoft.ru (FLAT.STA). К анализу представлены 340 наблюдений над следующими переменными:

PRICE - Цена квартиры в тысячах долларов

TOTSP - Общая площадь в м2

LIVSP - Жилая площадь в м2

KITSP - Площадь кухни в м2

DIST - Расстояние до центра в км

WALK - Способ добраться до метро, 1-пешком, 0- транспорт

МЕTRDIST - Расстояние от метро в минутах

TEL - 1- есть телефон, 0-нет телефона

BAL - 1 - есть балкон, 0 - нет балкона

Целью разведочного анализа является установление зависимостей между переменной PRICE и остальными переменными

Описательная статистика

PRICE

 

 

Среднее

24,84647059

Стандартная ошибка

0,472718185

Медиана

22

Мода

20,1

Стандартное отклонение

8,716492652

Дисперсия выборки

75,97724414

Эксцесс

3,262080989

Асимметричность

1,799675984

Интервал

42,9

Минимум

15,4

Максимум

58,3

Сумма

8447,8

Счет

340

Мат.ожидание ;E=24,84647059

По выборке объема Т математическое ожидание показывает среднее значение показателя

Стандартное отклонение;= 8,716492652

Дисперсия выборки;= 75,97724414 - Дисперсия характеризует среднее отклонение от среднего значения по выборке. Чем больше дисперсия и, соответственно, среднеквадратичное отклонение, тем больше рассеивание значений признака вокруг математического ожидания. То есть тем больше вариация, изменчивость признака.

Доверительный интервал это интервал, который накрывает истинное значение параметра с заданной доверительной вероятностью.

(E-;E+)

( 16,129977; 33,562963)

Мода =20,1- это среднее значение цены

Построим графики зависимости цены от каждого параметра.

На этом графике совершенно четко видна зависимость цены от общей площади, т.е чем больше площадь, тем дороже квартира.

На этом графике также просматривается зависимость возрастания цены от возрастания параметра жилой площади, однако, можно заметить скопление точек в центре графика, возможно, такая площадь жилого пространства является оптимальной и по цене и по размеру для среднестатистической семьи.

На этом графике можно, в целом, выявить зависимость возрастания цены от повышения площади кухни, но также видно скопление точек на определенном уровне, что, вероятно, указывает на наиболее выгодную цену и размер кухни для большинства клиентов. Также существуют выбросы нескольких точек, которые могут свидетельствовать о наличии больших площадей в более дорогих и элитных квартирах, соответственно за высокую цену.

На этом графике показана зависимость стоимости квартиры от расстояния до цента города. Хорошо заметно, что чем ближе находится квартира от центра тем она дороже, но хорошо заметен предел этого расстояния, который максимально удачно будет удовлетворять большинство клиентов по цене.

Этот график показывает зависимость цены от расстояния до метро в минутах, видно, что чем меньше времени клиент затратит, чтобы добраться до метро, он заплатит за квартиру дороже, но все же есть точки, которые это опровергают, что возможно связано с престижем жилья, например за городом, или на цену повлияли другие, более существенные факторы.

Графики зависимости цены от наличия балкона, телефона и ближайшего транспорта не выявляют достаточно сильной зависимости цены, которую можно было бы описать, поэтому, построив графики, мы видим, что цена на квартиру зависит от общей площади, жилой площади и площади кухни и расстояния до цента в большей степени.

Теперь построим матрицу корреляции.

 

TOTSP

KITSP

DIST

WALK

TEL

BAL

LIVSP

МЕTRDIST

PRICE

TOTSP

1

KITSP

0,738638

1

DIST

-0,11984

-0,12702

1

WALK

0,102

0,049512

-0,08766

1

TEL

0,018506

0,007851

-0,05177

-0,02985

1

BAL

0,177013

0,207155

0,051557

-0,06158

0,238664

1

LIVSP

0,557775

0,184634

-0,07537

0,079989

0,025784

0,057686

1

МЕTRDIST

-0,07431

0,008285

0,053802

-0,0182

0,044522

0,045851

-0,07074

1

PRICE

0,63606

0,555322

-0,45979

0,167323

0,13297

0,18566

0,289391

-0,11208

1

Проанализируем коэффициенты корреляции. Известно, что при значениях коэффициента корреляции от 0,7 до 1 связь между параметрами очень сильная, от 0,5 до 0,7- сильная, от 0,3 до 0,5 – слабая, от 0 до 0,3 – связи нет.

На основе этого делаем вывод, что на цену довольно сильно влияет общая площадь и площадь кухни, эта связь положительная и близка к 1. Площадь жилого пространства имеет среднее положительное влияние на цену. Параметры BAL TEL WALK имеют очень слабое влияние на цену.

Также существует обратная отрицательная связь, которая говорит о том, что если увеличится расстояние до цента (DIST) или увеличится расстояние до метро (МЕTRDIST), то цена уменьшится, но эта связь очень слабая.

Построим модель линейной регрессии.

Цена будет являться зависимой переменной

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,748600857

R-квадрат

0,560403244

Нормированный R-квадрат

0,549413325

Стандартная ошибка

4,598747104

Наблюдения

329

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

8

8627,305836

1078,41323

50,99248213

9,79397E-53

Остаток

320

6767,511975

21,14847492

Итого

328

15394,81781

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Y-пересечение

7,888981468

2,871192818

2,747632071

0,006343021

2,24018263

TOTSP

0,48427469

0,103848196

4,663294218

4,57706E-06

0,27996324

LIVSP

-0,192472816

0,164882979

-1,167329803

0,243946293

-0,516864398

KITSP

0,803356286

0,226638137

3,544665064

0,000451729

0,357467303

DIST

-0,760303109

0,068369061

-11,12057257

1,65135E-24

-0,894812736

WALK

1,36842125

0,512794217

2,668558271

0,008005932

0,35954739

МЕTRDIST

-0,106243545

0,066707739

-1,592671953

0,112221075

-0,237484677

TEL

2,486935827

1,127188778

2,206317057

0,028071868

0,269299095

BAL

2,500303851

0,596154329

4,194054677

3,55176E-05

1,327426899

R-квадрат = 0,56, следовательно, 56% дисперсии результативного признака объяснило влияние независимых переменных.

P-значение у LIVSP и МЕTRDIST больше 0,05, то эти параметры нужно убрать, так как они почти не влияют на цену.

Наблюдения = 340 – число наблюдений.

Y-пересечение – это константа из регрессионного уравнения

Общая дисперсия регрессии(TSS): 15394,81781, дисперсия, объясненная регрессионным уравнением (RSS): 8627,305836, дисперсия, не объясненная регрессией (ESS): 6767,511975

Стандартная ошибка=4,598747104– общая дисперсия уравнения

y = 7,89+0,48* TOTSP-0,19* LIVSP+0,80* KITSP-0,76*DIST+1,37* WALK

(0,10) (0,16) (0,22) (0,06) (0,51)

-0,11* МЕTRDIST+2,49* TEL+2,5* BAL

(0,06) (1,12) (0,59)

Если посмотреть на матрицу корелляции, то выходит, что между ценой и МЕTRDIST – связь обратная. А LIVSP – не сильно влияет на цену. Исходя из данной модели получается, что больше всего на изменение цены влияет общая площадь, и площадь кухни, а общая жилая площадь – не влияет.

Уберем два параметра LIVSP и МЕTRDIST и построим новую регрессию.

Построим модель линейной регрессии без LIVSP и МЕTRDIST

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,744990064

R-квадрат

0,555010195

Нормированный R-квадрат

0,546718459

Стандартная ошибка

4,612478678

Наблюдения

329

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

6

8544,280835

1424,046806

66,93534727

9,95252E-54

Остаток

322

6850,536976

21,27495955

Итого

328

15394,81781

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Y-пересечение

5,143092861

2,317173155

2,219554827

0,027145363

0,584382516

TOTSP

0,419410624

0,08160849

5,139301343

4,79182E-07

0,258857465

KITSP

0,890995001

0,203575398

4,376732197

1,63015E-05

0,490489207

DIST

-0,76280945

0,068445137

-11,14483044

1,29229E-24

-0,897465574

WALK

1,375644971

0,514292497

2,674829945

0,00785856

0,363847247

TEL

2,393966643

1,12937937

2,119718765

0,034794493

0,172072519

BAL

2,461556636

0,597609225

4,119007093

4,84247E-05

1,285845037

R-квадрат = 0,55, следовательно, 55% дисперсии результативного признака объяснило влияние независимой переменной.

Общая дисперсия регрессии(TSS):15394,81781, дисперсия, объясненная регрессионным уравнением (RSS): 8544,280835, дисперсия, не объясненная регрессией (ESS): 6850,536976.

По данной модели видно, что только параметр DIST (расстояние до центра) уменьшает цену (чем он больше, тем меньше цена).

y = 5,14 + 42* TOTSP + 0,89* KITSP - 0,76 *DIST + 1,38* WALK +

(0,08) (0,20) (0,07) (0,51)

2,39* TEL + 2,46* BAL

(1,13) (0,60)

Продолжим искать наилучшую модель. Для этого построим логарифмическую модель

Построим логарифмическую модель регрессии

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,770365967

R-квадрат

0,593463724

Нормированный R-квадрат

0,583300317

Стандартная ошибка

0,166370153

Наблюдения

329

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

8

12,92992

1,616239428

58,39220341

4,29E-58

Остаток

320

8,857289

0,027679028

Итого

328

21,7872

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Y-пересечение

2,461513151

0,103872

23,6975753

2,13154E-72

2,257155

TOTSP

0,018136674

0,003757

4,827505835

2,14526E-06

0,010745

KITSP

0,03057416

0,008199

3,728942209

0,000227369

0,014443

DIST

-0,029087299

0,002473

-11,7600155

8,84001E-27

-0,03395

WALK

0,060843379

0,018551

3,279701482

0,001153652

0,024345

TEL

0,11961702

0,040779

2,933326675

0,003595599

0,039389

BAL

0,102731726

0,021567

4,763322589

2,89195E-06

0,0603

LIVSP

-0,005352434

0,005965

-0,897304086

0,370231257

-0,01709

МЕTRDIST

-0,002981818

0,002413

-1,235574785

0,217522963

-0,00773

Так как P-значение у LIVSP и МЕTRDIST больше 0,05, то эти параметры нужно убрать, так как они не влияют на цену.

R-квадрат =0,593463724, следовательно, 59% дисперсии результативного признака объяснило влияние независимых переменных.

Общая дисперсия регрессии(TSS): 21,7872, дисперсия, объясненная регрессионным уравнением (RSS): 12,92992, дисперсия, не объясненная регрессией (ESS): 8,857289

Стандартная ошибка=0,166370153– общая дисперсия уравнения

Ln y = 2,4615 + 0,0181* TOTSP + 0,0305* KITSP - 0,0290*DIST + 0,0608* WALK +

(0,0037) (0,0081) (0,0026) (0,0185)

0,1196* TEL + 0,1027* BAL- 0,0053* LIVSP - 0,0029 * МЕTRDIST

(0,0407) (0,0215) (0,0059) (0,0024)

Теперь уберем невлияющие параметры LIVSP и МЕTRDIST.

Построим логарифмическую модель регрессии без МЕTRDIST и LIVSP

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,768427764

R-квадрат

0,590481229

Нормированный R-квадрат

0,582850444

Стандартная ошибка

0,166459936

Наблюдения

329

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

6

12,8649352

2,144156

77,38145721

1,75E-59

Остаток

322

8,922269156

0,027709

Итого

328

21,78720435

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Y-пересечение

2,384934326

0,083624559

28,51954

4,05123E-90

2,220415

TOTSP

0,016335467

0,002945172

5,546524

6,08401E-08

0,010541

KITSP

0,033004059

0,007346841

4,492279

9,83497E-06

0,01855

DIST

-0,029158376

0,002470119

-11,8044

5,7712E-27

-0,03402

WALK

0,06104438

0,018560323

3,288972

0,001116811

0,02453

TEL

0,117011085

0,040758219

2,870859

0,004364654

0,036825

BAL

0,101648227

0,021567144

4,713106

3,63644E-06

0,059218

R-квадрат =0,590481229 следовательно, 59% дисперсии результативного признака объяснило влияние независимых переменных.

Общая дисперсия регрессии(TSS): 21,78720435, дисперсия, объясненная регрессионным уравнением (RSS): 12,8649352, дисперсия, не объясненная регрессией (ESS): 8,922269156.

Так как P-значения всех параметров меньше 0,05 и логарифмической модели регрессии равен 0,590481229,а линейной модели регрессии равен 0,555010195,то наилучшей моделью считается логарифмическая модель регрессии().И в дальнейшем именно ее мы будем использовать для прогнозирования

Lny = 2,3849+ 0,0163* TOTSP + 0,0330* KITSP - 0,0291*DIST +0,0610 * WALK +

(0,0029) (0,0073) (0,0024) (0,0185)

0,117* TEL + 0, 1016* BAL

(0,0407) (0,0215)

Вывод: т.к. коэффициент детерминации наиболее максимально приближен к 1 и нет невлияющих на цену параметров, можно считать логарифмическую модель наилучшей.

Расчет оценок вручную