Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

matstatistika_1_2_3_RGR

.pdf
Скачиваний:
50
Добавлен:
08.03.2015
Размер:
1.8 Mб
Скачать

2.2. Тема 5: Модель линейной парной регрессии y = a + bx

20 баллов

Задание расчетно-графической работы № 3.

общая сумма : 25 баллов

1.Определить (!) какой из заданных показателей является зависимой переменной, а какой – независимой.

2.Построить поле корреляции.

3.Найти точечные и интервальные оценки параметров модели y = a + bx

~ ~ ~2

~

~

(a,b ,σ

, D(a), D(b))

4.Оценить значимость коэффициентов регрессии при γ = 0,95 , используя:

а) t-критерий Стьюдента;

б) доверительные интервалы истинных значений параметров.

5.Верифицировать полученную модель, используя: а) дисперсионный анализ в регрессии; б) элементы теории корреляции.

6.Интерпретировать полученные результаты.

7.В случае пригодной линейной модели построить точечные и интервальные прогнозы зависимой переменной, если ее прогнозное значение увеличится на p % от среднего (при α = 0,05).

 

 

 

 

2.2.1. Основные формулы

1. Исходные данные:

 

 

 

 

xi

x1

x2

 

xn

 

yi

y1

y2

 

yn

 

х – независимая (объясняющая) переменная или фактор, или регрессор; у – зависимая (объясняемая) переменная.

Исходные данные используются для построения линейной регрессионной модели: y = a + bx .

2. Построение поля корреляции: на координатной плоскости отмечаем точки (x1, y1), (x2 , y2 ) , …, (xn , yn ) . Затем через них проводим прямую (рис.

2.7). По расположению точек вокруг прямой определяем каким будет поле корреляции:

а) однородным – если точки расположены равноудаленно от прямой (гомоскедастичность);

б) неоднородным – если точки разбросаны неравномерно от прямой (гетероскедастичность).

51

Рис. 2.7. Поле корреляции

3. Для нахождения точечных и интервальных оценок параметров модели

y = a + bx ( ~ ~ σ~2 ~ ~ ) используем метод наименьших квадратов. Для a,b , , D(a), D(b)

этого составляем и заполняем вспомогательную таблицу:

xi

yi

x2

y2

xi yi

 

 

 

i

i

 

1

x

y1

 

 

 

 

1

 

 

 

 

2

x2

y2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

п

xn

yn

 

 

 

Итого

Σ=…

Σ=…

Σ=…

Σ=…

Σ=…

Оценки параметров модели находятся по формулам:

 

 

 

a

=

x2

y

 

− ∑x x y

,

~

=

nx y

− ∑x

y

 

,

i

 

i

i i i

b

 

i i

i

 

i

~

 

 

 

 

 

 

 

 

где

 

 

 

 

k

 

 

 

 

 

k

 

 

 

 

 

 

 

k = nxi2 (xi )2 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n – количество наблюдений.

 

~

~

 

 

 

 

 

 

Уравнение прямой линии примет вид:

 

 

 

 

 

 

 

y = a + b x .

 

 

 

 

 

(2.1)

(2.2)

Для анализа полученной модели рассчитываем теоретические значения объясняемой переменной:

~ ~

~

(2.3)

yi = a

+ b xi .

52

 

 

yi

 

~

 

 

~

 

~

2

 

 

 

 

 

 

 

 

 

 

yi

~

 

yi yi

 

(yi yi

)

 

 

1

 

y1

~

~

 

 

 

 

 

 

 

 

y1

= a

+ b x1

 

 

 

 

 

 

 

2

 

y2

~

~

~

 

 

 

 

 

 

 

 

y2

= a

+b x2

 

 

 

 

 

 

 

 

 

~

~

~

 

 

 

 

 

 

 

п

 

yn

 

 

 

 

 

 

 

 

yn

= a

+b xn

 

 

 

 

 

 

 

Итого

 

Σ=…

 

 

 

Σ=…≈0

 

Σ=…

 

 

Величины ei = yi ~yi , i =1,2,...,n называются остатками регрессии (разница между фактическими и теоретическими значениями объясняемой перемен-

n

ной). ei 0.

i=1

Находим остаточную сумму квадратов

 

 

 

 

 

n

 

2

n

~ 2

 

 

 

 

(2.4)

 

 

 

 

 

Rmin = ∑

(ei )

= ∑(yi yi ) .

 

 

 

 

 

 

 

 

 

i=1

 

 

 

i=1

 

~

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Несмещенные оценки дисперсий и ковариаций оценок a

и b

определяем

по формулам

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~ ~

xi2

 

Rmin

~ ~

n

 

Rmin

~ ~

− ∑xi

 

Rmin

 

 

 

D(a )=

k

 

 

;

D(b )= k

 

 

;

cov(a,b )=

k

 

 

(2.5)

n 2

n 2

n 2

Несмещенной оценкой дисперсии ошибок наблюдений будет S

2

 

~2

 

Rmin

 

=σ

=

 

.

 

n 2

4) Оценка значимости коэффициентов регрессии при γ = 0,95

а) доверительные интервалы истинных значений параметров

Находим интервальные оценки или доверительные интервалы для полученных коэффициентов регрессии:

~

~ ~

 

 

 

~

+ tγ

~ ~

~

~ ~

~

~ ~

(2.6)

a tγ

D(a )< a

< a

D(a ),

b tγ

D(b )

<b <b + tγ

D(b ),

 

1

+

γ

 

 

– квантиль

t -распределения

(распределения

где tγ =tγ (n 2) =t

2

 

,n 2

 

 

 

 

 

 

 

 

 

 

 

Стьюдента) уровня

1+γ

и числа степеней свободы n 2 (значение t

опреде-

 

 

 

 

2

 

 

 

 

 

 

 

γ

 

 

 

 

 

 

 

 

 

 

 

 

 

ляется как в теме 2). γ – доверительная вероятность или надежность (дана в за-

дании).

Если доверительный интервал для данного коэффициента регрессии содержит нулевое значение, то этот коэффициент считается статистически незначимым.

Б) t-критерий Стьюдента

Далее проверяем гипотезу

H0 : a = 0

против альтернативной

гипотезы

H1 :a 0, используя при этом статистику

 

 

 

t

 

 

~

t

,

(2.7)

0a

=

a 0

 

 

~ ~

γ

 

 

 

 

 

D(a )

 

 

 

t0 – наблюдаемое или экспериментальное значение t -статистики.

53

Гипотеза H0 отвергается (и принимается H1), если t0 >tγ (это означает, что параметр а – значим). В противном случае гипотезу H0 следует принять, т.е. считать, что результаты наблюдений согласуются с гипотезой H0 , не противоречат ей (это означает, что параметр а – незначим).

Аналогично проверяются гипотезы

H0 :b = 0 и

H1 :b 0, используется

критерий, статистика которого

 

~

 

 

 

 

 

 

 

 

 

 

 

 

t

0b

= b 0

t

 

.

 

(2.8)

 

~ ~

γ

 

 

 

 

 

D(b )

 

 

 

 

 

5. Верификация модели

 

 

~

 

~

 

 

 

 

 

 

или ее верификация, а также

Пригодность построенной модели y = a

+ b x

качество оценивания регрессии может быть проверено двумя равноценными способами: дисперсионным анализом в регрессии и с использованием элементов теории корреляции.

а) Дисперсионный анализ в регрессии

Суть метода заключается в разложении общей суммарной дисперсии выходной величины y на составляющие, обусловленные действием входных пе-

ременных-факторов, и остаточную дисперсию, обусловленную ошибкой или всеми неучтенными в данной модели переменными. Фактор оказывает несущественное влияние на y , если соответствующая ему дисперсия и дисперсия

ошибок статистически незначимы. Для проверки гипотезы о равенстве таких дисперсий используется критерий Фишера (F-критерий). Поскольку для оценок дисперсий используются суммы квадратов SS (от англ. sum of squares) отклонений значений данной переменной от ее средней величины, то можно говорить о разложении общей суммы квадратов SSобщ. на составляющие.

 

 

SSобщ. = Σ(yi y)2

(2.9)

– величина, характеризующая разброс значений yi

относительно среднего зна-

чения y ( y =

1

n

 

 

 

 

 

yi ). Разобьем эту сумму на две части: объясненную регресси-

 

n i=1

 

 

 

 

онным уравнением и не объясненную (т. е. связанную с ошибками εi ):

 

 

~

 

2

 

(2.10)

 

 

SSR = Σ(yi y)

– сумма квадратов, объясненная регрессией,

 

 

 

 

 

 

~ 2

 

(2.11)

 

 

SSост. = Σ(yi yi )

– остаточная сумма квадратов, обусловленная ошибкой.

Проверка: SSобщ. = SSR + SSост. !!!

 

 

 

 

Коэффициентом детерминации, или

долей объясненной дисперсии y , на-

зывается

 

 

SSост.

 

 

SSR

 

 

 

 

R2 =1

=

 

.

(2.12)

 

 

 

 

 

 

 

SSобщ.

 

SSобщ.

 

54

В силу определения 0 R2 1. Если R2 = 0, то это значит, что регрессия ничего не дает, т. е. фактор x не улучшает качество предсказания yi по срав-

~ =

нению с тривиальным предсказанием yi y

.

Другой крайний случай R2 =1 означает точную подгонку: все наблюдаемые значения (xi , yi ) лежат на регрессионной прямой (все остатки ei = 0 ). Чем

ближе к 1 значение R2 , тем лучше качество подгонки или качество регрессии, ~y более точно аппроксимирует y .

Коэффициент R2 *100% показывает на сколько % линейная регрессия y на x объясняет дисперсию y . Остальные (1 – R2 )*100% приходятся на долю

прочих факторов, не учтенных в уравнении регрессии.

Гипотеза об отсутствии линейной функциональной связи между x и y может быть записана как H0 : b = 0 . Критерий, статистика которого распределена по закону Стьюдента, эквивалентен здесь критерию, статистика которого

F =

MSR

=

SSR /1

F (α,1,n 2)

(2.13)

 

 

0

MSост.

 

SSост. /(n 2)

кр

 

распределена по закону Фишера со степенями свободы (1,n 2). Здесь через

MSR и MSост. обозначены средние квадраты (от англ. mean of squares), которые дают несмещенные оценки соответствующих теоретических дисперсий.

Вычисления, необходимые для дисперсионного анализа уравнения регрессии, сводят в таблицу

Дисперсионный анализ одномерной регрессии

Источник

Число

Сумма

Средний

Критерий

Критическая

Гипотеза

дисперсии

степеней

квадратов

квадрат

Фишера

точка

H0 :b = 0

 

свободы

SS

MS

 

F

Fкр. = F(α;1,n 2)

 

 

 

 

 

 

 

 

 

 

0

F

=

 

Регрессор

 

 

MSR =

SSR

F0

=

 

MSR

Принять

x

1

SSR

 

 

 

 

 

кр.

 

или от-

1

 

 

MSост.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

клонить

Ошибка

n 2

SSост.

MSост. =

 

SSост.

 

 

 

 

 

 

 

(остаток)

 

n 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Общая

n 1

SSобщ.

 

 

 

 

 

 

 

 

 

 

 

дисперсия

 

 

 

 

 

(итог)

 

 

 

 

 

 

 

 

 

 

 

 

 

Если

при заданном уровне значимости

 

α наблюдаемое значение F -

статистики больше критической точки F0 > Fкр , то гипотеза H0 :b = 0 отвергается, то есть связь между x и y есть, и результаты наблюдений не противоречат предположению о ее линейности. В противном случае H0 :b = 0 принима-

ется и постулируется отсутствие значимой функциональной связи между x и y .

б) Использование элементов теории корреляции

55

Другой способ верификации линейной модели состоит в использовании элементов теории корреляции. Мерой линейной связи двух величин является коэффициент корреляции:

~

=

nΣxi yi − ΣxiΣyi

.

(2.14)

rB = r

[nΣxi2 (Σxi )2 ][nΣyi2 (Σyi )2

 

 

]

 

Значения коэффициента корреляции принадлежат промежутку [1;1]. Чем больше его абсолютное значение к 1, тем теснее связь между признаками. Положительная величина коэффициента корреляции свидетельствует о прямой связи между ними, отрицательная – о наличии обратной связи между призна-

ками. Также R2 = r 2 .

 

 

 

 

 

B

 

 

 

 

x и y

Проверяем гипотезу об отсутствии

 

 

линейной связи между

H0 : rB = 0 с помощью критерия Стьюдента

 

 

 

 

 

t0r = rB n 2

~ tγ .

 

(2.15)

1r 2

 

 

 

 

 

B

 

 

 

 

 

6. Интерпретация уравнения регрессии

 

 

 

 

 

Для линейного уравнения y = a + bx эластичность

 

Ex (y) =

bx

 

 

 

(2.16)

y

 

 

 

 

 

 

(полученное значение будет сразу в %). x =

1

n

. Эластичность приближенно

 

 

xi

 

 

n i=1

 

 

показывает, на сколько процентов изменится у при изменении х на 1 % от сред-

него значения.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6. Прогноз на основе линейной модели

 

 

 

 

 

 

В случае точечного прогноза мы определяем

 

 

 

 

 

 

 

 

 

 

 

~

 

 

~

~

 

 

 

 

 

 

(2.17)

 

 

 

 

 

 

 

y0

= a

+ b x0 .

 

 

 

 

 

Так как

прогнозное

значение

 

независимой

переменной

изменяется на

± P% от среднего,

 

 

 

P%

 

 

 

 

 

 

 

 

 

P%

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x0

= x 1+

 

 

 

 

, x0

 

= x 1

 

 

 

.

(2.18)

 

 

 

 

 

2

100%

 

 

1

 

 

100%

 

~

 

 

 

 

Вычислим дисперсию величины

:

 

 

 

 

 

 

 

 

y0

(x x0 )2

 

 

 

 

 

 

~

~2

 

1

 

 

 

 

 

 

 

D(y0 )=σ

 

 

+

 

 

 

 

 

.

 

(2.19)

 

 

 

 

Σ(xi x)2

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

Отсюда видно, что дисперсия прогноза возрастает по мере удаления значе-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

~

~

ния x0 от среднего x , использованного для расчета a и b . Для расчета D(y0 )

составить вспомогательную таблицу:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

xi xi

 

 

(x x )2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

i

 

 

 

 

 

 

 

56

1

x1

 

 

 

 

 

 

 

 

 

 

 

 

 

п

xn

 

 

 

 

 

 

Итого

Σ=…

 

 

Σ=…

 

 

 

Тогда доверительный интервал для прогностического значения

записать в виде

 

~

~

 

~

 

~

tγ

+ tγ

 

 

y0

D(y0 ) < y < y0

D(y0 ) ,

где tγ уже найдена в предыдущих пунктах.

2.2.2. Вычисления в MS Excel

y0 можно

(2.20)

Пример 6. Выполнение расчетов в MS Excel. Известны следующие данные по одному из субъектов Российской Федерации:

Совокупные до-

 

 

 

 

 

 

 

 

ходы физ. лиц,

 

 

 

 

 

 

 

 

млн. руб.

14855,30

18745,10

20268,70

20319,30

20174,80

22524,50

21805,80

 

Вклады физ. лиц в

 

 

 

 

 

 

 

 

банках, тыс. руб.

36 643

38 297

38 993

40 394

41 090

42 691

43 916

 

 

 

 

 

 

 

 

 

 

Совокупные до-

 

 

 

 

 

 

 

 

ходы физ. лиц,

21571,30

22902,80

23928,40

23741,80

30271,90

30481,90

33088,00

 

млн. руб.

 

Вклады физ. лиц в

 

 

 

 

 

 

 

 

банках, тыс. руб.

43 988

44 684

43 721

44 198

46 465

47 481

48 438

 

 

 

 

 

 

 

 

 

 

Совокупные до-

 

 

 

 

 

 

 

 

ходы физ. лиц,

32133,70

34915,70

33377,50

34923,40

32558,70

33149,40

 

 

млн. руб.

 

 

Вклады физ. лиц в

 

 

 

 

 

 

 

 

банках, тыс. руб.

49 632

53 506

52 559

53 461

49 484

48 387

 

 

1 этап. Спецификация модели. Определим, какой из заданных показателей будет зависимой переменной, а какой – независимой. Так как сбережения в банках – это часть дохода, то совокупные доходы физических лиц обозначим в качестве независимой переменной x , а вклады в банках – y .

Занесем исходные данные в MS Excel в виде таблицы, состоящей их двух столбцов, в первом расположены значения независимой переменной x , а во втором – зависимой переменной y (рис. 2.8). Чтобы определить характер зави-

симости – построим поле корреляции. Для этого выделяем оба столбца ((!) данные x должны быть в первом столбце, y – во втором), вызываем мастера диа-

грамм и выбираем точечную диаграмму (рис. 2.9). Затем проходим все шаги построения диаграммы, заполняя графы с ее названием и подписями осей координат. Получаем поле корреляции, не очень удачно расположенное на диаграмме (рис. 2.10).

57

Рис. 2.8. Исходные данные в MS Excel

Рис. 2.9. Построение поле корреляции с использованием точечной диаграммы

58

Рис. 2.10. Поле корреляции, требующее дополнительной художественной обработки

Рис. 2.11. Корректируем формат оси категорий ( x )

Рис. 2.12. Измененное поле корреляции

Мы видим, что точки близко расположены друг к другу и занимают малую часть поля диаграммы. Для этого изменим масштаб осей координат (рис. 2.11) следующим образом: подсвечиваем ось категорий (осьx ), с помощью правой

59

кнопки мыши выбираем «формат оси» и на вкладке «шкала» устанавливаем минимальное значение 14000. Аналогично на оси значений (ось y ) задаем ми-

нимальное значение 35000. Далее, используя художественные способности, облагораживаем внешний вид поля корреляции (рис. 2.12).

Следующим шагом наносим на поле корреляции прямую y = a + bx : выби-

раем в меню «диаграмма» пункт «добавить линию тренда» (предварительно подсветив график) (рис. 2.13). В появившемся окошке выделяем линейную модель, затем выбираем вкладку параметры и отмечаем галочкой «показывать уравнения на диаграмме» и «поместить на диаграмму величину достоверности аппроксимации (R^2)».

Рис. 2.13. Добавление на диаграмму прямой y = a + bx

После проведенной процедуры поле корреляции примет нужный для дальнейшего анализа вид (рис. 2.14).

60