Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Байкальский государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

matstatistika_1_2_3_RGR

.pdf

Скачиваний:

Добавлен:

08.03.2015

Размер:

1.8 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 86 7 8 > Следующая >>>

2.2. Тема 5: Модель линейной парной регрессии y = a + bx

20 баллов

Задание расчетно-графической работы № 3.

общая сумма : 25 баллов

1.Определить (!) какой из заданных показателей является зависимой переменной, а какой – независимой.

2.Построить поле корреляции.

3.Найти точечные и интервальные оценки параметров модели y = a + bx

~ ~ ~2	~	~
(a,b ,σ	, D(a), D(b))

4.Оценить значимость коэффициентов регрессии при γ = 0,95 , используя:

а) t-критерий Стьюдента;

б) доверительные интервалы истинных значений параметров.

5.Верифицировать полученную модель, используя: а) дисперсионный анализ в регрессии; б) элементы теории корреляции.

6.Интерпретировать полученные результаты.

7.В случае пригодной линейной модели построить точечные и интервальные прогнозы зависимой переменной, если ее прогнозное значение увеличится на p % от среднего (при α = 0,05).

				2.2.1. Основные формулы
1. Исходные данные:
xi	x1	x2	…		xn
yi	y1	y2	…		yn

х – независимая (объясняющая) переменная или фактор, или регрессор; у – зависимая (объясняемая) переменная.

Исходные данные используются для построения линейной регрессионной модели: y = a + bx .

2. Построение поля корреляции: на координатной плоскости отмечаем точки (x1, y1), (x2 , y2 ) , …, (xn , yn ) . Затем через них проводим прямую (рис.

2.7). По расположению точек вокруг прямой определяем каким будет поле корреляции:

а) однородным – если точки расположены равноудаленно от прямой (гомоскедастичность);

б) неоднородным – если точки разбросаны неравномерно от прямой (гетероскедастичность).

Рис. 2.7. Поле корреляции

3. Для нахождения точечных и интервальных оценок параметров модели

y = a + bx ( ~ ~ σ~2 ~ ~ ) используем метод наименьших квадратов. Для a,b , , D(a), D(b)

этого составляем и заполняем вспомогательную таблицу:

№	xi	yi	x2	y2	xi yi
			i	i
1	x	y1
	1
2	x2	y2
…

п	xn	yn
Итого	Σ=…	Σ=…	Σ=…	Σ=…	Σ=…

Оценки параметров модели находятся по формулам:

∑x2

∑ y

− ∑x ∑x y

n∑x y

− ∑x

∑ y

i i i

i i

где

k = n∑xi2 −(∑xi )2 ,

n – количество наблюдений.

Уравнение прямой линии примет вид:

y = a + b x .

(2.1)

(2.2)

Для анализа полученной модели рассчитываем теоретические значения объясняемой переменной:

~ ~	~	(2.3)
yi = a	+ b xi .	(2.3)

№

yi − yi

(yi − yi

)

= a

+ b x1

= a

+b x2

…

= a

+b xn

Итого

Σ=…

–

Σ=…≈0

Σ=…

Величины ei = yi − ~yi , i =1,2,...,n называются остатками регрессии (разница между фактическими и теоретическими значениями объясняемой перемен-

ной). ∑ei ≈ 0.

i=1

Находим остаточную сумму квадратов

~ 2

(2.4)

Rmin = ∑

(ei )

= ∑(yi − yi ) .

i=1

Несмещенные оценки дисперсий и ковариаций оценок a

и b

определяем

по формулам

~ ~

∑xi2

Rmin

~ ~

Rmin

~ ~

− ∑xi

Rmin

D(a )=

;

D(b )= k

;

cov(a,b )=

(2.5)

n − 2

Несмещенной оценкой дисперсии ошибок наблюдений будет S

Rmin

=σ

n − 2

4) Оценка значимости коэффициентов регрессии при γ = 0,95

а) доверительные интервалы истинных значений параметров

Находим интервальные оценки или доверительные интервалы для полученных коэффициентов регрессии:

~ ~

+ tγ

~ ~

(2.6)

a −tγ

D(a )< a

< a

D(a ),

b −tγ

D(b )

<b <b + tγ

D(b ),

– квантиль

t -распределения

(распределения

где tγ =tγ (n − 2) =t

,n − 2

Стьюдента) уровня

1+γ

и числа степеней свободы n − 2 (значение t

опреде-

ляется как в теме 2). γ – доверительная вероятность или надежность (дана в за-

дании).

Если доверительный интервал для данного коэффициента регрессии содержит нулевое значение, то этот коэффициент считается статистически незначимым.

Б) t-критерий Стьюдента

Далее проверяем гипотезу			H0 : a = 0		против альтернативной	гипотезы
H1 :a ≠ 0, используя при этом статистику
t			~	t	,	(2.7)
t	0a	=	a − 0	t	,	(2.7)
	0a		~ ~	γ
			D(a )

t0 – наблюдаемое или экспериментальное значение t -статистики.

Гипотеза H0 отвергается (и принимается H1), если t0 >tγ (это означает, что параметр а – значим). В противном случае гипотезу H0 следует принять, т.е. считать, что результаты наблюдений согласуются с гипотезой H0 , не противоречат ей (это означает, что параметр а – незначим).

Аналогично проверяются гипотезы			H0 :b = 0 и				H1 :b ≠ 0, используется
критерий, статистика которого		~
		~
t	0b	= b − 0	t		.		(2.8)
	0b	~ ~	γ
		D(b )
5. Верификация модели			~		~
			~		~	или ее верификация, а также
Пригодность построенной модели y = a				+ b x		или ее верификация, а также

качество оценивания регрессии может быть проверено двумя равноценными способами: дисперсионным анализом в регрессии и с использованием элементов теории корреляции.

а) Дисперсионный анализ в регрессии

Суть метода заключается в разложении общей суммарной дисперсии выходной величины y на составляющие, обусловленные действием входных пе-

ременных-факторов, и остаточную дисперсию, обусловленную ошибкой или всеми неучтенными в данной модели переменными. Фактор оказывает несущественное влияние на y , если соответствующая ему дисперсия и дисперсия

ошибок статистически незначимы. Для проверки гипотезы о равенстве таких дисперсий используется критерий Фишера (F-критерий). Поскольку для оценок дисперсий используются суммы квадратов SS (от англ. sum of squares) отклонений значений данной переменной от ее средней величины, то можно говорить о разложении общей суммы квадратов SSобщ. на составляющие.

		SSобщ. = Σ(yi − y)2						(2.9)
– величина, характеризующая разброс значений yi								относительно среднего зна-
чения y ( y =	1	n
		∑ yi ). Разобьем эту сумму на две части: объясненную регресси-
	n i=1
онным уравнением и не объясненную (т. е. связанную с ошибками εi ):
		~			2			(2.10)
		SSR = Σ(yi − y)
– сумма квадратов, объясненная регрессией,
					~ 2			(2.11)
		SSост. = Σ(yi − yi )
– остаточная сумма квадратов, обусловленная ошибкой.
Проверка: SSобщ. = SSR + SSост. !!!
Коэффициентом детерминации, или					долей объясненной дисперсии y , на-
зывается			SSост.			SSR
		R2 =1−		=			.	(2.12)

			SSобщ.			SSобщ.

В силу определения 0 ≤ R2 ≤1. Если R2 = 0, то это значит, что регрессия ничего не дает, т. е. фактор x не улучшает качество предсказания yi по срав-

~ =

нению с тривиальным предсказанием yi y

Другой крайний случай R2 =1 означает точную подгонку: все наблюдаемые значения (xi , yi ) лежат на регрессионной прямой (все остатки ei = 0 ). Чем

ближе к 1 значение R2 , тем лучше качество подгонки или качество регрессии, ~y более точно аппроксимирует y .

Коэффициент R2 *100% показывает на сколько % линейная регрессия y на x объясняет дисперсию y . Остальные (1 – R2 )*100% приходятся на долю

прочих факторов, не учтенных в уравнении регрессии.

Гипотеза об отсутствии линейной функциональной связи между x и y может быть записана как H0 : b = 0 . Критерий, статистика которого распределена по закону Стьюдента, эквивалентен здесь критерию, статистика которого

F =	MSR	=	SSR /1	F (α,1,n − 2)	(2.13)
F =		=		F (α,1,n − 2)	(2.13)
0	MSост.		SSост. /(n − 2)	кр

распределена по закону Фишера со степенями свободы (1,n −2). Здесь через

MSR и MSост. обозначены средние квадраты (от англ. mean of squares), которые дают несмещенные оценки соответствующих теоретических дисперсий.

Вычисления, необходимые для дисперсионного анализа уравнения регрессии, сводят в таблицу

Дисперсионный анализ одномерной регрессии

Источник

Число

Сумма

Средний

Критерий

Критическая

Гипотеза

дисперсии

степеней

квадратов

квадрат

Фишера

точка

H0 :b = 0

свободы

Fкр. = F(α;1,n − 2)

=…

Регрессор

MSR =

SSR

MSR

Принять

SSR

кр.

или от-

MSост.

клонить

Ошибка

n − 2

SSост.

MSост. =

SSост.

(остаток)

n − 2

−

Общая

n −1

SSобщ.

дисперсия

−

(итог)

Если

при заданном уровне значимости

α наблюдаемое значение F -

статистики больше критической точки F0 > Fкр , то гипотеза H0 :b = 0 отвергается, то есть связь между x и y есть, и результаты наблюдений не противоречат предположению о ее линейности. В противном случае H0 :b = 0 принима-

ется и постулируется отсутствие значимой функциональной связи между x и y .

б) Использование элементов теории корреляции

Другой способ верификации линейной модели состоит в использовании элементов теории корреляции. Мерой линейной связи двух величин является коэффициент корреляции:

~	=	nΣxi yi − ΣxiΣyi	.	(2.14)
rB = r		[nΣxi2 − (Σxi )2 ][nΣyi2 − (Σyi )2
			]

Значения коэффициента корреляции принадлежат промежутку [−1;1]. Чем больше его абсолютное значение к 1, тем теснее связь между признаками. Положительная величина коэффициента корреляции свидетельствует о прямой связи между ними, отрицательная – о наличии обратной связи между призна-

ками. Также R2 = r 2 .
B					x и y
Проверяем гипотезу об отсутствии			линейной связи между		x и y
H0 : rB = 0 с помощью критерия Стьюдента
t0r = rB n − 2		~ tγ .			(2.15)
1− r 2
B
6. Интерпретация уравнения регрессии
Для линейного уравнения y = a + bx эластичность
Ex (y) =	bx				(2.16)
Ex (y) =	y				(2.16)
	y
(полученное значение будет сразу в %). x =		1	n	. Эластичность приближенно
(полученное значение будет сразу в %). x =			∑xi	. Эластичность приближенно
		n i=1

показывает, на сколько процентов изменится у при изменении х на 1 % от сред-

него значения.

6. Прогноз на основе линейной модели

В случае точечного прогноза мы определяем

(2.17)

= a

+ b x0 .

Так как

прогнозное

значение

независимой

переменной

изменяется на

± P% от среднего,

= x 1+

, x0

= x 1

−

(2.18)

100%

Вычислим дисперсию величины

(x − x0 )2

D(y0 )=σ

(2.19)

Σ(xi − x)2

Отсюда видно, что дисперсия прогноза возрастает по мере удаления значе-

ния x0 от среднего x , использованного для расчета a и b . Для расчета D(y0 )

составить вспомогательную таблицу:

№

xi − xi

(x − x )2

1	x1
…
п	xn
Итого	Σ=…			Σ=…
Тогда доверительный интервал для прогностического значения
записать в виде				~	~		~
	~		−tγ	~	~	+ tγ	~
		y0	−tγ	D(y0 ) < y < y0		+ tγ	D(y0 ) ,

где tγ уже найдена в предыдущих пунктах.

2.2.2. Вычисления в MS Excel

y0 можно

(2.20)

Пример 6. Выполнение расчетов в MS Excel. Известны следующие данные по одному из субъектов Российской Федерации:

Совокупные до-
ходы физ. лиц,
млн. руб.	14855,30	18745,10	20268,70	20319,30	20174,80	22524,50	21805,80
Вклады физ. лиц в
банках, тыс. руб.	36 643	38 297	38 993	40 394	41 090	42 691	43 916

Совокупные до-
ходы физ. лиц,	21571,30	22902,80	23928,40	23741,80	30271,90	30481,90	33088,00
млн. руб.	21571,30	22902,80	23928,40	23741,80	30271,90	30481,90	33088,00
Вклады физ. лиц в
банках, тыс. руб.	43 988	44 684	43 721	44 198	46 465	47 481	48 438

Совокупные до-
ходы физ. лиц,	32133,70	34915,70	33377,50	34923,40	32558,70	33149,40
млн. руб.	32133,70	34915,70	33377,50	34923,40	32558,70	33149,40
Вклады физ. лиц в
банках, тыс. руб.	49 632	53 506	52 559	53 461	49 484	48 387

1 этап. Спецификация модели. Определим, какой из заданных показателей будет зависимой переменной, а какой – независимой. Так как сбережения в банках – это часть дохода, то совокупные доходы физических лиц обозначим в качестве независимой переменной x , а вклады в банках – y .

Занесем исходные данные в MS Excel в виде таблицы, состоящей их двух столбцов, в первом расположены значения независимой переменной x , а во втором – зависимой переменной y (рис. 2.8). Чтобы определить характер зави-

симости – построим поле корреляции. Для этого выделяем оба столбца ((!) данные x должны быть в первом столбце, y – во втором), вызываем мастера диа-

грамм и выбираем точечную диаграмму (рис. 2.9). Затем проходим все шаги построения диаграммы, заполняя графы с ее названием и подписями осей координат. Получаем поле корреляции, не очень удачно расположенное на диаграмме (рис. 2.10).

Рис. 2.8. Исходные данные в MS Excel

Рис. 2.9. Построение поле корреляции с использованием точечной диаграммы

Рис. 2.10. Поле корреляции, требующее дополнительной художественной обработки

Рис. 2.11. Корректируем формат оси категорий ( x )

Рис. 2.12. Измененное поле корреляции

Мы видим, что точки близко расположены друг к другу и занимают малую часть поля диаграммы. Для этого изменим масштаб осей координат (рис. 2.11) следующим образом: подсвечиваем ось категорий (осьx ), с помощью правой

кнопки мыши выбираем «формат оси» и на вкладке «шкала» устанавливаем минимальное значение 14000. Аналогично на оси значений (ось y ) задаем ми-

нимальное значение 35000. Далее, используя художественные способности, облагораживаем внешний вид поля корреляции (рис. 2.12).

Следующим шагом наносим на поле корреляции прямую y = a + bx : выби-

раем в меню «диаграмма» пункт «добавить линию тренда» (предварительно подсветив график) (рис. 2.13). В появившемся окошке выделяем линейную модель, затем выбираем вкладку параметры и отмечаем галочкой «показывать уравнения на диаграмме» и «поместить на диаграмму величину достоверности аппроксимации (R^2)».

Рис. 2.13. Добавление на диаграмму прямой y = a + bx

После проведенной процедуры поле корреляции примет нужный для дальнейшего анализа вид (рис. 2.14).

<<< < Предыдущая 1 2 3 4 56 / 86 7 8 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.03.2016752.13 Кб41lektsii_Bankovskoe_delo_2013.doc
#
08.03.201582.63 Кб22Lektsii_po_grazhdanskomu_pravu (1).docx
#
08.03.201574.32 Кб29Lektsii_po_grazhdanskomu_pravu.docx
#
13.11.20181.16 Mб11Lektsii_po_nalogam_2011(1).doc
#
22.05.2015635.87 Кб12Logika_2014g (1).01.pdf
#
08.03.20151.8 Mб50matstatistika_1_2_3_RGR.pdf
#
12.08.201942.72 Кб5merenkova_masterstvo.docx
#
25.11.2019206.85 Кб11Metodicheskie_rekomendatsii_po_Vvedeniyu_v_peda...doc
#
20.03.2016326.14 Кб42Metodichka_Poboykinoy_2013.doc
#
16.09.2019548.86 Кб2Metodichka_po_napisaniyu_diplomnoy_raboty.doc
#
08.03.2015244.74 Кб10Metodichka_sud_-sled.doc