Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский университет «МИЭТ»

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

VUKOLOV2.pdf

Скачиваний:

136

Добавлен:

05.06.2015

Размер:

2.12 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1920 / 2220 21 22 > Следующая >>>

6. Регрессионный анализ

Во многих случаях исследуются объекты, характеризующиеся несколькими признаками. Например, у каждого человека можно измерить рост, вес, частоту пульса и ряд других физиологических показателей; работу торгового предприятия можно оценить по объему товарооборота и величине прибыли. Совокупность данных такого типа представляет выборку из многомерной генеральной совокупности. Для таких выборок важно не только определение характеристик распределения каждого признака, но и то, насколько тесно эти признаки связаны между собой, можно ли по значению одного признака сделать какиелибо выводы о предполагаемом значении другого признака и т.д.

При построении регрессионной модели, описывающей зависимость переменной Y от независимых переменных (факторов) x1, x2, … xm, предполагается, во-первых, что у исследователя имеются результаты совокупных наблюдений зависимой переменной Y и независимых переменных x1, x2, …, xm, во-вторых, что значения независимых переменных определяются точно (без ошибок), а значение зависимой переменной Y определяется с ошибками, имеющими случайный характер.

Регрессией (уравнением регрессии) называется условное математическое ожидание Y:

M[Y / x1, x2 , ..., xm ] = f (x1, x2 , ..., xm ) .

Таким образом, регрессия описывает поведение наблюдаемой зависимой переменной в среднем, представляя ее главную тенденцию. В связи с этим

157

нахождение регрессии по результатам наблюдений называют сглаживанием данных.

Существуют различные регрессионные модели, определяемые выбором функции f (x1, x2 , ..., xm ) :

∙простая линейная регрессия:

Y= β0 + β1x + ε ;

∙множественная регрессия:

Y= β0 + β1x + β2 x2 + ...+ βk −1xk −1 + ε ;

∙полиномиальная регрессия:

Y= β0 + β1x + β2 x2 + ...+ βk−1xk −1 + ε ;

регрессионная модель общего вида:

Y = β0 + β1ϕ1(x1,	x2 ,	...,	xm ) + ...+ βk−1ϕk−1(x1, x2 ,..., xm ) + ε ,
где ϕi (x1, x2 , ...,	xm )	, i	= 1, 2, …, k – 1 - заданные

функции факторов.

Коэффициентыβ0 ,β1 …, βk-1 называются

параметрами регрессии.

В приведенные регрессионные модели параметры β0 ,β1 …, βk−1 входят линейно. Такие модели называют

линейными (по параметрам) моделями, а

математические методы анализа этих моделей -

линейным регрессионным анализом.

Модель y = β0εβ1x1 +β1εβ2x2 нелинейна по параметрам.

В некоторых случаях нелинейные модели с помощью специальных линеаризирующих преобразований могут быть представлены как линейные. Рассмотрим несколько примеров.

1. Функция y = β0 xβ1 с помощью логарифмирования и замены переменных преобразуется так: lny = lnβ0 +

β1 lnx. Проведя замену переменных y						′	= lny; β0 = lnβ0 ;
						′	′
x′ = lnx, получим линейную по параметрам функцию
y	′	′	+ β1x	′	.
y		= β0	+ β1x		.

158

2. Функция образом:

y =	ax	преобразуется следующим
	b + x

b + x = a

или

= b

+ 1 x .

После замены переменных

y¢ =

b1 =

получим y′ = b0 + b1x .

β0 +β1x

3. Логистическая функция y =

при помощи

β0 +β1x

1+ e

преобразования y¢ = ln ç

÷ примет вид:

1- y ø

y′ = b0 + b1x .

После выбора вида регрессионной модели, применив результаты наблюдений зависимой переменной и факторов нужно вычислить оценки (приближенные значения) параметров регрессии, а затем проверить значимость и адекватность модели результатам наблюдений.

6.1. Коэффициент корреляции и простая линейная регрессия

Пусть ( xi , yi ), i = 1, 2, 3, ..., n - выборка наблюдений

из двумерной генеральной совокупности. Начальное представление о генеральной совокупности можно получить, изображая элементы выборки как точки на плоскости. Такое представление выборки называется

диаграммой рассеяния.

При построении диаграммы рассеяния рекомендуется масштабы по осям X и Y выбирать так, чтобы значения обоих признаков укладывались на отрезках приблизительно равной длины.

159

Возможны различные варианты расположения "облака точек", по которым можно судить о виде и степени взаимосвязи между признаками X и Y (рис.6.1, а - г).

Количественной характеристикой степени линейной зависимости между случайными величинами X и Y

является коэффициент корреляции ρ.

Оценка коэффициента корреляции по выборке вычисляется по формуле

r = Qxy ,

QxQy

Y Y

ρ < 0

ρ > 0

				б	X
	а	X		б	X
Y		ρ = 0	Y		ρ 0
Y			Y

Y	в	X	г	X
Y
			Рис.6.1. Варианты располо-
			жения "облака точек" (а - г) и
			функциональная	линейная
			з а в и с и м о с т ь м е ж д у
			X и Y при ρ = 1 (д)
		160

где

(

x )2

Qx = å(xi − x)2 = åxi2 −

;

Qy = å(yi − y)2 = åyi2 −

(

y )2

;

Qxy = å(xi − x)(yi − y) = åxi yi −

(åxi )(åyi )

;

x =

x ;

y =

y .

n å

nå

Для

коэффициента

корреляции

справедливы

следующие утверждения:

1) −1 ≤ ρ ≤ 1;

если

= 1, то

между X

и Y

имеет место

функциональная линейная зависимость, все точки (xi, yi) будут лежать на прямой (рис.6.1,д);

3) если ρ = 0 , то говорят, что X и Y

некоррелированы, т.е. между ними нет линейной зависимости (см. рис.6.1, в - г);

4) если X и Y имеют двумерное нормальное распределение, то из равенства ρ = 0 следует, что они

статистически независимы.

Если между случайными величинами X и Y существует достаточно тесная линейная статистическая зависимость ( r > 0) , то ее можно аппроксимировать

уравнением линейной регрессии Y на X:

Y = β0 + β1x,

где β0 и β1 - параметры линейной регрессии; x -

независимая переменная; Y - зависимая переменная. При этом предполагается, что независимая переменная x

161

измеряется точно, а Y является случайной величиной. Таким образом, исследуют, как "в среднем" изменяются значения зависимой переменной Y при изменении независимой переменной x.

В тех случаях, когда признаки X и Y равнозначны (например, рост и вес), аналогично регрессии Y на X

рассматривают линейную регрессию X на Y: x	0	1y .
	= b′	+ b′

Если случайный вектор (X, Y) имеет двумерное нормальное распределение, то линейная регрессия Y на X равна условному математическому ожиданию

M	éY	X	ù	= my + r	sy	(X - mx ),

	ë		= xû		sx
а регрессия X на Y равна					sx
M	é		ù	= mx + r		( y - my ),
	êX Y		= yú		sy
	ë		û
где mx , my иsx ,		sy	- соответственно математические

ожидания и средние квадратические отклонения X и Y; ρ

- коэффициент корреляции.

Для оценки параметров линейной регрессии Y на X по результатам наблюдений ( xi , yi ), i = 1, 2, 3, ..., n, используется метод наименьших квадратов: в качестве

оценок параметров		берут	значения	%	%
оценок параметров		берут	значения	b0	иb1 ,
минимизирующие		Q (b0 ,b1 )	сумму	квадратов
отклонений	значений	зависимой переменной			yi от
значений,	вычисляемых по		уравнению	регрессии
%
yi = b0 + b1xi :
		n	2
	Q(b0 ,b1) = å[yi - (b0 +b1 × xi )] .
		i=1
Из необходимых		условий	минимума	функции
Q(b0 ,b1 )

162

∂Q		= 0;	∂Q	= 0
∂β	0		∂β

			1

получают оценки параметров регрессии Y на X:

%		nåxi yi − (åxi )(åyi )			Qxy		(6.1)
β1	=	nåxi	2 − (åxi )2	=		;	(6.1)
		nåxi	2 − (åxi )2		Qx
		%	%				(6.2)
		β0	= y − β1x .				(6.2)

Оценки (6.1) и (6.2) называют МНК-оценками параметров линейной регрессии.

Аналогично для регрессии X на Y оценки параметров вычисляются по формулам

′

Qxy

β1

;

% ′

= x

%′

β0

− β1Y .

Уравнения

(x − x)

y = β0

+β1x

= y

+ r

%′

( y− y) ,

где

оценки средних

x =β0

+β1y = x

квадратических отклонений σx

и σy , равные

sx = sx2 =

;

= sy2 =

называются

выборочными

уравнениями линейной

регрессии.

Прямые регрессии пересекаются в точке с

координатами x и y и образуют "ножницы". При

= 1

обе прямые совпадают, при

= 0 они перпендикулярны

друг другу.

Между коэффициентом корреляции и параметрами регрессии имеются следующие соотношения:

163

% %

;

= r

;

= r

b1b1

Проведем статистический анализ простой линейной регрессии.

Простая линейная регрессия определяется уравнениями

yi = b0 + b1xi + ei , i = 1, 2, ..., n ,

где x1, x2 ,..., xn - значения независимой переменной x, а y1, y2 ,..., yn - соответствующие им значения зависимой переменной Y, полученные как результаты независимых экспериментов или наблюдений; ei - ошибки наблюдений

зависимой переменной, имеющие случайный характер. В регрессионном анализе предполагается, что

случайные величины ei и e j , i ¹ j , i, j = 1, 2, ..., n

некоррелированы, имеют нулевое математическое ожидание M [ei ] = 0 и постоянную дисперсию D[ei ] = s2 ,

i = 1, 2, ..., n .

При статистическом анализе регрессионной модели предполагается также, что случайные ошибки наблюдений имеют нормальное распределение:

ei ~ N (0,s2 ), i = 1, 2, ..., n .

В этом случае ei будут независимыми случайными

величинами.

Задача линейного регрессионного анализа состоит в том, чтобы по результатам наблюдений

(xi , yi ), i = 1, 2, ..., n :

∙ получить наилучшие точечные и интервальные оценки неизвестных параметров b0 , b1 и s2 ;

164

∙проверить статистические гипотезы о параметрах модели;

∙проверить, достаточно ли хорошо модель согласуется с результатами наблюдений (адекватность модели результатам наблюдений).

Оценки параметров линейной регрессии (6.1) и (6.2), получаемые по методу наименьших квадратов, при любом законе распределения ошибок наблюдений

ei , i = 1, 2, ..., n	имеют следующие свойства:
1) являются линейными функциями результатов
наблюдений	yi , i = 1,2,...,n,	и	несмещенными
	é% ù	= b j ,	j = 0,1 ;
оценками параметров, т.е. M ëb j û

2) имеют минимальные дисперсии в классе несмещенных оценок, являющихся линейными функциями результатов наблюдений (теорема Гаусса - Маркова).

Если ошибки наблюдений ei некоррелированы и имеют нормальное распределение, т.е. ei ~ N (0, s) , то к

свойствам 1 и 2 добавляется следующее свойство.

3) МНК-оценки совпадают с оценками,

вычисляемыми по методу максимального правдоподобия.

Функция	%	%	определяет выборочную
	y = b0	+ b1x

(эмпирическую) регрессию Y на x, которая является оценкой предполагаемой (теоретической) линейной регрессии по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при

x = xi , i = 1, 2, ..., n , и расчетными значениями		%	%
x = xi , i = 1, 2, ..., n , и расчетными значениями	yi = b0		+ b1xi
	%

называются остатками и обозначаются ei :

ei = yi - y%i , i = 1, 2, ..., n.

165

Качество	аппроксимации	результатов
наблюдений (xi , yi ) ,	i = 1,2,Kn , выборочной	регрессией

определяется величиной остаточной дисперсии, вычисляется по формуле

åei2

n - 2

n -

åëé yi - (b0

+ b1xi )ûù

n -

S2 является несмещенной оценкой дисперсии ошибок

наблюде-

ний s2 .

ВеличинаQe ,

определяемая

выражением

называется остаточной суммой

Qe = åei = å( yi - yi ) ,

квадратов.

Если модель согласуется с результатами наблюдений (адекватна результатам наблюдений), то остаточная дисперсия является несмещенной оценкой

дисперсии ошибок наблюдений s2 , т.е. M éëS2 ùû = s2 . Всюду в дальнейшем будем предполагать, что

ошибки наблюдений ei , i = 1, 2, ..., n ,	имеют нормальное
распределение ei ~ N (0, s2 ) и	независимы. Это

предположение эквивалентно тому, что результаты

наблюдений	yi , i = 1, 2, ..., n, являются реализациями
независимых	нормально распределенных случайных
величинYi :

Yi ~ N (b0 +b1xi , s), i = 1, 2, ..., n.

В этом случае можно показать [13, 22] , что статистика Qe s2 имеет распределение l2 с (n – 2)

166

степенями свободы, т.е. Qs2e = l2 (n - 2) , и эта статистика

распределена независимо от распределения оценок b%0

иb%1 . Используя это утверждение, можно построить

доверительные интервалы для параметров линейной регрессии.

Доверительные интервалы для параметров имеют вид:

(n−2)

åxi2

или

(n−2)

;

é%

± t1−α 2 S

nQx

± t1−α 2

D ëb0

(n−2)

или

é%

± t1−α 2

D ëb1

где t(n−2) - квантиль распределения Стьюдента с (n – 2)

1−α 2

степенями свободы порядка 1- a 2 ; S - оценка среднего

квадратического ошибок наблюдений,	S =	Qe		;	é% ù	-
		n -	2		D ëbi û

дисперсия оценки параметраb%i , i = 0,1.

Доверительный интервал для дисперсии ошибок наблюдений s2 имеет вид:

	(n - 2)S2			< s2	<	(n - 2)S2		,
	c2		(n - 2)			c2	(n - 2)

	1−α		2			1−α	2

где c2p (n - 2) -		квантили распределения c2 с (n – 2)

степенями свободы порядка p; S2 - оценка дисперсии ошибок наблюдений.

В практических вычислениях остаточную сумму квадратов получают из тождества

167

å( yi - y )2 = å( y%i - y)2 + å( yi - y%i )2 ,

которое записывается в виде

Qy = QR + Qe ,

где

Qy = å( yi - y)2 = åyi2 - ny2 ;

QR = å( yi - y )	2	%	%2	Qxy2
QR = å( yi - y )		= b1	×Qxy = b1 Qx =		.
%				Qx
				Qx

Величина QR называется суммой квадратов,

обусловленной регрессией.

Линейная регрессионная модель называется

незначимой, если b1 = 0 .

Для проверки гипотезы H0 : b1 = 0 используют либо доверительный интервал для параметра b1 , либо статистику

	QR (n - 2)	%2
F =		=	b1 Qx	.
	Qe
			S2
Если гипотеза H0 : b1 = 0		верна, то статистика F

имеет распределение Фишера с 1 и (n – 2) степенями свободы.

Гипотеза			H0 : b1 = 0	принимается на	уровне
значимости		α ,	если выборочное значение статистики
Фишера	Fв	будет меньше квантили распределения
Фишера	F1−α (1,		n-1) , то	есть Fb < F1−α (1,	n – 1).

В противном случае гипотеза H0 отклоняется.

Если гипотеза H0 : b1 = 0 отклоняется, говорят, что регрессионная модель статистически значима. Из этого

168

не следует, конечно, что модель хорошо согласуется с результатами наблюдений, т.е. адекватна им.

Полезной характеристикой линейной регрессии

является коэффициент детерминации R2 , вычисляемый по формуле

R2 =

= 1−

Коэффициент детерминации R2 равен той доле

разброса

результатов

наблюдений

(xi , yi ), i = 1, 2,..., n,

относительно горизонтальной прямой

y = y , которая

объясняется

регрессионной моделью.

Величина

R = +

является

оценкой коэффициента

корреляции

между

результатами

наблюдений yi и

вычисляемыми

значениями

yi ,

предсказываемыми

регрессией:

R = ρ % = r % .

В случае линейной регрессии Y на x (одной независимой переменной x) между коэффициентом R и выборочным коэффициентом корреляции rxy имеется

следующее соотношение:

rxy = (знак β%1 )R.

Напомним, что коэффициент ρxy определяет

степень линейной зависимости между случайными величинами X и Y.

Линейная регрессионная модель называется адекватной, если предсказанные по ней значения переменной Y согласуются с результатами наблюдений. Грубая оценка адекватности модели может быть проведена непосредственно по графику остатков, т.е. разностей между наблюдаемыми значениями yi и

169

вычисленными значениями y%i , i = 1,2,...,n. Если модель адекватна, то остатки ei являются реализациями случайных ошибок наблюдений εi , i = 1,2,...,n , которые в

силу предположений должны быть независимыми нормально распределенными случайными величинами с

нулевыми средними и одинаковыми дисперсиями σ2 . Проверка выполнения этих предположений различными статистическими методами и лежит в основе оценки адекватности по графику остатков.

Если регрессионная модель адекватна результатам наблюдений, то она может быть использована для определения прогноза y% при заданном значении

независимой переменной x = x0 .

Доверительный интервал для прогноза среднего значения Y при x = x0 определяется по формуле


y (x0 ) ± t		(n−2)					(x − x )2
y (x0 ) ± t		(n−2)	S	1		+	0	,
%	1−α 2				n		Qx
	1−α 2				n		Qx

а доверительный интервал для прогноза индивидуального значения Y вычисляется по формуле


y (x0 )± t		(n−2)					(x − x )2
y (x0 )± t		(n−2)	S 1+	1		+	0	,
%	1−α 2				n		Qx
	1−α 2				n		Qx

где y% (x0 ) = β%0 + β%1x0 .

Проведем регрессионный анализ в матричном виде. Введем следующие обозначения:

170

регрессионная матрица (n´ 2) A =

вектор параметров модели	æb	ö	,
вектор параметров модели	b=çb0	÷	,
	è 1	ø

æ e	ö
ç 1	÷
наблюдений e = ç e2	÷ .
ç M	÷
ç	÷
èen	ø

æ1	x1	ö
ç1	x	÷	; вектор Y
ç	2	÷	; вектор Y
çM	M	÷
ç1	x	÷
è	n	ø

æ	y	ö
ç	1	÷	;
ç y2		÷	;
ç	M	÷
ç		÷
è yn		ø

вектор ошибок

Тогда простая линейная регрессия определяется матричным уравнением

Y = Aβ + ε.

Метод наименьших квадратов дает оценкуβ , определенную формулой

b% = (AT A)−1 AT Y ,

где AT - матрица, транспонированная к матрице A ; AT A = B - информационная матрица; B−1 = (AT A)−1 - матрица,

обратная	к	матрице
B = (AT A)	.Вывод этой формулы приводится ниже (см.

п.6.2).

Сумма квадратов, обусловленная регрессией, определяется по формуле

QR = bT AT Y - n( y )2 .

Остаточная сумма квадратов: Qe = Qy - QR.

171

Оценка ковариационной матрицы K оценок параметров регрессии вычисляется по формуле

K= S2 (AT A)−1 = S2B−1 ,

адисперсии оценок параметров - диагональные элементы матрицы K:

é%	ù	= S		2	(b11 ),
D ëb0	û	= S			(b11 ),
é%	ù	= S	2		(b22 ),
D ëb1	û	= S			(b22 ),

где bii - диагональные элементы матрицы B−1 .

172

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1920 / 2220 21 22 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
23.09.2019386.56 Кб1Voprosy_dlya_4_kurs_8_semestr.doc
#
22.11.201970.14 Кб2Voprosy_Informatika.doc
#
05.06.2015197.12 Кб4Voprosy_k_rubezhnomu_kontrolyu_-_informatika.doc
#
22.09.201974.36 Кб3voprosy_po_biletamshpory_-_kopia.docx
#
16.04.2019582.6 Кб1Vtoraya_chast.docx
#
05.06.20152.12 Mб136VUKOLOV2.pdf
#
25.09.2019508.93 Кб3v_lapkinx2cx20v_pantin_94_3.doc
#
27.03.20162.06 Mб276XAXANINA.pdf
#
05.06.20155.29 Mб242Yuryeva_M_V_Tsvetovedenie (без защиты).pdf
#
05.06.2015273.6 Кб22Zadachi_po_fizike.pdf
#
19.07.201935.4 Кб9Zadanie_dlya_studentov.docx