Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Томский Государственный Архитектурно-Строительный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Регрессии и корреляции

.pdf

Скачиваний:

Добавлен:

12.04.2015

Размер:

884.32 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 119 10 11 > Следующая >>>

Обсуждение коэффициентов уравнения регрессии

bi называются коэффициентами условно чистой регрессии:

значение bi показывает величину изменения Y при условии, что соответствующий фактор Xi изменяется на принятую для него единицу измерения (при этом требуется, чтобы все прочие факторы оставались постоянными), то есть влияние Xi на Y очищено от влияния прочих факторов, входящих явно в уравнение. Однако есть неявные факторы модели – случайные - поэтому bi “условно очищенные”.

Может оказаться, что какой-то из βi =0, а соответствующая ему оценка bi≠0 в следствие случайных колебаний выборки. Т.е. нужна проверка статистической значимости теоретических коэффициентов регрессии βi.

Если какой-то коэффициент βi окажется несущественным, то отвечающая ему факторная переменная xi вносит незаметный вклад в объяснение результативного признака, следовательно, такую переменную xi можно исключить из модели.

Проверка существенности каждого коэффициента βi является задачей проверки гипотез: Н0: βi = 0; Н1: βi ≠ 0.

По выборочным данным вычисляем статистику t = bi / Sbi. Здесь

bi – оценка i-го коэффициент регрессии, Sbi – стандартная ошибка bi. Статистика t при справедливости Н0 распределена по Стьюденту. При заданном уровне значимости α находим критическое значение распределения Стьюдента с параметрами α /2 и числом степеней свободы (n-k-1).

Если	bi / S b i	≥ t (α / 2 , n − k − 1 )
Если	bi / S b i	≥ t (α / 2 , n − k − 1 )

то Н0 отвергается и коэффициент регрессии βi будет существенным.

Проводя проверку существенности каждого коэффициента регрессии, мы определяем влияние соответствующей независимой переменной на характер изменения зависимой переменной.

Существенность уравнения регрессии в целом устанавливается через проверку основной гипотезы Н0: β1 = β2 = …= βk = 0. Альтернативная гипотеза предполагает, что хотя бы один из истинных параметров регрессии отличен от нуля.

Если Н0 верна, то между зависимой и независимыми переменными нет реальной линейной связи и уравнение

регрессии целиком незначимо.	F	=	R 2 / k
По данным выборки вычисляем статистику			(1 − R 2 ) /(n − k −1)

которая при справедливости Н0 распределена по Фишеру. Критическое значение F-распределения с параметрами α (уровень значимости), k – число степеней свободы числителя, (n – k -1) – число степеней свободы знаменателя: F(α, k, n-k-1)

При F > F(α, k, n-k-1) гипотеза Н0 отвергается на заданном уровне значимости: уравнение регрессии в целом статистически значимо

F-статистика проверяет превышает ли коэффициент детерминации

то значение, которое м.быть получено случайно, а не является следствием закономерности в линейной связи между изучаемыми в модели признаками.

у	х1	x2	x3	x4
0,904	115,0	75,5	3343	77,0

0,922	123,0	78,5	3001	78,2

0,763	74,0	78,4	3101	68,0

0,923	111,0	77,7	3543	77,2

0,918	113,0	84,4	3237	77,2

0,906	110,0	75,9	3330	77,2

0,905	119,0	76,0	3808	75,7

0,545	146,0	67,5	2415	62,6

ПРИМЕР:

У-индекс человеческого развития x1 – ВВП 1997 г., % к 1990 г

x2 – расходы (% к ВВП)

x3 – калорийность питания

x4 – продолжительность жизни

Сервис/Анализ данных/Корреляция

И т.д.		у	х1	x2	x3	x4
	у	1

	х1	-0,00274	1
	x2	0,170503	-0,618	1
	x3	0,75145	0,077585	0,185509	1


	x4	0,962033	0,163606	0,04856	0,703927	1

Тесно связаны y и х4 (0,962), связь y и х3 слабее (0,751) - исключаем х3

Теснота связи всех прочих факторов между собой ниже допустимой величины 0.7, поэтому сохраняем их. Тогда уравнение регрессии:

yˆ = b0 + b1 x1 + b2 x2 + b4 x4 Найдём значения bi: РЕГРЕССИЯ

	Коэффициенты	Стандартная ошибка	t-статистика
Y-пересечение	-0,676869	0,105607641	-6,40928053
х1	-0,000471098	0,000206803	-2,278002908
x2	0,000554306	0,000977217	0,567229787
x4	0,020630702	0,001029649	20,03663258

Значимость коэффициентов: критическое t(0,05; 21) = 2,08><|t-статистики| ?

ВЫВОД: х2 неинформативный фактор, его следует удалить из модели.

Новое уравнение регрессии:	ˆ	=	b0	+	b1 x1	+	b4 x4
	y

у	х1	x4
0,904	115,0	77,0

0,922	123,0	78,2

0,763	74,0	68,0

0,923	111,0	77,2

0,918	113,0	77,2

0,906	110,0	77,2

0,905	119,0	75,7

0,545	146,0	62,6

n-k-1=25-2-1 → t(0,05;22) = 2.07.

Все коэффициенты значимы, тогда оценочное уравнение регрессии:

)

y =−0,63−0,00055x1 +0,0207x4

	Коэффициенты	Стандартная ошибка	t-статистика
Y-пересечение	-0,6344146	0,073348734	-8,649291805
х1	-0,000545615	0,000157235	-3,470048056
X4	0,020743408	0,0009946	20,85602392

проверка x1 и x4 на линейную связь (мультиколлинеарность)

выполняется путём проверки гипотезы Н0 : ∆* = Det (rxi x j ) = 1

(в отсутствие линейной связи недиагональные элементы матрицы парных корреляций rxi,xk близки к нулю).

Матрица rxi,xk : СЕРВИС_АНАЛИЗ ДАННЫХ_КОРРЕЛЯЦИЯ

х1 x4

х1	1	0,163606
x4	0,163606	1

элементы треугольной матрицы копируем относительно главной диагонали, тогда

∆* → МОПРЕД(rxi,xk)

Вычисляем	χ 2 = n − 1 −	1	( 2 k + 5 ) lg( ∆* )
		6

При χ2 > χ2(α, n·(n-1)/2) линейная связь между х1 и х4 отсутствует

существенно ли ухудшилось качество описания Y в

результате исключения из модели факторов х2 и х3?

С этой целью проверим гипотезу H0: R12 = R22

Здесь R12 оценивает качество исходной модели с m=4 факторами; R22 - качество конечной модели после исключения j факторов.

			2	− R	2	n − m − 1
	F	=	R1		2
Вычисляем статистику:				2		j

			1 − R1

которая при выполнении Н0 распределена по Фишеру.

Если F < F(α, j, n-m-1), то Н0 не отклоняется: отбрасывание

j = 2 объясняющих переменных (х2 и х3) не привело к заметному ухудшению качества уравнения регрессии.

Замечание. Критическое значение F(α, j, n-m-1) можно вычислить встроенной функцией Excel: FРАСПОБР(α, j, n-m-1).

Заключение по примеру

На практике считают, что связь между изучаемыми показателями достаточно тесна и модель практически пригодна, если скорректированный коэффициент детерминации превышает хотя бы 0.5, т. е. есть модель объясняет более половины вариации результативного признака.

В нашем примере скорректированный коэффициент детерминации (см. результаты РЕГРЕССИИ) равен R 2 = 0,95 , таким образом, 95% вариации индекса человеческого развития объясняются вариацией входящих в модель факторов, а 5% вариации индекса человеческого развития объясняются прочими, не входящими в модель причинами.

Суммируя все промежуточные выводы можно сказать, что

уравнение регрессии в нашем примере в целом надежно и, следовательно, может быть использовано для содержательных оценок и прогнозирования.

Стандартизованные коэффициенты регрессии

Коэффициенты уравнения регрессииy = b0 + b1 x1 + b2 x2 + ... + bk xk являются размерными, т.е. их нельзя сравнивать между собой.

Поэтому уравнение регрессии преобразуют к стандартизованному

виду путём замены переменных: ty =(y−y)/σy; txi =(xi −xi )/σxi В новых переменных уравнение регрессии примет вид:

ty =Β1tx1 +Β2tx2 +...+Βk txk здесь Βi =bi σxi /σy

Коэффициенты стандартизованного уравнения регрессии имеют сравнимые единицы измерения и пригодны для ранжирования факторов Хi по степени влияния на изучаемый признак Y:

максимальный по величине Вi указывает на фактор Xi, вариация которого сильнее всего сказывается на вариации признака Y.

Замечание: для некоторого i можем получить Вi ≈ 0, это повод для исключения фактора xi из уравнения регрессии.

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 119 10 11 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
15.03.2016291.66 Кб202Процессы и аппараты технологии строительных материалов.pdf
#
08.09.2019731.14 Кб15публичное выступление.doc
#
09.11.2019111.62 Кб9ПУП.doc
#
12.04.2015883.31 Кб90Разговорник Индонезийского языка.doc
#
15.08.201914.91 Mб37расчет котла.doc
#
12.04.2015884.32 Кб17Регрессии и корреляции.pdf
#
17.12.2018960 Кб20Редакт. Методические указания по оценке инвести....doc
#
19.09.201998.82 Кб4Реконструкция.doc
#
15.03.201681.23 Кб47реферат по экон.теории.docx
#
12.04.2015176.13 Кб11реферат.doc
#
14.11.201966.05 Кб3Рефератик.doc