Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Регрессии и корреляции

.pdf
Скачиваний:
17
Добавлен:
12.04.2015
Размер:
884.32 Кб
Скачать

Анализ связи факторов (мультиколлинеарности)

Для исключения из модели тесно связанных факторов анализируют корреляционную матрицу:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ryy

ryx

ryx

 

...

ryx

k

 

 

 

 

 

 

 

 

 

 

1

 

 

 

2

 

 

 

 

 

 

 

 

rx

y

rx

x

rx

x

...

rx

x

 

 

 

 

 

 

 

k

 

 

rxi,y=

 

 

 

1

 

 

1 1

 

1

 

 

2

 

1

 

 

 

 

 

 

rx

2

y

rx

 

x

rx

2

x

...

rx

2

x

k

 

 

 

 

 

 

 

 

2 1

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

...

 

 

...

 

 

 

 

 

...

 

 

 

 

 

 

 

 

 

...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

rx

 

y

rx

 

x

rx

 

x

...

rx

 

x

 

 

 

 

 

 

k

k

k

k

k

 

 

 

 

 

 

 

 

1

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

cov(a,b)

 

 

 

a

 

 

 

 

 

 

ab

 

 

ra,b =

=

 

b

 

raa= 1, rab= rba

 

 

 

 

 

 

σaσb

σaσb

 

Det(rxi,y) = ∆

Продолжение

Считают, что факторы с номерами i и m связаны тесно, если

rxi , x m

0 ,7

Из этих двух факторов исключается тот, который слабее связан с результативным признаком Y. Если оба фактора приблизительно равно связаны с результативным признаком, то исключается тот, который имеет большую корреляционную связь с прочими факторными признаками.

Итог: Из множества возможных факторных переменных в модели останутся только информативные: Xi слабо связаны друг с другом, но при этом тесно связаны с изучаемым показателем Y.

Замечание. На практике корреляционную матрицу получают, используя инструмент анализа данных Корреляция:

Сервис/Анализ данных/Корреляция

Продолжение

Может случиться так, что в результате исключения “плохих” факторов Xi модель сильно “обеднеет”, то есть потеряет в качестве описания результатов эксперимента. Проверить этот факт можно, если вспомнить о коэффициенте детерминации – показателе адекватности модели: R2 – количественная оценка разброса экспериментальных точек вокруг кривой регрессии.

Величина R2 может оказаться недопустимо маленькой, в частности по причине большого числа исключенных “плохих” факторов. Тогда для повышения качества модели в неё следует ввести новые, дополнительные переменные взамен удалённых. Их берут из теории либо других надёжных источников.

коэффициент множественной детерминации

Для заданного набора факторных переменных оценим, какую долю вариации результативного признака они способны объяснить:

R2 = ∆ /∆*- коэффициент множественной детерминации

Здесь ∆ - определитель корреляционной матрицы (см. выше), а ∆* - определитель матрицы парных факторных корреляций:

 

 

 

rx x

rx x ...

rx x

 

 

 

 

 

 

1 1

1 2

1

k

 

* =Det(r

 

r

 

r

...

r

 

 

) =

 

x2x1

x2x2

x2xk

 

xix j

 

...

 

...

 

...

 

 

 

 

 

 

x

rx

x ...

rx

x

 

 

 

rx

 

 

 

 

k

1

k

2

k

k

Коэффициент множественной детерминации R2 является важной характеристикой качества уравнения регрессии в целом.

Варианты его вычисления, отвечающие разным целям исследования:

1.Измерение доли вариации результативной переменной, которая объясняется множественной регрессией:

R= 1

( y i y ) 2

2.Проверка списка факторов на информативность : R2 = ∆ /∆*

3.Скорректированный на число степеней свободы коэффициент детерминации: R2 =1(1R2 ) n n k 11 = R2 n kk 1(1R2 )( y i2 ) 2y i

R2 используют для контроля списка факторных переменных в ходе вычислительного эксперимента: дополнительные факторы xi вводят в модель до тех пор, пока растет скорректированный коэффициент детерминации.

Итоговая проверка списка факторных переменных

Итоговый список факторов Xi проверяем на пригодность по двум статьям : 1) не ухудшилось ли существенно качество исходного уравнения регрессии в результате исключения из модели ряда “плохих” факторов и 2) не возникла ли мультиколлинеарность после введения в модель новых факторов.

1)Пусть качество исходной модели с k факторами оценивает R12. После исключения из модели j факторов её детерминация R22.

Н0: R12 = R22 – качество описания признака Y не ухудшилось; Н1: R12 > R22 – качество описания Y ухудшилось существенно. Для проверки Н0 используем статистику Фишера:

F=(R12-R22)/ j · (n-k-1)/(1-R12).

При F > F(α, j, n-k-1) Н0 отвергается, то есть исключение из модели j переменных существенно ухудшило её качество.

Если же F < F (α, j, n-k-1), то разность (R12 - R22) незначительна и отбрасывание j объясняющих переменных вполне допустимо.

Замечание: обе модели линейные и число наблюдений n равно

Итоговая проверка списка факторных переменных

2)Убедимся в отсутствии линейной связи между факторами путём проверки гипотезы Н0 : ∆*= 1 (то есть все недиагональные

элементы матрицы парных корреляций rxi,xk близки к нулю).

Доказано, что статистика

χ 2

= n 1

1

( 2 k + 5 ) lg( * )

 

 

6

 

при выполнении Н0 имеет χ2распределение с n·(n-1)/2 степенями свободы. Здесь n – объем выборки, k – число факторных переменных, ∆* - определитель корреляционной матрицы .

Если наблюдаемое значение χ2 > χ2(α, n·(n-1)/2) – критического значения при заданном уровне значимости α, то гипотеза Н0 отклоняется: факторные переменные модели находятся в тесной линейной зависимости.

При χ2 > χ2(α, n·(n-1)/2) линейная связь между факторами отсутствует.

Ряд мер по устранения мультиколлинеарности (без изменения списка факторных переменных).

1.Иногда достаточно увеличить объем выборки либо изменить форму модели.

2.Если основная задача модели – прогноз, то при высоком коэффициенте детерминации (R2 ≥ 0,9) линейная связь факторов незначительно ухудшает прогнозные качества модели

3.Иногда претендующий на исключение фактор желательно сохранить в модели из практических соображений. “Вредную” линейную связь этого фактора с другими можно ослабить или вообще устранить с помощью подходящей замены переменных.

Результат корреляционного анализа: подобран итоговый список

факторов: Xi слабо связаны между собой (т.е. их можно разделить по степени влияния на Y), но тесно связаны с изучаемым Y (т.е. совокупность факторов Xi достаточно информативна).

β0 +β1 X1 +β2 X 2 +... +βk X k

параметризация модели множественной линейной регрессии

Для выбранного в ходе корреляционного анализа списка факторов X1,…Хk модель множественной регрессии имеет вид:

Y = β0 + β1 X 1 + β2 X 2 + ... + βk X k + Ε

функция регрессии (тренд), ошибка модели

ЗАДАЧА: по выборочным данным (x i1, xi2,…, xik, yi), i = 1, 2,…, n найти оценки b0, b1,…, bk для теоретических параметров β0, β1,…, βk . РЕШЕНИЕ: в основе процедуры оценивания β1 ,…, βk лежит простая идея минимизации суммарного отклонения выборочных данных от предлагаемой функции регрессии. Зачастую здесь используют МНК. РЕЗУЛЬТАТ: эмпирическая (оценочная, выборочная) модель:

yi = yi +ei =b0 +b1xi1 +b2 xi2 +...+bk xik +ei , i =1,2,..., n

Оценка параметров в уравнении множественной линейной регрессии

Согласно МНК для вычисления оценок b0, b1,…, bk имеем систему k+1 линейных алгебраических уравнений. Если эта система не вырождена, то решение находят с использованием специальных компьютерных программ, в частности, стандартного приложения MS Qffice для электронных таблиц Excel.

В регрессионном подходе неизвестные значений изучаемого признака Y заменяют значения функции регрессии:

y i = b0 + b1 xi1 + b2 xi 2 + ... + bk xik

Функция регрессии позволяет оценить влияние факторных переменных на результирующий показатель “в среднем”