Регрессии и корреляции
.pdfПолучим формулу для вычисления R2.
В каждой точке xi: |
yi = yi +ei |
|
|
|
|
|
|
yi |
− y =(yi − y) +ei |
|
|||
Вариация Y в каждой точке: |
|
|
||||
|
|
|||||
Суммарная вариация (общая дисперсия): |
∑(yi −y)2 =∑(yi −y)2 +∑ei2 |
Полная вариация у складывается из двух компонент: первая связана с изменением х через функцию регресии, вторая моделью не объясняется
Поделив обе части на |
|
∑ |
( y |
|
− |
|
) 2 |
получим суммарную вариацию |
||||||||||
|
i |
y |
||||||||||||||||
в долях (процентах!): |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
∑(yˆ |
−y)2 |
|
|
∑e2 |
|
|
|
|
|
|
∑e2 |
|
|
∑(yˆ |
−y)2 |
||
1= |
i |
|
+ |
|
|
i |
|
1=R2 + |
i |
|
, R2 = |
i |
|
|
||||
∑(y |
2 |
∑(y |
|
2 |
∑(y −y) |
2 |
∑(y |
2 |
||||||||||
|
−y) |
|
−y) |
|
|
|
|
|
|
−y) |
||||||||
|
i |
|
|
|
i |
|
|
|
|
|
|
|
i |
|
|
i |
|
|
коэффициент детерминации R2 показывает какую долю вариации У объясняет уравнение регрессии. За вычетом этой доли получаем не объяснённую в модели (случайную!) долю вариации У
Обсуждение качества уравнения регрессии
Для линейного уравнения регрессии детерминация |
R 2 |
= r |
2 |
|
|
|
xy |
||
Так как │r │≤ 1 , то границы изменения 0 ≤ R2 |
≤ 1. |
|
|
|
xy |
|
|
|
|
Для парной линейной регрессии (только!) R2 значим, если значим ρху.
Коэффициент детерминации R2 показывает, какая доля дисперсии результирующего показателя Y определяется (детерминируется) контролируемой нами вариацией функции регрессии f(X).
Оставшаяся доля дисперсии (1- R2) объясняется воздействием случайных факторов (регрессионных остатков, помех) и определяет ту верхнюю границу точности, которой мы можем добиться при аппроксимации значений результирующего Y по заданным значениям Х
Чем ближе R2 к единице, тем выше качество регрессионной модели. Визуально более качественной модели отвечает более тесное прилегание экспериментальных данных к линии регрессии.
Обсуждение качества уравнения регрессии
Максимизация R2 эквивалентна минимизации нормированной остаточной суммы квадратов отклонений. В этом смысле R2 можно рассматривать как меру согласия модели с данными, то есть как показатель адекватности модели.
R2 подходит для сравнения качества двух уравнений регрессии с одинаковым числом независимых переменных.
Другие критерии качества уравнения регрессии основаны на измерении средней величины ошибки прогноза σ2 = Σei2/(n-m-1)
Однако остатки ei , на основании которых подсчитывается σ2, следует брать лишь из тех наблюдений, которые не участвовали в вычислении оценок bi для параметров функции регрессии βi. Это значит, что исходные статистические данные следует разбить на две непересекающиеся выборки: обучающую, по которой строятся оценки bi, и экзаменующую для оценивания регрессионных остатков в ошибке прогноза σ2 .
Прогнозирование в регрессионных моделях
Истинное значение зависимой переменной y при х=хрравно: |
yр=β0+β1xр+ε. |
|||||||||
Точечный прогноз модели y p = b0 |
+ b1 x p |
находят подстановкой в уравнение |
||||||||
регрессии ожидаемого значения фактора |
|
|
|
|
|
)2 |
||||
|
|
1 |
|
(xp − |
|
|
||||
Стандартная ошибка прогноза: |
|
|
x |
|||||||
|
|
S∆p =S 1+ n |
+ |
|
|
|
|
|
|
|
|
|
∑(x − |
|
)2 |
||||||
|
|
x |
|
|||||||
y |
Доверительный интервал для yp |
Доверительный интервал для yр |
||||||||
|
|
|
(интервальный прогноз):
y p −tкрS∆p < y p < y p +tкрS∆p
y=b0+b1·x
С увеличением объема выборки n точность прогноза растёт (доверительный интервал сужается). Чем меньше хр отклоняется от выборочного среднего , тем точнее прогноз.
x |
xp |
x |
Ограничения и условия применения корреляционно-регрессионных методов
1.Наличие достоверных данных по достаточно большой совокупности.
2.Надежное выражение закономерности в средней величине требует качественной и количественной однородности совокупности выборки (элементы совокупности несут изучаемый признак с приближенно равной степенью и не сильно отличаются по величине).
3.Отдельные наблюдения совокупности должны быть независимыми.
4.При изучении взаимосвязей использовать варьирующие показатели.
5.Все факторные признаки должны иметь количественные значения.
6.Распределение факторных и результативных признаков должно подчиняться нормальному закону (при использовании МНК).
7.Практическое использование корреляционно-регрессионного анализа допустимо и для детерминированных связей (скрытый характер реальной стохастичности).
РЕГРЕССИЯ в EXCEL: СЕРВИС – АНАЛИЗ ДАННЫХ - РЕГРЕССИЯ
1.Регрессионная статистика
Втаблице представлены:
-R – коэффициент корреляции (ячейка B31);
-R-квадрат – квадрат коэффициента корреляции, т.е.коэффициент детерминации в нашем случае (ячейка В32);
-{нормированный R-квадрат – нормированный квадрат множественного коэффициента корреляции (ячейка В33)};
-стандартная ошибка регрессии S2=Σei2/(n-2) ячейка В34;
-количество наблюдений – ячейка В35.
2.Дисперсионный анализ
Втаблице указаны для регрессии и остатков, соответственно: - df – число степеней свободы (ячейки В39, В40);
-SS – оценки дисперсий, т.е. суммы квадратов разностей
|
|
|
|
|
|
|
|
|
(ячейки С39, С40); |
ˆ − |
|
2 |
|
∑(e |
− |
|
|
2 |
|
|
, |
e) |
|||||||
∑(y |
y) |
|
|
|
-MS = SS /df – нормированные на число степеней свободы оценки дисперсий (ячейки D39, D40);
-F = t2 – наблюдаемое, т.е. вычисленное по выборке значение статистики Фишера: F = MS(регрессионное)/MS(остаточное), оно равно квадрату статистики Стьюдента в нашем случае
(ячейка E39);
-значимость F, то есть вероятность получить наблюдаемое значение F-статистики Фишера случайно (ячейка F39).
3. Таблица с информацией об уравнении регрессии
В ней представлены:
-Коэффициенты – значения выборочных коэффициентов регрессии b0, b1 (ячейки В44:В45);
-Стандартная ошибка – значения стандартных ошибок Sb0, Sb1 для коэффициентов регрессии b0, b1 (ячейки С44:С45);
-t-статистика – наблюдаемые значения t-статистики Стьюдента для коэффициентов: tb0, tb1 (ячейки D44:D45);
-P-значения –значимость коэффициентов b0, b1 , т.е. вероятность получения этих значений случайно (ячейки Е44:Е45);
-Нижние 95% и Верхние 95% - интервальные оценки для коэффициентов регрессии с доверительной вероятностью p=0,95.