Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Регрессии и корреляции

.pdf
Скачиваний:
17
Добавлен:
12.04.2015
Размер:
884.32 Кб
Скачать

Получим формулу для вычисления R2.

В каждой точке xi:

yi = yi +ei

 

 

 

 

 

 

yi

y =(yi y) +ei

 

Вариация Y в каждой точке:

 

 

 

 

Суммарная вариация (общая дисперсия):

(yi y)2 =(yi y)2 +ei2

Полная вариация у складывается из двух компонент: первая связана с изменением х через функцию регресии, вторая моделью не объясняется

Поделив обе части на

 

( y

 

 

) 2

получим суммарную вариацию

 

i

y

в долях (процентах!):

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(yˆ

y)2

 

 

e2

 

 

 

 

 

 

e2

 

 

(yˆ

y)2

1=

i

 

+

 

 

i

 

1=R2 +

i

 

, R2 =

i

 

 

(y

2

(y

 

2

(y y)

2

(y

2

 

y)

 

y)

 

 

 

 

 

 

y)

 

i

 

 

 

i

 

 

 

 

 

 

 

i

 

 

i

 

 

коэффициент детерминации R2 показывает какую долю вариации У объясняет уравнение регрессии. За вычетом этой доли получаем не объяснённую в модели (случайную!) долю вариации У

Обсуждение качества уравнения регрессии

Для линейного уравнения регрессии детерминация

R 2

= r

2

 

 

xy

Так как │r │≤ 1 , то границы изменения 0 ≤ R2

≤ 1.

 

 

 

xy

 

 

 

 

Для парной линейной регрессии (только!) R2 значим, если значим ρху.

Коэффициент детерминации R2 показывает, какая доля дисперсии результирующего показателя Y определяется (детерминируется) контролируемой нами вариацией функции регрессии f(X).

Оставшаяся доля дисперсии (1- R2) объясняется воздействием случайных факторов (регрессионных остатков, помех) и определяет ту верхнюю границу точности, которой мы можем добиться при аппроксимации значений результирующего Y по заданным значениям Х

Чем ближе R2 к единице, тем выше качество регрессионной модели. Визуально более качественной модели отвечает более тесное прилегание экспериментальных данных к линии регрессии.

Обсуждение качества уравнения регрессии

Максимизация R2 эквивалентна минимизации нормированной остаточной суммы квадратов отклонений. В этом смысле R2 можно рассматривать как меру согласия модели с данными, то есть как показатель адекватности модели.

R2 подходит для сравнения качества двух уравнений регрессии с одинаковым числом независимых переменных.

Другие критерии качества уравнения регрессии основаны на измерении средней величины ошибки прогноза σ2 = Σei2/(n-m-1)

Однако остатки ei , на основании которых подсчитывается σ2, следует брать лишь из тех наблюдений, которые не участвовали в вычислении оценок bi для параметров функции регрессии βi. Это значит, что исходные статистические данные следует разбить на две непересекающиеся выборки: обучающую, по которой строятся оценки bi, и экзаменующую для оценивания регрессионных остатков в ошибке прогноза σ2 .

Прогнозирование в регрессионных моделях

Истинное значение зависимой переменной y при х=хрравно:

yр=β0+β1xр+ε.

Точечный прогноз модели y p = b0

+ b1 x p

находят подстановкой в уравнение

регрессии ожидаемого значения фактора

 

 

 

 

 

)2

 

 

1

 

(xp

 

 

Стандартная ошибка прогноза:

 

 

x

 

 

Sp =S 1+ n

+

 

 

 

 

 

 

 

 

(x

 

)2

 

 

x

 

y

Доверительный интервал для yp

Доверительный интервал для yр

 

 

 

(интервальный прогноз):

y p tкрSp < y p < y p +tкрSp

y=b0+b1·x

С увеличением объема выборки n точность прогноза растёт (доверительный интервал сужается). Чем меньше хр отклоняется от выборочного среднего , тем точнее прогноз.

x

xp

x

Ограничения и условия применения корреляционно-регрессионных методов

1.Наличие достоверных данных по достаточно большой совокупности.

2.Надежное выражение закономерности в средней величине требует качественной и количественной однородности совокупности выборки (элементы совокупности несут изучаемый признак с приближенно равной степенью и не сильно отличаются по величине).

3.Отдельные наблюдения совокупности должны быть независимыми.

4.При изучении взаимосвязей использовать варьирующие показатели.

5.Все факторные признаки должны иметь количественные значения.

6.Распределение факторных и результативных признаков должно подчиняться нормальному закону (при использовании МНК).

7.Практическое использование корреляционно-регрессионного анализа допустимо и для детерминированных связей (скрытый характер реальной стохастичности).

РЕГРЕССИЯ в EXCEL: СЕРВИС – АНАЛИЗ ДАННЫХ - РЕГРЕССИЯ

1.Регрессионная статистика

Втаблице представлены:

-R – коэффициент корреляции (ячейка B31);

-R-квадрат – квадрат коэффициента корреляции, т.е.коэффициент детерминации в нашем случае (ячейка В32);

-{нормированный R-квадрат – нормированный квадрат множественного коэффициента корреляции (ячейка В33)};

-стандартная ошибка регрессии S2=Σei2/(n-2) ячейка В34;

-количество наблюдений – ячейка В35.

2.Дисперсионный анализ

Втаблице указаны для регрессии и остатков, соответственно: - df – число степеней свободы (ячейки В39, В40);

-SS – оценки дисперсий, т.е. суммы квадратов разностей

 

 

 

 

 

 

 

 

 

(ячейки С39, С40);

ˆ

 

2

 

(e

 

 

2

 

,

e)

(y

y)

 

 

 

-MS = SS /df – нормированные на число степеней свободы оценки дисперсий (ячейки D39, D40);

-F = t2 – наблюдаемое, т.е. вычисленное по выборке значение статистики Фишера: F = MS(регрессионное)/MS(остаточное), оно равно квадрату статистики Стьюдента в нашем случае

(ячейка E39);

-значимость F, то есть вероятность получить наблюдаемое значение F-статистики Фишера случайно (ячейка F39).

3. Таблица с информацией об уравнении регрессии

В ней представлены:

-Коэффициенты – значения выборочных коэффициентов регрессии b0, b1 (ячейки В44:В45);

-Стандартная ошибка – значения стандартных ошибок Sb0, Sb1 для коэффициентов регрессии b0, b1 (ячейки С44:С45);

-t-статистика – наблюдаемые значения t-статистики Стьюдента для коэффициентов: tb0, tb1 (ячейки D44:D45);

-P-значения –значимость коэффициентов b0, b1 , т.е. вероятность получения этих значений случайно (ячейки Е44:Е45);

-Нижние 95% и Верхние 95% - интервальные оценки для коэффициентов регрессии с доверительной вероятностью p=0,95.