- •Введение
- •1.Структура пакета STATISTICA
- •Структура данных
- •Редактирование данных
- •Источники данных
- •Открытие файла данных
- •Создание файла данных
- •Сохранение файла
- •Импорт файла данных
- •Экспорт файла данных
- •Вычисление основных статистик и построение графиков
- •2. Лабораторные работы по теории вероятностей
- •Выполнение в пакете STATISTICA
- •. Работа с Probability Distr. Calculator
- •Моделирование распределений случайных величин
- •3. Лабораторные работы по статистическим методам
- •Выполнение в пакете STATISTICA
- •Основные понятия
- •Задание
- •Выполнение в пакете STATISTICA
- •Задания для самостоятельной работы
- •Работа 5. Доверительные интервалы для разности средних и отношения дисперсий
- •Основные понятия
- •Задание
- •Выполнение в пакете STATISTICA
- •Задания для самостоятельной работы
- •Работа 6. Группировка данных по классифицирующему признаку
- •Выполнение в пакете STATISTICA
- •4. Непараметрические методы математической статистики
- •Задания для самостоятельной работы
- •Задания для самостоятельной работы
- •Коэффициент ранговой корреляции Спирмена
- •Задания для самостоятельной работы
- •Задания для самостоятельной работы
- •Задание 1
- •Задание 2
- •4.8. Критерий знаков (Sign test)
- •4.9. Критерий Вилкоксона (Wilcoxon watched pairs test)
- •Задания для самостоятельной работы
- •5. Однофакторный дисперсионный анализ
- •5.1. Основные понятия
- •5.2. Решение примеров в пакете STATISTICA
- •6. Регрессионный анализ
- •Работа 7. Простая линейная регрессия
- •Литература
6. Регрессионный анализ
Во многих случаях исследуются объекты, характеризующиеся несколькими признаками. Например, у каждого человека можно измерить рост, вес, частоту пульса и ряд других физиологических показателей; работу торгового предприятия можно оценить по объему товарооборота и величине прибыли. Совокупность данных такого типа представляет выборку из многомерной генеральной совокупности. Для таких выборок важно не только определение характеристик распределения каждого признака, но и то, насколько тесно эти признаки связаны между собой, можно ли по значению одного признака сделать какиелибо выводы о предполагаемом значении другого признака и т.д.
При построении регрессионной модели, описывающей зависимость переменной Y от независимых переменных (факторов) x1, x2, … xm, предполагается, во-первых, что у исследователя имеются результаты совокупных наблюдений зависимой переменной Y и независимых переменных x1, x2, …, xm, во-вторых, что значения независимых переменных определяются точно (без ошибок), а значение зависимой переменной Y определяется с ошибками, имеющими случайный характер.
Регрессией (уравнением регрессии) называется условное математическое ожидание Y:
M[Y / x1, x2 , ..., xm ] = f (x1, x2 , ..., xm ) .
Таким образом, регрессия описывает поведение наблюдаемой зависимой переменной в среднем, представляя ее главную тенденцию. В связи с этим
157
нахождение регрессии по результатам наблюдений называют сглаживанием данных.
Существуют различные регрессионные модели, определяемые выбором функции f (x1, x2 , ..., xm ) :
∙простая линейная регрессия:
Y= β0 + β1x + ε ;
∙множественная регрессия:
Y= β0 + β1x + β2 x2 + ...+ βk −1xk −1 + ε ;
∙полиномиальная регрессия:
Y= β0 + β1x + β2 x2 + ...+ βk−1xk −1 + ε ;
регрессионная модель общего вида:
Y = β0 + β1ϕ1(x1, |
x2 , |
..., |
xm ) + ...+ βk−1ϕk−1(x1, x2 ,..., xm ) + ε , |
где ϕi (x1, x2 , ..., |
xm ) |
, i |
= 1, 2, …, k – 1 - заданные |
функции факторов.
Коэффициентыβ0 ,β1 …, βk-1 называются
параметрами регрессии.
В приведенные регрессионные модели параметры β0 ,β1 …, βk−1 входят линейно. Такие модели называют
линейными (по параметрам) моделями, а
математические методы анализа этих моделей -
линейным регрессионным анализом.
Модель y = β0εβ1x1 +β1εβ2x2 нелинейна по параметрам.
В некоторых случаях нелинейные модели с помощью специальных линеаризирующих преобразований могут быть представлены как линейные. Рассмотрим несколько примеров.
1. Функция y = β0 xβ1 с помощью логарифмирования и замены переменных преобразуется так: lny = lnβ0 +
β1 lnx. Проведя замену переменных y |
′ |
= lny; β0 = lnβ0 ; |
|||||
|
|
|
|
|
|
′ |
|
x′ = lnx, получим линейную по параметрам функцию |
|||||||
y |
′ |
′ |
+ β1x |
′ |
. |
|
|
|
= β0 |
|
|
|
158
2. Функция образом:
y = |
ax |
преобразуется следующим |
|
b + x |
|||
|
|
b + x = a |
x |
|
или |
x |
= b |
+ 1 x . |
|
|
|
|
|
|
|
||||||
y |
y |
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
a |
a |
|
|
|
|
|
|
|
|
|
|
||||
После замены переменных |
y¢ = |
|
x |
, |
b0 |
= |
b |
, |
b1 = |
1 |
|
||||||||
|
|
a |
a |
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
y |
|
|
|
|
||||
получим y′ = b0 + b1x . |
|
|
|
|
|
|
|
|
β0 +β1x |
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
3. Логистическая функция y = |
|
e |
|
при помощи |
|||||||||||||||
|
|
β0 +β1x |
|||||||||||||||||
æ |
|
|
|
ö |
|
1+ e |
|
|
|
|
|
|
|
|
|
|
|||
|
y |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
преобразования y¢ = ln ç |
|
|
|
|
÷ примет вид: |
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|||||||||
è |
1- y ø |
|
|
|
|
|
|
|
|
|
|
|
|
|
y′ = b0 + b1x .
После выбора вида регрессионной модели, применив результаты наблюдений зависимой переменной и факторов нужно вычислить оценки (приближенные значения) параметров регрессии, а затем проверить значимость и адекватность модели результатам наблюдений.
6.1. Коэффициент корреляции и простая линейная регрессия
Пусть ( xi , yi ), i = 1, 2, 3, ..., n - выборка наблюдений
из двумерной генеральной совокупности. Начальное представление о генеральной совокупности можно получить, изображая элементы выборки как точки на плоскости. Такое представление выборки называется
диаграммой рассеяния.
При построении диаграммы рассеяния рекомендуется масштабы по осям X и Y выбирать так, чтобы значения обоих признаков укладывались на отрезках приблизительно равной длины.
159
Возможны различные варианты расположения "облака точек", по которым можно судить о виде и степени взаимосвязи между признаками X и Y (рис.6.1, а - г).
Количественной характеристикой степени линейной зависимости между случайными величинами X и Y
является коэффициент корреляции ρ.
Оценка коэффициента корреляции по выборке вычисляется по формуле
r = Qxy ,
QxQy
Y Y
ρ < 0
ρ > 0
|
|
|
|
|
|
б |
X |
|
а |
X |
|||||
Y |
|
ρ = 0 |
Y |
|
|
ρ 0 |
|
|
|
||||||
|
|
|
|
|
|||
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
Y |
в |
X |
г |
X |
|
|
|
|
|
|
|
|
Рис.6.1. Варианты располо- |
|
|
|
|
жения "облака точек" (а - г) и |
|
|
|
|
функциональная |
линейная |
|
|
|
з а в и с и м о с т ь м е ж д у |
|
|
|
|
X и Y при ρ = 1 (д) |
|
|
|
160 |
|
|
где
|
|
|
|
|
|
|
|
|
|
|
|
( |
|
|
x )2 |
|
|
|
|||
|
Qx = å(xi − x)2 = åxi2 − |
å |
|
|
i |
; |
|
||||||||||||||
|
|
|
|
|
|
||||||||||||||||
|
|
n |
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
Qy = å(yi − y)2 = åyi2 − |
( |
å |
|
y )2 |
|
|
|
|||||||||||||
|
|
|
|
|
i |
|
; |
|
|||||||||||||
|
|
|
n |
|
|
|
|
||||||||||||||
Qxy = å(xi − x)(yi − y) = åxi yi − |
|
(åxi )(åyi ) |
; |
||||||||||||||||||
|
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
||
|
|
|
|
|
x = |
1 |
|
x ; |
y = |
1 |
|
|
y . |
|
|
|
|
|
|
||
|
n å |
nå |
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
i |
|
|
i |
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
Для |
коэффициента |
корреляции |
|
|
справедливы |
||||||||||||||||
следующие утверждения: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
1) −1 ≤ ρ ≤ 1; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
2) |
если |
|
ρ |
|
= 1, то |
между X |
|
и Y |
|
имеет место |
|||||||||||
|
|
|
|
функциональная линейная зависимость, все точки (xi, yi) будут лежать на прямой (рис.6.1,д);
3) если ρ = 0 , то говорят, что X и Y
некоррелированы, т.е. между ними нет линейной зависимости (см. рис.6.1, в - г);
4) если X и Y имеют двумерное нормальное распределение, то из равенства ρ = 0 следует, что они
статистически независимы.
Если между случайными величинами X и Y существует достаточно тесная линейная статистическая зависимость ( r > 0) , то ее можно аппроксимировать
уравнением линейной регрессии Y на X:
Y = β0 + β1x,
где β0 и β1 - параметры линейной регрессии; x -
независимая переменная; Y - зависимая переменная. При этом предполагается, что независимая переменная x
161
измеряется точно, а Y является случайной величиной. Таким образом, исследуют, как "в среднем" изменяются значения зависимой переменной Y при изменении независимой переменной x.
В тех случаях, когда признаки X и Y равнозначны (например, рост и вес), аналогично регрессии Y на X
рассматривают линейную регрессию X на Y: x |
0 |
1y . |
|
= b′ |
+ b′ |
Если случайный вектор (X, Y) имеет двумерное нормальное распределение, то линейная регрессия Y на X равна условному математическому ожиданию
M |
éY |
X |
ù |
= my + r |
sy |
(X - mx ), |
|
||||||
|
ë |
= xû |
|
sx |
|
|
а регрессия X на Y равна |
|
sx |
|
|||
M |
é |
|
ù |
= mx + r |
( y - my ), |
|
êX Y |
= yú |
sy |
||||
|
ë |
|
û |
|
|
|
где mx , my иsx , |
sy |
- соответственно математические |
ожидания и средние квадратические отклонения X и Y; ρ
- коэффициент корреляции.
Для оценки параметров линейной регрессии Y на X по результатам наблюдений ( xi , yi ), i = 1, 2, 3, ..., n, используется метод наименьших квадратов: в качестве
оценок параметров |
берут |
значения |
% |
% |
|
b0 |
иb1 , |
||||
минимизирующие |
Q (b0 ,b1 ) |
сумму |
квадратов |
||
отклонений |
значений |
зависимой переменной |
yi от |
||
значений, |
вычисляемых по |
уравнению |
регрессии |
||
% |
|
|
|
|
|
yi = b0 + b1xi : |
|
|
|
|
|
|
|
n |
2 |
|
|
|
Q(b0 ,b1) = å[yi - (b0 +b1 × xi )] . |
|
|
||
|
|
i=1 |
|
|
|
Из необходимых |
условий |
минимума |
функции |
||
Q(b0 ,b1 ) |
|
|
|
|
|
162
∂Q |
= 0; |
∂Q |
= 0 |
||
∂β |
0 |
∂β |
|||
|
|
||||
|
|
1 |
|
получают оценки параметров регрессии Y на X:
% |
|
nåxi yi − (åxi )(åyi ) |
|
Qxy |
(6.1) |
||
β1 |
= |
nåxi |
2 − (åxi )2 |
= |
|
; |
|
|
|
|
Qx |
|
|||
|
|
% |
% |
|
|
|
(6.2) |
|
|
β0 |
= y − β1x . |
|
|
|
Оценки (6.1) и (6.2) называют МНК-оценками параметров линейной регрессии.
Аналогично для регрессии X на Y оценки параметров вычисляются по формулам
|
|
|
|
|
|
|
% |
′ |
|
Qxy |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
β1 |
= |
|
Qy |
; |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
% ′ |
= x |
|
|
%′ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
β0 |
− β1Y . |
|
|
|
|
|
|
|
|
|
|
|
||||||||||
Уравнения |
|
|
|
|
|
|
% |
|
% |
|
|
|
|
|
sy |
|
(x − x) |
|
|
|
и |
||||||||
|
|
|
|
y = β0 |
+β1x |
= y |
+ r |
sx |
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
%′ |
%′ |
+r |
sx |
( y− y) , |
где |
|
sx |
|
и |
|
sy |
- |
оценки средних |
||||||||||||||||
x =β0 |
+β1y = x |
sy |
|
|
|
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
квадратических отклонений σx |
|
и σy , равные |
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Qy |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Q |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
sx = sx2 = |
|
x |
; |
|
sy |
|
= sy2 = |
|
, |
|
|
|
|
||||||||||||||
|
|
|
n |
|
|
|
|
n |
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
называются |
|
выборочными |
|
|
|
уравнениями линейной |
|||||||||||||||||||||||
регрессии. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Прямые регрессии пересекаются в точке с |
|||||||||||||||||||||||||||||
координатами x и y и образуют "ножницы". При |
|
r |
|
= 1 |
|||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||
обе прямые совпадают, при |
|
r |
|
|
= 0 они перпендикулярны |
||||||||||||||||||||||||
|
|
друг другу.
Между коэффициентом корреляции и параметрами регрессии имеются следующие соотношения:
163
|
|
|
|
|
|
|
|
sy |
|
|
¢ |
|
sx |
|
% % |
¢ |
|
r |
|
; |
% |
= r |
; |
% |
= r |
. |
|||
|
|
|||||||||||||
b1b1 |
= |
|
b1 |
sx |
b1 |
sy |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
Проведем статистический анализ простой линейной регрессии.
Простая линейная регрессия определяется уравнениями
yi = b0 + b1xi + ei , i = 1, 2, ..., n ,
где x1, x2 ,..., xn - значения независимой переменной x, а y1, y2 ,..., yn - соответствующие им значения зависимой переменной Y, полученные как результаты независимых экспериментов или наблюдений; ei - ошибки наблюдений
зависимой переменной, имеющие случайный характер. В регрессионном анализе предполагается, что
случайные величины ei и e j , i ¹ j , i, j = 1, 2, ..., n
некоррелированы, имеют нулевое математическое ожидание M [ei ] = 0 и постоянную дисперсию D[ei ] = s2 ,
i = 1, 2, ..., n .
При статистическом анализе регрессионной модели предполагается также, что случайные ошибки наблюдений имеют нормальное распределение:
ei ~ N (0,s2 ), i = 1, 2, ..., n .
В этом случае ei будут независимыми случайными
величинами.
Задача линейного регрессионного анализа состоит в том, чтобы по результатам наблюдений
(xi , yi ), i = 1, 2, ..., n :
∙ получить наилучшие точечные и интервальные оценки неизвестных параметров b0 , b1 и s2 ;
164
∙проверить статистические гипотезы о параметрах модели;
∙проверить, достаточно ли хорошо модель согласуется с результатами наблюдений (адекватность модели результатам наблюдений).
Оценки параметров линейной регрессии (6.1) и (6.2), получаемые по методу наименьших квадратов, при любом законе распределения ошибок наблюдений
ei , i = 1, 2, ..., n |
имеют следующие свойства: |
||
1) являются линейными функциями результатов |
|||
наблюдений |
yi , i = 1,2,...,n, |
и |
несмещенными |
|
é% ù |
= b j , |
j = 0,1 ; |
оценками параметров, т.е. M ëb j û |
2) имеют минимальные дисперсии в классе несмещенных оценок, являющихся линейными функциями результатов наблюдений (теорема Гаусса - Маркова).
Если ошибки наблюдений ei некоррелированы и имеют нормальное распределение, т.е. ei ~ N (0, s) , то к
свойствам 1 и 2 добавляется следующее свойство.
3) МНК-оценки совпадают с оценками,
вычисляемыми по методу максимального правдоподобия.
Функция |
% |
% |
определяет выборочную |
y = b0 |
+ b1x |
(эмпирическую) регрессию Y на x, которая является оценкой предполагаемой (теоретической) линейной регрессии по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при
x = xi , i = 1, 2, ..., n , и расчетными значениями |
|
% |
% |
yi = b0 |
+ b1xi |
||
|
% |
|
|
называются остатками и обозначаются ei :
ei = yi - y%i , i = 1, 2, ..., n.
165
Качество |
аппроксимации |
результатов |
наблюдений (xi , yi ) , |
i = 1,2,Kn , выборочной |
регрессией |
определяется величиной остаточной дисперсии, вычисляется по формуле
|
2 |
|
åei2 |
|
1 |
|
% |
% |
2 |
|
Qe |
|
|
S |
|
= |
n - 2 |
= |
n - |
2 |
åëé yi - (b0 |
+ b1xi )ûù |
|
= |
n - |
2 |
. |
|
|
|
|
|
|
|
|
|
|||||
S2 является несмещенной оценкой дисперсии ошибок |
|||||||||||||
наблюде- |
|
|
|
|
|
|
|
|
|
|
|
|
|
ний s2 . |
|
|
|
|
|
|
|
|
|
|
|
|
|
ВеличинаQe , |
|
|
|
определяемая |
|
|
выражением |
||||||
2 |
|
|
|
% |
2 |
называется остаточной суммой |
|||||||
|
|
|
|
|
|||||||||
Qe = åei = å( yi - yi ) , |
квадратов.
Если модель согласуется с результатами наблюдений (адекватна результатам наблюдений), то остаточная дисперсия является несмещенной оценкой
дисперсии ошибок наблюдений s2 , т.е. M éëS2 ùû = s2 . Всюду в дальнейшем будем предполагать, что
ошибки наблюдений ei , i = 1, 2, ..., n , |
имеют нормальное |
распределение ei ~ N (0, s2 ) и |
независимы. Это |
предположение эквивалентно тому, что результаты
наблюдений |
yi , i = 1, 2, ..., n, являются реализациями |
независимых |
нормально распределенных случайных |
величинYi : |
|
Yi ~ N (b0 +b1xi , s), i = 1, 2, ..., n.
В этом случае можно показать [13, 22] , что статистика Qe s2 имеет распределение l2 с (n – 2)
166
степенями свободы, т.е. Qs2e = l2 (n - 2) , и эта статистика
распределена независимо от распределения оценок b%0
иb%1 . Используя это утверждение, можно построить
доверительные интервалы для параметров линейной регрессии.
Доверительные интервалы для параметров имеют вид:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(n−2) |
|
åxi2 |
или |
|
|
(n−2) |
|
|
|
|
; |
|||
% |
|
|
% |
|
é% |
|
ù |
|||||||||
b0 |
± t1−α 2 S |
|
nQx |
b0 |
± t1−α 2 |
|
D ëb0 |
û |
||||||||
|
|
(n−2) |
|
|
|
|
|
|
|
(n−2) |
|
|
|
|
|
|
|
|
|
1 |
|
или |
|
|
|
|
|
|
, |
|
|||
|
% |
|
|
|
% |
|
é% |
ù |
|
|
||||||
|
± t1−α 2 |
|
|
|
|
± t1−α 2 |
|
|
||||||||
b1 |
S |
|
Qx |
b1 |
D ëb1 |
û |
|
|
где t(n−2) - квантиль распределения Стьюдента с (n – 2)
1−α 2
степенями свободы порядка 1- a 2 ; S - оценка среднего
квадратического ошибок наблюдений, |
S = |
|
Qe |
|
|
; |
é% ù |
- |
n - |
2 |
D ëbi û |
||||||
|
|
|
|
|
|
|
дисперсия оценки параметраb%i , i = 0,1.
Доверительный интервал для дисперсии ошибок наблюдений s2 имеет вид:
|
(n - 2)S2 |
< s2 |
< |
(n - 2)S2 |
, |
|||
|
c2 |
|
(n - 2) |
c2 |
(n - 2) |
|||
|
|
|
|
|
||||
|
1−α |
2 |
|
|
1−α |
2 |
|
|
|
|
|
|
|
|
|
||
где c2p (n - 2) - |
квантили распределения c2 с (n – 2) |
степенями свободы порядка p; S2 - оценка дисперсии ошибок наблюдений.
В практических вычислениях остаточную сумму квадратов получают из тождества
167
å( yi - y )2 = å( y%i - y)2 + å( yi - y%i )2 ,
которое записывается в виде
Qy = QR + Qe ,
где
Qy = å( yi - y)2 = åyi2 - ny2 ;
QR = å( yi - y ) |
2 |
% |
%2 |
Qxy2 |
|
|
= b1 |
×Qxy = b1 Qx = |
|
. |
|
% |
|
|
|
Qx |
|
|
|
|
|
Величина QR называется суммой квадратов,
обусловленной регрессией.
Линейная регрессионная модель называется
незначимой, если b1 = 0 .
Для проверки гипотезы H0 : b1 = 0 используют либо доверительный интервал для параметра b1 , либо статистику
|
QR (n - 2) |
%2 |
|
|
F = |
= |
b1 Qx |
. |
|
Qe |
|
|||
|
|
S2 |
||
Если гипотеза H0 : b1 = 0 |
верна, то статистика F |
имеет распределение Фишера с 1 и (n – 2) степенями свободы.
Гипотеза |
|
H0 : b1 = 0 |
принимается на |
уровне |
|
значимости |
α , |
если выборочное значение статистики |
|||
Фишера |
Fв |
будет меньше квантили распределения |
|||
Фишера |
F1−α (1, |
n-1) , то |
есть Fb < F1−α (1, |
n – 1). |
В противном случае гипотеза H0 отклоняется.
Если гипотеза H0 : b1 = 0 отклоняется, говорят, что регрессионная модель статистически значима. Из этого
168
не следует, конечно, что модель хорошо согласуется с результатами наблюдений, т.е. адекватна им.
Полезной характеристикой линейной регрессии
является коэффициент детерминации R2 , вычисляемый по формуле
|
|
|
|
|
R2 = |
QR |
= 1− |
Qe |
. |
|
||
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
Qy |
|
Qy |
|
|||
Коэффициент детерминации R2 равен той доле |
||||||||||||
разброса |
|
|
|
|
результатов |
наблюдений |
||||||
(xi , yi ), i = 1, 2,..., n, |
|
относительно горизонтальной прямой |
||||||||||
y = y , которая |
объясняется |
регрессионной моделью. |
||||||||||
|
|
|
|
|
|
|
||||||
Величина |
R = + |
|
R2 |
является |
оценкой коэффициента |
|||||||
корреляции |
между |
результатами |
наблюдений yi и |
|||||||||
вычисляемыми |
|
значениями |
|
yi , |
предсказываемыми |
|||||||
|
|
|
|
|
|
|
|
|
% |
|
|
|
регрессией: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
% |
|
|
|
|
|
|
|
|
|
|
|
|
R = ρ % = r % . |
|
||||||
|
|
|
|
|
|
|
YY |
yy |
|
В случае линейной регрессии Y на x (одной независимой переменной x) между коэффициентом R и выборочным коэффициентом корреляции rxy имеется
следующее соотношение:
rxy = (знак β%1 )R.
Напомним, что коэффициент ρxy определяет
степень линейной зависимости между случайными величинами X и Y.
Линейная регрессионная модель называется адекватной, если предсказанные по ней значения переменной Y согласуются с результатами наблюдений. Грубая оценка адекватности модели может быть проведена непосредственно по графику остатков, т.е. разностей между наблюдаемыми значениями yi и
169
вычисленными значениями y%i , i = 1,2,...,n. Если модель адекватна, то остатки ei являются реализациями случайных ошибок наблюдений εi , i = 1,2,...,n , которые в
силу предположений должны быть независимыми нормально распределенными случайными величинами с
нулевыми средними и одинаковыми дисперсиями σ2 . Проверка выполнения этих предположений различными статистическими методами и лежит в основе оценки адекватности по графику остатков.
Если регрессионная модель адекватна результатам наблюдений, то она может быть использована для определения прогноза y% при заданном значении
независимой переменной x = x0 .
Доверительный интервал для прогноза среднего значения Y при x = x0 определяется по формуле
y (x0 ) ± t |
(n−2) |
|
|
|
|
(x − x )2 |
|
|
|
S |
1 |
|
+ |
0 |
, |
||||
% |
1−α 2 |
|
|
n |
|
Qx |
|
|
|
|
|
|
|
|
|
а доверительный интервал для прогноза индивидуального значения Y вычисляется по формуле
y (x0 )± t |
(n−2) |
|
|
|
|
|
(x − x )2 |
|
|
|
S 1+ |
1 |
|
+ |
0 |
, |
|||||
% |
1−α 2 |
|
|
|
n |
|
Qx |
|
|
|
|
|
|
|
|
|
|
где y% (x0 ) = β%0 + β%1x0 .
Проведем регрессионный анализ в матричном виде. Введем следующие обозначения:
170
регрессионная матрица (n´ 2) A =
=
вектор параметров модели |
æb |
ö |
, |
b=çb0 |
÷ |
||
|
è 1 |
ø |
|
æ e |
ö |
ç 1 |
÷ |
наблюдений e = ç e2 |
÷ . |
ç M |
÷ |
ç |
÷ |
èen |
ø |
æ1 |
x1 |
ö |
|
ç1 |
x |
÷ |
; вектор Y |
ç |
2 |
÷ |
|
çM |
M |
÷ |
|
ç1 |
x |
÷ |
|
è |
n |
ø |
|
æ |
y |
ö |
|
ç |
1 |
÷ |
; |
ç y2 |
÷ |
||
ç |
M |
÷ |
|
ç |
|
÷ |
|
è yn |
ø |
|
вектор ошибок
Тогда простая линейная регрессия определяется матричным уравнением
Y = Aβ + ε.
Метод наименьших квадратов дает оценкуβ , определенную формулой
b% = (AT A)−1 AT Y ,
где AT - матрица, транспонированная к матрице A ; AT A = B - информационная матрица; B−1 = (AT A)−1 - матрица,
обратная |
к |
матрице |
B = (AT A) |
.Вывод этой формулы приводится ниже (см. |
п.6.2).
Сумма квадратов, обусловленная регрессией, определяется по формуле
QR = bT AT Y - n( y )2 .
Остаточная сумма квадратов: Qe = Qy - QR.
171
Оценка ковариационной матрицы K оценок параметров регрессии вычисляется по формуле
K= S2 (AT A)−1 = S2B−1 ,
адисперсии оценок параметров - диагональные элементы матрицы K:
é% |
ù |
= S |
2 |
(b11 ), |
|
D ëb0 |
û |
|
|||
é% |
ù |
= S |
2 |
(b22 ), |
|
D ëb1 |
û |
|
|
где bii - диагональные элементы матрицы B−1 .
172