Прикладная математическая статистика.-6
.pdf51
ЛАБОРАТОРНАЯ РАБОТА 4
Корреляционный анализ случайных данных
Цель работы:
Рассчитать параметрические и непараметрические коэффициенты корреляции.
4.1.Практическое задание
4.1.1.Вычисление параметрических коэффициентов корреляции
1)Сгенерировать средствами пакета EXCEL 5 выборок из 10 значений случайной
величины с нормальным законом N (µ, σ2 ) . Эти 5 выборок будем использовать в
качестве независимых признаков ( x1, x2 , x3 , x4 , x5 ). Варианты значений параметров
µ, σ2 приведены в приложении 1.
2) Рассчитать зависимый признак yi = a0 + a1 x1i + a2 x2i + a3 x3i + a4 x4i + a5 x5i + εi ,
i = 1,...,10 . Здесь a0 , a1,..., a5 – параметры (их значения приведены в приложении 1);
εi – случайная погрешность с нормальным законом распределения εi N (0, σi2 ) , где
σi = 0, 2 M ( y) .
4.1.1.1.Парные коэффициенты корреляции
3)Выполнить следующие расчеты:
•вычислить выборочные средние и дисперсии зависимого признака y и
независимых признаков x1, x2 , x3 , x4 , x5 , а также средние значения произведений
y x j по формулам:
|
|
|
1 |
n |
|
1 |
|
n |
|
2 |
1 |
|
n |
|
|
1 |
n |
2 |
|||||||||||||
• |
sy2 = |
|
|
|
∑ yi2 − |
|
∑ yi |
; sx2j = |
|
∑ xij2 |
− |
|
|
∑ xij |
|
; j = 1,..., 5 ; |
|||||||||||||||
|
|
|
|
|
|
||||||||||||||||||||||||||
|
|
|
|
n i=1 |
n i=1 |
|
|
n i=1 |
|
|
n i=1 |
|
|
|
|
||||||||||||||||
|
|
|
1 |
|
n |
|
|
|
|
1 |
|
n |
|
|
|
|
|
1 |
|
n |
|
|
|
|
|
|
|
1 |
n |
||
• |
y |
= |
∑ yi ;, |
x j |
= |
|
∑ xij ; |
y x |
j |
= |
|
∑ yi |
xij |
y x |
j |
= |
∑ yi xij . Здесь xij – i -е |
||||||||||||||
|
|
|
|
||||||||||||||||||||||||||||
|
|
|
n i=1 |
|
|
|
|
n i=1 |
|
|
|
|
|
n i=1 |
|
|
|
|
|
|
|
n i=1 |
значение случайной величины x из j -й выборки.
52
•скорректировать коэффициент корреляции (так как n < 15 ) по формуле
|
1 − r |
2 |
|
|
r* = r 1 + |
|
. |
||
2(n − |
3) |
|||
|
|
•вычислить парные коэффициенты корреляции между зависимым признаком y и
независимыми признаками x1, x2 , x3 , x4 , x5 (коэффициенты корреляции Пирсона)
по формулам: ryx j |
= |
|
y x |
j |
− |
y |
|
x |
j |
||
|
|
|
|
|
|
. |
|||||
|
sy |
sx |
|
||||||||
|
|
|
j |
||||||||
|
|
|
|
|
|
|
|
|
= |
r 2 |
(n − 2) |
|
|
• |
вычислить t -статистики t j |
yx j |
|
. |
||
1 |
− r 2 |
|||||
|
|
|
|
|||
|
|
|
|
yx j |
|
|
4) |
Проверить гипотезу о значимости коэффициентов корреляции. Если |
t j > t0,05 (n − 2 = 8) , то коэффициент ryx j значимый, и, следовательно, связь
между y и x j статистически значима.
4.1.1.2 Множественный коэффициент корреляции
5) Вычислить парные коэффициенты корреляции между зависимыми признаками
rx x |
|
= |
|
xi x |
j |
− |
x |
i |
x |
j |
; |
j > i, i = 1,..., 5 , где xi x j |
= 1 ∑ xki xkj ; j > i; i = 1,..., 5 |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
j |
|
|
sx |
sx |
|
|
|
|
|
|
|
|
n k =1 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
i |
|
|
|
j |
|
|
|
|
|
|
|
Вычислить множественный коэффициент корреляции между результирующим
признаком Y и факторными признаками x1, x1,..., x5 |
по формуле |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ry / x , x ,..., x |
= 1 − |
|
|
|
ρ |
|
|
|
|
, |
(8) |
||
|
|
|
|
|
|
|
|||||||
|
|
|
|
||||||||||
|
|
ρ1 |
|
|
|
||||||||
|
|
||||||||||||
1 2 |
m |
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где ρ – определитель матрицы парной корреляции
|
1 |
|
|
ρx1 y |
|||
|
ρx |
y |
|
ρ = |
|
2 |
|
|
|
|
|
|
ρx y |
||
|
|
3 |
|
|
|
|
|
ρx |
y |
||
|
|
4 |
|
ρ |
|
|
|
|
x5 y |
||
|
|
ρyx |
ρyx |
ρyx |
|
ρyx |
|
ρyx |
|
|
|
||||||
|
|
1 |
|
2 |
|
|
|
2 |
|
4 |
|
5 |
|
|
|
1 |
|
ρx1x2 |
ρx1x3 |
ρx1x4 |
ρx1x5 |
|
|
|
|||||||
ρx2 x1 |
1 |
|
ρx2 x3 |
ρx2 x3 |
ρx2 x5 |
|
|
|
|||||||
|
|
; |
(9) |
||||||||||||
ρx3 x1 |
ρx3 x2 |
1 |
|
|
ρx3 x4 |
ρx3 x5 |
|
||||||||
|
|
|
|
|
|||||||||||
ρx |
4 |
x |
ρx x |
ρx |
4 |
x |
1 |
|
ρx x |
|
|
|
|||
|
1 |
4 |
2 |
|
|
3 |
|
|
4 |
5 |
|
|
|
||
ρx5 x1 |
ρx5 x2 |
ρx5 x3 |
ρx5 x4 |
1 |
|
|
|
|
|||||||
|
|
|
|
ρ1 – алгебраическое дополнение элемента ρ11 .
53
6) Вычислить скорректированный коэффициент корреляции:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
= |
1 − (1 − R |
2 |
) |
n − 1 |
|
|
|
|
|
|
|
|
|
||||
R y / x1 |
, x2 |
,..., xk |
|
|
, |
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
n − k −1 |
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
Ry2 |
|
|
|
|
||
7) Вычислить статистику Фишера F = |
|
|
2 |
/ x |
,...,x |
|
|
|||||||||||||
|
|
|
1 |
|
5 |
|
; |
|||||||||||||
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|||||||||||||||
|
1 |
|
(1 − Ry2 |
|
,..., x ) |
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
/ x |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
n − 6 |
|
|
1 |
5 |
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
8)Проверить гипотезу о значимости множественного коэффициента корреляции.
Если F > F0,05 (v1 = 5, v2 = n − 6) , то множественный коэффициент корреляции считается значимым.
4.1.2. Вычисление непараметрических коэффициентов
корреляции
1)Сгенерировать средствами пакета EXCEL 5 выборок из 10 значений случайной величины с биномиальным законом распределения B(n, p) .
Эти 5 выборок будем использовать в качестве независимых признаков
( x1, x2 , x3 , x4 , x5 ). Варианты значений параметров n, p приведены в приложении 2.
2)Проранжировать выборки, не упорядочивая их.
4.1.2.1. Коэффициент ранговой корреляции Спирмана
3) Вычислить:
• |
величины dk2 (i, j) = (Rk , x |
|
− Rk ,x |
j |
)2 |
; i ≠ j, i, j = 1,..., 5; |
k = 1,...,10 ; |
|
|||
|
i |
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
n |
|
|
коэффициенты ранговой корреляции Спирмана ρxi / y j |
= 1 − |
6∑ dk2 (i, j) |
|
|||||||
• |
k =1 |
; |
|||||||||
n(n2 − 1) |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
• |
t -статистики tij = ρxi / y j |
|
n − 2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
1 − ρ2x / y |
j |
|
|
|
|
|||||
|
|
|
i |
|
|
|
|
|
54
4)Проверить значимость коэффициентов корреляции. Если tij > t0,05 (n − 2) ,
то коэффициент ρxi / y j считается значимым.
4.1.2.1.2Коэффициент ранговой корреляции Кендалла
5)Рассматриваются все комбинации пар столбцов исходной таблицы данных –
(1;2), (1;3), (1;4), (1;5), (2;3), (2;4), (2;5), (3;4), (3;5), (4;5). Первый столбец обозначим
X, второй – Y .
•В каждой паре столбцов значения первого столбца X упорядочиваются по возрастанию, а значения второго столбца Y располагаются в порядке, соответствующем значениям X
•для каждого ранга Y определяется число следующих за ним значений рангов, превышающих его по величине. Суммируя эти числа,
определяем величину P (число последовательностей) — меру
соответствия последовательностей рангов X и Y (см. пример в лекции);
•для каждого ранга Y определяется число следующих за ним рангов,
меньших его величины. Суммируя величины, получаем величину Q
(число инверсий);
• определяется разность по всем членам ряда S = P − Q и вычисляется
τ . Связь между признаками можно признать статистически значимой,
если значение коэффициента корреляции |
|
τ |
|
> τα = uα |
2(2n + 5) |
|
. |
|
|
||||||
|
|
|
|||||
|
|
|
|
|
9n(n − 1) |
||
|
|
|
|
|
|||
4.1.2.1.3 Коэффициент конкордации (множественный коэффициент |
|||||||
ранговой корреляции) |
|
|
|
||||
6)Проранжировать столбцы исходной таблицы { x ji } |
(наблюдения) их |
||||||
рангами {rji } не упорядочивая табличные данные. |
|
|
|
7)Для каждой j -й строки таблицы вычислить:
5
8)сумму рангов R j = ∑ rji и квадрат суммы R2j ;
i=1
55
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
10 |
|
|
2 |
10 |
2 |
||||||
|
|
9)сумму рангов по всей совокупности ранг R |
= ∑ R j |
и R |
= ∑ Rj ; |
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j =1 |
|
|
|
|
j =1 |
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
− |
R |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
12 |
R |
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
10)вычислить коэффициент конкордации W = |
|
|
|
|
|
|
|
, m = 5, n = 10 . |
||||||||||||||||
|
|
m2 (n3 − n) |
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
11) |
Проверить значимость связи между |
признаками. |
Если |
W > Wα , где |
||||||||||||||||||||
|
|
W = |
|
|
1 |
χ2 (n −1) , то с вероятностью |
α корреляция между признаками |
|||||||||||||||||||
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
||||||||||||||||||||||
|
|
|
α |
|
|
m(n − 1) |
α |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
признается значимой. Если среди последовательностей рангов есть |
||||||||||||||||||||||||
|
|
совпадения, то коэффициент конкордации следует вычислять по формуле |
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
R |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
12 |
R |
− |
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
W = |
|
|
|
|
|
|
|
|
, |
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
m |
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
m2 (n2 −1) − m∑Tj |
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j =1 |
|
|
|
|
|
|
|
|||
где T |
j |
= t 3 − t |
j |
, t |
j |
– количество совпавших рангов в |
j -й последовательности. |
|||||||||||||||||||
|
j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Совпавшим рангам присваиваются средние ранги.
56
Приложение к лабораторной работе 4
Варианты заданий
Варианты задания 1
Номер |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
варианта |
|
|
|
|
|
|
|
|
|
|
|
0 |
0,5 |
1,0 |
2,0 |
2,5 |
3,0 |
3,5 |
4,0 |
4,5 |
5,0 |
|
|
|
|
|
|
|
|
|
|
|
σ |
0,2 |
0,2 |
0,2 |
0,5 |
0,5 |
0,5 |
1 |
1 |
1 |
1,5 |
|
|
|
|
|
|
|
|
|
|
|
a0 |
1 |
2 |
3 |
4 |
5 |
1 |
-2 |
3 |
-4 |
5 |
|
|
|
|
|
|
|
|
|
|
|
a1 |
2 |
3 |
4 |
5 |
6 |
-2 |
3 |
-4 |
5 |
-6 |
a2 |
3 |
4 |
5 |
6 |
7 |
3 |
-4 |
5 |
-6 |
7 |
|
|
|
|
|
|
|
|
|
|
|
a3 |
4 |
5 |
6 |
7 |
8 |
-4 |
5 |
-6 |
7 |
-8 |
|
|
|
|
|
|
|
|
|
|
|
a4 |
5 |
6 |
7 |
8 |
9 |
5 |
-6 |
7 |
-8 |
9 |
|
|
|
|
|
|
|
|
|
|
|
a5 |
6 |
7 |
8 |
9 |
10 |
-6 |
7 |
-8 |
9 |
-10 |
Варианты задания 2
Номер |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
варианта |
|
|
|
|
|
|
|
|
|
|
n |
20 |
30 |
40 |
35 |
25 |
100 |
90 |
80 |
70 |
50 |
|
|
|
|
|
|
|
|
|
|
|
p |
0,4 |
0,5 |
0,7 |
0,4 |
0,8 |
0,3 |
0,6 |
0,7 |
0,1 |
0,5 |
|
|
|
|
|
|
|
|
|
|
|
57
ЛАБОРАТОРНАЯ РАБОТА 5
Линейная регрессия
Цель работы:
Оценка уравнения линейной регрессии на основе выборочных данных
5.1. Необходимые сведения из теории
5.1.1. Построение модели парной регрессии
Рассмотрим линейную по коэффициентам модель парной регрессии:
|
|
y = f ( x ) + ε = β0 + β1 f1( x) + β2 f2 ( x) + …+ βk fk ( x) + ε , |
(1) |
||||||||
где ε |
- случайная величина с математическим ожиданием равным нулю и дисперсией |
||||||||||
σ 2 . |
|
|
|
|
|
|
|
|
|
|
|
|
Полагая, x j = f j ( x), j = |
|
перейдем к модели множественной линейной |
||||||||
|
1, k |
||||||||||
регрессии: |
|
|
|
|
|
|
|
|
|
|
|
|
|
y = f ( x ) + ε = β0 + β1 x1 + β2 x2 +…+ βk xk + ε . |
(2) |
||||||||
|
Пусть для оценки неизвестных параметров β j , j = |
|
уравнения регрессии (2) |
||||||||
|
0, k |
||||||||||
взята выборка объемом n из значений величин (Y , X 1 , X 2 ,…, X k ) . Тогда |
|
||||||||||
|
|
|
|
Y = XB + ε , |
|
|
|
|
|||
где |
Y = ( y1 , y 2 ..., y n )T - вектор значений переменной y ; |
|
|||||||||
B = (β0 ,β1,…,βk )T - вектор параметров модели; |
|
|
|
|
|
||||||
ε = (ε1 ,…, ε n )T |
– вектор ошибок, где ε i Ν(0,σ 2 ) и независимы; |
|
|||||||||
X - матрица исходных данных переменных X j |
размерами n × (k + 1) . Первый столбец |
||||||||||
матрицы X |
содержит единицы (значения |
фиктивной переменной x0 ), |
остальные |
||||||||
столбцы значения переменных x1, x2 ,..., xk : |
|
|
|
|
|
|
|||||
|
|
|
|
1 |
x1 |
x1 |
|
|
|||
|
|
|
|
|
1 |
|
k |
|
|
||
|
|
|
|
1 |
x 2 |
x 2 |
|
|
|||
|
|
|
X = |
1 |
|
k |
. |
|
|||
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
n |
|
n |
|
|||
|
|
|
|
1 |
x1 |
xk |
|
|
58
|
Для нахождения оценки |
|
B * |
вектора параметров |
B = (β |
0 |
,β ,…,β |
k |
)T |
используем |
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
||
метод |
наименьших |
|
квадратов, согласно |
|
|
которому в |
качестве оценок |
β* |
,β* ,…,β* |
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
1 |
k |
берутся такие, которые минимизируют сумму квадратов Q отклонений значений уi |
от |
||||||||||||||||||||||||||||||||||||||||
f ( xi ) : |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
Q = ∑ (yi − f ( xi ))2 =∑ε i2 |
=ε T ε = (Y − XB)T (Y − XB). |
|
|
|
|
|
(3) |
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
i =1 |
|
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
Оценка B * метода наименьших квадратов имеет вид: |
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
B* = (X T X )−1 X T Y . |
|
|
|
|
|
|
|
|
|
|
|
|
(4) |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
5.1.2. Оценка погрешности регрессии |
|
|
|
|
|
|
|
|||||||||||||||||||||||
|
|
|
Качество регрессионной модели можно оценить, |
используя оценку s2 |
дисперсии |
||||||||||||||||||||||||||||||||||||
предсказания σ 2 : |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
1 |
|
|
|
|
n |
|
|
|
1 |
|
|
n |
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
s2 = |
|
|
|
|
|
∑( yi |
− yˆi )2 = |
|
|
|
∑e2 = |
|
|
|
|
|
eT e , |
|
где |
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
n − k |
− 1 |
n − k |
− 1 |
n |
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||
|
|
i=1 |
|
|
i=1 |
|
|
|
− k − 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
y |
= β |
* + β * x |
i |
+ …β * x |
k |
. Качество |
модели |
|
также можно |
оценить с |
использованием |
||||||||||||||||||||||||||||||
i |
0 1 |
|
|
|
|
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
∑ ( yˆi − |
|
)2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
оценки коэффициента детерминации: R2 = |
|
i =1 |
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
∑ ( yi − |
|
)2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i =1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Чем ближе значения |
R2 к 1, тем большую долю дисперсии величины Y объясняет |
|
|||||||||||||||||||||||||||||||||||||||
модель регрессии. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
Оценка |
дисперсии коэффициента |
β |
|
|
находится по формуле: |
s2 |
= s2 |
( X T X )−1 |
, |
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j |
|
|
|
|
|
|
|
|
|
|
|
|
j |
|
|
|
|
jj |
||
где ( X T X ) |
−1 |
соответствующий диагональный элемент матрицы ( X T X )−1 . |
|
|
|
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
jj |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
Доверительные интервал |
для σ 2 |
|
|
находится |
с |
использованием |
|
статистики |
||||||||||||||||||||||||||||||
χ2 |
= (n − k −1)s2 / σ2 , которая при нормальном распределении ε |
i |
имеет распределение |
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
хи-квадрат с n − k −1 степенью свободы. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||
|
|
|
Для |
|
проверки значимости |
коэффициентов уравнения регрессии используем |
|||||||||||||||||||||||||||||||||||
статистику |
t j |
= |
|
|
|
β*j |
|
, которая при |
|
истинности |
гипотезы H0 : β j |
= 0 , имеет |
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||||
s2 |
( X T X )−1 |
|
|||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
jj |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
распределение Стьюдента с |
|
n − k −1 степенью свободы. |
Если для заданного уровня |
||||||||||||||||||||||||||||||||||||||
значимости |
|
α значение | t j | |
|
больше критического tкрит = t1−α / 2 , |
то |
нулевая |
гипотеза |
59
отвергается и коэффициент признается значимым. В противном случае коэффициент
признается незначимым, и соответствующее слагаемое исключается из модели.
В пакете Excel рассчитывается также уровень значимости α статистики | t j | , т.е.
вероятность P ( x > t j ) . Степень значимости параметров распределения качественно определяется по уровню значимости: не значимые (α ≥ 0,100), слабо значимые (0,100 >
α ≥ 0,050), статистически значимые (0,050 > α ≥ 0,010), |
|
сильно значимые (0,010 > α ≥ |
|||||||||||||||||||||||||||||||||||||||
0,001), высоко значимые (0,001 > α ). |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
|
|
Для нахождения доверительных интервалов для коэффициентов β j используют |
|||||||||||||||||||||||||||||||||||||||
статистики |
tɶ |
= |
|
|
|
β*j |
− β j |
|
, |
имеющие |
|
распределение |
Стьюдента |
с |
n − k −1 |
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
j |
|
|
s2 ( X T X ) |
−1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
jj |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
степенью свободы. Для уровня значимости α |
|
|
доверительный |
интервал |
|||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||
рассчитывается по формуле β* |
± t |
α |
s2 ( X T |
X )−1 |
, |
где t |
α |
– |
квантиль распределение |
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j |
|
|
|
jj |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
Стьюдента с n − k −1 степенью свободы. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
Доверительный интервал для условного среднего y = M (Y | X = x) |
в многомерной |
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ɶ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
, |
|||||||||||||||||||||||
точке |
X |
|
= (1, x0 ,…, x0 )T |
|
определяется по формуле: |
X T B* |
) |
± t |
s |
( |
X T |
( X T X )−1 |
X |
|
|||||||||||||||||||||||||||
|
|
|
0 |
|
1 |
|
|
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
( |
|
0 |
|
|
|
1−α / 2 |
|
0 |
|
|
|
|
|
0 ) |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где tα |
|
– |
квантиль |
|
распределение Стьюдента |
с |
|
n − k −1 |
степенью |
свободы. |
|||||||||||||||||||||||||||||||
Соответственно доверительный интервал для значений |
|
|
y |
в точке X |
0 |
= (1, x0 |
,…, x0 )T |
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
k |
|
|
|
|
|
|
|
|
X T B* ± t |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||
будет |
иметь |
вид: |
|
|
|
|
s 1 + X T |
( X T X )−1 |
X |
|
|
, |
так |
|
как |
|
|
погрешность |
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
|
1−α / 2 |
( |
|
0 |
|
|
|
|
|
0 ) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y = f ( x) + ε |
|
будет |
|
|
определяться |
двумя |
|
источниками: |
|
|
погрешностью |
||||||||||||||||||||||||||||||
(∆f ) |
2 |
= s |
2 |
T |
|
T |
|
|
−1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
( X 0 |
( X |
|
X ) |
|
X 0 ) , |
связанной |
с |
погрешностями параметров |
модели, |
и |
погрешностью собственно модели ε2 = s2 .
5.2. Пример выполнения задания
Имеется выборка значений совместно наблюдаемых величин X и Y :
X |
0,5 |
1 |
1,5 |
2 |
2,5 |
3 |
3,5 |
4 |
4,5 |
5 |
Y |
2,96 |
0,61 |
4,63 |
2,44 |
2,23 |
4,89 |
4,98 |
3,89 |
6,74 |
8,07 |
X |
5,5 |
6 |
6,5 |
7 |
7,5 |
8 |
8,5 |
9 |
9,5 |
10 |
Y |
8,34 |
9,56 |
9,30 |
12,35 |
11,46 |
11,09 |
7,91 |
8,16 |
6,54 |
7,88 |
|
|
|
60 |
|
|
|
Требуется подобрать подходящую модель регрессии, характеризующую |
||||||
зависимость Y от X , если известно, что ошибка σ2 = 1, 3 . |
|
|
||||
Нанесем точки (X, Y) на координатную плоскость – построим корреляционное |
||||||
поле, соответствующее нашей выборке (рис. 1) |
|
|
|
|||
|
|
Исходная выборка |
|
|
||
14 |
|
|
|
|
|
|
12 |
|
|
|
|
|
|
10 |
|
|
|
|
|
|
8 |
|
|
|
|
|
|
6 |
|
|
|
|
|
|
4 |
|
|
|
|
|
|
2 |
|
|
|
|
|
|
0 |
|
|
|
|
|
|
0 |
2 |
4 |
6 |
8 |
10 |
12 |
|
|
|
Рис. 1. Исходные данные |
|
|
Видим, что существует зависимость, между значениями X и Y , причем зависимость явно нелинейная. Попробуем аппроксимировать эту зависимость для начала полиномами различных порядков. Возьмем в качестве уравнения регрессии квадратное уравнение:
y = β0 + β1 x + β2 x 2
Чтобы воспользоваться МНК для оценки коэффициентов, проведем линеаризацию модели, положив x1 = x , x 2 = x 2 , получим
y = β0 + β1 x1 + β2 x 2
Тогда оценку вектора параметров, согласно МНК, найдем как
B* = (X T X )−1 X T Y
Здесь X - матрица, первый столбец которой содержит единицы, а второй и последующий значения x1 и x 2 .