Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Прикладная математическая статистика.-6

.pdf
Скачиваний:
6
Добавлен:
05.02.2023
Размер:
1.39 Mб
Скачать

51

ЛАБОРАТОРНАЯ РАБОТА 4

Корреляционный анализ случайных данных

Цель работы:

Рассчитать параметрические и непараметрические коэффициенты корреляции.

4.1.Практическое задание

4.1.1.Вычисление параметрических коэффициентов корреляции

1)Сгенерировать средствами пакета EXCEL 5 выборок из 10 значений случайной

величины с нормальным законом N (µ, σ2 ) . Эти 5 выборок будем использовать в

качестве независимых признаков ( x1, x2 , x3 , x4 , x5 ). Варианты значений параметров

µ, σ2 приведены в приложении 1.

2) Рассчитать зависимый признак yi = a0 + a1 x1i + a2 x2i + a3 x3i + a4 x4i + a5 x5i + εi ,

i = 1,...,10 . Здесь a0 , a1,..., a5 – параметры (их значения приведены в приложении 1);

εi – случайная погрешность с нормальным законом распределения εi N (0, σi2 ) , где

σi = 0, 2 M ( y) .

4.1.1.1.Парные коэффициенты корреляции

3)Выполнить следующие расчеты:

вычислить выборочные средние и дисперсии зависимого признака y и

независимых признаков x1, x2 , x3 , x4 , x5 , а также средние значения произведений

y x j по формулам:

 

 

 

1

n

 

1

 

n

 

2

1

 

n

 

 

1

n

2

sy2 =

 

 

 

yi2

 

yi

; sx2j =

 

xij2

 

 

xij

 

; j = 1,..., 5 ;

 

 

 

 

 

 

 

 

 

 

n i=1

n i=1

 

 

n i=1

 

 

n i=1

 

 

 

 

 

 

 

1

 

n

 

 

 

 

1

 

n

 

 

 

 

 

1

 

n

 

 

 

 

 

 

 

1

n

y

=

yi ;,

x j

=

 

xij ;

y x

j

=

 

yi

xij

y x

j

=

yi xij . Здесь xij i

 

 

 

 

 

 

 

n i=1

 

 

 

 

n i=1

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

n i=1

значение случайной величины x из j -й выборки.

52

скорректировать коэффициент корреляции (так как n < 15 ) по формуле

 

1 r

2

 

r* = r 1 +

 

.

2(n

3)

 

 

вычислить парные коэффициенты корреляции между зависимым признаком y и

независимыми признаками x1, x2 , x3 , x4 , x5 (коэффициенты корреляции Пирсона)

по формулам: ryx j

=

 

y x

j

y

 

x

j

 

 

 

 

 

 

.

 

sy

sx

 

 

 

 

j

 

 

 

 

 

 

 

 

 

=

r 2

(n 2)

 

вычислить t -статистики t j

yx j

 

.

1

r 2

 

 

 

 

 

 

 

 

yx j

 

4)

Проверить гипотезу о значимости коэффициентов корреляции. Если

t j > t0,05 (n 2 = 8) , то коэффициент ryx j значимый, и, следовательно, связь

между y и x j статистически значима.

4.1.1.2 Множественный коэффициент корреляции

5) Вычислить парные коэффициенты корреляции между зависимыми признаками

rx x

 

=

 

xi x

j

x

i

x

j

;

j > i, i = 1,..., 5 , где xi x j

= 1 xki xkj ; j > i; i = 1,..., 5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

j

 

 

sx

sx

 

 

 

 

 

 

 

 

n k =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

j

 

 

 

 

 

 

 

Вычислить множественный коэффициент корреляции между результирующим

признаком Y и факторными признаками x1, x1,..., x5

по формуле

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ry / x , x ,..., x

= 1

 

 

 

ρ

 

 

 

 

,

(8)

 

 

 

 

 

 

 

 

 

 

 

 

 

ρ1

 

 

 

 

 

1 2

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где ρ – определитель матрицы парной корреляции

 

1

 

ρx1 y

 

ρx

y

ρ =

 

2

 

 

 

 

 

ρx y

 

 

3

 

 

 

 

ρx

y

 

 

4

 

ρ

 

 

 

x5 y

 

 

ρyx

ρyx

ρyx

 

ρyx

 

ρyx

 

 

 

 

 

1

 

2

 

 

 

2

 

4

 

5

 

 

 

1

 

ρx1x2

ρx1x3

ρx1x4

ρx1x5

 

 

 

ρx2 x1

1

 

ρx2 x3

ρx2 x3

ρx2 x5

 

 

 

 

 

;

(9)

ρx3 x1

ρx3 x2

1

 

 

ρx3 x4

ρx3 x5

 

 

 

 

 

 

ρx

4

x

ρx x

ρx

4

x

1

 

ρx x

 

 

 

 

1

4

2

 

 

3

 

 

4

5

 

 

 

ρx5 x1

ρx5 x2

ρx5 x3

ρx5 x4

1

 

 

 

 

 

 

 

 

ρ1 – алгебраическое дополнение элемента ρ11 .

53

6) Вычислить скорректированный коэффициент корреляции:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

1 (1 R

2

)

n 1

 

 

 

 

 

 

 

 

 

R y / x1

, x2

,..., xk

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n k 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

Ry2

 

 

 

 

7) Вычислить статистику Фишера F =

 

 

2

/ x

,...,x

 

 

 

 

 

1

 

5

 

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

(1 Ry2

 

,..., x )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

/ x

 

 

 

 

 

 

 

 

 

 

 

 

n 6

 

 

1

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8)Проверить гипотезу о значимости множественного коэффициента корреляции.

Если F > F0,05 (v1 = 5, v2 = n 6) , то множественный коэффициент корреляции считается значимым.

4.1.2. Вычисление непараметрических коэффициентов

корреляции

1)Сгенерировать средствами пакета EXCEL 5 выборок из 10 значений случайной величины с биномиальным законом распределения B(n, p) .

Эти 5 выборок будем использовать в качестве независимых признаков

( x1, x2 , x3 , x4 , x5 ). Варианты значений параметров n, p приведены в приложении 2.

2)Проранжировать выборки, не упорядочивая их.

4.1.2.1. Коэффициент ранговой корреляции Спирмана

3) Вычислить:

величины dk2 (i, j) = (Rk , x

 

Rk ,x

j

)2

; i j, i, j = 1,..., 5;

k = 1,...,10 ;

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

коэффициенты ранговой корреляции Спирмана ρxi / y j

= 1

6dk2 (i, j)

 

k =1

;

n(n2 1)

 

 

 

 

 

 

 

 

 

 

 

t -статистики tij = ρxi / y j

 

n 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 − ρ2x / y

j

 

 

 

 

 

 

 

i

 

 

 

 

 

54

4)Проверить значимость коэффициентов корреляции. Если tij > t0,05 (n 2) ,

то коэффициент ρxi / y j считается значимым.

4.1.2.1.2Коэффициент ранговой корреляции Кендалла

5)Рассматриваются все комбинации пар столбцов исходной таблицы данных –

(1;2), (1;3), (1;4), (1;5), (2;3), (2;4), (2;5), (3;4), (3;5), (4;5). Первый столбец обозначим

X, второй – Y .

В каждой паре столбцов значения первого столбца X упорядочиваются по возрастанию, а значения второго столбца Y располагаются в порядке, соответствующем значениям X

для каждого ранга Y определяется число следующих за ним значений рангов, превышающих его по величине. Суммируя эти числа,

определяем величину P (число последовательностей) — меру

соответствия последовательностей рангов X и Y (см. пример в лекции);

для каждого ранга Y определяется число следующих за ним рангов,

меньших его величины. Суммируя величины, получаем величину Q

(число инверсий);

определяется разность по всем членам ряда S = P Q и вычисляется

τ . Связь между признаками можно признать статистически значимой,

если значение коэффициента корреляции

 

τ

 

> τα = uα

2(2n + 5)

 

.

 

 

 

 

 

 

 

 

 

 

9n(n 1)

 

 

 

 

 

4.1.2.1.3 Коэффициент конкордации (множественный коэффициент

ранговой корреляции)

 

 

 

6)Проранжировать столбцы исходной таблицы { x ji }

(наблюдения) их

рангами {rji } не упорядочивая табличные данные.

 

 

 

7)Для каждой j -й строки таблицы вычислить:

5

8)сумму рангов R j = rji и квадрат суммы R2j ;

i=1

55

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

 

 

2

10

2

 

 

9)сумму рангов по всей совокупности ранг R

= R j

и R

= Rj ;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j =1

 

 

 

 

j =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

R

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

10)вычислить коэффициент конкордации W =

 

 

 

 

 

 

 

, m = 5, n = 10 .

 

 

m2 (n3 n)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11)

Проверить значимость связи между

признаками.

Если

W > Wα , где

 

 

W =

 

 

1

χ2 (n 1) , то с вероятностью

α корреляция между признаками

 

 

 

 

 

 

 

 

 

 

 

 

 

α

 

 

m(n 1)

α

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

признается значимой. Если среди последовательностей рангов есть

 

 

совпадения, то коэффициент конкордации следует вычислять по формуле

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

R

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

R

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

W =

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m2 (n2 1) mTj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j =1

 

 

 

 

 

 

 

где T

j

= t 3 t

j

, t

j

– количество совпавших рангов в

j -й последовательности.

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Совпавшим рангам присваиваются средние ранги.

56

Приложение к лабораторной работе 4

Варианты заданий

Варианты задания 1

Номер

1

2

3

4

5

6

7

8

9

10

варианта

 

 

 

 

 

 

 

 

 

 

 

0

0,5

1,0

2,0

2,5

3,0

3,5

4,0

4,5

5,0

 

 

 

 

 

 

 

 

 

 

 

σ

0,2

0,2

0,2

0,5

0,5

0,5

1

1

1

1,5

 

 

 

 

 

 

 

 

 

 

 

a0

1

2

3

4

5

1

-2

3

-4

5

 

 

 

 

 

 

 

 

 

 

 

a1

2

3

4

5

6

-2

3

-4

5

-6

a2

3

4

5

6

7

3

-4

5

-6

7

 

 

 

 

 

 

 

 

 

 

 

a3

4

5

6

7

8

-4

5

-6

7

-8

 

 

 

 

 

 

 

 

 

 

 

a4

5

6

7

8

9

5

-6

7

-8

9

 

 

 

 

 

 

 

 

 

 

 

a5

6

7

8

9

10

-6

7

-8

9

-10

Варианты задания 2

Номер

1

2

3

4

5

6

7

8

9

10

варианта

 

 

 

 

 

 

 

 

 

 

n

20

30

40

35

25

100

90

80

70

50

 

 

 

 

 

 

 

 

 

 

 

p

0,4

0,5

0,7

0,4

0,8

0,3

0,6

0,7

0,1

0,5

 

 

 

 

 

 

 

 

 

 

 

57

ЛАБОРАТОРНАЯ РАБОТА 5

Линейная регрессия

Цель работы:

Оценка уравнения линейной регрессии на основе выборочных данных

5.1. Необходимые сведения из теории

5.1.1. Построение модели парной регрессии

Рассмотрим линейную по коэффициентам модель парной регрессии:

 

 

y = f ( x ) + ε = β0 + β1 f1( x) + β2 f2 ( x) + …+ βk fk ( x) + ε ,

(1)

где ε

- случайная величина с математическим ожиданием равным нулю и дисперсией

σ 2 .

 

 

 

 

 

 

 

 

 

 

 

 

Полагая, x j = f j ( x), j =

 

перейдем к модели множественной линейной

 

1, k

регрессии:

 

 

 

 

 

 

 

 

 

 

 

 

y = f ( x ) + ε = β0 + β1 x1 + β2 x2 +…+ βk xk + ε .

(2)

 

Пусть для оценки неизвестных параметров β j , j =

 

уравнения регрессии (2)

 

0, k

взята выборка объемом n из значений величин (Y , X 1 , X 2 ,, X k ) . Тогда

 

 

 

 

 

Y = XB + ε ,

 

 

 

 

где

Y = ( y1 , y 2 ..., y n )T - вектор значений переменной y ;

 

B = (β0 ,β1,,βk )T - вектор параметров модели;

 

 

 

 

 

ε = (ε1 ,, ε n )T

– вектор ошибок, где ε i Ν(0,σ 2 ) и независимы;

 

X - матрица исходных данных переменных X j

размерами n × (k + 1) . Первый столбец

матрицы X

содержит единицы (значения

фиктивной переменной x0 ),

остальные

столбцы значения переменных x1, x2 ,..., xk :

 

 

 

 

 

 

 

 

 

 

1

x1

x1

 

 

 

 

 

 

 

1

 

k

 

 

 

 

 

 

1

x 2

x 2

 

 

 

 

 

X =

1

 

k

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

n

 

 

 

 

 

1

x1

xk

 

 

58

 

Для нахождения оценки

 

B *

вектора параметров

B = (β

0

,β ,,β

k

)T

используем

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

метод

наименьших

 

квадратов, согласно

 

 

которому в

качестве оценок

β*

,β* ,,β*

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

1

k

берутся такие, которые минимизируют сумму квадратов Q отклонений значений уi

от

f ( xi ) :

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Q = (yi f ( xi ))2 =ε i2

=ε T ε = (Y XB)T (Y XB).

 

 

 

 

 

(3)

 

 

 

 

 

 

 

 

 

 

 

 

i =1

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Оценка B * метода наименьших квадратов имеет вид:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

B* = (X T X )1 X T Y .

 

 

 

 

 

 

 

 

 

 

 

 

(4)

 

 

 

 

 

 

 

 

 

 

 

5.1.2. Оценка погрешности регрессии

 

 

 

 

 

 

 

 

 

 

Качество регрессионной модели можно оценить,

используя оценку s2

дисперсии

предсказания σ 2 :

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

n

 

 

 

1

 

 

n

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2 =

 

 

 

 

 

( yi

yˆi )2 =

 

 

 

e2 =

 

 

 

 

 

eT e ,

 

где

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n k

1

n k

1

n

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

i=1

 

 

 

k 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

= β

* + β * x

i

+ …β * x

k

. Качество

модели

 

также можно

оценить с

использованием

i

0 1

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( yˆi

 

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

оценки коэффициента детерминации: R2 =

 

i =1

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( yi

 

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Чем ближе значения

R2 к 1, тем большую долю дисперсии величины Y объясняет

 

модель регрессии.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Оценка

дисперсии коэффициента

β

 

 

находится по формуле:

s2

= s2

( X T X )1

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

jj

где ( X T X )

1

соответствующий диагональный элемент матрицы ( X T X )1 .

 

 

 

 

 

 

 

 

jj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Доверительные интервал

для σ 2

 

 

находится

с

использованием

 

статистики

χ2

= (n k 1)s2 / σ2 , которая при нормальном распределении ε

i

имеет распределение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

хи-квадрат с n k 1 степенью свободы.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для

 

проверки значимости

коэффициентов уравнения регрессии используем

статистику

t j

=

 

 

 

β*j

 

, которая при

 

истинности

гипотезы H0 : β j

= 0 , имеет

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2

( X T X )1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

jj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

распределение Стьюдента с

 

n k 1 степенью свободы.

Если для заданного уровня

значимости

 

α значение | t j |

 

больше критического tкрит = t1−α / 2 ,

то

нулевая

гипотеза

59

отвергается и коэффициент признается значимым. В противном случае коэффициент

признается незначимым, и соответствующее слагаемое исключается из модели.

В пакете Excel рассчитывается также уровень значимости α статистики | t j | , т.е.

вероятность P ( x > t j ) . Степень значимости параметров распределения качественно определяется по уровню значимости: не значимые (α ≥ 0,100), слабо значимые (0,100 >

α ≥ 0,050), статистически значимые (0,050 > α ≥ 0,010),

 

сильно значимые (0,010 > α ≥

0,001), высоко значимые (0,001 > α ).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для нахождения доверительных интервалов для коэффициентов β j используют

статистики

tɶ

=

 

 

 

β*j

− β j

 

,

имеющие

 

распределение

Стьюдента

с

n k 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

s2 ( X T X )

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

jj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

степенью свободы. Для уровня значимости α

 

 

доверительный

интервал

 

 

 

 

 

 

 

 

 

 

 

 

рассчитывается по формуле β*

± t

α

s2 ( X T

X )1

,

где t

α

квантиль распределение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

jj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Стьюдента с n k 1 степенью свободы.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Доверительный интервал для условного среднего y = M (Y | X = x)

в многомерной

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ɶ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

,

точке

X

 

= (1, x0 ,, x0 )T

 

определяется по формуле:

X T B*

)

± t

s

(

X T

( X T X )1

X

 

 

 

 

0

 

1

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

(

 

0

 

 

 

1−α / 2

 

0

 

 

 

 

 

0 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где tα

 

квантиль

 

распределение Стьюдента

с

 

n k 1

степенью

свободы.

Соответственно доверительный интервал для значений

 

 

y

в точке X

0

= (1, x0

,, x0 )T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

k

 

 

 

 

 

 

 

X T B* ± t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

будет

иметь

вид:

 

 

 

 

s 1 + X T

( X T X )1

X

 

 

,

так

 

как

 

 

погрешность

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

1−α / 2

(

 

0

 

 

 

 

 

0 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y = f ( x) + ε

 

будет

 

 

определяться

двумя

 

источниками:

 

 

погрешностью

(∆f )

2

= s

2

T

 

T

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( X 0

( X

 

X )

 

X 0 ) ,

связанной

с

погрешностями параметров

модели,

и

погрешностью собственно модели ε2 = s2 .

5.2. Пример выполнения задания

Имеется выборка значений совместно наблюдаемых величин X и Y :

X

0,5

1

1,5

2

2,5

3

3,5

4

4,5

5

Y

2,96

0,61

4,63

2,44

2,23

4,89

4,98

3,89

6,74

8,07

X

5,5

6

6,5

7

7,5

8

8,5

9

9,5

10

Y

8,34

9,56

9,30

12,35

11,46

11,09

7,91

8,16

6,54

7,88

 

 

 

60

 

 

 

Требуется подобрать подходящую модель регрессии, характеризующую

зависимость Y от X , если известно, что ошибка σ2 = 1, 3 .

 

 

Нанесем точки (X, Y) на координатную плоскость – построим корреляционное

поле, соответствующее нашей выборке (рис. 1)

 

 

 

 

 

Исходная выборка

 

 

14

 

 

 

 

 

 

12

 

 

 

 

 

 

10

 

 

 

 

 

 

8

 

 

 

 

 

 

6

 

 

 

 

 

 

4

 

 

 

 

 

 

2

 

 

 

 

 

 

0

 

 

 

 

 

 

0

2

4

6

8

10

12

 

 

 

Рис. 1. Исходные данные

 

 

Видим, что существует зависимость, между значениями X и Y , причем зависимость явно нелинейная. Попробуем аппроксимировать эту зависимость для начала полиномами различных порядков. Возьмем в качестве уравнения регрессии квадратное уравнение:

y = β0 + β1 x + β2 x 2

Чтобы воспользоваться МНК для оценки коэффициентов, проведем линеаризацию модели, положив x1 = x , x 2 = x 2 , получим

y = β0 + β1 x1 + β2 x 2

Тогда оценку вектора параметров, согласно МНК, найдем как

B* = (X T X )1 X T Y

Здесь X - матрица, первый столбец которой содержит единицы, а второй и последующий значения x1 и x 2 .