Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Томский Государственный Университет Систем Управления и Радиоэлектроники

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Прикладная математическая статистика.-6

.pdf

Скачиваний:

Добавлен:

05.02.2023

Размер:

1.39 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 86 7 8 > Следующая >>>

ЛАБОРАТОРНАЯ РАБОТА 4

Корреляционный анализ случайных данных

Цель работы:

Рассчитать параметрические и непараметрические коэффициенты корреляции.

4.1.Практическое задание

4.1.1.Вычисление параметрических коэффициентов корреляции

1)Сгенерировать средствами пакета EXCEL 5 выборок из 10 значений случайной

величины с нормальным законом N (µ, σ2 ) . Эти 5 выборок будем использовать в

качестве независимых признаков ( x1, x2 , x3 , x4 , x5 ). Варианты значений параметров

µ, σ2 приведены в приложении 1.

2) Рассчитать зависимый признак yi = a0 + a1 x1i + a2 x2i + a3 x3i + a4 x4i + a5 x5i + εi ,

i = 1,...,10 . Здесь a0 , a1,..., a5 – параметры (их значения приведены в приложении 1);

εi – случайная погрешность с нормальным законом распределения εi N (0, σi2 ) , где

σi = 0, 2 M ( y) .

4.1.1.1.Парные коэффициенты корреляции

3)Выполнить следующие расчеты:

•вычислить выборочные средние и дисперсии зависимого признака y и

независимых признаков x1, x2 , x3 , x4 , x5 , а также средние значения произведений

y x j по формулам:

•

sy2 =

∑ yi2 −

∑ yi

; sx2j =

∑ xij2

−

∑ xij

; j = 1,..., 5 ;

n i=1

•

∑ yi ;,

x j

∑ xij ;

y x

∑ yi

xij

y x

∑ yi xij . Здесь xij – i -е

n i=1

значение случайной величины x из j -й выборки.

•скорректировать коэффициент корреляции (так как n < 15 ) по формуле

	1 − r	2
r* = r 1 +			.
	2(n −	3)

•вычислить парные коэффициенты корреляции между зависимым признаком y и

независимыми признаками x1, x2 , x3 , x4 , x5 (коэффициенты корреляции Пирсона)


по формулам: ryx j	=	y x	j	−	y		x	j
									.
		sy		sx					.
		sy		sx		j
						j

		=	r 2	(n − 2)
•	вычислить t -статистики t j		yx j		.
•	вычислить t -статистики t j		1	− r 2	.
			1	− r 2
				yx j
4)	Проверить гипотезу о значимости коэффициентов корреляции. Если

t j > t0,05 (n − 2 = 8) , то коэффициент ryx j значимый, и, следовательно, связь

между y и x j статистически значима.

4.1.1.2 Множественный коэффициент корреляции

5) Вычислить парные коэффициенты корреляции между зависимыми признаками

rx x

xi x

−

;

j > i, i = 1,..., 5 , где xi x j

= 1 ∑ xki xkj ; j > i; i = 1,..., 5

n k =1

Вычислить множественный коэффициент корреляции между результирующим

признаком Y и факторными признаками x1, x1,..., x5

по формуле

Ry / x , x ,..., x

= 1 −

(8)

ρ1

1 2

где ρ – определитель матрицы парной корреляции

	1
ρx1 y
	ρx		y
ρ =		2
		2
	ρx y
		3
		3
ρx			y
		4
	ρ
	ρ	x5 y
		x5 y

ρyx			ρyx		ρyx				ρyx		ρyx
		1		2				2		4		5
1			ρx1x2		ρx1x3				ρx1x4		ρx1x5
ρx2 x1			1		ρx2 x3				ρx2 x3		ρx2 x5
													;	(9)
ρx3 x1			ρx3 x2		1				ρx3 x4		ρx3 x5

ρx	4	x	ρx x		ρx	4	x		1		ρx x
		1	4	2				3			4	5
ρx5 x1			ρx5 x2		ρx5 x3				ρx5 x4		1

ρ1 – алгебраическое дополнение элемента ρ11 .

6) Вычислить скорректированный коэффициент корреляции:


			=	1 − (1 − R	2	)	n − 1
R y / x1	, x2	,..., xk						,
R y / x1	, x2	,..., xk						,
							n − k −1
										1		Ry2
7) Вычислить статистику Фишера F =										2		Ry2	/ x	,...,x
										2			1		5		;
													1		5

									1		(1 − Ry2					,..., x )
											(1 − Ry2				/ x	,..., x )
									n − 6						1	5
															1	5

8)Проверить гипотезу о значимости множественного коэффициента корреляции.

Если F > F0,05 (v1 = 5, v2 = n − 6) , то множественный коэффициент корреляции считается значимым.

4.1.2. Вычисление непараметрических коэффициентов

корреляции

1)Сгенерировать средствами пакета EXCEL 5 выборок из 10 значений случайной величины с биномиальным законом распределения B(n, p) .

Эти 5 выборок будем использовать в качестве независимых признаков

( x1, x2 , x3 , x4 , x5 ). Варианты значений параметров n, p приведены в приложении 2.

2)Проранжировать выборки, не упорядочивая их.

4.1.2.1. Коэффициент ранговой корреляции Спирмана

3) Вычислить:

•	величины dk2 (i, j) = (Rk , x	− Rk ,x	j	)2	; i ≠ j, i, j = 1,..., 5;	k = 1,...,10 ;
	i		j
							n
	коэффициенты ранговой корреляции Спирмана ρxi / y j					= 1 −	6∑ dk2 (i, j)
•							k =1	;
•							n(n2 − 1)	;

•	t -статистики tij = ρxi / y j	n − 2

		1 − ρ2x / y		j
		i		j

4)Проверить значимость коэффициентов корреляции. Если tij > t0,05 (n − 2) ,

то коэффициент ρxi / y j считается значимым.

4.1.2.1.2Коэффициент ранговой корреляции Кендалла

5)Рассматриваются все комбинации пар столбцов исходной таблицы данных –

(1;2), (1;3), (1;4), (1;5), (2;3), (2;4), (2;5), (3;4), (3;5), (4;5). Первый столбец обозначим

X, второй – Y .

•В каждой паре столбцов значения первого столбца X упорядочиваются по возрастанию, а значения второго столбца Y располагаются в порядке, соответствующем значениям X

•для каждого ранга Y определяется число следующих за ним значений рангов, превышающих его по величине. Суммируя эти числа,

определяем величину P (число последовательностей) — меру

соответствия последовательностей рангов X и Y (см. пример в лекции);

•для каждого ранга Y определяется число следующих за ним рангов,

меньших его величины. Суммируя величины, получаем величину Q

(число инверсий);

• определяется разность по всем членам ряда S = P − Q и вычисляется

τ . Связь между признаками можно признать статистически значимой,

если значение коэффициента корреляции	τ	> τα = uα	2(2n + 5)	.


			9n(n − 1)

4.1.2.1.3 Коэффициент конкордации (множественный коэффициент
ранговой корреляции)
6)Проранжировать столбцы исходной таблицы { x ji }			(наблюдения) их
рангами {rji } не упорядочивая табличные данные.

7)Для каждой j -й строки таблицы вычислить:

8)сумму рангов R j = ∑ rji и квадрат суммы R2j ;

i=1

9)сумму рангов по всей совокупности ранг R

= ∑ R j

и R

= ∑ Rj ;

j =1

−

10)вычислить коэффициент конкордации W =

, m = 5, n = 10 .

m2 (n3 − n)

11)

Проверить значимость связи между

признаками.

Если

W > Wα , где

W =

χ2 (n −1) , то с вероятностью

α корреляция между признаками

m(n − 1)

признается значимой. Если среди последовательностей рангов есть

совпадения, то коэффициент конкордации следует вычислять по формуле

−

W =

m2 (n2 −1) − m∑Tj

j =1

где T

= t 3 − t

, t

– количество совпавших рангов в

j -й последовательности.

Совпавшим рангам присваиваются средние ранги.

Приложение к лабораторной работе 4

Варианты заданий

Варианты задания 1

Номер	1	2	3	4	5	6	7	8	9	10
варианта
	0	0,5	1,0	2,0	2,5	3,0	3,5	4,0	4,5	5,0

σ	0,2	0,2	0,2	0,5	0,5	0,5	1	1	1	1,5

a0	1	2	3	4	5	1	-2	3	-4	5

a1	2	3	4	5	6	-2	3	-4	5	-6
a2	3	4	5	6	7	3	-4	5	-6	7

a3	4	5	6	7	8	-4	5	-6	7	-8

a4	5	6	7	8	9	5	-6	7	-8	9

a5	6	7	8	9	10	-6	7	-8	9	-10

Варианты задания 2

Номер	1	2	3	4	5	6	7	8	9	10
варианта
n	20	30	40	35	25	100	90	80	70	50

p	0,4	0,5	0,7	0,4	0,8	0,3	0,6	0,7	0,1	0,5

ЛАБОРАТОРНАЯ РАБОТА 5

Линейная регрессия

Цель работы:

Оценка уравнения линейной регрессии на основе выборочных данных

5.1. Необходимые сведения из теории

5.1.1. Построение модели парной регрессии

Рассмотрим линейную по коэффициентам модель парной регрессии:

		y = f ( x ) + ε = β0 + β1 f1( x) + β2 f2 ( x) + …+ βk fk ( x) + ε ,									(1)
где ε	- случайная величина с математическим ожиданием равным нулю и дисперсией
σ 2 .
	Полагая, x j = f j ( x), j =			перейдем к модели множественной линейной
	Полагая, x j = f j ( x), j =		1, k	перейдем к модели множественной линейной
регрессии:
		y = f ( x ) + ε = β0 + β1 x1 + β2 x2 +…+ βk xk + ε .									(2)
	Пусть для оценки неизвестных параметров β j , j =									уравнения регрессии (2)
	Пусть для оценки неизвестных параметров β j , j =								0, k	уравнения регрессии (2)
взята выборка объемом n из значений величин (Y , X 1 , X 2 ,…, X k ) . Тогда
				Y = XB + ε ,
где	Y = ( y1 , y 2 ..., y n )T - вектор значений переменной y ;
B = (β0 ,β1,…,βk )T - вектор параметров модели;
ε = (ε1 ,…, ε n )T		– вектор ошибок, где ε i Ν(0,σ 2 ) и независимы;
X - матрица исходных данных переменных X j							размерами n × (k + 1) . Первый столбец
матрицы X		содержит единицы (значения				фиктивной переменной x0 ),					остальные
столбцы значения переменных x1, x2 ,..., xk :
				1	x1	x1
					1		k
				1	x 2	x 2
			X =		1		k	.


					n		n
				1	x1		xk

Для нахождения оценки

B *

вектора параметров

B = (β

,β ,…,β

используем

метод

наименьших

квадратов, согласно

которому в

качестве оценок

β*

,β* ,…,β*

берутся такие, которые минимизируют сумму квадратов Q отклонений значений уi

от

f ( xi ) :

Q = ∑ (yi − f ( xi ))2 =∑ε i2

=ε T ε = (Y − XB)T (Y − XB).

(3)

i =1

i=1

Оценка B * метода наименьших квадратов имеет вид:

B* = (X T X )−1 X T Y .

(4)

5.1.2. Оценка погрешности регрессии

Качество регрессионной модели можно оценить,

используя оценку s2

дисперсии

предсказания σ 2 :

s2 =

∑( yi

− yˆi )2 =

∑e2 =

eT e ,

где

n − k

− 1

n − k

− 1

i=1

− k − 1

= β

* + β * x

+ …β * x

. Качество

модели

также можно

оценить с

использованием

0 1

∑ ( yˆi −

оценки коэффициента детерминации: R2 =

i =1

∑ ( yi −

i =1

Чем ближе значения

R2 к 1, тем большую долю дисперсии величины Y объясняет

модель регрессии.

Оценка

дисперсии коэффициента

находится по формуле:

= s2

( X T X )−1

где ( X T X )

−1

соответствующий диагональный элемент матрицы ( X T X )−1 .

Доверительные интервал

для σ 2

находится

использованием

статистики

χ2

= (n − k −1)s2 / σ2 , которая при нормальном распределении ε

имеет распределение

хи-квадрат с n − k −1 степенью свободы.

Для

проверки значимости

коэффициентов уравнения регрессии используем

статистику

t j

β*j

, которая при

истинности

гипотезы H0 : β j

= 0 , имеет

( X T X )−1

распределение Стьюдента с

n − k −1 степенью свободы.

Если для заданного уровня

значимости

α значение | t j |

больше критического tкрит = t1−α / 2 ,

то

нулевая

гипотеза

отвергается и коэффициент признается значимым. В противном случае коэффициент

признается незначимым, и соответствующее слагаемое исключается из модели.

В пакете Excel рассчитывается также уровень значимости α статистики | t j | , т.е.

вероятность P ( x > t j ) . Степень значимости параметров распределения качественно определяется по уровню значимости: не значимые (α ≥ 0,100), слабо значимые (0,100 >

α ≥ 0,050), статистически значимые (0,050 > α ≥ 0,010),

сильно значимые (0,010 > α ≥

0,001), высоко значимые (0,001 > α ).

Для нахождения доверительных интервалов для коэффициентов β j используют

статистики

tɶ

β*j

− β j

имеющие

распределение

Стьюдента

n − k −1

s2 ( X T X )

−1

степенью свободы. Для уровня значимости α

доверительный

интервал

рассчитывается по формуле β*

± t

s2 ( X T

X )−1

где t

–

квантиль распределение

Стьюдента с n − k −1 степенью свободы.

Доверительный интервал для условного среднего y = M (Y | X = x)

в многомерной

точке

= (1, x0 ,…, x0 )T

определяется по формуле:

X T B*

)

± t

(

X T

( X T X )−1

(

1−α / 2

0 )

где tα

–

квантиль

распределение Стьюдента

n − k −1

степенью

свободы.

Соответственно доверительный интервал для значений

в точке X

= (1, x0

,…, x0 )T

X T B* ± t

будет

иметь

вид:

s 1 + X T

( X T X )−1

так

как

погрешность

1−α / 2

(

0 )

y = f ( x) + ε

будет

определяться

двумя

источниками:

погрешностью

(∆f )

= s

−1

( X 0

( X

X )

X 0 ) ,

связанной

погрешностями параметров

модели,

погрешностью собственно модели ε2 = s2 .

5.2. Пример выполнения задания

Имеется выборка значений совместно наблюдаемых величин X и Y :

X	0,5	1	1,5	2	2,5	3	3,5	4	4,5	5
Y	2,96	0,61	4,63	2,44	2,23	4,89	4,98	3,89	6,74	8,07
X	5,5	6	6,5	7	7,5	8	8,5	9	9,5	10
Y	8,34	9,56	9,30	12,35	11,46	11,09	7,91	8,16	6,54	7,88

			60
Требуется подобрать подходящую модель регрессии, характеризующую
зависимость Y от X , если известно, что ошибка σ2 = 1, 3 .
Нанесем точки (X, Y) на координатную плоскость – построим корреляционное
поле, соответствующее нашей выборке (рис. 1)
		Исходная выборка
14
12
10
8
6
4
2
0
0	2	4	6	8	10	12
			Рис. 1. Исходные данные

Видим, что существует зависимость, между значениями X и Y , причем зависимость явно нелинейная. Попробуем аппроксимировать эту зависимость для начала полиномами различных порядков. Возьмем в качестве уравнения регрессии квадратное уравнение:

y = β0 + β1 x + β2 x 2

Чтобы воспользоваться МНК для оценки коэффициентов, проведем линеаризацию модели, положив x1 = x , x 2 = x 2 , получим

y = β0 + β1 x1 + β2 x 2

Тогда оценку вектора параметров, согласно МНК, найдем как

B* = (X T X )−1 X T Y

Здесь X - матрица, первый столбец которой содержит единицы, а второй и последующий значения x1 и x 2 .

<<< < Предыдущая 1 2 3 4 56 / 86 7 8 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
05.02.20231.5 Mб6Прикладная математическая статистика.-1.pdf
#
05.02.2023170.96 Кб4Прикладная математическая статистика.-2.pdf
#
05.02.2023855.72 Кб7Прикладная математическая статистика.-3.pdf
#
05.02.20231.59 Mб7Прикладная математическая статистика.-4.pdf
#
05.02.2023646.51 Кб5Прикладная математическая статистика.-5.pdf
#
05.02.20231.39 Mб6Прикладная математическая статистика.-6.pdf
#
05.02.20231.23 Mб8Прикладная математическая статистика.-7.pdf
#
05.02.20235.67 Mб7Прикладная математическая статистика..pdf
#
05.02.20231.61 Mб30Прикладная механика..pdf
#
05.02.2023783.97 Кб3Прикладная статистика..pdf
#
05.02.202386.68 Кб2Прикладная экология.-1.pdf