Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Владимирский государственный университет им. Столетовых

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Методы обработки и планирования эксперимента. Ч.1. Оценка распределений и их параметров (110

.pdf

Скачиваний:

Добавлен:

15.11.2022

Размер:

545.63 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

III. Правило построения полигона накопленных частот:

Берется выборка и определяется число интервалов группировки так же, как и при построении гистограммы (пункты 1, 2, 3).

4. Подсчитывается количество Кq элементов выборки x , попавших в интервал (a; a + q x),

q
Kq = k j , q = 1, r.	(3.1)

j=1

5.Определяются выборочные вероятности

Fq = Kq n = ν j . (3.2)

j=1

и строится ступенчатая диаграмма, высота которой равна Fq на интервале

q		(	)
	= a +		q −1	x;a + q x .

Полигон меньше всего отличается от теоретической функции распределения в конце интервала группировки.

ν j :=

q j

p j

:= dnorm(intj

+ 0.5 dx, 0, 1) dx

F( j) := cnorm(intj)

FF( j) := ν i

P( j) := qnorm(FF( j) , 0, 1

i = 0

ν j

0.2

FF( j)

0.1

0.5

p j

F( j)

0 0

Рис. 3.4

На рис. 3.4 приведены гистограмма и полигон накопленных частот.

IV. Сравнение теоретического и эмпирического распределений

Вероятностная бумага. Вероятностная бумага принадлежит к полукачественному критерию, на основе которого можно судить о соответствии эмпирического распределения и предполагаемого теоретического распределения.

Этапы проверки:

1. Построение обратной функциональной зависимости для функции распределения y = Fξ (x): y* = Fξ−1 ( y) .

2. Построение полигона накопленных частот Fq , q = 1, r , (3.1), (3.2).

3.	Пересчет полигона накопленных частот Fq * = Fξ−1 (Fq ), q =											.
3.	Пересчет полигона накопленных частот Fq * = Fξ−1 (Fq ), q =										1, r	.
4.	Построение в					системе	координат (x, y *)			графиков по			точкам
(xq , Fq *) , где xq = a + q						x .
5.	Если график пересчитанного полигона накопленных частот												Fq * –
прямая линия, то эмпирическое распределение Fq										соответствует y = Fξ (x) ,
иначе соответствия нет.
		4
		4
P( j)		2							Вероятностная бумага
		2

0.41 j−2.75		0
		0

			2
			2
			4

				0	5		10	15

PIFn(x, z)

x	0

5
	4	2	0	2	4

Рис. 3.5

На рис. 3.5 приведены вероятностные бумаги для полигона а – накопленных частот и б – выборочной функции распределения).

Критерий согласия χ 2 (хи-квадрат) Пирсона. Критерий согласия χ 2

Пирсона принадлежит к универсальным количественным критериям. С помощью этого критерия можно проверить соответствие теоретического и эмпирического распределений для любого типа случайных величин: непрерывных, дискретных. Он имеет вид:

(

− np

j )

− p

j )

χ 2

= n

( j

= n

ν j

−1

< χкр2

(α ,l ).

(3.3)

j=1

	Здесь п – объем выборки, r – число интервалов группировки, ν i = k j									n –
частота			попадания	выборки x в			интервал	j = (a + ( j −1)	x; a + j	x),
j =		pj	– теоретическая вероятность попадания случайной величины ξ в
j =	1, r,	pj
интервал			j ,
			a+ j		x	Wξ (x)dx = Fξ (a + j	x) − Fξ (a + ( j −1) x) .		(3.4)
			pj =			Wξ (x)dx = Fξ (a + j	x) − Fξ (a + ( j −1) x) .		(3.4)
			(	)		x
			a+	j−1		x

χкр2 (α ,l ) – критическое значение, зависящее от параметров α и l, α – уровень

значимости (вероятность отбросить правильную гипотезу о соответствии распределений), l = r − 1− v – число степеней свободы, где v - количество неизвестных параметров в теоретическом распределении, которые доопре-

деляются по той же выборке x . Например:

a) Fξ (x) = Φ ((x − m)σ ), где т и σ известны (или заданы). Тогда v = 0.

b) Fξ (x) = Φ ((x − m)σ ), где т неизвестно, а σ задано. Тогда m ≈ x = ( xi )n и v = 1.

c) Fξ (x) = Φ ((x − m)σ ) , где т и σ неизвестны. Тогда m ≈ x = ( xi )n ,

σ 2 ≈ s2 = ( (xi − x )2 )(n −1) и v = 2.

Типичные значения уровня значимости α = 0.1, 0.05, 0.01. Чаще всего

α = 0.1.

Критические значения χкр2 (α ,l ) являются квантилями вероятностей 1 – α для хи-квадрат распределения с l-степенями свободы – χl2 . Например,

в пакете Mcad квантили вычисляются при помощи функции qchisq(1-α,l). Соотношения (3.3), (3.4) легко вычисляются, что обусловило широкое

применение данного критерия.

Критерий Колмогорова

1. Определяется D(n) = max Fn (x) − Fξ (x) , где Fn (x) , а Fξ (x) – теоретиче-

ская плотность вероятности, относительно которой проверяется основная гипотеза.

2. Задается величина ошибки I рода α (α = 0.1, 0.05 или др.).

3.	Определяется критическое значение h ≈	− ln(α / 2)	.

4.		2n
	Если D(n) ≤ h , то принимается основная гипотеза о согласии распре-

делений.

5. Критерий Колмогорова позволяет установить доверительные грани-
цы для Fn (x) . Из равенства P{max Fn (x) − Fξ (x) > h} = α следует, что
			P{Fn (x) − h ≤ Fξ (x) ≤ Fn (x) + h} = 1− α .
Пример применения критерия Колмогорова.
Проверить принадлежность выборки к стандартному нормальному за-
кону распределения Fξ (x) = Φ(x) . Расчет критерия:							−ln(α 0.5)
E(x) :=	Fn(x, z) − cnorm(x)					h(n, α ) :=			α := 0.1
						h(n, α ) :=			α := 0.1
x := −4 , −3.99 .. 4							2 n
x := −4 , −3.99 .. 4
0.04
0.03
E( x) 0.02
0.01
0	4	3	2	1	0	1	2	3	4
					x

D(n)=max E(x)
D(n) = 0.031	h(n, α ) = 0.039	D(n)<h(n, α ) - основная гипотеза верна

Рис. 3.6

График отклонения E(x) приведен на рис. 3.6.

Критерий Смирнова – Мизеса (критерий ω2)

Рассматривается статистика

		∞	2	dFξ (x) .
	2
ω		= Fn (x) − Fξ (x)

−∞

Учитывая выражение для Fn (x) , можно записать

2i −1

Fξ (x(i) ) −

12n

n i=1

Этот критерий по сравнению с критерием Колмогорова дает среднеквадратичную меру отклонения эмпирической и теоретической функций распределения.

Ядерные оценки плотности вероятности

Одним из новых подходов к оценке распределений являются ядерные оценки плотности вероятности

	1	n	x − X
Wn (x) =		K		i	,	(3.5)

	n h(n) i=1			h(n)

где n – объем выборки,				K (z) – сглаживающее ядро, h(n) – эффективная					ши-
рина ядра – «окно сглаживания»,					Xi – элемент выборки. Ядерная оценка яв-
ляется непрерывной функцией аргумента, в отличие от гистограммы.
	0.797	1
	0.797
	Xs i
round
	10	0.5
W ( t , 0 )
W ( t , 1 )		0
		0
W ( t , 2 )
W ( t , 3 )
W ( t , 4 )		0.5
W ( t , 4 )
	− 1	1	2	1	0	1	2	3
		1

			− 2		Xs i , t			3
					Рис. 3.7
Составляющие ядерной оценки плотности вероятности даны на рис. 3.7.

2.3	2.5
	2
	1.5
Wn(t)
	1
	0.5
0.013	0	4	2	0	2	4	6
	0	4	2	0	2	4	6
		− 3		t			5
				Рис. 3.8

Сумма компонент ядерной оценки плотности вероятности приведена на рис. 3.8.

Т а б л и ц а 3.1

Ядро

K(z)

(

)

Епанечникова

(3 / 4)(1− z

≤ 1

(

)

Квадратичное

(15 /16)(1− z

≤ 1

(

)

Треугольное

(1−

≤ 1

Гаусса

exp(− z2 / 2) /

2π

Некоторые примеры ядер даны в таблице 3.1. Выбор ширины окна h сглаживания K (n) важен для ядерной оценки.

Пример применения ядерной оценки бигауссовской плотности вероятности дан в листинге.

(u − m)

(u + m)

W(u) :=

exp

−

+ exp

−

2 s

8 π

Построение ядерной оценки Пл. В.

	1		−u	2		выбор ядра
					h := 0.1
K(u , h) :=		exp	2 h2
h	2 π

XS := sort ( X)

i := 0.. N − 1			f(u , i) := K u − XS		, h	)		N−1	f(u , i)
			(	i		)	Y(u) :=		N
								i = 0
u := −3, −2.9.. 3
	0.5
	0.4
Y(u)	0.3
Y(u)
W(u)
	0.2
	0.1
	0	3	2	1		0	1	2	3
						u
			Ядерная оценка плотностисплошная линия
			теоретическое распределение - пунктир

4. ОЦЕНКИ, ОСНОВАННЫЕ НА ПОРЯДКОВЫХ СТАТИСТИКАХ

Оценки, основанные на порядковых статистиках, обладают важным

достоинством – они являются высокоэффективными при нарушении гаус-

совского распределения исходных данных. Классические оценки в этом

случае становятся малопригодными. Оценки на основе порядковых стати-

стик слабо чувствительны к потере части экспериментальной информации.

Такие оценки используются при обработке «засоренных выборок».

Если исходная выборка (x1,...xn ) является независимой, то в вариаци-

′

элементы являются зависимыми. Кроме того, распреде-

онном ряде (x1,...xn )

ления

значений

вариационного

ряда

имеют

различный

вид.

Если

F (x), W (x) – законы распределения элементов исходной выборки, то плот-

ность вероятности j-й порядковой статистики x′j ,

1 ≤ j ≤ n

имеет вид

(n −1)!

j−1

n− j

Wj (x) =

( j −1)!(n − j)![F(x)]

[1− F(x)]

W (x) .

(4.1)

На рис. 4.1 приведены графики распределений порядковых статистик

их нормально распределенной выборки W (x) = exp(− x2 / 2)/

2π при n = 5.

0.748

0.8

fi( x, 1)

fi( x, 2) 0.6

fi( x, 3)

fi( x, 4) 0.4

fi( x, 5)

f ( x)

0.2

7.358 ×10− 14

− 3

Рис. 4.1

Очевидно, что порядковые статистики имеют негауссовские распределения (4.1), а также различные математические ожидания и дисперсии

∞

− F(u) n− j W (u)du

< x′ >≡ m

F(u) j−1

( j −1)!(n − j)!

[

]

−∞

Dj =< (x′j )2 > −m2j ,

′

∞

j−1

n− j

где

< (xj )

F(u)

[1− F(u)]

W (u)du .

( j −1)!(n − j)!

−∞

Оценка математического ожидания с помощью порядковых статистик

Пусть {xi } – наблюдаемая выборка объема n , а {xi′ }							– соответствую-
′		′			′
щий вариационный ряд: x1	≤ x2		≤ ... ≤ xn .
В качестве оценки математического ожидания может использоваться
статистическая медиана
							(4.2)
			Мed {X} ≡ xmed .				(4.2)
При четном n ( n = 2k, )
					′	′	(4.3)
					′	′
		x med≡ (xk				+ xk+1)/ 2,
При нечетном n ( n = 2k+1 )
						≡ x′ .	(4.4)
				x	med	≡ x′ .	(4.4)
					med	k

Если рассматриваемая случайная величина распределена по гауссовскому закону X ~ N (mX , σX ), то при достаточно больших n закон распре-

деления статистической медианы близок к гауссовскому, и оценка обладает следующими характеристиками:

M {x med}= mX ; D{x med}= 2πn σ2X .

Сравнить две оценки по точности можно на основе показателя – эффективности оценок

eff (x med / X )= D(X ) / D(xmed ) .

Следовательно, в этих условиях (гауссовская выборка) эффективность выборочной медианы (4.2)–(4.5) несколько ниже, чем эффективность выбо-

рочного среднего: eff (x med / X )= 2 / π ≈ 0.637 . Однако для негауссовских

распределений медиана более эффективна, чем выборочное среднее.

В таблице 4.2 представлены результаты сравнения эффективности двух оценок: med(X ) = xmed и X при различных законах распределения (гаус-

совом, экспоненциальном, равномерном).

Таблица 4.1 указывает эффективности оценок параметров распределений. Т а б л и ц а 4.1

Распреде-

N (μX ,σ2X )

Lp (θ,λ)

Exp(λ)

R(a,b)

(

a,c

)

−

ление

Лапласа

равномерное

Коши

xmed

2(n − 1)+ π

n+ 2

n ≈ 0,405n

πn

π2

eff

(при n → ∞

При n → ∞

(при n → ∞

eff ≈ 0.637 )

eff ≈ 0.33 )

eff → ∞

Оценка дисперсии с помощью порядковых статистик

Для оценки дисперсии и среднеквадратического значения случайной величины применяются процедуры, которые основываются на определении

′	′	Несмещенная оценка среднеквадратическо-
размаха выборки gn = xn	− x1.	Несмещенная оценка среднеквадратическо-

го значения определяется следующим выражением, где αn – некоторый коэффициент, определяемый объемом выборки:

s′X = gn / dn ,

Дисперсия этой оценки определяется следующим образом:

D{s′X }= σ2X (βn2 / dn2 ).

Значения коэффициентов αn и βn при различных объемах выборки

приведены в таблице 4.1.

Эффективность данной оценки ниже, чем эффективность среднеквадратического значения:

	eff (s′X / sX )=			2β2 Г2		(n / 2)
					n				<1.
		2		2			2		<1.
		dn
		dn	(n − 1) Г (( n − 1) / 2) − Г (n / 2)
Однако различие несущественно ( eff (s′X / sX )> 0.9 при n > 4 ), и при
увеличении объема выборки n				оценка s′X по точности приближается к
оценке SX .										Т а б л и ц а 4.2
										Т а б л и ц а 4.2
n	dn		βn			n		dn			βn
4	2,059		0,880			10		3,078			0,797

5	2,326		0,864			12		3,258			0,778

6	2,534		0,848			14		3,407			0,762

7	2,704		0,833			16		3,532			0,749

8	2,847		0,820			18		3,640			0,738

9	2,970		0,808			20		3,735			0,729

Если берется К случайных выборок с размахами gn(i) , i = 1.K , эти раз-

						K
махи усредняются			gn		= (1/ K ) gn(i) .
		1		cn		i=1
Тогда	′					gn .
	sX =
		K		dn

Усеченное среднее

Пусть 0 < α < 0.5, k = [α n]. Тогда усеченным средним называется

	1	′	′	(4.5)

Xα = n − 2k
		(xk+1	+ ... + xn−k ).

То есть отбрасывается 2k крайних значений вариационного ряда. При

α = 0 и α = 0.5 получаем выборочное среднее X и медиану med {X } . При отсутствии аномальных значений в выборке относительная эффективность

eff (X		)	в зависимости от α приведена в таблице 4.3
	α / X
								Т а б л и ц а 4.3
α				0	1/20	1/8	1/4	3/8	1/2
eff (X		)		1	0.99	0.94	0.84	0.74	0.64
	α / X

При наличии аномальных значений в нормальной выборке усеченное среднее (4.5) является достаточно хорошей робастной оценкой. Усеченное среднее применяется для симметричных распределений: Лапласа и др. Для несимметричных распределений оценка неприменима.

	Оценка Ходжеса–Лемана. Определим в выборке								x1,...,xn набор из
n(n +1) средних вида z				ij	=	xi+x j		(i ≤ j) , называемых средними Уолша. То
n(n +1) средних вида z					=			(i ≤ j) , называемых средними Уолша. То
	2	n(n +1)					2
есть берутся		n(n +1)	комбинаций пар выборок. Оценка						Ходжеса – Лемана
		2
определяется		как медиана					средних Уолша, то есть		как медиана ряда
′	′	′	2 .
z1	≤ z2 ≤ ,...,≤ zn( n+1) /		2 .

Следует отметить высокую устойчивость этой оценки к отклонениям от нормальности распределения и засоренности выборки аномальными наблюдениями.

Пример: в результате испытаний 30 приборов получены следующие значения ресурсной наработки:

xi = 721, 741, 752, 761, 763, 780, 794, 840, 890, 911, 944, 960, 961, 967, 1010, 1011, 1012, 1040, 1090, 1096, 1111, 1120, 1240, 1340, 1341, 1390, 1411, 1420, 1445, 1512.

Вычислим различными методами среднее значение ресурсной наработки.

Оценка максимального правдоподобия:

	1	n	1	30
x =		xi =		xi = 1045.8 .

	n i=1		30 i=1

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]