Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Дуплякин В.М. Статистический анализ

.pdf
Скачиваний:
43
Добавлен:
16.03.2015
Размер:
1.3 Mб
Скачать

Будем считать, что рассматриваются независимые опыты, поэтому корреляционный момент равен нулю, т.е. Ki j = 0 .

С учётом сделанных уточнений имеем

 

 

 

 

 

é * ù

=

n -1

Dx

,

(2.24)

M ëDx û

n

 

 

 

 

 

откуда видна смещённость используемой статистической оценки дисперсии.

Как следствие выявленной особенности, оценка дисперсии, получаемая по формуле

 

1

n

 

Dx* =

å(xi - mx* )2

(2.25)

 

n

i=1

 

или, что даёт тот же результат, но несколько удобнее для вычислений

Dx* =

1

n

 

åxi2 - (m*x )2

(2.26)

 

n

i=1

 

называется смещённой оценкой дисперсии.

Устранение смещения оценки дисперсии не вызывает затруднений и выполняется следующим образом, позволяя получать несмещённые выборочные оценки по формулам

 

n

 

 

1

n

 

 

1

n

Dx* =

×

å(xi - m*x )2 =

å(xi - mx* )2

n -1

 

 

 

 

 

n i=1

 

 

n -1 i=1

 

Dx* = n -1 êé

или

 

 

(2.27)

 

1 åxi2

- (mx* )2 úù.

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

n ën i=1

 

 

û

Таким образом, связь между несмещёнными оценками дисперсии и

соответствующими смещёнными дисперсиями устанавливается в виде соотношения

D*

(х) = n -1 D*

(х) .

(2.28)

несмещ

n

смещ

 

 

 

 

 

 

Оценим насколько велика может быть поправка дисперсии, устраняющая её смещение. Обратимся к данным приведенным ниже в таблице для выборок различного объёма.

Таблица 2.1 – Поправка на смещение дисперсии

n

 

n

 

 

n -1

 

 

 

 

10

1,111

 

 

30

1,034

 

 

100

1,010

 

 

200

1,005

 

 

 

 

20

Очевидно, что поправку на смещение дисперсии следует использовать только для

средних выборок, а для представительных выборок она не имеет значения.

 

é

* ù

® min .

(2.29)

2.3.3. Эффективность – D ëD

û

Можно показать, но это выходит за рамки данного пособия, что в общем случае выборочные оценки дисперсии не эффективны.

В случае нормального закона распределения наблюдается так называемая асимптотическая эффективность, т.е. при неограниченном увеличении числа опытов статистическая оценка дисперсии приближается к минимальной, становясь тем самым эффективной.

2.4. Свойства выборочных оценок вероятности случайного события

Рассмотрим статистическую оценку вероятности по частоте появления события при ограниченном числе независимых опытов в постоянных условиях

p* = m

,

(2.30)

n

 

 

где n объём выборочных данных, m число опытов, в

которых реализовалось

интересующее нас событие, или как ещё говорят по-другому число опытов благоприятствующих рассматриваемому событию.

Представим число появлений данного события в виде суммы дискретных случайных величин Xi , каждая из которых может принимать только два значения, т.е. 0 или 1 с

вероятностями, приведенными в статистическом ряду

xi k

0

1

pk

1− p

p

 

 

 

Попутно заметим, что статистические характеристики бинарной случайной величины

Xi определяются, как это известно, из теории вероятностей, следующим образом

mx

= p,

Dx = p(1- p) .

(2.31, 2.32)

 

i

i

 

2.4.1. Состоятельность это свойство статистической оценки вероятности являющееся следствием теоремы Я.Бернулли, в соответствии с которой частота события сходится по вероятности к вероятности данного события при увеличении числа опытов, что в

формализованном виде описывается соотношением

P( p* - p ³ ε ) £ δ , для любых малых положительных величин ε и δ .

21

2.4.2. Несмещённость – M[ p*] = p .

(2.33)

Найдём математическое ожидание статистической оценки вероятности как математическое ожидание суммы случайных бинарных величин, используя известные

теоремы теории вероятностей о числовых характеристиках линейных функций случайных величин

M é p

*

ù

= M

émù

=

1

M

é n

ù

=

1 é n

m

ù

=

1

n × p = p .

 

ê ú

 

x

 

êå

xi ú

 

ë û

 

 

 

n

 

êå i ú

 

 

 

n

 

 

 

 

 

 

ë n û

 

 

ë i=1

û

 

n ë i=1

 

û

 

 

Представленные выкладки доказывают несмещённость статистической

вероятности по частоте регистрации события.

 

 

 

 

 

 

 

 

 

2.4.3. Эффективность – D

é

 

* ù

 

 

 

 

 

 

 

 

 

 

 

 

 

ë p

û ® min .

 

 

 

 

 

 

 

 

 

 

 

Найдём дисперсию частоты наблюдаемых событий

(2.34)

оценки

(2.35)

 

 

*

 

 

 

émù

 

1

 

é n

 

ù

 

1

 

 

1

 

 

 

D

é p

 

ù

= D

ê ú

=

 

 

 

M

êå

D

xi ú

=

 

 

p ×

(1- p) =

 

p ×(1

- p) .

(2.36)

 

 

 

2

 

2

 

 

ë û

 

 

 

 

n

 

 

 

n

 

 

n

 

 

 

 

 

 

 

 

 

ë n û

 

 

 

 

ë i=1

 

û

 

 

 

 

 

 

 

Можно показать,

что

такая

 

дисперсия

является

минимально

возможной и,

следовательно, оценка p* = mn является эффективной.

Проведенный анализ свойств выборочной оценки вероятности по частоте показал, что эта оценка отвечает требованиям состоятельности, несмещённости и эффективности, т.е. всем тем основным требованиям, которым должны удовлетворять статистические оценки характеристики случайных величин.

22

3.ОБРАБОТКА ОПЫТОВ

3.1.Простая статистическая совокупность. Статистический ряд. Гистограмма

Предположим, что изучается некоторая случайная величина Х, закон распределения которой неизвестен. Требуется решить одну из задач математической статистики, например, определить численные значения параметров закона её распределения, используя данные наблюдений за рассматриваемой величиной, или проверить гипотезу о том, что величина Х подчиняется тому или иному закону распределения.

Для решения этой задачи над случайной величиной Х производится ряд независимых опытов (наблюдений), в результате которых величина Х принимает определённые значения. Эти данные представляют собой первичный статистический материал, подлежащий последующей обработке и анализу.

Совокупность зарегистрированных опытных значений случайной величины называется простой статистической совокупностью или простым статистическим рядом, а так же выборкой.

Наблюдаемые значения случайных величин протоколируются, как это показано в качестве примера, приведенного в таблице 3.1.

Таблица 3.1 – Регистрация статистических данных

Номер

Значение

опыта

случайной

(наблюдение)

величины

i

xi

 

 

1

120

 

 

2

110

 

 

3

105

 

 

 

 

 

 

n

150

 

 

Исходя из целей решения выбранной статистической задачи, необходимо определиться с необходимым числом опытов или наблюдений n . Этому вопросу мы уделим в данном пособии особое внимание (см. раздел 8), однако сразу же отметим, что по объёму

23

зарегистрированных данных различают малые выборки n = 6 −12 , средние выборки n = 20 − 60 и представительные (репрезентативные) выборки объёмом n = 200 − 600 .

Приведенные границы малых, средних и представительных выборок достаточно условны и при этом очевидно, что чем больше объём выборки, тем достовернее решение соответствующей статистической задачи.

Менее очевидно то, что желая повысить достоверность получаемых оценок случайных величин и используя для этого, например, выборку объёмом n2 = 70 вместо выборки меньшего объёма n1 = 60 мы не получим ощутимого увеличения точности оценок,

т.к. для этого нужно значительно увеличить объём данных, переходя к представительным выборкам, имеющим n2 = 200 - 600 .

Малые выборки, из-за низкой достоверности результатов их обработки, в

практических приложениях математической статистики используются в исключительно редких случаях, когда объём выборки затруднительно увеличить по каким-либо соображениям.

Основным инструментом практической статистики является обработка средних выборок.

Используя представительные выборки, мы, конечно, увеличиваем достоверность получаемых решений статистических задач, но при этом следует отметить, что в отличие от средних выборок, где в качестве исходных данных выступает простая статистическая совокупность, здесь это представление исходных данных теряет наглядность, т.к. простая

статистическая совокупность при числе наблюдений в несколько сотен перестаёт быть удобной и наглядной, т.к. становится громоздкой и необозримой.

Для придания компактности и наглядности данным представительной выборки выполняется предварительная обработка, в результате которой строится статистический ряд.

Что бы получить статистический ряд необходимо разделить весь диапазон опытных данных [xmin; xmax ] на интервалы или "разряды".

Число разрядов можно определить, например, по формуле Стерджесса (Herbert

Sturges, 1926), результат применения которой округляется в большую сторону

 

k =1+ log2 N

или в десятичных логарифмах k =1+ 3,322×lg N ,

(3.1)

где N объём выборки.

 

 

Можно задать число

разрядов экспертным путём назначив k = 12 − 20 ,

т.к. такое

число разрядов обеспечивает достаточную точность последующих вычислений.

Выбрав число разрядов k , найдем ширину разрядного интервала, считая её

постоянной величиной

24

h =

xmax xmin

.

(3.2)

 

 

k

 

Далее находим границы разрядных интервалов

 

Ji = (xi ; xi+1 = xi + h), x1 = xmin , i = 1, 2, ... , k .

(3.3)

В заключение предварительной обработки представительной выборки, найдём частоту попадания опытных данных в соответствующие интервалы, используя число попаданий в каждый из разрядов mi найденное для данной выборки

p* = mi , i = 1, 2, ... , k .

(3.4)

i

N

 

 

 

k

Очевидно, что å pi* = 1.

i=1

Собственно статистическим рядом называется таблица, отражающая полученные результаты предварительной обработки представительной выборки, пример структуры оформления которой представлен в виде таблицы 3. 2.

При последующем анализе границы интервалов используются редко, обычно требуются численные значения "представителей" разрядов, которые вычисляются

следующим образом

 

x* =

xi

+ xi+1

, i = 1, 2, ... , k .

(3.5)

 

 

 

 

i

2

 

 

 

 

 

 

 

 

 

 

 

Таблица 3.2 – Статистический ряд

 

 

 

 

 

 

 

 

 

 

i

1

 

2

k

 

 

 

 

 

 

Ji = (xi ; xi+1 )

(x1; x2 )

(x2; x3 )

(xk ; xk+1 )

 

 

 

 

 

 

 

pi* = mi

p1*

 

p2*

pk*

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

При построении статистических рядов возникают вопросы, один из которых состоит в том, что непонятно как поступать, если какое-то из наблюдаемых значений попадает точно на границу смежных разрядов это маловероятно, но возможно.

Здесь можно поступать по-разному, например, для каждого такого значения прибавлять к накопленным частотам смежных разрядов по 1/2, как бы разделив эту точку поровну между соседними разрядами. Поскольку таких значений в принципе не может быть много, а выборка представительная, в которой число опытов составляет сотни наблюдений, то вполне подойдёт любое формализованное правило учёта таких данных, например, смещение этих точек в левый или в правый ближайший разряд на результатах решения статистических задач практически это не отразится.

25

Часто также возникает вопрос о целесообразности использования неравномерного разбиения разрядных интервалов. При ограниченном и заведомо малом числе разрядов, например, k = 6 − 8 такой подход может повысить точность последующего использования полученного статистического ряда, но реализация неравномерного разбиения зависит от вида распределения исследуемой случайной величины, а его ещё предстоит определить. Поэтому вопрос решается чисто технически увеличивается число разрядов, а разрядные интервалы принимаются одинаковыми.

Графическое изображение статистического ряда называется гистограммой, схематичное построение гистограммы, приведено на рис.3.1. Очевидно, что при увеличении

числа наблюдений и при соответствующем увеличении числа разрядов гистограмма начнёт приближаться к плотности вероятностей рассматриваемой случайной величины.

P* 0,25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,20

 

 

 

 

 

 

 

 

 

k =10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,15

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,05

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 2 3 4 5 6 7 8 9 10

разряды

Рис. 3.1 – Гистограмма случайной величины

3.2. Числовые характеристики статистического распределения

Конечно, наиболее общей характеристикой случайной величина является закон распределения в той или иной форме, а именно в виде функции распределения или в виде плотности вероятности. Закон распределения содержит всю полноту информации о данной случайной величине с точки зрения математики, а точнее, теории вероятностей и ещё точнее, с позиций математической статистики.

26

Однако выявление закона распределения зачастую и не требуется, что имеет место во многих приложениях математической статистики к решению практических задач, когда достаточно ограничиться только получением оценок характеристик распределения.

Отметим некоторое примечание о возможной неоднозначности терминологии в математической статистике: так например синонимами выборочная оценка какой-либо характеристики являются широко распространённые синонимы: статистическая, опытная оценка.

Для генеральной оценки синонимами являются синонимами: истинная, теоретическая оценка.

3.2.1. Выборочное математическое ожидание

А. Средняя выборка mx* =

1

n

åxi .

 

n i=1

k

Б. Представительная выборка m*x = åxi × pi* .

i=1

(3.6)

(3.7)

3.2.2. Выборочная дисперсия и среднего квадратического отклонения

 

1

n

А. Средняя выборка Dx* =

å(xi - m*x )2 .

 

n

i=1

k

Б. Представительная выборка Dx* = å(xi - mx )2 × pi* .

i=1

Среднее квадратическое отклонение

s*x = Dx* .

3.2.3. Выборочные начальные моменты

А. Средняя выборка αs*(x) =

1

n

å(xi )s .

 

n i=1

 

 

k

Б. Представительная выборка

αs*(x) = å(xi )s × pi* .

i=1

3.2.4. Выборочные центральные моменты

А. Средняя выборка μs*(x) = 1n ån (xi - m*x )s .

i=1

k

Б. Представительная выборка μs*(x) = å(xi - mx )s × pi* .

i=1

27

(3.8)

(3.9)

(3.10)

(3.11)

(3.12)

(3.13)

(3.14)

Свойства выборочных моментов такие же, как у одноимённых моментов, соответствующих генеральной совокупности наблюдаемых данных, так, например

μ1*(x) = 0;

μ*2 (x) = Dx* = α2* (x) − (m*x )2 и т.п.

Приведенные формулы для статистических оценок характеристик распределения случайных величин можно получить, используя формулы для аналогичных характеристик

дискретных случайных величин и записывая их для частного случая равной вероятности наблюдаемых значений, что на самом деле вовсе не обязательно. Поэтому такой формальный подход имеет недостатки, которые, как показывает исследование данного вопроса, в наибольшей степени проявляются при обработке средних выборок, к чему мы вернёмся в данном пособии несколько позднее.

Примечание. Выборочные моменты выше 4-го порядка редко используются в практике статистического анализа, т.к. при постоянном объёме выборок с ростом порядка

вычисляемых моментов значительно снижается достоверность получаемых статистических оценок. Поэтому обеспечение достаточной точности этих оценок требует увеличения объёма выборки до таких значений, которые обычно трудно реализовать по чисто техническим причинам.

3.3. Выравнивание статистических рядов

Задача выравнивания статистических рядов заключается в том, что бы подобрать теоретическую кривую распределения, с той или иной точки зрения наилучшим образом описывающую данное статистическое распределение.

Очевидно, что критерий наилучшего подбора может быть различным, а решение данный задачи не является однозначным.

Обратимся к причинам вызывающим постановку задачи выравнивания статистических рядов. Дело здесь в том, что на практике мы имеем всегда ограниченное число наблюдений (выборка), поэтому статистическое (выборочное) распределение в большей или меньшей мере имеет случайные черты, которые маскируют распределение генеральной совокупности рассматриваемых данных.

28

Наиболее распространённым методом выравнивания статистических рядов является метод моментов.

Рассмотрим применение данного метода в тех случаях, когда случайная величина X

распределена в генеральной совокупности по нормальному закону с функцией распределения, описываемой выражением

F(x) =

 

1

 

x

exp

æ

-

(x - m

)2 ö

dx ,

 

 

 

 

 

 

ç

x

 

÷

(3.15)

 

 

 

 

 

2

 

sx

 

−∞ò

 

 

 

è

 

2sx

ø

 

 

параметры которого, а именно mx и sx , мы не знаем, кроме того мы не знаем вообще, какой вид имеет закон распределения генеральной совокупности интересующих нас данных.

В нашем распоряжении только лишь ограниченная выборка данных, статистическая

обработка которых позволила получить выборочные оценки характеристик m*x и s*x .

Подставив выборочные оценки моментов распределения m*x и s*x в выражение предполагаемого нами закона распределения, получим выравнивающую функцию

распределения

 

*

 

 

1

 

x

 

æ

 

(x - m* )2 ö

 

 

F

 

(x) =

 

 

 

 

−∞ò

exp

ç

-

* x2

÷

dx .

(3.16)

 

 

 

 

 

 

sx*

 

 

 

 

 

 

 

 

è

 

2(sx )

ø

 

 

Очевидно, что выравнивающая функция распределения и исходные выборочные данные имеют одинаковые моменты распределения, в этом и заключается идея метода моментов.

Убедимся в возможностях выравнивания статистических функций распределения, обратившись к иллюстрациям на рисунках 3.2, 3.3 и 3.4, где приведены результаты статистической обработки трёх выборок из одной генеральной совокупности. Выборки различаются объёмом, который составляет в этих примерах n1=15, n2=40 и n3=100.

29