Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Малинин_3.doc
Скачиваний:
9
Добавлен:
06.11.2018
Размер:
233.98 Кб
Скачать

3.4. Особенности построения эмпирической функции распределения

Как уже отмечалось выше, эмпирической (статистической) функцией распределения F(x) случайной величины X называется закон изменения частоты события Х < х в данной статистической выборке, т. е.

F(x) = p(X < x),

где p=m/n – относительная частота события X<.x; m – число событий в данном интервале (классе) k, т. е. эмпирическая повторяемость; п – длина выборки.

При п→ ∞ рр, где р – теоретическая вероятность события X < х и F(x)→F(х), где F(x) – теоретическая функция распределения.

В гидрометеорологических расчетах в некоторых случаях используется соотношение, имеющее следующий вид: G(х) = р(Xx), которое называется эмпирической функцией обеспеченности. Графическое изображение эмпирической функции обеспеченности называется эмпирической кривой обеспеченности (рис. 3.10).

Если объем выборки п весьма велик, то построение надежных в статистическом смысле эмпирических функций распределения и обеспеченности не представляет затруднений. Однако, если в каждом интервале т<7–8, то для повышения надежности результатов обычно используется ряд приемов.

В общем случае процесс построения эмпирической функции распределения можно разбить на несколько этапов. Рассмотрим вкратце каждый из них.

Этап 1. Ранжирование исходного ряда наблюдений, т. е. распо­ложение его в убывающем по­рядке от максимального значения до минимального (хn xn-1 xn-2 x1) или наоборот в возрастающем порядке. Очевидно, данный этап комментариев не требует.

Этап 2. Оценка оптимального определения числа интервалов (классов). Данный вопрос представляется весьма важным, поскольку имеют место две противоречивые тенденции. С одной стороны, увеличивая число интервалов, мы получаем более детальную картину распределения. Однако из-за ограниченности объема выборки в каждый интервал при этом попадает малое число наблюдений, в результате чего групповые частоты р начинают обнаруживать существенные случайные колебания. С другой стороны, при уменьшении числа интервалов случайные колебания значений р сглаживаются, но одновременно с этим сглаживаются и характерные черты распределения.

По-видимому, наиболее приемлемым будет некоторый компромисс, обеспечивающий достаточно четкое выявление основных особенностей изучаемого распределения. К сожалению, не существует строгого решения данной задачи. Обычно для выбора числа градаций используются те или иные эмпирические формулы. В качестве примера укажем две из них:

k ≈ 1+3,32 lg n,

k ≈ 5 lg n.

Первая может считаться излишне «жесткой». Поэтому для не очень больших выборок лучше ориентироваться на вторую формулу. Необходимо также помнить, что количество градаций k может быть только целым числом.

Этап 3. Нахождение ширины градаций. В первом приближении ширина градаций находится по следующей формуле:

Так как рассчитанное значение Δc может не совсем удачно характеризовать исходную выборку, то оно изменяется (обычно в большую сторону) до приемлемого для нас значения. Заметим, что на практике обычно принимается соответствие в числе значащих цифр Δc и х.

Этап 4. Определение границ классов. Границы градаций (с1, с2), (с2, с3), ... ,(ck, ck+1) находятся с учетом найденной ширины Δc, причем для крайних границ c1 и ck+1 и крайних членов выборки xmax и xmin должны выполняться условия c1xmin, ck+1xmax. В некоторых случаях за начало первой градации рекомендуется брать c1 = xmin – Δc/2.

В процессе группирования выборки могут быть случаи точного совпадения отдельных наблюдений с границами градаций. Если число точно совпадающих членов выборки четное, то тогда их распределяют пополам в смежные градации. При нечетном числе таких членов остаточное от деления пополам наблюдение относят в меньшую из смежных градаций.

Этап 5. Оценка числа событий m в каждом интервале и построение гистограммы.

Отметим, что вследствие неравнозначности эмпирических повторяемостей т (в средней части распределения значений т представлено, как правило, значительно больше, чем в его крайних участках) могут возникать существенные погрешности при определении крайних частей кривых распределения и обеспеченности. С целью уменьшения искажения между эмпирической и истинной кривыми распределения предложен ряд эмпирических формул. Например,

Все эти формулы в какой-то степени учитывают выборочность имеющихся наблюдений, что выражается в асимптотическом приближении F* к F при п→∞. В средних частях кривой распределения данные формулы дают практически одинаковые результаты и различаются лишь для нижней и верхней частей кривой распределения.

Пример 3.2. Покажем построение эмпирической функции распределения для гидрологической станции в Белом море, где в летний период в течение месяца выполнены четырехразовые наблюдения за поверхностной температурой воды (ПТВ). Общая длина выборки составила n=100 значений температуры воды. Используя формулу Стерджесса k ≈ 1+3,32 lg n, имеем k=8 градаций (интервалов). Далее определяем ширину градации Δc = (14,1-9,7)/8 = 0,57 оС. Так как рассчитанное значение Δc не очень удачно характеризует ширину градации, то округляем его в большую сторону до Δc=0,6 оС. За начальное значение первого интервала примем величину c1 = xmin – Δc/2 = 9,70,6/2 = 9,4 оС.

Распределение значений температуры воды по градациям, т.е. оценки эмпирической частоты, приведено в табл. 3.1. Кроме того, в данной таблице представлены оценки относительной частоты ПТВ, называемой частостью. Частость выражается в долях единицы или в процентах. Накопленная частота показывает, сколько наблюдалось вариантов со значением признака, меньше х. Из табл. 3.1 видно, что эмпирическое распределение ПТВ является близким к симметричному.

Таблица 3.1

Распределение данных поверхностной температуры воды на гидрологической станции в Белом море по градациям

Градация

Ширина градации, оС

Эмпирическая частота, mi

Частость,

mi/n

Накопленная частота, mi

Накопленная частость, mi/n

1

9,4-10,0

3

0,03

3

0,03

2

10,0-10,6

7

0,07

10

0,10

3

10,6-11,2

11

0,11

21

0,21

4

11,2-11,8

20

0,20

41

0,41

5

11,8-12,4

28

0,28

69

0,69

6

124-13,0

19

0,19

88

0,88

7

13,0-13,6

10

0,10

98

0,98

8

13,6-14,2

2

0,02

100

1,00

100

1,00

-

-

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]