- •Глава 3. Законы распределения случайной величины
- •3.1. Нормальный закон распределения
- •3.2. Законы распределения, используемые в гидрометеорологии
- •3.3. Законы распределения, используемые в статистических расчетах
- •3.4. Особенности построения эмпирической функции распределения
- •Понятие нормализации исходных данных
3.4. Особенности построения эмпирической функции распределения
Как уже отмечалось выше, эмпирической (статистической) функцией распределения F(x) случайной величины X называется закон изменения частоты события Х < х в данной статистической выборке, т. е.
F(x) = p(X < x),
где p=m/n – относительная частота события X<.x; m – число событий в данном интервале (классе) k, т. е. эмпирическая повторяемость; п – длина выборки.
При п→ ∞ р→р, где р – теоретическая вероятность события X < х и F(x)→F(х), где F(x) – теоретическая функция распределения.
В гидрометеорологических расчетах в некоторых случаях используется соотношение, имеющее следующий вид: G(х) = р(X ≥ x), которое называется эмпирической функцией обеспеченности. Графическое изображение эмпирической функции обеспеченности называется эмпирической кривой обеспеченности (рис. 3.10).
Если объем выборки п весьма велик, то построение надежных в статистическом смысле эмпирических функций распределения и обеспеченности не представляет затруднений. Однако, если в каждом интервале т<7–8, то для повышения надежности результатов обычно используется ряд приемов.
В общем случае процесс построения эмпирической функции распределения можно разбить на несколько этапов. Рассмотрим вкратце каждый из них.
Этап 1. Ранжирование исходного ряда наблюдений, т. е. расположение его в убывающем порядке от максимального значения до минимального (хn xn-1 xn-2 … x1) или наоборот в возрастающем порядке. Очевидно, данный этап комментариев не требует.
Этап 2. Оценка оптимального определения числа интервалов (классов). Данный вопрос представляется весьма важным, поскольку имеют место две противоречивые тенденции. С одной стороны, увеличивая число интервалов, мы получаем более детальную картину распределения. Однако из-за ограниченности объема выборки в каждый интервал при этом попадает малое число наблюдений, в результате чего групповые частоты р начинают обнаруживать существенные случайные колебания. С другой стороны, при уменьшении числа интервалов случайные колебания значений р сглаживаются, но одновременно с этим сглаживаются и характерные черты распределения.
По-видимому, наиболее приемлемым будет некоторый компромисс, обеспечивающий достаточно четкое выявление основных особенностей изучаемого распределения. К сожалению, не существует строгого решения данной задачи. Обычно для выбора числа градаций используются те или иные эмпирические формулы. В качестве примера укажем две из них:
k ≈ 1+3,32 lg n,
k ≈ 5 lg n.
Первая может считаться излишне «жесткой». Поэтому для не очень больших выборок лучше ориентироваться на вторую формулу. Необходимо также помнить, что количество градаций k может быть только целым числом.
Этап 3. Нахождение ширины градаций. В первом приближении ширина градаций находится по следующей формуле:
Так как рассчитанное значение Δc может не совсем удачно характеризовать исходную выборку, то оно изменяется (обычно в большую сторону) до приемлемого для нас значения. Заметим, что на практике обычно принимается соответствие в числе значащих цифр Δc и х.
Этап 4. Определение границ классов. Границы градаций (с1, с2), (с2, с3), ... ,(ck, ck+1) находятся с учетом найденной ширины Δc, причем для крайних границ c1 и ck+1 и крайних членов выборки xmax и xmin должны выполняться условия c1 ≤ xmin, ck+1 ≥ xmax. В некоторых случаях за начало первой градации рекомендуется брать c1 = xmin – Δc/2.
В процессе группирования выборки могут быть случаи точного совпадения отдельных наблюдений с границами градаций. Если число точно совпадающих членов выборки четное, то тогда их распределяют пополам в смежные градации. При нечетном числе таких членов остаточное от деления пополам наблюдение относят в меньшую из смежных градаций.
Этап 5. Оценка числа событий m в каждом интервале и построение гистограммы.
Отметим, что вследствие неравнозначности эмпирических повторяемостей т (в средней части распределения значений т представлено, как правило, значительно больше, чем в его крайних участках) могут возникать существенные погрешности при определении крайних частей кривых распределения и обеспеченности. С целью уменьшения искажения между эмпирической и истинной кривыми распределения предложен ряд эмпирических формул. Например,
Все эти формулы в какой-то степени учитывают выборочность имеющихся наблюдений, что выражается в асимптотическом приближении F* к F при п→∞. В средних частях кривой распределения данные формулы дают практически одинаковые результаты и различаются лишь для нижней и верхней частей кривой распределения.
Пример 3.2. Покажем построение эмпирической функции распределения для гидрологической станции в Белом море, где в летний период в течение месяца выполнены четырехразовые наблюдения за поверхностной температурой воды (ПТВ). Общая длина выборки составила n=100 значений температуры воды. Используя формулу Стерджесса k ≈ 1+3,32 lg n, имеем k=8 градаций (интервалов). Далее определяем ширину градации Δc = (14,1-9,7)/8 = 0,57 оС. Так как рассчитанное значение Δc не очень удачно характеризует ширину градации, то округляем его в большую сторону до Δc=0,6 оС. За начальное значение первого интервала примем величину c1 = xmin – Δc/2 = 9,70,6/2 = 9,4 оС.
Распределение значений температуры воды по градациям, т.е. оценки эмпирической частоты, приведено в табл. 3.1. Кроме того, в данной таблице представлены оценки относительной частоты ПТВ, называемой частостью. Частость выражается в долях единицы или в процентах. Накопленная частота показывает, сколько наблюдалось вариантов со значением признака, меньше х. Из табл. 3.1 видно, что эмпирическое распределение ПТВ является близким к симметричному.
Таблица 3.1
Распределение данных поверхностной температуры воды на гидрологической станции в Белом море по градациям
Градация |
Ширина градации, оС |
Эмпирическая частота, mi |
Частость, mi/n |
Накопленная частота, mi |
Накопленная частость, mi/n |
1 |
9,4-10,0 |
3 |
0,03 |
3 |
0,03 |
2 |
10,0-10,6 |
7 |
0,07 |
10 |
0,10 |
3 |
10,6-11,2 |
11 |
0,11 |
21 |
0,21 |
4 |
11,2-11,8 |
20 |
0,20 |
41 |
0,41 |
5 |
11,8-12,4 |
28 |
0,28 |
69 |
0,69 |
6 |
124-13,0 |
19 |
0,19 |
88 |
0,88 |
7 |
13,0-13,6 |
10 |
0,10 |
98 |
0,98 |
8 |
13,6-14,2 |
2 |
0,02 |
100 |
1,00 |
|
|
100 |
1,00 |
- |
- |