3.4. Особенности построения эмпирической функции распределения

Как уже отмечалось выше, эмпирической (статистической) функцией распределения F(x) случайной величины X называется закон изменения частоты события Х < х в данной статистической выборке, т. е.

F(x) = p(X < x),

где p=m/n – относительная частота события X<.x; m – число событий в данном интервале (классе) k, т. е. эмпирическая повторяемость; п – длина выборки.

При п→ ∞ р→р, где р – теоретическая вероятность события X < х и F(x)→F(х), где F(x) – теоретическая функция распределения.

В гидрометеорологических расчетах в некоторых случаях используется соотношение, имеющее следующий вид: G(х) = р(X ≥ x), которое называется эмпирической функцией обеспеченности. Графическое изображение эмпирической функции обеспеченности называется эмпирической кривой обеспеченности (рис. 3.10).

Если объем выборки п весьма велик, то построение надежных в статистическом смысле эмпирических функций распределения и обеспеченности не представляет затруднений. Однако, если в каждом интервале т<7–8, то для повышения надежности результатов обычно используется ряд приемов.

В общем случае процесс построения эмпирической функции распределения можно разбить на несколько этапов. Рассмотрим вкратце каждый из них.

Этап 1. Ранжирование исходного ряда наблюдений, т. е. расположение его в убывающем порядке от максимального значения до минимального (х_n x_n_-1 x_n_-2… x₁) или наоборот в возрастающем порядке. Очевидно, данный этап комментариев не требует.

Этап 2. Оценка оптимального определения числа интервалов (классов). Данный вопрос представляется весьма важным, поскольку имеют место две противоречивые тенденции. С одной стороны, увеличивая число интервалов, мы получаем более детальную картину распределения. Однако из-за ограниченности объема выборки в каждый интервал при этом попадает малое число наблюдений, в результате чего групповые частоты р начинают обнаруживать существенные случайные колебания. С другой стороны, при уменьшении числа интервалов случайные колебания значений р сглаживаются, но одновременно с этим сглаживаются и характерные черты распределения.

По-видимому, наиболее приемлемым будет некоторый компромисс, обеспечивающий достаточно четкое выявление основных особенностей изучаемого распределения. К сожалению, не существует строгого решения данной задачи. Обычно для выбора числа градаций используются те или иные эмпирические формулы. В качестве примера укажем две из них:

k ≈ 1+3,32 lg n,

k ≈ 5 lg n.

Первая может считаться излишне «жесткой». Поэтому для не очень больших выборок лучше ориентироваться на вторую формулу. Необходимо также помнить, что количество градаций k может быть только целым числом.

Этап 3. Нахождение ширины градаций. В первом приближении ширина градаций находится по следующей формуле:

Так как рассчитанное значение Δc может не совсем удачно характеризовать исходную выборку, то оно изменяется (обычно в большую сторону) до приемлемого для нас значения. Заметим, что на практике обычно принимается соответствие в числе значащих цифр Δc и х.

Этап 4. Определение границ классов. Границы градаций (с₁, с₂), (с₂, с₃), ... ,(c_k, c_k₊₁) находятся с учетом найденной ширины Δc, причем для крайних границ c₁ и c_k₊₁и крайних членов выборки x_max и x_min должны выполняться условия c₁ ≤ x_min, c_k₊₁ ≥ x_max. В некоторых случаях за начало первой градации рекомендуется брать c₁= x_min – Δc/2.

В процессе группирования выборки могут быть случаи точного совпадения отдельных наблюдений с границами градаций. Если число точно совпадающих членов выборки четное, то тогда их распределяют пополам в смежные градации. При нечетном числе таких членов остаточное от деления пополам наблюдение относят в меньшую из смежных градаций.

Этап 5. Оценка числа событий m в каждом интервале и построение гистограммы.

Отметим, что вследствие неравнозначности эмпирических повторяемостей т (в средней части распределения значений т представлено, как правило, значительно больше, чем в его крайних участках) могут возникать существенные погрешности при определении крайних частей кривых распределения и обеспеченности. С целью уменьшения искажения между эмпирической и истинной кривыми распределения предложен ряд эмпирических формул. Например,

Все эти формулы в какой-то степени учитывают выборочность имеющихся наблюдений, что выражается в асимптотическом приближении F* к F при п→∞. В средних частях кривой распределения данные формулы дают практически одинаковые результаты и различаются лишь для нижней и верхней частей кривой распределения.

Пример 3.2. Покажем построение эмпирической функции распределения для гидрологической станции в Белом море, где в летний период в течение месяца выполнены четырехразовые наблюдения за поверхностной температурой воды (ПТВ). Общая длина выборки составила n=100 значений температуры воды. Используя формулу Стерджесса k ≈ 1+3,32 lg n, имеем k=8 градаций (интервалов). Далее определяем ширину градации Δc = (14,1-9,7)/8 = 0,57 ^оС. Так как рассчитанное значение Δc не очень удачно характеризует ширину градации, то округляем его в большую сторону до Δc=0,6 ^оС. За начальное значение первого интервала примем величину c₁ = x_min – Δc/2 = 9,70,6/2 = 9,4 ^оС.

Распределение значений температуры воды по градациям, т.е. оценки эмпирической частоты, приведено в табл. 3.1. Кроме того, в данной таблице представлены оценки относительной частоты ПТВ, называемой частостью. Частость выражается в долях единицы или в процентах. Накопленная частота показывает, сколько наблюдалось вариантов со значением признака, меньше х. Из табл. 3.1 видно, что эмпирическое распределение ПТВ является близким к симметричному.

Таблица 3.1

Распределение данных поверхностной температуры воды на гидрологической станции в Белом море по градациям

Градация	Ширина градации, ^оС	Эмпирическая частота, m_i	Частость, m_i/n	Накопленная частота, m_i	Накопленная частость, m_i/n
1	9,4-10,0	3	0,03	3	0,03
2	10,0-10,6	7	0,07	10	0,10
3	10,6-11,2	11	0,11	21	0,21
4	11,2-11,8	20	0,20	41	0,41
5	11,8-12,4	28	0,28	69	0,69
6	124-13,0	19	0,19	88	0,88
7	13,0-13,6	10	0,10	98	0,98
8	13,6-14,2	2	0,02	100	1,00
		100	1,00	-	-

<<< < Предыдущая 1 2 34 / 54 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
30.03.20169.83 Mб36М.Л. Гаспаров - Современный русский стих.djvu
#
12.02.2015527.36 Кб157М.С.Друскин Заруб.муз.историография Уч.пособие.doc
#
02.08.201982.43 Кб2малая соц группа.doc
#
06.11.2018152.58 Кб10Малинин_1.doc
#
06.11.2018209.92 Кб20Малинин_2.doc
#
06.11.2018233.98 Кб9Малинин_3.doc
#
06.11.2018265.73 Кб20Малинин_4.doc
#
08.11.2019153.79 Кб52Маникюр как система ухода за ногтями.docx
#
27.10.20181.05 Mб11Манипулирование личностью.doc
#
07.07.2019408.58 Кб1Манифест 2005.doc
#
12.02.2015444.62 Кб90Манн Ю.В. Новые тенденции романной поэтики.pdf