Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
TV11_1_2.doc
Скачиваний:
24
Добавлен:
12.07.2019
Размер:
2.01 Mб
Скачать

5 Элементы математической статистики

5.1 Выборка и выборочные законы распределения

Задачами математической статистики являются оценка законов распре-

деления, числовых характеристик и параметров случайных величин, провер-

ка статистических гипотез, анализ зависимостей между входными и выход-

ными параметрами, прогнозирование, планирование эксперимента и т.д.

Эти и другие статистические выводы относительно свойств полной со-

вокупности данных (генеральной совокупности ) делают на основе специ-

альным образом отобранной части данных

x1, x2, . . . , xn,

называемой выборкой объема n .

Выборка должна обладать следующими свойствами.

1. Необходимо, чтобы выборка была репрезентативной , т. е. имела до-

статочно большой объем и полно, однородно, равномерно и равноверо-

ятно по отношению к другим возможным выборкам представляла всю

генеральную совокупность.

2. Выборка должна быть рандомизированной, т. е. полученной случай-

ным образом в одинаковых условиях и в виде последовательности по-

вторных независимых реализаций случайной величины X .

3. В рамках статистической модели, привлекаемой для анализа данных, вы-

борка должна рассматриваться как реализация n -мерного случайного

вектора (X1, X2, . . . , Xn) (выборочного вектора ) с независимыми и

одинаково распределенными компонентами.

До опыта статистический анализ проводится на основе выборочного

вектора X1, X2, . . . , Xnдля чего используется аппарат теории вероятностей.

После опыта рассматривается неслучайный вектор (выборка) x1, x2, . . . , xn,

который является числовой реализацией случайного вектора X1, X2, . . . , Xn.

В математической статистике принято, как правило, использовать ма-

лые буквы и для выборочного вектора, и для выборки.

Если все элементы выборки расположить в порядке неубывания

x(1)≤ x(2)≤ . . . ≤ x(n),

то получим вариационный ряд , элементы которого называют порядковы-

ми статистиками . Наименьшее значение в выборке называют первой

98

порядковой статистикой x(1), а наибольшее значение называют n -ой

порядковой статистикой x(n) . Разность между наибольшим и наимень-

шим значениями называют размахом выборки , обозначают буквой w∗ и

вычисляют по формуле w∗=x(n) − x(1).

Если в выборке имеется достаточно много одинаковых элементов, то

используют статистический ряд.

Статистическим рядом называют систему пар чисел

(zi, ni), i = 1, 2, . . . , k,

где zi различные элементы выборки, расположенные в порядке возраста-

ния, ni частота элемента в выборке, т. е. число повторений элемента. Обыч-

но статистический ряд представляют в виде таблицы , где первая строка

содержит элементы zi, а вторая их частоты. Если в выборке нет одинако-

вых элементов, то статистический и вариационный ряды совпадают. По вари-

ационному или статистическому ряду строится эмпирическая (выборочная)

функция распределения Fn(x) , которая является оценкой функции распре-

деления FX(x) случайной величины X , сформировавшей данную выборку.

Из определения выборки следует, что каждое выборочное значение име-

ет вероятность 1/n . Поэтому, если в выборке нет одинаковых элементов,

то рассматривают дискретную случайную величину Xn∗ , которая принимает

значения x(1), x(2), . . . , x(n),причем каждое значение имеет вероятность 1/n .

Обозначим n(x) число элементов вариационного ряда меньших аргумента

x . Тогда эмпирическая функция распределения вычисляется по формуле

Fn(x) = n(x)/n, x ∈ R

и равна функции распределения случайной величины Xn.

Если в выборке имеются одинаковые элементы, то эмпирическую функ-

цию распределения удобно строить по статистическому ряду по формуле

Fn(z) = ∑ni/n,z ∈ R.

zi<z

Эмпирическая функция распределения изменяется от нуля до едини-

цы, непрерывна слева, является кусочно постоянной функцией, имеющей во

всех значениях статистического ряда скачки, равные относительной часто-

те данного элемента в выборке. Значение и ценность эмпирической функции

распределения для решения задач математической статистики определяется

следующей теоремой, которая следует из теоремы Бернулли.

Теорема (Гливенко). Эмпирическая функция распределения Fn(x)

при неограниченном увеличении объема выборки сходится по вероятности

99

при любом значении x ∈ R к теоретической функции распределения гене-

ральной совокупности FX(x) .

Таким образом, при большом объеме выборки эмпирическая функция

распределения Fn(x) является достаточно точным приближением для неиз-

вестной заранее теоретической функции распределения FX(x) .

Пример. Рассмотрим выборку объемом в 10 наблюдений

3, 7, 10, 5, 5, 7, 2, 7, 2, 4,

которая была сформирована для анализа затрат времени водителями на ав-

тозаправочной станции в течение суток.

Решение. Для того чтобы выборка была репрезентативной и рандоми-

зированной сутки были разбиты на десять равных частей по 144 минуты, а

время ожидания выбиралось случайно в каждом из диапазонов.

Упорядочив выборку по неубыванию, получим вариационный ряд

2 ≤ 2 ≤ 3 ≤ 4 ≤ 5 ≤ 5 ≤ 7 ≤ 7 ≤ 7 ≤ 10.

Размах выборки равен w∗=x(10) − x(1)= 10 − 2 = 8 .

Статистический ряд выборки представляется в виде таблицы

zi2 3 4 5 7 10

ni2 1 1 2 3 1

В данном примере эмпирическая функция распределения имеет вид

,



x ≤ 2,



0, 2, 2 < x ≤ 3,







 0, 3, 3 < x ≤ 4,



F10(x) =



0, 4, 4 < x ≤ 5,

 0, 6, 5 < x ≤ 7,





0, 9, 7 < x ≤ 10,





1,

x > 10.

Если выборка имеет большой объем и содержит много различных эле-

ментов, то выборку разбивают на группы и представляют данные в виде

группированного или интервального статистического ряда.

100

Для этого отрезок [a; b] , содержащий выборку, обычно разбивают на

равные непересекающиеся полуинтервалы [a; x1), [x1; x2), . . . , [xs−1 ; b] общим

числом s и длиной h . Длину интервала h часто рекомендуют вычислять

ориентируясь на формулу Стерджеса

h =

xmax− xmin

1 + log2n

=

xmax− xmin

1 + 3, 322 lg n

.

В практических приложениях обычно сначала выбирают число интервалов s

равным целому числу близкому к значению 1 + 3, 322 lg n . Далее назначают

левую и правую границы отрезка [a; b] , стараясь максимально приблизиться

к значениям xmin(слева) и xmax(справа). Наконец, находят длину интервала

h по формуле h = (b − a)/s .

Далее вычисляют: середины интервалов zi, частоты mi ко-

личество элементов выборки, попавших в интервалы ti, относительные

частоты mi/n , накопленные частоты ∑ij=1mj общее количество

элементов в первых i интервалах, накопленные относительные часто-

ты ∑ij=1=mj/n . Полученные результаты сводят в таблицу частот

группированной выборки .

Для наглядного представления выборки по табличным значениям стро-

ят гистограмму относительных частот, полигон относительных частот и ку-

мулятивную кривую. Гистограммой относительных частот fn(x) на-

зывают кусочно-постоянную функцию, принимающую на каждом из интер-

валов tiзначения относительной частоты, отнесенные к длине каждого ин-

тервала. Гистограмму обычно изображают в виде ступенчатой фигуры.

Если точки (zi; mi/n), i = 1, 2, . . . , s соединить отрезками прямых, то

получим сплайн-функцию f˜n(x) , которую называют полигоном относи-

тельных частот . График этой функции есть кусочно-линейная кривая

с изломами в серединах интервалов. При увеличении объема выборки ги-

стограмма и полигон относительных частот приближаются к плотности или

полигону теоретического распределения случайной величины X .

Кумулятивной кривой F˜n(x) называют сплайн-функцию первого

порядка с узлами в следующих точках:

zi,

i

mj

n

j=1

!

, i = 1, 2, . . . , s.

Кумулятивная кривая возрастает и имеет вид кусочно-линейной функ-

ции с изломами в серединах интервалов группирования.

При большом объеме выборки эмпирическая функция распределения

101

и кумулятивная кривая являются хорошими приближениями для теоретиче-

ской функции распределения FX(x) случайной величины X .

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]