- •1 Случайные события
- •1.1 Основные понятия и определения
- •1.2 Аксиомы теории вероятностей
- •1.3 Классическая схема вычисления вероятностей
- •1.3.1 Декартово произведение множеств и правило умножения
- •1.3.2 Размещения и перестановки
- •1.3.3 Сочетания при выборе с возвращением и без возвращения
- •1.3.4 Схема упорядоченных разбиений множества
- •1.4 Геометрическая, статистическая и экспертная схемы расчета
- •1.4.1 Геометрическая схема вычисления вероятности
- •1.4.2 Статистическая схема вычисления вероятности
- •1.4.3 Схема вычисления субъективной вероятности
- •1.5 Условная вероятность. Независимость событий. Формулы сло-
- •1.6 Формула полной вероятности и формулы Байеса
- •2 Случайные величины
- •2.1 Cлучайная величина и ее функция распределения
- •2.2 Дискретная случайная величина
- •2.2.1 Дискретный закон распределения
- •2.2.2 Числовые характеристики дискретного распределения
- •2.2.3 Производящая функция вероятностей
- •2.2.4 Биномиальное распределение
- •2.2.5 Распределение Пуассона
- •2.2.6 Геометрическое распределение
- •2.3 Непрерывные случайные величины
- •2.3.1 Функция распределения и плотность распределения
- •2.3.2 Числовые характеристики непрерывного распределения
- •2.3.3 Равномерное распределение
- •2.3.4 Нормальное распределение
- •2.3.5 Показательное распределение
- •2.4 Функция от случайной величины
- •3 Случайные векторы
- •3.1 Общие свойства случайного вектора
- •3.2 Случайные векторы дискретного типа
- •3.3 Непрерывные случайные векторы
- •4 Предельные теоремы
- •4.1 Закон больших чисел
- •4.2 Центральная предельная теорема
- •5 Элементы математической статистики
- •5.1 Выборка и выборочные законы распределения
- •5.2 Точечные оценки числовых характеристик случайных величин
- •5.3 Интервальные оценки
- •5.4 Проверка статистических гипотез
5 Элементы математической статистики
5.1 Выборка и выборочные законы распределения
Задачами математической статистики являются оценка законов распре-
деления, числовых характеристик и параметров случайных величин, провер-
ка статистических гипотез, анализ зависимостей между входными и выход-
ными параметрами, прогнозирование, планирование эксперимента и т.д.
Эти и другие статистические выводы относительно свойств полной со-
вокупности данных (генеральной совокупности ) делают на основе специ-
альным образом отобранной части данных
x1, x2, . . . , xn,
называемой выборкой объема n .
Выборка должна обладать следующими свойствами.
1. Необходимо, чтобы выборка была репрезентативной , т. е. имела до-
статочно большой объем и полно, однородно, равномерно и равноверо-
ятно по отношению к другим возможным выборкам представляла всю
генеральную совокупность.
2. Выборка должна быть рандомизированной, т. е. полученной случай-
ным образом в одинаковых условиях и в виде последовательности по-
вторных независимых реализаций случайной величины X .
3. В рамках статистической модели, привлекаемой для анализа данных, вы-
борка должна рассматриваться как реализация n -мерного случайного
вектора (X1, X2, . . . , Xn) (выборочного вектора ) с независимыми и
одинаково распределенными компонентами.
До опыта статистический анализ проводится на основе выборочного
вектора X1, X2, . . . , Xnдля чего используется аппарат теории вероятностей.
После опыта рассматривается неслучайный вектор (выборка) x1, x2, . . . , xn,
который является числовой реализацией случайного вектора X1, X2, . . . , Xn.
В математической статистике принято, как правило, использовать ма-
лые буквы и для выборочного вектора, и для выборки.
Если все элементы выборки расположить в порядке неубывания
x(1)≤ x(2)≤ . . . ≤ x(n),
то получим вариационный ряд , элементы которого называют порядковы-
ми статистиками . Наименьшее значение в выборке называют первой
98
порядковой статистикой x(1), а наибольшее значение называют n -ой
порядковой статистикой x(n) . Разность между наибольшим и наимень-
шим значениями называют размахом выборки , обозначают буквой w∗ и
вычисляют по формуле w∗=x(n) − x(1).
Если в выборке имеется достаточно много одинаковых элементов, то
используют статистический ряд.
Статистическим рядом называют систему пар чисел
(zi, ni), i = 1, 2, . . . , k,
где zi различные элементы выборки, расположенные в порядке возраста-
ния, ni частота элемента в выборке, т. е. число повторений элемента. Обыч-
но статистический ряд представляют в виде таблицы , где первая строка
содержит элементы zi, а вторая их частоты. Если в выборке нет одинако-
вых элементов, то статистический и вариационный ряды совпадают. По вари-
ационному или статистическому ряду строится эмпирическая (выборочная)
функция распределения Fn∗(x) , которая является оценкой функции распре-
деления FX(x) случайной величины X , сформировавшей данную выборку.
Из определения выборки следует, что каждое выборочное значение име-
ет вероятность 1/n . Поэтому, если в выборке нет одинаковых элементов,
то рассматривают дискретную случайную величину Xn∗ , которая принимает
значения x(1), x(2), . . . , x(n),причем каждое значение имеет вероятность 1/n .
Обозначим n(x) число элементов вариационного ряда меньших аргумента
x . Тогда эмпирическая функция распределения вычисляется по формуле
Fn∗(x) = n(x)/n, x ∈ R
и равна функции распределения случайной величины Xn∗.
Если в выборке имеются одинаковые элементы, то эмпирическую функ-
цию распределения удобно строить по статистическому ряду по формуле
Fn∗(z) = ∑ni/n,z ∈ R.
zi<z
Эмпирическая функция распределения изменяется от нуля до едини-
цы, непрерывна слева, является кусочно постоянной функцией, имеющей во
всех значениях статистического ряда скачки, равные относительной часто-
те данного элемента в выборке. Значение и ценность эмпирической функции
распределения для решения задач математической статистики определяется
следующей теоремой, которая следует из теоремы Бернулли.
Теорема (Гливенко). Эмпирическая функция распределения Fn∗(x)
при неограниченном увеличении объема выборки сходится по вероятности
99
при любом значении x ∈ R к теоретической функции распределения гене-
ральной совокупности FX(x) .
Таким образом, при большом объеме выборки эмпирическая функция
распределения Fn∗(x) является достаточно точным приближением для неиз-
вестной заранее теоретической функции распределения FX(x) .
Пример. Рассмотрим выборку объемом в 10 наблюдений
3, 7, 10, 5, 5, 7, 2, 7, 2, 4,
которая была сформирована для анализа затрат времени водителями на ав-
тозаправочной станции в течение суток.
Решение. Для того чтобы выборка была репрезентативной и рандоми-
зированной сутки были разбиты на десять равных частей по 144 минуты, а
время ожидания выбиралось случайно в каждом из диапазонов.
Упорядочив выборку по неубыванию, получим вариационный ряд
2 ≤ 2 ≤ 3 ≤ 4 ≤ 5 ≤ 5 ≤ 7 ≤ 7 ≤ 7 ≤ 10.
Размах выборки равен w∗=x(10) − x(1)= 10 − 2 = 8 .
Статистический ряд выборки представляется в виде таблицы
zi2 3 4 5 7 10
ni2 1 1 2 3 1
В данном примере эмпирическая функция распределения имеет вид
-
,
x ≤ 2,
0, 2, 2 < x ≤ 3,
0, 3, 3 < x ≤ 4,
F10∗(x) =
0, 4, 4 < x ≤ 5,
0, 6, 5 < x ≤ 7,
0, 9, 7 < x ≤ 10,
1,
x > 10.
Если выборка имеет большой объем и содержит много различных эле-
ментов, то выборку разбивают на группы и представляют данные в виде
группированного или интервального статистического ряда.
100
Для этого отрезок [a; b] , содержащий выборку, обычно разбивают на
равные непересекающиеся полуинтервалы [a; x1), [x1; x2), . . . , [xs−1 ; b] общим
числом s и длиной h . Длину интервала h часто рекомендуют вычислять
ориентируясь на формулу Стерджеса
h =
xmax− xmin
1 + log2n
=
xmax− xmin
1 + 3, 322 lg n
.
В практических приложениях обычно сначала выбирают число интервалов s
равным целому числу близкому к значению 1 + 3, 322 lg n . Далее назначают
левую и правую границы отрезка [a; b] , стараясь максимально приблизиться
к значениям xmin(слева) и xmax(справа). Наконец, находят длину интервала
h по формуле h = (b − a)/s .
Далее вычисляют: середины интервалов zi, частоты mi ко-
личество элементов выборки, попавших в интервалы ti, относительные
частоты mi/n , накопленные частоты ∑ij=1mj общее количество
элементов в первых i интервалах, накопленные относительные часто-
ты ∑ij=1=mj/n . Полученные результаты сводят в таблицу частот
группированной выборки .
Для наглядного представления выборки по табличным значениям стро-
ят гистограмму относительных частот, полигон относительных частот и ку-
мулятивную кривую. Гистограммой относительных частот fn(x) на-
зывают кусочно-постоянную функцию, принимающую на каждом из интер-
валов tiзначения относительной частоты, отнесенные к длине каждого ин-
тервала. Гистограмму обычно изображают в виде ступенчатой фигуры.
Если точки (zi; mi/n), i = 1, 2, . . . , s соединить отрезками прямых, то
получим сплайн-функцию f˜n(x) , которую называют полигоном относи-
тельных частот . График этой функции есть кусочно-линейная кривая
с изломами в серединах интервалов. При увеличении объема выборки ги-
стограмма и полигон относительных частот приближаются к плотности или
полигону теоретического распределения случайной величины X .
Кумулятивной кривой F˜n(x) называют сплайн-функцию первого
порядка с узлами в следующих точках:
zi,
i
∑mj
n
j=1
!
, i = 1, 2, . . . , s.
Кумулятивная кривая возрастает и имеет вид кусочно-линейной функ-
ции с изломами в серединах интервалов группирования.
При большом объеме выборки эмпирическая функция распределения
101
и кумулятивная кривая являются хорошими приближениями для теоретиче-
ской функции распределения FX(x) случайной величины X .