Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

теория вероятностей

.pdf
Скачиваний:
196
Добавлен:
11.05.2015
Размер:
3.26 Mб
Скачать

31

2.4. Непрерывные случайные величины

До сих пор мы рассматривали дискретные случайные величины, которые обладают тем свойством, что все их значения можно перенумеровать натуральными числами, а каждому значению сопоставить отличную от нуля вероятность. Однако так можно описать не все случайные величины. Например, время службы электрической лампочки может принимать любые действительные значения от нуля до бесконечности. И если лампочка вначале была исправна, то вероятность того, что время ее службы будет в точности совпадать с заранее заданным значением, равна нулю. Ненулевыми будут только вероятности сложных событий (время службы лампочки — от одного до двух месяцев). Подобные случайные величины не могут быть описаны с помощью таблицы распределения. Для их описания используется функция распределения.

Функция распределения дискретной случайной величины ступенчатая, она возрастает скачком в тех точках, вероятности которых положительны.

Случайную величину X называют непрерывной, если ее функция распределения F(X ) = P(X < x) непрерывна и имеет производную.

Функция распределения непрерывной случайной величины применяется для вычисления вероятностей попадания случайной величины в заданный промежуток:

P(α < X ) = F(β) F(α),

(2.9)

причем для непрерывной случайной величины не имеет значения, включаются в этот промежуток его границы или нет:

P(α < X ) = P(α ≤ X ) = P(α ≤ X ≤β).

Плотностью распределения непрерывной случайной величины называется функция

(2.10)

f (x) = F (x),

производная от функции распределения.

Свойства плотности распределения

1. Плотность распределения случайной

величины неотрицательна

( f (x) 0) при всех значениях x .

 

2. Условие нормировки:

 

 

f (x)dx =1.

(2.11)

−∞

 

Геометрический смысл условия нормировки: площадь под кривой плотности распределения равна единице.

32

 

3. Вероятность попадания случайной величины

X в промежуток от α

до β может быть вычислена по формуле

 

β

 

P(α < X ) = f (x)dx.

(2.12)

α

 

Геометрически вероятность попадания непрерывной случайной величины X в промежуток (α, β) равна площади криволинейной трапеции под кри-

вой плотности распределения, опирающейся на этот промежуток.

4. Функция распределения выражается через плотность следующим образом:

x

 

F(x) = f (t)dt.

(2.13)

−∞

Значение плотности распределения в точке x не равно вероятности принять это значение, для непрерывной случайной величины речь может идти только о вероятности попадания в заданный интервал. Пусть [x, x + ∆ x)

интервал произвольно малой длины x > 0 . Вероятность попадания случайной величины в этот интервал приближенно равна произведению значения плотности распределения в точке x на длину этого интервала: f (x)x , то

есть вероятность пропорциональна длине интервала, причем коэффициент пропорциональности равен значению плотности распределения в точке x

(рис. 2.5).

f (x)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

x + ∆ x

0

 

x + ∆ x

 

 

 

x

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 2.5. Вероятность попадания случайной величины в интервал длины x

Числовые характеристики непрерывной случайной величины находятся по формулам, похожим на формулы для дискретной случайной величины, но

33

везде знак суммы заменяется на знак интеграла, а вероятность pi на дифференциальный элемент вероятности f (x)dx .

Математическое ожидание непрерывной случайной величины равно

 

 

M (X ) = xf (x)dx.

(2.14)

 

−∞

 

Дисперсия непрерывной случайной величины есть

 

(x M (x))2 f (x)dx.

 

D(X ) =

(2.15)

−∞

Все свойства математического ожидания и дисперсии, сформулированные для дискретных случайных величин, сохраняются и для непрерывных случайных величин.

В качестве примера непрерывной случайной величины рассмотрим случайную величину X , равномерно распределенную на интервале (a; b) . Го-

ворят, что случайная величина X равномерно распределена на промежутке (a; b) , если ее плотность распределения непостоянна на этом промежутке:

c

при x (a; b),

f (x) =

при x (a; b).

0

Из условия нормировки (2.11)

определим значение константы c . Пло-

щадь под кривой плотности распределения должна быть равна единице, но в нашем случае — это площадь прямоугольника с основанием (b a) и высо-

той c (рис. 2.6).

f (x)

с

0

a

b

x

 

 

 

Рис. 2.6. Плотность равномерного распределения

Отсюда находим значение постоянной c :

(b a)c =1; c = b 1 a .

34

Итак, плотность равномерно распределенной случайной величины равна

 

1

при x (a; b),

 

 

 

 

 

f (x) = b a

 

 

при x (a; b).

0

Найдем теперь функцию распределения по формуле (2.13):

 

 

 

 

 

 

 

 

x

x

 

 

 

 

1)

для x a

f (x) = 0 и

 

F(x) =

f (t)dt =

0 dt = 0;

 

 

 

 

 

 

 

 

 

 

−∞

−∞

 

 

 

 

 

 

 

 

 

x

 

 

a

x

1

 

x a

 

2)

для a < x < b

F(x) = f (t)dt = 0 dt +

dt =

;

b a

b a

 

 

 

 

−∞

 

−∞

a

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

a

 

b

 

x

 

3)

для

x b

F(x) = f (t)dt = f (t)dt + f (t)dt + f (t)dt =

= 0 +1 +0 =1.

 

 

 

−∞

 

−∞

 

a

 

b

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом,

 

0

при x a,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a

 

 

 

 

 

 

 

 

 

F(x) =

x

при a < x < b,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a

 

 

 

 

 

 

 

 

b

 

 

 

 

 

 

 

 

 

 

 

1

при x b.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Функция распределения непрерывна и не убывает (рис. 2.7).

F(x)

1

0

a

b

x

 

 

 

Рис. 2.7. Функция распределения равномерно распределенной случайной величины

Найдем математическое ожидание равномерно распределенной случайной величины по формуле (2.14):

35

a

b

x

+∞

1

 

x2

 

b

a +b

 

 

 

 

M (X ) = xf (x)dx = x 0dx +

dx + x 0dx =

 

 

 

 

 

 

 

 

=

 

.

b a

b a

2

2

−∞

−∞

a

b

 

 

a

 

 

 

 

 

 

 

 

Дисперсия равномерного распределения рассчитывается по формуле (2.15) и

 

равна D( X ) =

(b a)2

.

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Другим примером непрерывной случайной величины является нормально распределенная случайная величина. Говорят, что случайная величина X имеет нормальное распределение с параметрами a и σ, если ее плотность

распределения задается формулой:

 

1

(xa)2

f (x) =

2π σ

λ

2σ2 , −∞ < x < +∞.

 

 

 

Параметр a характеризует положение графика функции на числовой оси, параметр σ(σ > 0) — степень сжатия или растяжения графика плотности

(рис. 2.8).

f (x)

σ σ

 

 

 

 

 

 

 

 

 

 

0

a

 

 

x

 

 

 

 

 

Рис. 2.8. Плотность нормального распределения

Математическое ожидание нормально распределенной случайной величины равно M ( X ) = a , дисперсия D( X ) = σ2 .

Нормальное распределение относится к числу наиболее распространенных и важных, оно применяется для приближенного описания многих случайных явлений. Например, с помощью нормального распределения описывают рассеяние снарядов при стрельбе по цели; отклонение фактического размера изделия от заданного; оно применяется и во многих других ситуациях, когда на интересующий нас признак действует большое количество независимых случайных факторов. С причиной этого мы познакомимся в разделе 4.2.

36

3.ОПИСАТЕЛЬНАЯ СТАТИСТИКА

3.1.Генеральная совокупность и выборка

Внаучном познании тесно связаны модель и эксперимент. Теория вероятностей занимается изучением моделей массовых случайных явлений. Основой математической статистики является эксперимент: эта наука позволяет обрабатывать результаты наблюдений и, применяя модели теории вероятностей, описывать закономерности, которые проявляются при многократном наблюдении изучаемого явления.

Проводя эксперимент, мы имеем дело с обширной совокупностью объектов, которая в статистике называется генеральной совокупностью. В результате эксперимента мы наблюдаем лишь часть случайно отобранных объектов этой совокупности — выборку. Основная идея выборочного метода состоит в том, чтобы по выборке сделать заключения о свойствах всей генеральной совокупности. Для достоверности таких заключений необходимо правильно строить выборку, т.е. строить ее так, чтобы выборка хорошо отражала свойства генеральной совокупности.

Генеральная совокупность обычно содержит конечное число объектов (оно называется объемом генеральной совокупности), которое будем обозна-

чать N. Однако, если объем генеральной совокупности велик, то в целях упрощения теоретических выводов его часто предполагают бесконечным. Объем выборки — количество ее элементов — будем обозначать n. Например, если из 10000 выпущенных на конвейере электрических лампочек отобрано 300 штук для проверки качества всей партии, то N =10000, а n = 300.

Выборка может быть составлена двумя способами. Первый способ называется случайным повторным отбором. При этом отобранный элемент выборки перед выбором следующего возвращается в генеральную совокупность. Второй способ — случайный бесповторный отбор. При этом отобранный объект не возвращается в генеральную совокупность. Если объем генеральной совокупности велик, и выборка составляет лишь незначительную часть всей совокупности, то различие между двумя способами отбора невелико. Если рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объем, то способы отбора не различаются. Но при любом способе отбор должен быть случайным — каждый элемент генеральной совокупности должен иметь одинаковую вероятность попасть в выборку.

Моделью изучаемой генеральной совокупности служит случайная величина. В теории вероятностей мы обозначали случайные величины заглавными буквами, а их значения — строчными. Поэтому будем говорить о генеральной

совокупности Х и выборке из нее x1, x2 , ..., xn. Значение x1 получено при первом наблюдении случайной величины Х, x2 — при втором наблюдении той же случайной величины и т.д. Иногда при этом говорят, что рассматривается серия независимых наблюдений случайных величин X1, X 2 , ..., X n — статистических копий величины Х. Выборочные значения x1, x2 , ..., xn явля-

x(i)
x1, x2 , ..., xn

37

ются значениями статистических копий X1, X 2 , ..., X n — независимых оди-

наково распределенных случайных величин.

Для изучения свойств генеральной совокупности рассматривают различные функции от выборочных значений — они называются статистиками.

Например, можно рассматривать статистику X = 1 n Xi — среднее значение

n i=1

выборочных данных. Для каждой конкретной выборки мы получим число

x = 1 n xi , но величина X является случайной функцией со своим законом

n i=1

распределения. Изучая различные статистики, мы получаем информацию о генеральной совокупности.

3.2. Способы представления статистических данных

Пусть Х — некоторый признак изучаемого объекта или явления (срок службы электролампы, вес поросенка, диаметр шарика для подшипника и т.п.). Генеральной совокупностью является множество всех возможных значений этого признака, а результаты n наблюдений над признаком Х дадут нам выборку объема n.

Итак, первоначальные статистические данные — это значения (простая выборка, несгруппированные данные).

Выборку преобразуют в вариационный ряд, располагая результаты наблюдений в порядке возрастания: x(1) x(2) ... x(n). Каждый член ва-

риационного ряда называется вариантой.

Пример 1. С производственной линии случайным образом 24 раза отбирали по десять выпускаемых деталей. Каждый раз отмечалось число дефект-

ных деталей. Получили выборку: 0, 0, 1, 0, 2, 0, 1, 2, 1, 0, 0, 0, 0, 3, 1, 0, 0, 0, 1, 0, 2, 1, 0, 1. Здесь объем выборки n = 24, а исследуемый признак Х — число

дефектных деталей из 10 отобранных — может принимать целые значения от 0

до 10. Составим вариационный ряд: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 3.

Представим теперь данные в виде статистического ряда: укажем частоту ni варианты, т.е. сколько раз встречаются в нашей выборке различные

значения вариант. Для примера 1 получим следующий статистический ряд

(табл. 3.1).

Таблица 3.1

Статистический ряд для примера 1

Значения признака (xi )

0

1

2

3

Частота (ni )

13

7

3

1

38

Отметим, что сумма частот статистического ряда равна объему выборки. Часто статистический ряд составляют, используя относительные частоты ва-

риант: νi = nni , i =1, 2, ..., k (k — количество различных вариант). Сумма

относительных частот равна единице. такая таблица используется для графического представления дискретного признака Х в виде полигона относительных частот. Полигон — это ломаная линия с вершинами в точках

(xi ; νi ), i =1, 2, ..., k (рис. 3.1).

νi =

ni

 

 

 

 

n

 

 

 

 

1

 

 

 

 

 

 

 

 

 

0,8

 

 

 

 

 

0,6

 

 

 

 

 

0,4

 

 

 

 

 

0,2

 

 

 

 

 

0

 

 

 

 

x

 

0

1

2

3

4

Рис. 3.1. Полигон относительных частот для примера 1

Полигон частот обеспечивает наглядность представления данных и позволяет делать предположения о близости распределения исследуемого признака к тому или иному закону распределения.

Если значения изучаемого признака могут отличаться друг от друга на сколь угодно малую величину (непрерывная генеральная совокупность) или объем выборки велик, то данные представляют в виде сгруппированного статистического ряда. Для этого весь диапазон значений вариант разбивают на 5–12 интервалов необязательно одинаковой длины и подсчитывают число вариант, попавших в каждый интервал (частоту i-го интервала). Полученные данные заносятся в таблицу, которая называется интервальной таблицей частот или сгруппированным статистическим рядом (табл. 3.2).

Как определить количество интервалов этой таблицы?

39

Таблица 3.2

Сгруппированный статистический ряд

Интервалы

[a1; a2 )

[a2;a3 )

[ak ;ak +1]

 

 

 

 

 

Частоты

n1

n2

nk

Рекомендуемое количество интервалов рассчитывают по эмпирической формуле Старджеса

k =1 +3.3lg n,

где n — объем выборки. Длину i-го интервала принимают равной

d = x(n) x(1) ,

k

где x(n) —наибольшее, а x(1) — наименьшее значение в вариационном ряду.

Для определенности будем считать левый конец каждого интервала закрытым, а правый — открытым, так что интервалы будут иметь вид [ai ;ai+1).

Пример 2. При измерении веса 30 новорожденных (с точностью до 10 г)

получили выборку (xi , кг) : 3.7, 3.85, 3.7, 3.78, 3.6, 4.45, 4.2, 3.87, 3.33, 3.76,

3.75, 4.03, 3.8, 4.75, 3.25, 4.1, 3.55, 3.35, 3.38, 3.05, 3.56, 4.05, 3.24, 4.08, 3.58, 3.98, 3.4, 3.8, 3.06, 4.38. Построить статистический ряд.

Сгруппируем эту выборку. Наименьший вес равен 3.05 кг, наибольший

— 4.75 кг. «Упакуем» выборку в интервал [3; 4.8], который разобьем на 6 частей длиной d = 0.3, т.к. по формуле Старджеса k = 5.875 (округление в

большую сторону). Подсчитаем частоту ni (относительную частоту νi = nni )

для каждого интервала и получим сгруппированный статистический ряд

(табл. 3.3).

Таблица 3.3

Сгруппированный статистический ряд для примера 2

Интер-

[3; 3.3)

[3.3; 3.6)

[3.6; 3.9)

[3.9; 4.2)

[4.2; 4.5)

[4.5; 4.8)

валы

 

 

 

 

 

 

Частоты

4

7

10

5

3

1

ni

Относи-

 

 

 

 

 

 

тельные

 

 

 

 

 

 

частоты

0.133

0.233

0.3

0.167

0.1

0.033

νi

40

Наглядно сгруппированный статистический ряд представляют в виде гистограммы. Гистограмма — это фигура, составленная из прямоугольников,

основаниями которых служат интервалы группировки. Высота hi i-го прямоугольника определяется по формуле

hi = ndni , i =1,2, ..., k,

где d — длина i-го интервала. Таким образом, высота каждого прямоугольника пропорциональна частоте попадания в данный интервал, а сумма высот равна

k

n

 

1

k

1

 

i

=

 

ni =

 

.

 

nd

d

i=1 nd

 

i=1

 

Гистограмма позволяет оценить вид графика плотности распределения непрерывной случайной величины (рис. 3.2).

hi

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

1.101

 

 

 

 

 

 

 

 

 

 

 

8

 

 

 

 

 

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

0

0

 

'3

 

'3.3

'3.6

'3.9

'4.2

'4.5

х

0

3

3.3

'4.8

 

 

 

3.6

3.9

4.2

4.5

4.8

Рис. 3.2. Гистограмма для примера 2

Почему гистограмму называют статистическим аналогом плотности распределения вероятностей? Это утверждение основано на теореме Бернулли (подраздел 4.1), согласно которой при неограниченном увеличении количества n независимых опытов относительная частота появления события A стремится к вероятности этого события. В нашем случае событием A является попадание в i-й интервал. Плотность распределения характеризует вероятность попадания случайной величины в интервал, а гистограмма — относительную частоту, чем больше объем выборки n, тем меньше разница между относительными частотами и вероятностями попадания в малые интервалы.

На этом же факте основано использование эмпирической (кумулятивной) функции распределения. В теории вероятностей функция распределения — основная форма описания закона распределения случайной величины — показывает вероятность попадания данной случайной величины X левее фиксированного значения x:

F(x) = P(X < x).