x = k −np |
. Точность вычислений Pk,n |
по данной формуле зависит от |
npq |
числа наблюдений (n): чем больше n, тем выше точность.
Важно отметить, что функция φ(х) табулирована, и с учетом того, что φ(х) = φ(-х) значения таблицы составлены только для значений от нуля и выше.
Решим поставленную задачу:
x = k |
-np |
|
= |
15000 -20000 ×0,6 |
= 43,301; |
npq |
|
|
20000 ×0,6 ×0,4 |
|
|
|
|
|
φ(43,301) =0,5
P |
» |
|
1 |
×ϕ(x) » |
|
1 |
|
|
×0,5 |
= 7,217 |
×10 −3 |
, |
|
|
|
|
|
|
k ,n |
|
|
npq |
|
|
20000 × |
0,6 ×0,4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
То есть вероятность того, что 15000 амнистированных заключенных вернется обратно в колонии составляет 0,072. Отсюда найдем ожидаемое число заключенных из числа 15000 амнистированных, которые вероятно вернутся в колонии: θ=0,072∙15000=1080.
Интегральная теорема Муавра-Лапласа Теорема. Если вероятность наступления события А в каждом
из n независимых испытаний постоянна и равна p (0<p<1), то
справедлива формула: lim(P(k , k |
|
|
1 |
|
|
(k2 −np ) / |
npq |
e− |
z2 |
, где P(k , k |
|
) – |
)) - |
|
|
× |
ò |
|
|
= 0 |
|
|
|
2 |
2 |
|
|
|
n→∞ |
1 |
2 |
|
|
2π |
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
(k1−np ) / |
npq |
|
|
|
|
|
вероятность того, что при n повторениях испытания событие А проявится не менее чем k1 раз и не более k2 раз.
На практике применяют следующие расчетные формулы:
P(k1 , k2 ) ≈Ф(х2 ) −Ф(х1 ) , где Ф(х) – функция Лапласа (она также как и функция φ(х) табулирована и составлена для положительных чисел, поскольку Ф(х)=-Ф(-х)).
|
|
|
|
1 |
|
|
|
|
х |
|
|
|
− |
z2 |
|
|
|
|
|
Ф(х) = |
|
|
|
|
× òe |
2 dz . |
|
|
|
|
|
|
|
|
2π |
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
x = k1 − np |
|
|
|
x |
|
|
|
= k2 − np |
1 |
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
npq |
; |
|
|
|
|
|
npq . |
|
|
|
|
|
|
|
|
|
|
P.S. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
х2 |
− |
z2 |
P(k1, k2 ) = |
|
|
|
× xòe |
|
dz . |
|
|
|
|
|
|
2 |
|
|
|
|
|
2π |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
Задача. Пусть из мест лишения свободы освободилось 200 воров карманников, которые с вероятностью 85% продолжат преступную деятельность на свободе. Требуется рассчитать вероятность того, что число вновь осужденных воров карманников из данной группы составит не менее 120 и не более 150.
Отсюда n=200, k1=120, k2=150, p=0,85, q=0,15. Находим:
x |
= k1 |
- np |
|
|
= |
120 - 200 × 0,85 |
|
= -9,901 |
; |
|
|
|
|
|
|
|
|
|
1 |
|
npq |
|
200 × 0,85 × 0,15 |
|
|
|
|
|
|
|
|
|
|
|
x2 |
= k2 |
- np |
= |
150 - 200 × 0,85 |
|
|
|
= -3,961 |
. |
|
|
|
|
|
|
|
|
|
|
npq |
200 ×0,85 × 0,15 |
|
|
|
|
|
|
|
|
Знак минус игнорируем, и находим по таблице: Ф(9,901)=0,5.
Ф(3,961)=0,4999.
P(k1, k2 ) »Ф(-3,961) -Ф(-9,901) = 0,4999 +0,5 = 0,999 ..
РЕЗЮМЕ (основные определения и формулы)
Бернулли формула: |
P |
= |
n! |
× pk qn−k |
, где n – число |
k!(n -k )! |
|
|
|
|
k ,n |
|
|
|
|
наблюдений (испытаний, исходов); k – число «благоприятных» исходов, р – вероятность появления благоприятного исхода; q – вероятность не появления благоприятного исхода; Pk,n – вероятность того, что при n испытаниях благоприятное событие наступило ровно k раз.
Бимодальное распределение (bimodal distribution) – распределение, содержащее две моды (два блока (кластера) данных). На графике отчетливо видны две вершины.
Биноминальное распределение (binomial distribution) – это распределение вероятностей появления k-го числа событий в n независимых испытаниях, в каждом из которых вероятность появления события постоянна или равна числу p. Вероятность
числа проявлений события вычисляется |
по формуле Бернулли: |
Рn,k = P( X = k) =Cnk × pk ×(1- p)n−k , где |
С – сочетание. Сочетание – это |
понятие |
комбинаторики. |
Напомним, |
что |
сочетаниями, |
содержащими k элементов, выбранных из n элементов заданного множества, называются различные множества, отличающиеся друг от друга хотя бы одним элементом. Число сочетаний из n элементов по k элементов обозначают:
Сnk или (kn ) . Число сочетаний из n элементов по k элементов
n!
определяется по формуле: Сnk = k!(n −k)! .
Блочная диаграмма (box-and-whisker diagram) – используется для наглядного представления пяти базовых показателей (fivenumber summary) в одномерном наборе данных: 1) минимальное значение переменной по ранжированному ряду; 2) максимальное значение переменной по ранжированному ряду; 3) значение первого квартиля – значение 25%-го числа от начала ранжированного ряда; 4) значение третьего квартиля – значение 75%-го числа от начала ранжированного ряда; 5) значение медианы, позволяющих диагностировать вид распределения.
Бьенамэ-Чебышева правило (Bienayme-Chebyshev rule) гласит, что для любого набора эмпирических данных вне зависимости от закона их распределения доля (или процент) наблюдений, лежащих на расстоянии, не превышающем k среднеквадратических
отклонений от математического ожидания, не меньше |
æ |
- |
1 |
ö |
×100% . |
ç1 |
|
|
÷ |
k |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
è |
|
|
ø |
|
Например, |
|
|
|
для |
двух |
стандартных |
отклонений |
|
|
|
имеем: |
æ |
1 |
ö |
æ |
|
|
1 |
ö |
= 75% . |
|
|
|
|
|
|
|
|
ç1- |
|
|
÷ ×100% = |
ç |
1 |
- |
|
|
÷ ×100 |
|
|
|
|
|
|
|
|
k |
2 |
2 |
2 |
|
|
|
|
|
|
|
|
è |
|
ø |
è |
|
|
|
ø |
|
|
|
|
|
|
|
|
|
Распределение Вейбулла (Weibull distribution) – это распределение вероятностей случайной величины Х, плотность вероятности которой вычисляется по формуле:
f (х) = α |
|
æ |
x öα |
|
|
× xα -1 |
-ç |
|
÷ |
, где |
α и β – параметры распределения, α>0, |
× e è |
β ø |
|
|
ç |
÷ |
|
|
βα
β>0, 0≤x≤∞.
Интегральная функция: |
æ x öα |
F (х) =1-e è |
β ø . |
|
-ç |
|
÷ |
|
ç |
÷ |
Выброс (outliner) – значения в наборе данных резко отличающиеся от остальных, например, трехзначное число среди двузначных и т.п. Выделяют ошибочные и корректные выбросы. Ошибочные – исправляют, а корректные оставляют или удаляют, объясняя при этом причину удаления.
Гипергеометрическое распределение (hipergeometric distribution) имеет место в том случае, если вероятность появления
случайной величины X вычисляется по формуле: Р(X = k) = CMk ×CNn−−kM ,
СNn
где P(X=k) – вероятность наступления события k, k – число интересующих событий в выборке размером n; M – число интересующих событий в ГС объемом N.
Гистограмма (histogram) – столбиковая диаграмма, составленная на основе частот, а не просто данных. Отражает, насколько часто конкретные значения встречаются в наборе данных. По горизонтали в порядке возрастания располагаются данные исследуемого ряда, а по вертикали – частоты их встречаемости.
Дискретное распределение (discrete distribution) – распределение дискретных переменных (discrete variables), где каждому дискретному значению из множества X поставлено в соответствие значение вероятности наступления – P(X).
Дисперсия дискретной случайной величины X (variance) – это среднее взвешенное по вероятности квадратов разностей между всеми элементами множества X и математическим ожиданием,
N
вычисляемое по формуле: σ X 2 = å(xi - μX )2 × pi .
i=1
Ковариация (covariance) между двумя дискретными случайными величинами X и Y показывает ненормированную силу связи и её направление между ними (если ковариацию поделить на произведение стандартных отклонений по переменным X и Y, то ковариация будет нормированной и называется коэффициентом
корреляции – более удобная мера силы связи между переменными1718). Ковариация для дискретных переменных вычисляется по формуле:
|
N |
|
|
|
|
|
|
где |
|
– |
вероятность |
|
σ XY = å(xi - μX ) ×( y j - μY ) × pi (xi y j ) , |
p(xi y j ) |
|
i=1 |
|
|
|
|
|
|
|
|
|
|
|
наступления i-го значения х и j-го значения у. |
|
|
|
Коэффициент асимметрии |
Пирсона |
– |
вычисляемый по |
|
формуле: AП = |
|
|
−Мода |
. |
|
|
|
|
|
Х |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
σ |
|
|
|
|
|
Критерий согласия Пирсона χ2 (кси квадрат): |
|
|
|
h |
|
|
2 |
|
|
|
|
|
|
|
( fi - fTi ) |
|
|
|
|
|
|
|
χ 2 = å |
, где h – число групп (в нашем примере их 8), fi – |
|
|
|
i=1 |
fTi |
|
|
|
|
|
|
|
|
наблюдаемая эмпирическая частота; fТi – теоретическая частота рассчитанная по нормальному распределению.
Если эмпирический ряд задан частостями, а не частотами, то
|
|
|
h |
(w - w )2 |
|
формула: |
χ 2 |
= å |
i Ti |
, где вместо частот взяты частости |
|
wTi |
|
|
|
i=1 |
|
(относительные частоты).
Критерий Колмогорова (разработан А.Н. Колмагоровым) (λ):
λ = DN = d × N , где D – максимальная разность между накопленными
частотами (F i−FTi ) эмпирического и теоретического распределений, d – максимальная разность между накопленными частостями (W i−WTi ) эмпирического и теоретического распределения; N – число наблюдений.
Критерий Романовского (автор – В.И. Романовский) (Кр):
Кр = χ22−vv , где v – число степеней свободы.
Логарифмирование – замена исходных данных (только положительных чисел) их логарифмами, что позволяет: 1)
17
18 Ковариация является плохой мерой связи потому, что зависит от единиц, в которых измеряются переменные х и y, а коэффициент корреляции величина безразмерная.
увеличить (растянуть) малые значения; 2) уменьшить (сжать) большие значения; 3) преобразовать скошенные распределения в симметричные, поскольку горизонтальная ось (ось абсцисс) равномерно растягивается около нуля. Например, логарифм числа 0,0004=-3,3979; log(15000)=4,176. Отсюда и частоты, откладываемые по ординате, располагаются более кучно и равномерно. В случае, если вычисляется натуральный логарифм (основание число e=2,71…), то его перевод в десятичный осуществляется путем деления полученного числа на 2,302585, например, ln(15000)=9,6158. Разделив 9,6158 на 2,302585, получим 4,176. Соответственно и наоборот, если умножить 4,176 на 2,302585, то получим 9,615.
Логнормальное распределение (log-normal distribution) – логарифмически нормальное распределение (логнормальное распределение) – это распределение, в котором нормально распределено не само значение переменной (случайной величины) Х, а её логарифм: log X.
Математическим ожиданием (expected value) дискретной случайной величины Х является её среднее взвешенное по вероятности значение (weighted value), вычисляемое по формуле:
N |
pi – вероятность каждого конкретного |
μX = E(X ) = åxi pi , где |
i=1 |
|
значения случайной величины X, xi – конкретные значения дискретной величины. Для непрерывной случайной величины X
это будет то же самое только в интегральной форме (дискретную вероятность мы заменим плотностью вероятности):
∞
μX = E(X ) = òхf (X )dX .
−∞
Непрерывное распределение (continuous distribution) – это распределение непрерывной случайной величины X, где каждому непрерывному значению из множества X поставлено в соответствие значение плотности вероятности наступления – f(X) – плотность непрерывного распределения вероятностей (continuous probability density function). По сути, в данном случае мы от дискретных сумм переходим к непрерывным интегралам, от столбчатых диаграмм к
гладким функциям, не меняя при этом математического смысла происходящего.
Нормальное распределение (normal distribution) или
|
распределение Гаусса (Gaussian distribution). Иногда |
|
его |
также |
|
|
|
1 |
|
e- |
( х-μ)2 |
|
называют распределением Гаусса-Лапласа: f (x) = |
|
|
2×σ 2 |
|
, где |
|
|
|
|
|
2πσ |
|
|
|
|
|
|
|
|
f(x) – плотность вероятности, σ – стандартное отклонение, μ – математическое ожидание, e – основание натуральных логарифмов равное числу 2,718. По существу, это дифференциальная функция
от интегральной функции распределения: F (x) |
|
|
1 x |
e- |
( х-μ)2 |
dx . |
|
|
|
2×σ2 |
|
|
|
|
|
|
|
= |
|
2πσ |
-ò¥ |
|
|
|
Нормированный коэффициент асимметрии: rA = σμ33 , где rA –
нормированный коэффициент асимметрии, μ3 – асимметрия (центральный момент третьего порядка), σ3 – стандартное отклонение, возведенное в третью степень.
Перцентили (persentile) – это ранжированные данные, выраженные в процентах, а не в числах, то есть ранжированные данные, представленные не в абсолютных, а в относительных величинах. Соответственно имеются перцентили от нуля до 100 включительно, и называются - нулевой перцентиль, первый, второй и т.д. Двадцать пятый (25%) и семьдесят пятый (75%) перцентили носят названия квартилей (quartiles), первый называют нижним квартилем, а второй – верхним. Пятидесятый перцентиль (50%) по ранжированному ряду называют медианой (median).
Правило трёх (шести) сигм – (по три справа и слева от математического ожидания) (six sigma rule) – если случайная величина X имеет нормальный закон распределения с параметрами m и σ2, то практически достоверно, что её значения заключены в интервале (m – 3σ, m+3σ). Отсюда следует важный практический вывод, что отклонение нормально распределенной величины Х свыше трех сигм имеет вероятность, равную 0,0027 (0,27%), то есть ничтожно малую вероятность. При этом основная масса событий (68,27%) будет сгруппирована в пределах первых двух сигм, примыкающих к математическому ожиданию слева (34,13%) и
99
справа (34,13%), далее в пределах вторых сигм по 13,59% (в сумме 27,18%) и в пределах третьих по 2,14% (4,28%).
Преобразование (transformation) – замена исходных данных для упрощения вычислений, например, сдвиг запятой или логарифмирование.
Распределение Паскаля (отрицательное биноминальное распределение) (Pascal distribution). Здесь определяется вероятность числа неудач в последовательности испытаний Бернулли. Случайная величина Х имеет отрицательное биноминальное распределение с параметрами распределения r и p, где r – число успехов, а p – вероятность успеха. Соответственно, вероятность неудач: q=1-p, а число неудач, имевших место до наступления успеха (r), составляет k. Формула для распределения Паскаля:
Р(х = k) = Crk+k −1 × pr ×(1- p)k .
Распределение Пуассона (Poisson distribution) иногда называемое также законом редких событий. По сути, являет собой распределение дискретной случайной величины, когда она принимает одно из возможных значений от нуля до n с
вероятностью: Р( X ) = λx ×e−λ , где х=0, 1, 2…n; λ=μ=D(x)=n∙ p. Лямбда
x!
(λ) – это параметр распределения Пуассона, характеризующий скорость появления событий в n испытаниях.
Распределение Стьюдента |
(Student׳s |
t-distribution) |
– |
|
|
x − μ |
sв – выборочное |
распределение случайной величины |
t = |
|
|
|
, где |
s / |
|
|
n |
|
|
в |
|
|
|
|
|
стандартное отклонение, x – среднее |
арифметическое из |
n |
наблюдений нормально распределенного набора данных с математическим ожиданием μ.
Среднее квадратическое отклонение (стандартное отклонение) дискретной случайной величины X вычисляется по формуле:
σ X = σ 2 .
ОСНОВНЫЕ ТЕРМИНЫ:
Асимметричное распределение (asymmetric distribution), бимодальное распределение (bimodal distribution), биноминальное распределение (binomial distribution), блочная диаграмма (box-and- whisker diagram), распределение Бернулли (Bernoulli distribution), Бьенамэ-Чебышева правило (Bienayme-Chebyshev rule), гамма
распределение (gamma |
distribution), распределение Вейбулла |
(Weibull distribution), |
геометрическое (geometric distribution), |
гистограмма (histogram), гипергеометрическое (hipergeometric distribution), распределение Гомперца (Gompertz distribution), дискретное распределение (discrete distribution), квартили (quartiles), ковариация (covariance), логарифм (logarithm), логнормальное распределение (log-normal distribution), непрерывное распределение (continuous distribution), нормальное распределение (normal distribution), распределение χ2 (chi-square distribution), преобразование (transformation), распределение Паскаля (Pascal distribution), перцентили (persentile), распределение Пуассона (Poisson distribution), равномерное распределение (rectangular distribution), симметричное распределение (symmetrical distribution), распределение Стьюдента (Student׳s t-distribution), числовая ось (number line), экспоненциальное распределение (exponential distribution).
РЕШЕНИЕ ТИПОВЫХ ЗАДАЧ Задача №1.
Дано: распределение деяний на плоскости юридической ответственности с математическим ожиданием m=0 и стандартным отклонением σ=3.
Получить формулу нормального закона распределения для данного распределения деяний на плоскости юридической ответственности и построить по ней график распределения.
Ответ: 1. Получаем формулу для распределения деяний на плоскости, подставляя в известную формулу закона нормального распределения заданные параметры распределения:
|
|
1 |
|
e- |
( x-0)2 |
f (x) = |
|
|
|
. |
|
|
2×32 |
|
|
|
|
3 |
|
2π |
|
|
|
|
|
|
2. Строим таблицу значений, задав область определения функции от -10 до 10.
Деяния, |
Плотность |
баллы |
распределе |
|
ния |
-10 |
0,000514 |
-9 |
0,001477 |
-8 |
0,003799 |
-7 |
0,008741 |
-6 |
0,017997 |
-5 |
0,033159 |
-4 |
0,05467 |
-3 |
0,080657 |
-2 |
0,106483 |
-1 |
0,125794 |
0 |
0,132981 |
1 |
0,125794 |
2 |
0,106483 |
3 |
0,080657 |
4 |
0,05467 |
5 |
0,033159 |
6 |
0,017997 |
7 |
0,008741 |
8 |
0,003799 |
9 |
0,001477 |
10 |
0,000514 |
3. По таблице строим график.