Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ольков_С_Г_Аналитическая юриспруденция

.pdf
Скачиваний:
213
Добавлен:
13.05.2015
Размер:
8.92 Mб
Скачать

x = k −np

. Точность вычислений Pk,n

по данной формуле зависит от

npq

числа наблюдений (n): чем больше n, тем выше точность.

Важно отметить, что функция φ(х) табулирована, и с учетом того, что φ(х) = φ(-х) значения таблицы составлены только для значений от нуля и выше.

Решим поставленную задачу:

x = k

-np

 

=

15000 -20000 ×0,6

= 43,301;

npq

 

 

20000 ×0,6 ×0,4

 

 

 

 

 

φ(43,301) =0,5

P

»

 

1

×ϕ(x) »

 

1

 

 

×0,5

= 7,217

×10 3

,

 

 

 

 

 

 

k ,n

 

 

npq

 

 

20000 ×

0,6 ×0,4

 

 

 

 

 

 

 

 

 

 

 

 

 

То есть вероятность того, что 15000 амнистированных заключенных вернется обратно в колонии составляет 0,072. Отсюда найдем ожидаемое число заключенных из числа 15000 амнистированных, которые вероятно вернутся в колонии: θ=0,072∙15000=1080.

Интегральная теорема Муавра-Лапласа Теорема. Если вероятность наступления события А в каждом

из n независимых испытаний постоянна и равна p (0<p<1), то

справедлива формула: lim(P(k , k

 

 

1

 

 

(k2 −np ) /

npq

e

z2

, где P(k , k

 

)

)) -

 

 

×

ò

 

 

= 0

 

 

 

2

2

 

 

 

n→∞

1

2

 

 

2π

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

(k1−np ) /

npq

 

 

 

 

 

вероятность того, что при n повторениях испытания событие А проявится не менее чем k1 раз и не более k2 раз.

На практике применяют следующие расчетные формулы:

P(k1 , k2 ) ≈Ф(х2 ) −Ф(х1 ) , где Ф(х) – функция Лапласа (она также как и функция φ(х) табулирована и составлена для положительных чисел, поскольку Ф(х)=-Ф(-х)).

 

 

 

 

1

 

 

 

 

х

 

 

 

z2

 

 

 

 

 

Ф(х) =

 

 

 

 

× òe

2 dz .

 

 

 

 

 

 

 

 

2π

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

x = k1 − np

 

 

 

x

 

 

 

= k2 − np

1

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

npq

;

 

 

 

 

 

npq .

 

 

 

 

 

 

 

 

 

 

P.S.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

х2

z2

P(k1, k2 ) =

 

 

 

× xòe

 

dz .

 

 

 

 

 

 

2

 

 

 

 

 

2π

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

93

Задача. Пусть из мест лишения свободы освободилось 200 воров карманников, которые с вероятностью 85% продолжат преступную деятельность на свободе. Требуется рассчитать вероятность того, что число вновь осужденных воров карманников из данной группы составит не менее 120 и не более 150.

Отсюда n=200, k1=120, k2=150, p=0,85, q=0,15. Находим:

x

= k1

- np

 

 

=

120 - 200 × 0,85

 

= -9,901

;

 

 

 

 

 

 

 

 

 

1

 

npq

 

200 × 0,85 × 0,15

 

 

 

 

 

 

 

 

 

 

 

x2

= k2

- np

=

150 - 200 × 0,85

 

 

 

= -3,961

.

 

 

 

 

 

 

 

 

 

 

npq

200 ×0,85 × 0,15

 

 

 

 

 

 

 

 

Знак минус игнорируем, и находим по таблице: Ф(9,901)=0,5.

Ф(3,961)=0,4999.

P(k1, k2 ) »Ф(-3,961) -Ф(-9,901) = 0,4999 +0,5 = 0,999 ..

РЕЗЮМЕ (основные определения и формулы)

Бернулли формула:

P

=

n!

× pk qnk

, где n – число

k!(n -k )!

 

 

 

 

k ,n

 

 

 

 

наблюдений (испытаний, исходов); k – число «благоприятных» исходов, р – вероятность появления благоприятного исхода; q – вероятность не появления благоприятного исхода; Pk,n – вероятность того, что при n испытаниях благоприятное событие наступило ровно k раз.

Бимодальное распределение (bimodal distribution) – распределение, содержащее две моды (два блока (кластера) данных). На графике отчетливо видны две вершины.

Биноминальное распределение (binomial distribution) – это распределение вероятностей появления k-го числа событий в n независимых испытаниях, в каждом из которых вероятность появления события постоянна или равна числу p. Вероятность

числа проявлений события вычисляется

по формуле Бернулли:

Рn,k = P( X = k) =Cnk × pk ×(1- p)nk , где

С – сочетание. Сочетание – это

понятие

комбинаторики.

Напомним,

что

сочетаниями,

94

содержащими k элементов, выбранных из n элементов заданного множества, называются различные множества, отличающиеся друг от друга хотя бы одним элементом. Число сочетаний из n элементов по k элементов обозначают:

Сnk или (kn ) . Число сочетаний из n элементов по k элементов

n!

определяется по формуле: Сnk = k!(n k)! .

Блочная диаграмма (box-and-whisker diagram) – используется для наглядного представления пяти базовых показателей (fivenumber summary) в одномерном наборе данных: 1) минимальное значение переменной по ранжированному ряду; 2) максимальное значение переменной по ранжированному ряду; 3) значение первого квартиля – значение 25%-го числа от начала ранжированного ряда; 4) значение третьего квартиля – значение 75%-го числа от начала ранжированного ряда; 5) значение медианы, позволяющих диагностировать вид распределения.

Бьенамэ-Чебышева правило (Bienayme-Chebyshev rule) гласит, что для любого набора эмпирических данных вне зависимости от закона их распределения доля (или процент) наблюдений, лежащих на расстоянии, не превышающем k среднеквадратических

отклонений от математического ожидания, не меньше

æ

-

1

ö

×100% .

ç1

 

 

÷

k

2

 

 

 

 

 

 

 

 

 

 

 

 

 

è

 

 

ø

 

Например,

 

 

 

для

двух

стандартных

отклонений

 

 

 

имеем:

æ

1

ö

æ

 

 

1

ö

= 75% .

 

 

 

 

 

 

 

 

ç1-

 

 

÷ ×100% =

ç

1

-

 

 

÷ ×100

 

 

 

 

 

 

 

 

k

2

2

2

 

 

 

 

 

 

 

 

è

 

ø

è

 

 

 

ø

 

 

 

 

 

 

 

 

 

Распределение Вейбулла (Weibull distribution) – это распределение вероятностей случайной величины Х, плотность вероятности которой вычисляется по формуле:

f (х) = α

 

æ

x öα

 

 

× xα -1

 

÷

, где

α и β – параметры распределения, α>0,

× e è

β ø

 

 

ç

÷

 

 

βα

β>0, 0≤x≤∞.

Интегральная функция:

æ x öα

F (х) =1-e è

β ø .

 

 

÷

 

ç

÷

95

Выброс (outliner) – значения в наборе данных резко отличающиеся от остальных, например, трехзначное число среди двузначных и т.п. Выделяют ошибочные и корректные выбросы. Ошибочные – исправляют, а корректные оставляют или удаляют, объясняя при этом причину удаления.

Гипергеометрическое распределение (hipergeometric distribution) имеет место в том случае, если вероятность появления

случайной величины X вычисляется по формуле: Р(X = k) = CMk ×CNnkM ,

СNn

где P(X=k) – вероятность наступления события k, k – число интересующих событий в выборке размером n; M – число интересующих событий в ГС объемом N.

Гистограмма (histogram) столбиковая диаграмма, составленная на основе частот, а не просто данных. Отражает, насколько часто конкретные значения встречаются в наборе данных. По горизонтали в порядке возрастания располагаются данные исследуемого ряда, а по вертикали – частоты их встречаемости.

Дискретное распределение (discrete distribution) – распределение дискретных переменных (discrete variables), где каждому дискретному значению из множества X поставлено в соответствие значение вероятности наступления – P(X).

Дисперсия дискретной случайной величины X (variance) – это среднее взвешенное по вероятности квадратов разностей между всеми элементами множества X и математическим ожиданием,

N

вычисляемое по формуле: σ X 2 = å(xi - μX )2 × pi .

i=1

Ковариация (covariance) между двумя дискретными случайными величинами X и Y показывает ненормированную силу связи и её направление между ними (если ковариацию поделить на произведение стандартных отклонений по переменным X и Y, то ковариация будет нормированной и называется коэффициентом

96

корреляции – более удобная мера силы связи между переменными1718). Ковариация для дискретных переменных вычисляется по формуле:

N

 

 

 

 

 

 

где

 

вероятность

σ XY = å(xi - μX ) ×( y j - μY ) × pi (xi y j ) ,

p(xi y j )

i=1

 

 

 

 

 

 

 

 

 

 

наступления i-го значения х и j-го значения у.

 

 

Коэффициент асимметрии

Пирсона

вычисляемый по

формуле: AП =

 

 

Мода

.

 

 

 

 

Х

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ

 

 

 

 

Критерий согласия Пирсона χ2 (кси квадрат):

 

 

h

 

 

2

 

 

 

 

 

 

( fi - fTi )

 

 

 

 

 

 

χ 2 = å

, где h – число групп (в нашем примере их 8), fi

 

i=1

fTi

 

 

 

 

 

 

 

 

наблюдаемая эмпирическая частота; fТi – теоретическая частота рассчитанная по нормальному распределению.

Если эмпирический ряд задан частостями, а не частотами, то

 

 

h

(w - w )2

формула:

χ 2

= å

i Ti

, где вместо частот взяты частости

wTi

 

 

i=1

 

(относительные частоты).

Критерий Колмогорова (разработан А.Н. Колмагоровым) (λ):

λ = DN = d × N , где D – максимальная разность между накопленными

частотами (F iFTi ) эмпирического и теоретического распределений, d – максимальная разность между накопленными частостями (W iWTi ) эмпирического и теоретического распределения; N – число наблюдений.

Критерий Романовского (автор – В.И. Романовский) (Кр):

Кр = χ22vv , где v – число степеней свободы.

Логарифмирование – замена исходных данных (только положительных чисел) их логарифмами, что позволяет: 1)

17

18 Ковариация является плохой мерой связи потому, что зависит от единиц, в которых измеряются переменные х и y, а коэффициент корреляции величина безразмерная.

97

увеличить (растянуть) малые значения; 2) уменьшить (сжать) большие значения; 3) преобразовать скошенные распределения в симметричные, поскольку горизонтальная ось (ось абсцисс) равномерно растягивается около нуля. Например, логарифм числа 0,0004=-3,3979; log(15000)=4,176. Отсюда и частоты, откладываемые по ординате, располагаются более кучно и равномерно. В случае, если вычисляется натуральный логарифм (основание число e=2,71…), то его перевод в десятичный осуществляется путем деления полученного числа на 2,302585, например, ln(15000)=9,6158. Разделив 9,6158 на 2,302585, получим 4,176. Соответственно и наоборот, если умножить 4,176 на 2,302585, то получим 9,615.

Логнормальное распределение (log-normal distribution) – логарифмически нормальное распределение (логнормальное распределение) – это распределение, в котором нормально распределено не само значение переменной (случайной величины) Х, а её логарифм: log X.

Математическим ожиданием (expected value) дискретной случайной величины Х является её среднее взвешенное по вероятности значение (weighted value), вычисляемое по формуле:

N

pi – вероятность каждого конкретного

μX = E(X ) = åxi pi , где

i=1

 

значения случайной величины X, xi – конкретные значения дискретной величины. Для непрерывной случайной величины X

это будет то же самое только в интегральной форме (дискретную вероятность мы заменим плотностью вероятности):

μX = E(X ) = òхf (X )dX .

−∞

Непрерывное распределение (continuous distribution) – это распределение непрерывной случайной величины X, где каждому непрерывному значению из множества X поставлено в соответствие значение плотности вероятности наступления – f(X) – плотность непрерывного распределения вероятностей (continuous probability density function). По сути, в данном случае мы от дискретных сумм переходим к непрерывным интегралам, от столбчатых диаграмм к

98

гладким функциям, не меняя при этом математического смысла происходящего.

Нормальное распределение (normal distribution) или

распределение Гаусса (Gaussian distribution). Иногда

 

его

также

 

 

1

 

e-

( х-μ)2

называют распределением Гаусса-Лапласа: f (x) =

 

 

2×σ 2

 

, где

 

 

 

2πσ

 

 

 

 

 

 

 

f(x) – плотность вероятности, σ – стандартное отклонение, μ – математическое ожидание, e – основание натуральных логарифмов равное числу 2,718. По существу, это дифференциальная функция

от интегральной функции распределения: F (x)

 

 

1 x

e-

( х-μ)2

dx .

 

 

 

2×σ2

 

 

 

 

 

 

 

=

 

2πσ

-ò¥

 

 

 

Нормированный коэффициент асимметрии: rA = σμ33 , где rA

нормированный коэффициент асимметрии, μ3 – асимметрия (центральный момент третьего порядка), σ3 – стандартное отклонение, возведенное в третью степень.

Перцентили (persentile) – это ранжированные данные, выраженные в процентах, а не в числах, то есть ранжированные данные, представленные не в абсолютных, а в относительных величинах. Соответственно имеются перцентили от нуля до 100 включительно, и называются - нулевой перцентиль, первый, второй и т.д. Двадцать пятый (25%) и семьдесят пятый (75%) перцентили носят названия квартилей (quartiles), первый называют нижним квартилем, а второй – верхним. Пятидесятый перцентиль (50%) по ранжированному ряду называют медианой (median).

Правило трёх (шести) сигм – (по три справа и слева от математического ожидания) (six sigma rule) – если случайная величина X имеет нормальный закон распределения с параметрами m и σ2, то практически достоверно, что её значения заключены в интервале (m – 3σ, m+3σ). Отсюда следует важный практический вывод, что отклонение нормально распределенной величины Х свыше трех сигм имеет вероятность, равную 0,0027 (0,27%), то есть ничтожно малую вероятность. При этом основная масса событий (68,27%) будет сгруппирована в пределах первых двух сигм, примыкающих к математическому ожиданию слева (34,13%) и

99

справа (34,13%), далее в пределах вторых сигм по 13,59% (в сумме 27,18%) и в пределах третьих по 2,14% (4,28%).

Преобразование (transformation) – замена исходных данных для упрощения вычислений, например, сдвиг запятой или логарифмирование.

Распределение Паскаля (отрицательное биноминальное распределение) (Pascal distribution). Здесь определяется вероятность числа неудач в последовательности испытаний Бернулли. Случайная величина Х имеет отрицательное биноминальное распределение с параметрами распределения r и p, где r – число успехов, а p – вероятность успеха. Соответственно, вероятность неудач: q=1-p, а число неудач, имевших место до наступления успеха (r), составляет k. Формула для распределения Паскаля:

Р(х = k) = Crk+k −1 × pr ×(1- p)k .

Распределение Пуассона (Poisson distribution) иногда называемое также законом редких событий. По сути, являет собой распределение дискретной случайной величины, когда она принимает одно из возможных значений от нуля до n с

вероятностью: Р( X ) = λx ×e−λ , где х=0, 1, 2…n; λ=μ=D(x)=n∙ p. Лямбда

x!

(λ) – это параметр распределения Пуассона, характеризующий скорость появления событий в n испытаниях.

Распределение Стьюдента

(Student׳s

t-distribution)

 

 

x − μ

sв – выборочное

распределение случайной величины

t =

 

 

 

, где

s /

 

 

n

 

 

в

 

 

 

 

 

стандартное отклонение, x – среднее

арифметическое из

n

наблюдений нормально распределенного набора данных с математическим ожиданием μ.

Среднее квадратическое отклонение (стандартное отклонение) дискретной случайной величины X вычисляется по формуле:

σ X = σ 2 .

100

ОСНОВНЫЕ ТЕРМИНЫ:

Асимметричное распределение (asymmetric distribution), бимодальное распределение (bimodal distribution), биноминальное распределение (binomial distribution), блочная диаграмма (box-and- whisker diagram), распределение Бернулли (Bernoulli distribution), Бьенамэ-Чебышева правило (Bienayme-Chebyshev rule), гамма

распределение (gamma

distribution), распределение Вейбулла

(Weibull distribution),

геометрическое (geometric distribution),

гистограмма (histogram), гипергеометрическое (hipergeometric distribution), распределение Гомперца (Gompertz distribution), дискретное распределение (discrete distribution), квартили (quartiles), ковариация (covariance), логарифм (logarithm), логнормальное распределение (log-normal distribution), непрерывное распределение (continuous distribution), нормальное распределение (normal distribution), распределение χ2 (chi-square distribution), преобразование (transformation), распределение Паскаля (Pascal distribution), перцентили (persentile), распределение Пуассона (Poisson distribution), равномерное распределение (rectangular distribution), симметричное распределение (symmetrical distribution), распределение Стьюдента (Student׳s t-distribution), числовая ось (number line), экспоненциальное распределение (exponential distribution).

РЕШЕНИЕ ТИПОВЫХ ЗАДАЧ Задача №1.

Дано: распределение деяний на плоскости юридической ответственности с математическим ожиданием m=0 и стандартным отклонением σ=3.

Получить формулу нормального закона распределения для данного распределения деяний на плоскости юридической ответственности и построить по ней график распределения.

101

Ответ: 1. Получаем формулу для распределения деяний на плоскости, подставляя в известную формулу закона нормального распределения заданные параметры распределения:

 

 

1

 

e-

( x-0)2

f (x) =

 

 

 

.

 

 

2×32

 

 

 

 

3

 

2π

 

 

 

 

 

 

2. Строим таблицу значений, задав область определения функции от -10 до 10.

Деяния,

Плотность

баллы

распределе

 

ния

-10

0,000514

-9

0,001477

-8

0,003799

-7

0,008741

-6

0,017997

-5

0,033159

-4

0,05467

-3

0,080657

-2

0,106483

-1

0,125794

0

0,132981

1

0,125794

2

0,106483

3

0,080657

4

0,05467

5

0,033159

6

0,017997

7

0,008741

8

0,003799

9

0,001477

10

0,000514

3. По таблице строим график.

102