Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ольков_С_Г_Аналитическая юриспруденция

.pdf
Скачиваний:
213
Добавлен:
13.05.2015
Размер:
8.92 Mб
Скачать

5)Максимальное значе- 100-й перцентиль ние (100-й перцентиль)

Блочная диаграмма – используется для наглядного представления пяти вышеприведенных показателей в одномерном наборе данных. Ниже приведен пример блочной диаграммы, построенной в программе Statistica (выбираем: 1) Basic Statistics/Tables; 2) Descriptive Statistics; 3) Box&whisker plot) для ранжированного ряда данных индексов Джини на Планете в начале ХХI столетия (эти данные использовались в качестве независимой переменной для изучения зависимости между умышленными убийствами на Земле и степенью неравенства в распределении доходов народонаселения). Р.S. В данном случае применялся несколько иной порядок вычисления границ, чем вышеизложенный, что показано в правом нижнем углу блочной диаграммы (mean – среднее; SD – стандартное отклонение).

1085

Box & Whisker Plot

65

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

60

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

55

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

50

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

45

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

35

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Mean = 39,7689

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

±SD

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= (29,3937, 50,1441)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

±1,96*SD

 

 

 

 

Var2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= (19,4335, 60,1043)

 

 

Индекс Джини

Статистическим распределением случайной величины X

(распределением изучаемого признака по частотам встречаемо-

сти) считаем таблицу значений признака (х), расположенного в возрастающем порядке и соответствующих им значений частот (абсолютная частота) или частостей (относительная частота). То есть

статистическое распределение отвечает на вопрос, как часто встречаются соответствующие значения исследуемого признака расположенного в ранжированном порядке. Например, если мы изучаем рецидивную преступность (х), то число лиц с количеством прежних судимостей одна и более отражает частоту встречаемости рецидивистов в изучаемой выборке (f или w).

Эмпирической функцией распределения выборки называется кумулятивная кривая, полученная по частотам (f) или частостям (относительным частотам) (w).

1086

Пример. Дано: выборка лиц, ранее судимых за совершение различных преступлений (рецидивисты). Требуется: 1) представить таблицу статистического распределения; 2) эмпирическую функцию распределения выборки; 3) график эмпирической функции распределения; 4) представить эмпирическую функцию распределения выборки в аналитической форме.

Ответ:

xi

 

 

 

 

 

 

Число суди-

6

5

4

3

2

1

мостей

 

 

 

 

 

 

 

 

 

 

 

 

 

fi

 

 

 

 

 

 

Число лиц

8

12

19

24

35

43

w i =

f i

 

 

 

 

 

 

f i

 

8/141=

0,085

0,135

0,17

0,248

0,305

 

 

 

0,056

 

 

 

 

 

 

 

 

 

 

 

 

 

F ( x )

= w x i

0,056

0,141

0,276

0,446

0,694

1

Где wxi – сумма всех предшествующих значений. Так, wx1 =0,056 (поскольку предшествующих значений для данного числа нет); далее:

wx2 =0,056+0,085=0,141; wx3 =0,141+0,135=0,276;

wx4 =0,276+0,17=0,446; wx5 =0,446+0,248=0,694;

wx6 =0,694+0,305=1.

1087

Построим график данной эмпирической функции распределения. В качестве независимой переменной можно принять либо значения относительных (w) либо абсолютных частот (f).

 

 

0

,056

при

0 < x ≤ 8

 

 

0

,141

при

8 < x ≤ 12

 

 

 

 

 

12 < x ≤ 19

F ( x ) =

 

0

,276

при

 

0

,446

при

19 < х ≤ 24

 

 

 

 

0

,694

при

24 < x ≤ 35

 

 

 

 

 

35 < x ≤ 43

 

 

 

 

при

 

1

 

.

1088

Следует заметить, что эмпирическая функция распределения выборки отличается от обычных вероятностных функций тем, что здесь вместо вероятности (p) берется относительная частота или статистическая вероятность (w). Следовательно, эмпирическая функция распределения может в большей или меньшей степени соответствовать какой-либо теоретической кривой распределения.

Простое среднее арифметическое (принимаем, что вероятно-

сти исходов (событий, значений) равные. Это очевидно, когда числовые значения не повторяются). Среднее арифметическое является наиболее распространенной оценкой среднего значения распределения и вычисляется по формуле:

 

 

 

n

 

 

 

 

 

 

 

 

 

 

хi

 

x

+ x

 

+... + x

 

 

Х =

i=1

=

2

k

 

1

 

 

 

n

 

 

 

n

 

, где n – объем выборки. Если вычис-

 

 

 

 

 

 

 

 

ления проводятся по генеральной совокупности (ГС), то вместо n, берется N – объем генеральной совокупности и вместо выборочного среднего арифметического получается среднее арифметическое для ГС, которое называют математическим ожиданием.

P.S. Величина среднего арифметического зависит от всех элементов, содержащихся в числителе, поэтому наличие их скачков (выбросы или экстремальные значения) снижает качество оценки. В этом случае лучше использовать медиану.

Простое математическое ожидание (population mean) вычис-

ляется точно также как и среднее арифметическое:

 

n

 

 

 

μ =

хi

=

x1 + x2 + ... + xk

 

i=1

.

N

 

 

 

N

Медиана (median) – число, разделяющее ранжированную выборку или ГС пополам. То есть 50% выборочных данных меньше медианного значения, и 50% - больше медианы.

1089

n + 1

M= 2 – если выборка содержит нечетное число элементов.

В том случае, когда выборка содержит четное число элементов, то медиана расположена между двумя средними элементами выборки и равна их среднему арифметическому: (x1 + x2)/2.

Выборочная средняя ( Х ) при наличии повторяющихся значений признака рассчитывается как обычная средняя взвешенная по частотам или частостям.

Если имеет место не дискретное, а непрерывное распределение, то следует рассчитывать математическое ожидание или вместо пе-

ременной х брать середины интервалов:

хi

+ x i + 1

.

 

2

 

 

 

При больших значениях выборочных данных иногда удобно пе-

рейти от абсолютных значений переменной икс к их

суррогатам zi,

рассчитываемым, например, по формуле: z i =

x i

- G

, где G

 

h

 

 

 

новая, смещенная точка отсчета, скажем, значение переменной х с наибольшей частотой f, h - сумма частот f. В таком случае в обыч-

ном порядке рассчитывается новая средняя взвешенная Z , которая связана с обычной средней взвешенной полученной по выбо-

рочным данным формулой: X = Z h + G .

Среднее геометрическое (geometric mean) – это корень энной степени из произведения n величин. Вычисляется по формуле:

1

Х Г = ( x1 × x2 × ... × xn ) n .

Как известно среднее арифметическое не показывает изменений, происходящих с наблюдениями с течением времени. Этого недостатка лишено среднее геометрическое.

1090

Среднее геометрическое значение нормы прибыли

вычисляется по формуле:

1

 

 

 

Г = [(1 + R1 ) × (1 + R 2 ) + ... + (1 + R n ) ]

 

- 1 , где R – нор-

R

 

n

ма прибыли за i-й период времени.

 

Выборочная дисперсия - среднее взвешенное квадратов отклонений переменной (признака) рассчитывается подобно обычной средней взвешенной по частотам (fi) или частостям (wi). Если значения переменной не повторяются или повторами можно пренебречь (предполагается, что все значения равновероятны), числитель

( хi X ) 2 делится на число наблюдений n:

 

 

1

n

 

 

 

 

D в

=

( xi -

 

) 2

 

x

. Если значения переменных повторяют-

n

 

 

i =

1

 

 

 

ся (не равновероятны) то используются формулы:

при расчете с использованием абсолютных частот:

 

1

n

 

 

 

D в =

( xi -

 

) 2 × f i .

x

f i

 

i =

1

 

 

При расчете с использованием относительных частот:

N

D в = ( x i - x ) 2 × w i .

i =1

Считается доказанным, что выборочная дисперсия содержит систематическую ошибку, которая ведет к занижению величины дисперсии. В этой связи выборочную дисперсию корректируют:

S =

f

 

× D

 

( f )

- 1

в или

в

 

 

 

 

1091

 

 

1

n

 

 

 

S в

=

× ( xi -

 

) 2 × f .

 

x

( f ) - 1

 

 

i =

1

 

 

При равновероятных значениях переменной:

 

 

 

1

n

 

 

 

S в

=

 

( xi -

 

) 2 .

 

 

x

N

- 1

 

 

i =

1

 

 

Дисперсия ГС (генеральной совокупности) (population variance) вычисляется точно также как неисправленная выборочная дисперсия с той лишь разницей, что вместо n берется N. Чтобы различать выборочную дисперсию и дисперсию в ГС используют разные обозначения. Дисперсия в ГС обычно обозначается символом σ2.

 

1

N

 

σ 2 =

( xi - μ ) 2 .

N

 

i =

1

Стандартное отклонение ГС (population standard) вычисляется путем извлечения квадратного корня из дисперсии генеральной совокупности.

Дисперсия для таблицы данных

 

p

n

 

 

 

 

 

∑ ∑ ( X ij -

 

) 2

 

X

 

D =

j =1

i

 

 

 

, где D – дисперсия для таблицы

 

N -

1

 

 

 

 

 

 

 

данных, X – средняя для таблицы данных, N – наблюдений.

Правило Бьенамэ-Чебышева (Bienayme-Chebyshev) гласит, что для любого набора эмпирических данных вне зависимости от закона их распределения доля (или процент) наблюдений, лежащих на расстоянии, не превышающем k среднеквадратических отклонений

от математического ожидания, не меньше 1 -21 × . -

k 100 % По су

1092

ти, это правило близко к правилу трех сигм, но подходит не только для закона нормального распределения. Из правила БьенамэЧебышева следует, что 3/4 (75%) данных любого набора попадает в интервал μ ± 2σ (под кривой нормального распределения, со-

гласно правилу трех сигм, в данном диапазоне умещается 95,45%

данных);

по меньшей

мере, 8/9 (88,89%) попадает в

интервал

μ ± 3σ ;

минимум

15/16 (93,75%) содержится в

интервале

μ ± 4σ . Данное правило показывает минимальное количество эмпирических наблюдений, которое должно попасть в диапазон соответствующего числа средних квадратических отклонений от математического ожидания.

Сравнительная таблица. Количество наблюдений, находя-

щихся на конкретном расстоянии от математического ожидания (правило Бьенамэ-Чебышева и правило трех сигм)

Диапазон

Количество попада-

Правило трех сигм

 

ний по правилу Бье-

 

 

намэ-Чебышева

 

 

 

 

(µ-σ; µ+σ)

0%

68,27%

 

 

 

(µ-2σ; µ+2σ)

Минимально 75%

95,45%

 

 

 

(µ-3σ; µ+3σ)

Минимально 88,89%

99,73%

 

 

 

Видно, что правило Бьенамэ-Чебышева оставляет открытым вопрос о распределении наблюдений в пределах первых сигм.

Эмпирическое правило Бьенамэ-Чебышева применяется для оценки величины разброса вокруг среднего для распределений заметно отличающихся от нормального. В частности, для распределений, имеющих асимметрию или иную, отличную от нормальной форму.

В соответствии с правилом трех сигм, наблюдения, лежащие за пределами (µ-3σ; µ+3σ), практически, невероятны.

1093

Как и для чего получаются различные статистические таблицы, приведенные в Приложении (статистические таблицы)

Различные статистические таблицы предназначены для проверки различных статистических выводов, и обычно получаются на основе каких-либо известных вероятностных распределений. Продемонстрируем это на примере нормального распределения (вероятностный закон распределения Гаусса-Лапласа). Теоретически можно взять бесконечно большое количество данных, и от дискретных значений перейти к непрерывным, а, следовательно, и от сумм к интегралам (частота заменяется плотностью вероятности (f(Х)). Тогда на графике вместо столбиков частот, получим непрерывную кривую распределения площадь, под графиком которой составляет 100% или единицу. Например, если исследовать рост людей в популяции (Х – рост в миллиметрах) и частоты встречаемости людей с соответствующим ростом (Y – количество человек), то на плоскости в прямоугольной системе координат получится частотная гистограмма – столбчатая диаграмма, из которой будет видно, какому росту, какое количество людей соответствует. Если количество исследуемых людей наращивать, то вершины столбиков будут сливаться в непрерывную гладкую кривую колоколообразной формы, и от дискретных значений частот Y мы перейдем к непрерывным значениям плотности распределения f(Х). В итоге будет получена знаменитая теоретическая кривая нормального распределения

на плоскости с параметрами µ (математическое

 

ожидание) и σ

 

 

 

1

 

 

 

-

( x - μ )

 

 

f ( X ) =

 

 

 

× e

2 ×σ 2

 

 

 

 

 

(стандартное отклонение):

 

 

 

 

.

σ ×

 

 

 

 

 

 

 

 

 

Очевидно, что изучение различных переменных, например, интеллекта, веса людей, преступности по странам и регионам, деяний на плоскости юридической ответственности и т.д. в итоге будут давать соответствующее эмпирическое распределения похожее на нормальное с различными параметрами распределения (будут ме-

1094