Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ольков_С_Г_Аналитическая юриспруденция

.pdf
Скачиваний:
212
Добавлен:
13.05.2015
Размер:
8.92 Mб
Скачать

Амурская область

2148

Магаданская область

2205

Сахалинская область

2126

Еврейская автономная область

2172

Чукотский авт.округ

1685

Из этого ряда уберем коэффициенты преступности для России в целом и общие коэффициенты по округам, оставив только коэффициенты для каждого конкретного субъекта РФ.

2) Ранжируем вариационный ряд от минимума к максимуму. Всего имеем N=83; минимум=361 (Чеченская Республика); максимум=6275 (Ямало-Ненецкий автономный округ).

Р.S. Исключим из анализа «выброс» - значение для ЯмалоНенецкого округа, оставив 82 значения.

Таблица. Ранжированный ряд коэффициентов преступности по субъектам РФ с частотами.

№ п/п

Ранж.

Частота

1

361

 

2

373

 

3

425

3

4

920

1

5

1003

 

6

1020

 

7

1031

 

8

1034

 

9

1042

 

10

1055

 

11

1101

 

12

1215

 

13

1236

9

14

1267

 

15

1275

 

16

1332

 

17

1365

 

18

1399

 

19

1403

 

20

1405

 

21

1426

 

22

1431

 

23

1440

 

 

 

24

1494

 

63

25

1547

 

26

1555

13

27

1591

 

28

1595

 

29

1631

 

30

1634

 

31

1658

 

32

1681

 

33

1685

 

34

1695

 

35

1742

 

36

 

1745

 

37

1760

 

38

1767

 

39

1778

 

40

1780

 

41

1788

 

42

1794

 

43

 

1795

 

44

1797

 

45

1810

 

46

1817

 

47

1828

21

48

 

1890

 

49

1928

 

50

1984

 

51

2009

 

52

2012

 

53

2012

 

54

2029

 

55

2072

 

56

2126

 

57

2138

 

58

2144

 

59

2148

12

60

2164

 

61

2172

 

62

2177

 

63

2195

 

64

2198

 

65

2205

 

66

2308

 

67

2330

 

68

2396

 

69

2402

 

64

70

2426

 

71

2427

 

72

2454

13

73

2470

 

74

2487

 

75

2504

 

76

2570

 

77

2583

 

78

2595

 

79

2633

 

80

2719

 

81

2751

 

82

2787

10

3) Определим длину интервала:

L =

КПмакс КПмин

h

 

 

, где L – длина

интервала, h – число групп, а число групп (h) по формуле Стерджесса: h=1+3,322×logN. Для нашего случая получим:

h=1+3,322×log(82)=7,36≈8; L = 27878361 =303≈300. Примем число

интервалов равным 8, а длину интервала 300.

4) Построим вспомогательную рабочую таблицу:

Х=КП,

Частота

Середина

хi fi

 

 

 

шт.

(fi)

интервала,

 

 

 

xi

 

361-660

3

510

1530

661-960

1

810

810

961-1260

9

1110

9990

1261-1560

13

1410

18330

1561-1860

21

1710

35910

1861-2160

12

2010

24120

2161-2460

13

2310

30030

2461-2787

10

2624

26240

ИТОГО

82

 

146960

65

 

 

 

 

h

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

å xi × fi

146960

= 1792.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Х

=

i=1

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

h

 

82

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

å fi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(хi - х)2

 

 

 

(хi

- х)2 × fi

t =

xi x

1

 

 

 

t 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f (t) =

 

 

 

 

×e

2

 

 

 

 

 

 

 

 

 

 

 

 

 

σ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1643524

 

 

 

 

4930572

 

 

-2,42

0,021

 

 

 

 

964324

 

 

 

 

964324

 

 

-1,85

0,072

 

 

 

 

465124

 

 

 

 

4186116

 

 

-1,29

0,174

 

 

 

 

145924

 

 

 

 

1897012

 

 

-0,72

0,308

 

 

 

 

6724

 

 

 

 

141204

 

 

-0,15

0,394

 

 

 

 

47524

 

 

 

 

570288

 

 

0,41

0,367

 

 

 

 

268324

 

 

 

 

3488212

 

 

0,976

0,248

 

 

 

 

692224

 

 

 

 

6922240

 

 

1,57

0,116

 

 

 

 

 

 

 

 

 

 

 

23099968

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

h

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ 2 =

å(xi - х)× fi

23099968

= 281706,9 .

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

h

 

 

82

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

å fi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

σ= σ 2 =530,7.

Следует учитывать, что функция f(t) четная: f(-t)=f(t), поэтому знак минус при t игнорируем.

При производстве вычислений в программе Mathcad формулу для расчета первого значения следует записать так:

 

æ

2.42

2 ö

 

1

÷

= 0.021 , а далее вместо числа 2,42 подставлять

×e è

 

ø

ç

2

÷

 

(2 ×π)

последующие значения.

Вычисления можно не производить, а взять соответствующие

 

 

1

 

×e

t 2

цифры из таблицы значений функции f (t) =

 

 

2 , которая

 

 

 

 

 

 

 

 

табулирована. Так, для значения f(2,42) в таблице указано значение

«0213», что соответствует числу 0,0213 (добавили ноль).

 

 

4) Рассчитаем теоретические частоты,

которые

будем

 

h

 

 

сравнивать с полученными эмпирическими: fT =

L ×å fi

× f (t)

, где L

i =1

 

σ

i

 

 

 

 

 

 

66

 

h

 

 

 

 

длина интервала. Поскольку

L × å fi

=

300×82

= 46

, постольку для

i 1

 

σ

530

 

 

=

 

 

 

 

нахождения теоретических частот нужно полученное число умножить на каждое конкретное значение эмпирической функции f(t).

 

 

 

1

 

 

 

t 2

 

h

 

 

f (t) =

 

 

 

×e

 

 

 

L ×å fi

 

Частота

 

 

 

2

 

 

 

 

 

 

 

 

 

2π

 

 

fTi =

× f (t)

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

(fi)

 

 

 

 

 

 

 

 

 

σ

 

 

 

 

 

 

 

 

 

 

 

 

3

0,021

 

 

 

 

1

 

1

0,072

 

 

 

 

3

 

9

0,174

 

 

 

 

8

 

13

0,308

 

 

 

 

14

 

21

0,394

 

 

 

 

18

 

12

0,367

 

 

 

 

17

 

13

0,248

 

 

 

 

11

 

10

0,116

 

 

 

 

5

 

82

 

 

 

 

 

 

 

 

 

77

 

5) Чтобы визуально оценить близость кривых, построим график.

5) Видно, что различия не велики, однако величину различия нужно измерить, чтобы сделать окончательный вывод. В этих целях применим критерий согласия Пирсона χ2 (кси квадрат):

67

 

h

 

2

 

 

( fi − fTi )

 

χ 2

= å

, где h – число групп (в нашем примере их 8), fi

 

 

i=1

fT

 

 

 

 

i

 

 

наблюдаемая эмпирическая частота; fТi – теоретическая частота рассчитанная по нормальному распределению.

Если эмпирический ряд задан частостями, а не частотами, то

 

 

h

(w − w )2

формула:

χ 2

= å

i Ti

, где вместо частот взяты частости

wT

 

 

i=1

 

 

 

 

i

 

(относительные частоты).

Распределения Пирсона χ2 табулировано (имеется специальная таблица). Чтобы выполнить соответствующую проверку нужно выбрать уровень значимости α (вероятность ошибочного отклонения верной гипотезы). Например, если α=0,05, тогда вероятность принятия правильного решения составляет 0,95 (р=0,95). Обычно α берется равной 0,1 (вероятность правильного ответа 90%, а ошибки 10%); 0,05 (вероятность правильного ответа 95%, а шибки 5%); 0,01 (вероятность правильного ответа 99%, а ошибки 1%).

 

 

 

h

 

 

 

 

 

 

 

Частота

 

fT =

L ×å fi

× f (t)

 

 

( fi − fTi

)

 

 

 

 

 

i=1

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

(fi)

 

i

σ

 

 

 

 

 

 

 

 

 

 

 

 

 

fTi

 

 

 

3

 

 

1

 

 

4

 

 

 

1

 

 

3

 

 

1,33

 

 

 

9

 

 

8

 

 

0,125

 

 

13

 

 

14

 

 

0,07

 

 

 

21

 

 

18

 

 

0,5

 

 

 

12

 

 

17

 

 

1,47

 

 

 

13

 

 

11

 

 

0,36

 

 

 

10

 

 

5

 

 

5

 

 

 

ИТОГО: 82

 

 

77

 

 

12,85

 

.

Расчетное или

эмпирическое

значение P(χэмпир2 ) =12 ,85

Теоретическое – полученное из распределения χ2 (chi-square distribution) зависит от числа степеней свободы. В литературе число степеней свободы предлагают вычислять по-разному. Например, в учебнике под редакцией профессора Р.А. Шмойловой отмечается:

68

«Входами

в таблицу являются

значения χ2 и

число степеней

свободы:

γ = n −1. На основе

P выносится

суждение о

существенности или несущественности расхождения между эмпирическим и теоретическим распределением. При P>0,5 считается, что эмпирическое и теоретическое распределение близки, при P [0,2; 0,5] совпадение между ними удовлетворительное, в остальных случаях недостаточное. Если число степеней свободы большое, то применяется соотношение 2 2γ −1 . Расхождение между эмпирическим и теоретическим значениями существенно при значениях этой разницы, заметно превосходящих 2».12

В учебнике под редакцией профессора Г.Л. Громыко отмечается: «Число степеней свободы v определяется, как число групп в ряду распределения k (в нашем примере мы их обозначили буквой h) минус число связей z: v=k-z. Под числом связей понимается число показателей эмпирического ряда, использованных при исчислении теоретических частот, то есть показателей, связывающих эмпирические и теоретические частоты

æ

i

ö

 

 

 

m=f). Так, в случае выравнивания по

è

ø(в нашем примере

çх,σ, åmi ÷

 

 

 

 

кривой нормального распределения имеется 3 (три) связи:

 

x

эмп =

х

теор ;σэмп теор ;

åmi

= åmi

 

 

 

i

эмп i теор .

Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как: v=k-3 (для нашего примера: v=h-3).

При выравнивании по кривой Пуассона v=k-2, так как при построении частот используются две ограничивающие связи:

æ

i

ö

. Для

2

è

ø

оценки существенности расчетное значение χ

çх, åmi ÷

 

 

сравнивается с табличным. При полном совпадении теоретического и эмпирического распределения χ2=0, в противном случае χ2>0. Если χрасч2 > χтабл2 , то при заданном уровне значимости α и числе степеней свободы v гипотезу о несущественности различий

12 Теория статистики: учебник / Р.А. Шмойлова, В.Г. Минашкин, Н.А.Садовников, Е.Б.Шувалова; под ред. Р.А. Шмойловой. – 4-е изд., перераб. и доп. – М.: Финансы и статистика, 2004. С. 273.

69

(случайности) расхождений отклоняем. В случае, если χрасч2 ≤ χтабл2 , то при заданном уровне значимости α и числе степеней свободы v заключаем, что эмпирический ряд хорошо согласуется с гипотезой о предполагаемом распределении и с вероятностью (1- α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно»13. Также указывается, что при использовании распределения χ2 нужно соблюдать определенные условия: 1) объем совокупности должен быть достаточно большим (не менее 50 наблюдений); 2) частота или численность каждой группы должна быть не менее 5 единиц; 3) эмпирическое распределение должно состоять из данных, полученных в результате случайного отбора, то есть они должны быть независимыми.

Вернемся к нашему примеру о проверке согласованности с нормальным распределением эмпирического распределения коэффициентов преступности по субъектам Российской Федерации. Отметим, что все необходимые условия для применения критерия χ2 здесь соблюдены: 1) число наблюдений 82 (больше 50); 2) численность групп больше 5 (L=300); 3) эмпирическое распределение состоит из данных, полученных в результате случайного отбора (регистрируемые преступления независимы друг от друга).

Найдем число степеней свободы: df=v=h-3=8-3=5. Примем уровень значимости равным 0,05 и обратимся к таблице значений χ2-критерия Пирсона при уровне значимости 0,10, 0,05, 0,01 и числе степеней свободы df.

Таблица значений χ2-критерия Пирсона при уровне

значимости 0,10, 0,05, 0,01 и числе степеней свободы df.

 

df (v)

0,10

0,05

0,01

df (v)

0,10

0,05

0,01

1

2,71

3,84

6,63

21

29,62

32,67

38,93

2

4,61

5,99

9,21

22

30,81

33,92

40,29

3

6,25

7,81

11,34

23

32,01

34,17

41,64

13 Теория статистики: учебник; под ред. проф. Г.Л. Громыко. – 2-е изд., перераб. и доп. – М.: ИНФРА-М, 2006. С. 144-145.

70

4

7,78

9,49

13,28

24

33,20

36,42

42,98

5

9,24

11,07

15,09

25

34,38

37,65

44,31

6

10,64

12,59

16,89

26

35,56

38,89

45,64

7

12,02

14,07

18,48

27

36,74

40,11

46,96

8

13,36

15,51

20,09

28

37,92

41,34

48,28

9

14,68

16,92

21,67

29

39,09

42,56

49,59

10

15,99

18,31

23,21

30

40,26

43,77

50,89

11

17,28

19,68

24,72

40

51,80

55,76

63,69

12

18,55

21,03

26,22

50

63,17

67,50

76,15

13

19,81

22,36

27,69

60

74,40

79,08

88,38

14

21,06

23,68

29,14

70

85,53

90,53

100,42

15

22,31

25,00

30,58

80

96,58

101,88

112,33

16

23,54

26,30

32,00

90

107,56

113,14

124,12

17

24,77

27,59

33,41

100

118,50

124,34

135,81

18

25,99

28,87

34,81

 

 

 

 

19

27,20

30,14

36,19

 

 

 

 

20

28,41

31,41

37,57

 

 

 

 

На пересечении строки со значением 5 (число степеней свободы) и столбца 0,05 (уровень значимости) получим число 11,07. То есть получим χрасч2 ≤ χтабл2 (11,07<12,85). Следовательно, при заданном уровне значимости α=0,05 и числе степеней свободы v=5 заключаем, что эмпирический ряд хорошо согласуется с гипотезой о предполагаемом распределении, и с вероятностью (1-α=1- 0,05=0,95) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Вообще можно найти точный уровень доверительной вероятности с помощью встроенной в программу Excel функции ХИ2РАСП. Для этого в «Мастере функций» выбираем упомянутую функцию, в поле X вводим расчетное (эмпирическое) значение Pэмпир2 ) =12 ,85 , а в поле «Степени свободы» – число 5. В итоге получаем точный уровень доверительной вероятности 0,0248. Выполняя обратную операцию, с помощью функции XИ2ОБР получаем по доверительной вероятности 0,0248 и числу степеней свободы 5 расчетное значение 12,85.

71

Наряду с критерием Пирсона имеются и другие подобные тесты (критерии):

1)критерий Колмогорова (разработан А.Н. Колмагоровым) (λ):

λ= DN = d × N , где D – максимальная разность между накопленными

частотами (F iFTi ) эмпирического и теоретического распределений, d – максимальная разность между накопленными частостями (W iWTi ) эмпирического и теоретического распределения; N – число наблюдений.

Применим данный критерий к нашему примеру:

fi

fT

Fi

FT

Fi FT

 

i

 

i

i

3

1

3

1

2

1

3

4

4

0

9

8

13

12

1

13

14

26

26

0

21

18

47

44

3

12

17

59

61

2

13

11

72

72

0

10

5

82

77

5

ИТОГО: 82

77

 

 

 

Далее по формуле считаем: λ =

 

D

 

=

 

5

 

= 0,55 .

 

 

 

 

 

 

 

82

 

 

N

 

 

По специальной таблице значений функции P(λ) находим

значение вероятности (P(λ))

при

λ=0,55: P(0,55)=0,9228. Это

означает, что с вероятностью 0,9228 эмпирическое распределение соответствует данному теоретическому распределению.

 

Таблица значений функции P(λ)

 

λ

P

λ

P

0,30

1,0000

1,10

0,1777

0,35

0,9997

1,20

0,1122

0,40

0,9972

1,30

0,0681

0,45

0,9874

1,40

0,0397

0,50

0,9639

1,50

0,0222

0,55

0,9228

1,60

0,0120

0,60

0,8643

1,70

0,0062

72