Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ольков_С_Г_Аналитическая юриспруденция

.pdf
Скачиваний:
206
Добавлен:
13.05.2015
Размер:
8.92 Mб
Скачать

преступления. Нечто подобное мы будем делать при изучении текучести кадров. Так, «моментом смерти» судьи или прокурора можно считать его увольнение с должности, а не сам факт его прямой физической смерти, который применительно к данному исследованию будет выбыванием до окончания исследования.

Стенон Гланц совершенно справедливо выделяет «показатели процесса» и «показатели результата»: «Если, например, препарат снижает уровень холестерина, то это еще не значит, что он позволяет продлить жизнь больного или отдалить появление стенокардии, - речь, следовательно, идет о показателе процесса. Напротив, если доказано, что препарат продлевает жизнь, то речь идет о показателе результата, имеющем несомненную клиническую значимость. Сегодня, когда требования к доказательствам эффективности лечения ужесточаются, изучение выживаемости (и вообще течения заболеваний) приобретает всё большее значение. Исследования такого рода, в отличие от простой регистрации показателей процесса, столь же трудны, сколь необходимы»28. То же самое в полной мере относится и к юриспруденции, в частности, тем примерам, о которых мы говорили выше. Так, новая система оплаты труда может повысить или понизить «выживаемость судей», новая методика, скажем, химическая кастрация осужденных педофилов может снизить рецидив педофилии, но нужно еще понять – осуществляется ли влияние на результат или только процесс. Повышение оплаты труда судей может привести к снижению текучести кадров, но это еще не факт, что от этого улучшится качество правосудия (результат).

В настоящее время «анализ выживаемости» представлен достаточно большой группой методов, среди которых имеются, как сравнительно простые, так и довольно сложные. Ряд серьезных методов такого рода реализован в различных статистических пакетах программ. В частности, в ППП Statistica имеется специальный модуль «Survival Analysis». Чтобы найти его, нужно в

28 Гланц С. Медико-биологическая статистика/С.Гланц. – Пер с англ. – М.: Практика, 1998. С. 398.

197

командной строке выбрать «Statistics» (статистики) (здесь сосредоточены все исследовательские инструменты (методы) программы). Далее выбираем «Advanced Linear/Nonlinear Models» (продвинутые линейные и нелинейные модели), «Survival Analysis» (анализ выживаемости). Выбрав «Survival Analysis», получим окно «Survival and Failure Time» (выживания и смерти время), в котором реализованы следующие методы: 1) Life tables (таблицы жизни) & Distributions (распределения); 2) Kaplan & Meier product-limit method (Каплана-Мейера метод); 3) Comparing two samples (сравнение 2-х выборок); 4) Comparing multiple samples (сравнение множественных выборок); 5) Regression models (регрессионные модели); 6) Time-dependent covariates (зависящая от времени ковариация). В интернете имеется большое разнообразие учебников по ППП Statistica, где разъясняется порядок применения указанных методов29.

Следует отметить, что мы проведем как и прежде подробный разбор данного метода, поскольку простая работа с алгоритмом в компьютерной программе может принести больше вреда, чем пользы, если исследователь, применяющий метод, не понимает его суть и ограничения. Очевидно, даже, получив точные результаты, такой горе-исследователь не сможет их понять и интерпретировать, а, кроме того, он может принять и ошибочные результаты за вполне приемлемые.

Таблицы времен жизни (life tables) – простейший способ представить функцию выживаемости, то есть вероятность того, что объект прожил больше t дней после операции или освобождения из мест лишения свободы до нового осуждения и т.п.

Для проведения анализа выживаемости обычно нужно соблюдать следующие требования: 1) для всех объектов наблюдения известно время начала и окончания наблюдения; 2) выбор наблюдаемых производится случайным образом.

29 http://www.biometrica.tomsk.ru/statbook/index.htm http://www.hr-portal.ru/statistica/gl14/gl14.php http://statosphere.ru/books-arch/statistica-books/85-halafyan.html

198

Функция выживаемости S(t) – это вероятность прожить более t единиц времени с момента начала отсчета. Для совокупности

имеем: S(t) = mN , где m – число лиц, переживших какой-то момент

времени t, N – объем исследуемой совокупности. Проблема заключается в том, что имеет место выбывание, и в исходную формулу нужно вносить поправку. В итоге получается расчет выживаемости моментным способом, получившим название метода

Каплана-Мейера:

 

æ

-

d ö

, где

П – произведение

 

ç

n ÷

 

S(t) = Пç1

i ÷

 

 

 

 

è

 

i ø

 

 

соответствующих сомножителей указанных в скобках, di – абсолютное число умерших в i-ый момент времени, ni – абсолютное число наблюдавшихся в i-ый момент времени. То есть следует перемножить значения по всем i-ым моментам.

Для разъяснения сути данной формулы решим задачу. Пусть у нас имеется таблица с данными выборочного исследования группы рецидивистов:

Рецидивис

ti

ni

di

fi =1- di

S (t )

 

 

 

 

 

т

 

 

 

ni

 

 

 

 

 

 

(кличка)

 

 

 

 

 

Босс

1

9

1

0,888

0,888

Льюис

3

8

1

0,875

0,777

Алонсо

4+

-

-

-

-

Антонио

7+

-

-

-

-

Хулио

7

5

1

0,8

0,62

Вегас

 

 

 

 

 

Амегас

8

4

2

0,5

0,31

Пегас

9+

-

-

-

-

Лопес

10

1

1

0

0

199

В столбце t показаны сроки, в течение которых исследуемые рецидивисты не привлекались к уголовной ответственности с момента начала отсчета. Так, Лопес не попал в поле зрения полиции в течение 10 месяцев, а Смит угодил за решетку уже через месяц. Знак плюс рядом с числом означает, что исследуемый рецидивист выпал из поля зрения, но на данный момент не был привлечен к уголовной ответственности (о его судьбе нам ничего неизвестно). Например, Пегас наблюдался в течение 9 месяцев, а потом пропал из поля зрения наблюдателей.

S (t)3 =0,888 ×0,875 =0,777

S (t)7 =0,888 ×0,875 ×0,8 =0,62

S (t)8 =0,888 ×0,875 ×0,8 ×0,5 =0,31

Поскольку мы имели дело с выборочными данными, постольку получили лишь оценку функции выживаемости для рецидивистов, поэтому нам нужно получить и оценку точности приближения выборочной функции выживаемости к функции

200

выживаемости в генеральной совокупности. Эту оценку можно вычислить по формуле Гринвуда:

 

 

 

 

 

n

di

 

 

 

 

 

 

 

 

 

SS (t) = S(t) × å

 

 

,

 

 

 

 

 

n ×(n - d

)

 

 

 

 

 

 

 

i=1

i i i

 

 

 

 

 

 

где сумма берется по всем i-ым

моментам.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ni

di

S (t )

 

di

 

 

 

SS (t )

 

 

 

Нижняя

Верхняя

 

 

ni (ni di )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

граница

граница

 

 

 

 

 

 

 

 

 

 

 

 

9

1

0,888

0,0138

 

 

 

0,104

 

0,684

1,0930

 

 

 

 

 

 

 

 

 

 

 

 

 

Заменим

 

 

 

 

 

 

 

 

 

 

 

 

 

на 1

 

 

 

 

 

 

 

 

 

 

 

 

8

1

0,777

0,0179

 

 

 

0,138

 

0,506

1,04

 

 

 

 

 

 

 

 

 

 

 

 

 

Заменим

 

 

 

 

 

 

 

 

 

 

 

 

 

на 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

30

С. Гланц отмечает, что при расчете доверительных интервалов для долей существует ограничение на использование нормального распределения. Аналогичное ограничение существует и при оценке доверительных интервалов функции выживаемости. Дело в том, что нормальное приближение вносит сильные искажения, когда функция выживаемости принимает значение, близкое к граничным – к 0 или 1. В этом случае доверительный интервал должен быть несимметричен. Приведенная же формула дает симметричную оценку, которая может выйти за граничные значения – нуль или единицу. Простейший способ исправить такую оценку состоит в том, чтобы значения больше единицы, заменить на единицу, а меньше нуля – на нуль. Существует и более сложный метод, позволяющий точнее рассчитать доверительный интервал с использованием логарифмирования.

201

-

-

-

 

 

 

 

 

 

 

 

 

 

 

 

 

-

-

-

 

 

 

 

5

1

0,62

0,05

0,177

0,273

0,966

4

2

0,31

0,166

0,154

0,0016

0,611

 

 

 

 

 

 

 

 

 

-

-

-

 

 

 

 

 

 

 

 

 

 

 

 

1

1

0

 

 

 

 

 

d9

 

 

 

 

 

=

 

1

 

 

= 0,0138

n (n - d

 

 

)

 

 

9×(9 -1)

 

 

9

9

9

 

 

 

 

 

 

 

 

 

 

 

d8

 

 

 

 

 

=

 

1

 

 

= 0,0179

n (n - d

 

)

 

 

8×(8 -1)

 

 

8

8

8

 

 

 

 

 

 

 

 

 

 

 

d5

 

 

 

 

 

=

 

1

 

 

= 0,05

n (n - d

 

 

)

 

 

5×(5 -1)

 

 

5

5

5

 

 

 

 

 

 

 

 

 

 

 

d4

 

 

 

 

 

=

 

2

 

 

= 0,166

n (n - d

4

)

 

 

4 ×(4 -1)

4

4

 

 

 

 

 

 

 

 

 

 

SS (9) = 0,0138 ×0,888 =0,104 ,

SS (8) = (0,0138 +0,0179 ) ×0,777 =0,138 ,

SS (5)

=

 

 

 

 

×0,62 =0,177 ,

(0,0138

+0,0179

+0,05 )

SS (5)

=

 

 

 

×0,31 =0,154 .

(0,0138

+0,0179

+0,05 +0,166 )

Доверительный интервал для функции выживаемости задается

неравенством:

S (t) -z ×S

<S (t) <S (t) +z ×S .

 

α

S (t )

 

 

α S (t )

 

 

 

 

 

 

 

Если согласиться на 5% ошибку, то есть принять уровень доверительной вероятности α=0,05, то t0,05=1,96 (по таблице значений t-распределения Стьюдента). Откуда найдем нижние и

202

верхние границы доверительного интервала для нашей функции выживаемости:

0,888 -1,96 ×0,104 < S(t) <0,888 +1,96 ×0,104 .

0,684<S(t)<1,09.

0,777 -1,96 ×0,138 < S(t) <0,777 +1,96 ×0,138 .

0,506<S(t)<1,04.

0,62 -1,96 ×0,177 < S(t) <0,62 +1,96 ×0,177 .

0,273<S(t)<0,966.

0,31 -1,96 ×0,154 < S(t) <0,31 +1,96 ×0,154 .

0,0016<S(t)<0,611.

Более точно доверительные интервалы можно рассчитывать с помощью стандартной ошибки для логарифмической функции выживаемости, вычисляемой по формуле:

Sln[− lnS(t)] =

1

× å

d

 

 

 

[lnS(t)]2

i

 

.

ni(ni -

di)

Отсюда доверительный интервал:

S(t)e x -pzα (×Sl n[− l nS(t)] <

S(t)< S(t)e x +pz×S(l n[− l nS(t)] .

Сравнение кривых выживаемости

Кривые выживаемости для различных объектов исследования отличаются друг от друга. Например, изучая две группы рецидивистов, мы можем отслеживать влияние на них разных

203

методов исправительно-воспитательного воздействия; изучая текучесть кадров службы уголовного розыска (термин «криминальная полиция» мне не нравится), мы можем отслеживать влияние на исследуемые группы определенных факторов и т.д. Очевидно, что в данном случае необходимо сравнивать полученные кривые выживаемости, и делать из этого соответствующие выводы, например, о высокой эффективности одних методик, и о низкой эффективности других, учитывая при этом, на процесс или результат оказывается воздействие. Так, если новая методика способствовала реальному снижению рецидивной преступности, то она эффективно воздействовала на результат – снижение уровня рецидивной преступности. В то же время, если методика вела только к тому, что рецидивисты становились более изощренными в своем преступном ремесле, то мы воздействовали лишь на процесс, «косметическое» снижение уровня рецидивной преступности.

Рассмотрим простейший случай – сравнение двух групп. Гипотеза H0 (нулевая гипотеза) состоит в том, что выживаемость одинакова в обеих группах. Гипотеза H1 (альтернативная гипотеза) утверждает обратное – выживаемость в группах различна. Для решения подобных задач имеется несколько методов: 1) логранговый критерий; 2) поправка Йейтса для логрангового критерия; 3) критерий Гехана.

Логранговый критерий состоит в отыскании величины zэмп распределение которой близко к нормальному (Гауссову), и поэтому полученное эмпирическое значение zэмп сравнивается с критическим табличным значением zтаб для нормального стандартного распределения31. Если критическое значение больше эмпирического, то принимается нулевая гипотеза о том, что выживаемость в обеих группах одинакова. Если критическое значение меньше эмпирического, то принимается альтернативная

31 Полезные сведения: при увеличении числа степеней свободы распределение Стьюдента стремится к нормальному, а, следовательно, критические значения z можно найти и по распределению Стьюдента, взяв его при df=∞:

dfα =0,10,050,020,010,0050,001∞1,641,962,3262,5762,83,29

204

гипотеза о том, что выживаемость в группах статистически значимо различается.

 

U L

 

N

zэмп =

, где

UL = å(d1tE1t ) , U L - сумма разностей числа

S

 

U L

i=1

умерших (d) и ожидаемого числа умерших (Е) в первой группе; берется по всем моментам времени, когда наступила хотя бы одна смерть в любой из двух исследуемых групп. При этом неважно, по какой группе будем вычислять значение UL (расчет по второй группе даст тот же результат, только с противоположным знаком);

n d

E1t = 1nt обt , где E1t - ожидаемое число умерших в первой

обt

группе в момент времени t; n1t - число наблюдавшихся в первой группе к этому моменту, dобt - общее число смертей в этот момент в

обоих группах, nобt

- общее число наблюдавшихся к этому моменту.

Распределение

 

значений UL

приближенно подчинено

Гауссову распределению со стандартным отклонением SU L :

 

 

 

 

 

 

 

N

n1t n2t dобt

(nобt dобt )

.

 

SUL = å

n

2

(n

−1)

 

 

i 1

 

 

 

=

обt

 

обt

 

 

 

Поправка Йейтса применяется для того, чтобы компенсировать дискретность. Дело в том, что Гауссово распределение непрерывно и аппроксимация им дискретного распределения приводит к определенной погрешности. На практике это приводит к тому, что мы можем отклонить нулевую гипотезу в то время, как она верна.

Поправка Йейтса: zэмп = U LS−0,5 .

U L

Логранговый критерий можно вычислять и иным способом, используя вместо стандартного нормального распределения

2

UL2

распределение χ2. В этом случае рассчитываем χэмп =

S 2 . Результат

 

UL

будет таким же, как и при расчете первым способом.

 

205

Решим задачу, поясняющую теорию. Пусть у нас имеется две выборки. Выборка №1, включающая группу из 20 наблюдаемых (n1=20), и выборка №2, включающая 17 наблюдаемых (n2=17). Нам нужно проверить различие двух методик кадровой работы с сотрудниками полиции. Составим таблицу.

Методика №1

Методика №2

Первая группа (n=20)

Первая группа (n=17)

Время, мес.

Число

Время, мес.

Число

 

увольнений

 

увольнений

3

2

5

1

5

1

8+

1

7

1

12

2

8

1

15

1

9+

1

16

1

11

2

23

1

13

1

27

2

15

1

29

1

16

1

32

2

20

2

33+

1

21

1

35

2

24+

1

39

1

27

1

40

1

30+

1

 

 

33

1

 

 

34+

1

 

 

206