Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ольков_С_Г_Аналитическая юриспруденция

.pdf
Скачиваний:
213
Добавлен:
13.05.2015
Размер:
8.92 Mб
Скачать

Тестовая статистика (test statistic) – группа статистических методов, позволяющих принимать нулевую или альтернативную гипотезы в качестве статистического вывода. Важным требованием к таким методам является знание вида распределения в случае, когда нулевая гипотеза верна.

Нулевая гипотеза (null hypothesis) (H0) – предположение об отсутствии различий, то есть сходстве (1) или отсутствии связи (2), тестируемая как правило, с помощью средних тестов на значимость. Противоположной ей является альтернативная гипотеза, которую нужно доказать, чтобы опровергнуть нулевую гипотезу. Например, из двух нормально распределенных генеральных совокупностей извлекаем две выборки. В обеих выборках находим средние (µ) и стандартные отклонения (σ). Нулевая гипотеза утверждает, что средние и стандартные отклонения в выборках равны: µ12=0; σ1- σ2=0. Этим и вызвано название гипотезы – нулевая. Альтернативная гипотеза утверждает обратное – разность не является нулевой –

Н1: µ12≠0; σ12≠0.

Альтернативная гипотеза (alternative hypothesis) (H1) –

предположение о наличии различий (отсутствии сходства) или наличии связи. Если альтернативная гипотеза подтверждается, то нулевая гипотеза считается опровергнутой.

Сложная гипотеза (composite hypothesis) – предположение, в

котором утверждается более чем одно значение оцениваемого параметра. Скажем, гипотеза о том, что среднее больше некоторой конкретной величины.

Ошибка первого рода (type I error) – ошибочное отвержение нулевой гипотезы.

Ошибка второго рода (type II error) – ошибочное принятие нулевой гипотезы.

1075

Ошибка третьего рода (type III error) – принятие наихудшей процедуры за наилучшую.

Уровень значимости (significance level) – при проверке зна-

чимости статистического вывода нужно решить вопрос, где проходит граница между принятием и отвержением нулевой гипотезы? Идеальной точности здесь быть не может, такая граница носит приблизительный характер, и её конструирование основывается на понятии уровня значимости. Уровень значимости – это вероятность ошибочного отклонения нулевой гипотезы или, что тоже самое - вероятность ошибки первого рода. В литературе уровень значимости обозначают буквами α или р. Очевидно, если уровень значимости α равен 0,01, то мощность критерия 1-0,01=0,99.

Мощность (power) – вероятность отклонения нулевой гипотезы, когда она ошибочна. То есть вероятность принятия верного решения относительно нулевой гипотеза, когда она не верна или принятие альтернативной гипотезы, когда та верна. Мощность критерия показывает его способность выявлять различия.

Состояние

Объективное состояние дел

среды

 

 

 

 

 

 

 

Гипотезы

Верна гипотеза

Верна гипотеза

 

 

H0

H1

 

Гипотеза

Ошибка

Точное

Субъективное

H0

I рода

решение

состояние дел

отклоняется

(уровень зна-

(мощность)

 

 

 

 

 

 

 

1076

(принимаемое

 

чимости)

 

решение)

 

 

 

Гипотеза

Точное

Ошибка

 

 

H0

решение

II рода

 

не отклоняется

 

 

 

 

 

 

Алгоритм принятия статистического вывода: 1) на основе эмпирических данных по специальному проверочному методу (критерию), например, критерию кси-квадрат (χ2) или F-критерию Фишера, t-критерию Стьюдента и т.п. рассчитывается эмпирическое значение этого критерия, обычно обозначаемое нижним индексом факт. или эмп., например, χ2эмп или χ2факт; 2) по специально разработанным таблицам находится теоретическое значение соответствующего критерия для выбранного уровня значимости; 3) фактическое и табличное значения сравниваются между собой; 4) если фактическое значение меньше табличного, то принимается нулевая гипотеза. Наоборот, если фактическое значение больше табличного, то принимается альтернативная гипотеза.

Если фактическое значение критерия попадает в зону не значимости (меньше табличного значения на уровне принятой значимости, например, α=0,05), то принимается нулевая гипотеза. Если фактическое значение выше табличного на уровне значимости α=0,05, но ниже чем на уровне значимости α=0,01, то принимается либо нулевая либо альтернативная гипотеза в зависимости от того, риск какой ошибки исследователь готов допустить. Если фактическое значение больше табличного на уровне значимости α=0,01, то принимается альтернативная гипотеза.

Зона не значимости

Зона

Зона значимости

 

 

 

1077

не определенности

α=0,05

α=0,01

Табл. Знач. Табл. Знач.

СТЕПЕНЬ СВОБОДЫ

Число степеней свободы (df – degrees of freedom )4 – это число,

варьирующих свободно, единиц выборки (хi). Скажем, если выбор-

ка состоит из n элементов и характеризуется средней Х , то любой элемент выборки (хi) можно получить, вычитая сумму элементов

N

xi (не включая сюда, естественно, сам искомый элемент), из

i =1

произведения n× X . Рассмотрим пример. Пусть n=7: Х={3; 4; 6; 8;

9; 11; 14}, Х =7,857. Требуется найти пятое по счету число (9). Ре-

N

шение: n× X - xi =7·7,857-3-4-6-8-11-14=9. Следовательно, только

i =1

один элемент выборки не имеет здесь свободы, выражен через другие элементы и среднее. То есть число степеней свободы для дан-

ной задачи df =n-1=7-1=6.

Когда присутствует несколько ограничений свободы (два и более), число степеней свободы вычисляется по формуле: df=n-k, где k - число ограничений свободы вариации. В общем, для таблицы данных число степеней свободы определяют по формуле: df=(с- 1)·(n-1), где с – число столбцов, а n – число строк, соответствующих, в частности, числу испытуемых.

Шкалы измерительные (шкалирование) (scaling) – « линейки», «системы отсчета», позволяющие проводить измерения с большей

4 Обозначают и другими символами, например: ν.

1078

или меньшей степенью точности. Виды шкал: 1) номинальная (номинативная) шкала; 2) ранговая (порядковая, ординарная) шкала; 3) интервальная шкала (шкала равных интервалов); 4) шкала отношений (шкала равных отношений).

Обеспечение сопоставимости возрастных сеток (таблиц). При исследовании различных юридических процессов иногда возникает потребность соотнести возрастные сетки юридического процесса с возрастными сетками демографического процесса. Например5, приводится таблица распределения численности народонаселения региона по возрастным группам:

Таблица №1.

 

Возраст, лет

Численность демо-

 

 

 

 

графической груп-

 

 

 

 

пы, тыс. человек

 

 

 

 

(1991 г.)

 

 

 

 

 

 

0

- 9

429,4

 

 

 

 

 

 

10

- 19

405,5

 

 

 

 

 

 

20

- 29

377,2

 

 

 

 

 

30 – 39

476,4

 

 

 

 

 

 

40

- 49

290,3

 

 

 

 

 

 

50

- 59

337,9

 

 

 

 

 

 

60

- 69

267

 

 

 

 

 

70 и старше

164

 

 

 

 

 

 

 

 

 

 

5 Сборник задач по общей теории статистики. Учебное пособие. Изд. 2-е. / Под ред. к.э.н. Серга Л.К. – М.: Информационно-издательский дом «Филинъ», Рилант, 2001. С. 2425.

1079

и таблица численности осужденных за тот же период в том же регионе, но по другим возрастным группам:

Таблица №2.

Возраст, лет

Численность осуж-

 

денных, человек

 

(1991 г.)

 

 

14 - 17

1959

 

 

18 - 24

2673

 

 

25 - 29

2183

 

 

30 – 49

4512

 

 

50 и старше

585

 

 

При этом нас интересует ответ на вопрос, как распределялось число осужденных на 100000 народонаселения по соответствующим возрастным группам.

Для ответа на поставленный вопрос нужно провести перегруппировку возрастных групп первой таблицы, чтобы возрастные демографические группы соответствовали возрастным группам осужденных:

Таблица №3.

Возраст, лет

Численность демографической группы,

 

тыс. человек

 

 

1080

 

(1991 г.)

 

 

0 - 13

429,4+(4/10)·405,5=591,6

 

 

14 - 17

(4/10) ·405,5=162,2

 

 

18 - 24

(2/10) ·405,5+(5/10) ·377,2=269,7

 

 

25 - 29

(5/10) ·377,2=188,6

 

 

30 – 49

476,4+290,3=766,7

 

 

50 и старше

337,9+267+164=768,9

 

 

Что означает 4/10? Дело в том, что величина второго возрастного интервала в первой таблице составляет 10 лет - от 10 до 19 лет включительно. Делая перегруппировку, мы добавляем к первому интервалу таблицы №3 четыре десятых части из второго интервала первой таблицы. Возрастную группу от 14 до 17 лет составляет 4/10 от возрастной группы 10-19 лет, то есть 162,2 тысячи человек. Следующую возрастную группу третьей таблицы составляют оставшиеся 2/10 части от группы 10-19 лет и 5/10 от возрастной группы 20-29 лет и так далее. Группу 50 лет и старше третьей таблицы количественно составляют три последние возрастные группы первой таблицы, которые просто суммируются.

Далее остается рассчитать коэффициенты числа осужденных приведенные на 100 тысяч народонаселения:

1) Для возрастной группы 14-17 лет получим:

((1,959·100000)/162,2)=1207 человек на 100 тыс. народонасе-

ления.

2) Для возрастной группы от 18 до 24 лет включительно:

((2,673·100000)/269,7)= 991 человек на 100 тыс. народонаселе-

ния и так далее.

1081

 

 

 

1

N

 

 

 

 

 

 

 

 

 

x i

 

 

 

 

 

 

X =

f i

 

 

 

 

 

N

 

 

 

 

 

,

где

X - средняя взвешенная

 

 

 

f i

i =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i =1

 

 

 

 

 

 

 

(weighted average), хi – конкретные значения переменной Х, fi – частоты повторяющихся значений, например, переменная хi встречается n раз.

N

X = w i x i , где X - средняя взвешенная, wi – доли (веса)

i =1

соответствующих значений переменной Х, сумма долей равна единице. Простое среднее арифметическое также можно рассматривать, как среднее взвешенное с равными весами 1/N.

Пример: имеется набор данных, в которых число 12 встречается 3 раза, число 23 встречается 5 раз, число 17 – два раза, число 29 – четыре раза, что сведено в таблицу.

Х

12

23

17

29

 

 

 

 

 

f

3

5

2

4

частота

 

 

 

 

(абсолютное

 

 

 

 

значение)

 

 

 

 

 

 

 

 

 

w

0,214

0,357

0,143

0,286

относительная

 

 

 

 

частота или

 

 

 

 

частость

 

 

 

 

 

 

 

 

 

 

 

 

 

1082

 

 

 

1

N

 

 

12 × 3 + 23 × 5 + 17 × 2 + 29 × 4

 

 

 

=

x i f i

=

 

X

 

N

 

 

 

 

f i

i =

1

14

 

 

 

 

 

 

 

 

 

 

i =1

 

 

 

 

 

=21,5

 

 

 

 

 

 

или

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

= w i

x i

 

X

=12·0,214+23·0,357+17·0,143+29·0,286=21,5

i =1

При вычислении средней по таблице данных:

 

 

 

1

p

n

 

 

 

 

 

=

∑ ∑ X ij , где

 

– средняя, X ij – конкретные

X

 

X

 

N

 

 

 

j =1

i =

1

 

 

элементы таблицы (значения переменной), индекс j меняется от 1 до p, а индекс i – от 1 до n, где p – число столбцов в таблице, а n

число строк; N=p·n. Символ ∑ ∑ – двойная сумма (все значе-

ния таблицы складываются и делятся на общее число элементов таблицы).

Мода (mode) – число (для количественных данных) или категория (для качественных данных), которые наиболее часто встречается в наборе данных.

Перцентили (persentile) – это ранжированные данные, выраженные в процентах, а не в числах, то есть ранжированные данные, представленные не в абсолютных, а в относительных величинах. Соответственно имеются перцентили от нуля до 100 включительно, и называются - нулевой перцентиль, первый, второй и т.д. Двадцать пятый (25%) и семьдесят пятый (75%) перцентили носят названия квартилей (quartiles), первый называют нижним квартилем, а второй – верхним. Пятидесятый перцентиль (50%) по ранжированному ряду называют медианой (median).

1083

ПОКАЗАТЕЛЬ

 

 

Значение или формула для на-

 

 

 

 

хождения значения

 

 

 

 

 

 

 

 

 

 

 

 

 

1) Минимальное

 

значе-

Нулевой перцентиль

 

 

ние

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2) Нижний

квартиль

Формула для нахождения нижне-

(25%) - четверть рас-

го квартиля:

 

 

стояния от минималь-

1 + int [(1 + n ) 2 ]

 

 

ного значения

 

 

 

 

 

 

 

 

 

 

, где int

- оз-

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

начает целое число (дробная

 

 

 

часть игнорируется (отбрасыва-

 

 

 

ется)

 

 

 

 

 

 

 

 

 

 

 

 

3) Медиана (50%) –

сере-

Формула для нахождения:

 

 

дина ранжированного

 

 

1 + n

 

 

ряда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4) Верхний квартиль (75-

Формула для нахождения:

 

 

й перцентиль)

 

 

 

 

1 + int [(1 + n ) / 2 ]

 

 

 

 

 

 

 

( n + 1) −

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1084