Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ольков_С_Г_Аналитическая юриспруденция

.pdf
Скачиваний:
206
Добавлен:
13.05.2015
Размер:
8.92 Mб
Скачать

году, определил его как “отделение дисперсии, приписываемой одной группе причин, от дисперсии, приписываемой другим группам”. Анализ производится следующим образом. Сначала группируют совокупность наблюдений по факторному признаку, находят среднее значение результата и дисперсию по каждой группе. Затем определяют общую дисперсию и вычисляют, какая доля ее зависит от условий, общих для всех групп, какая — от исследуемого фактора, а какая — от случайных причин. И наконец, с помощью специального критерия определяют, насколько существенны различия между группами наблюдений и, следовательно, можно ли считать ощутимым влияние тех или иных факторов. Дисперсионный анализ применяется в планировании эксперимента и в ряде областей экономических исследований, где он служит, в частности, предварительным этапом к регрессионному анализу статистических данных, поскольку позволяет выделить относительно небольшое (но достаточное для целей исследования) количество параметров регрессии»13.

Не стоит говорить о том, что дисперсионный анализ – это

универсальный метод, который может использоваться и в юриспруденции.

С появлением соответствующего программного обеспечения различные алгоритмы дисперсионного анализа реализованы в многочисленных статистических пакетах: SPSS, STATISTICA, STATA и т.д., а также более широких математических программных пакетах: MATHCAD, MATLAB и других. Не забыт дисперсионный анализ и в широко применяемом пакете Excel. Здесь в «Анализе данных» имеются: 1) «Однофакторный дисперсионный анализ»; 2) «Двухфакторный дисперсионный анализ с повторениями»; 3) «Двухфакторный дисперсионный анализ без повторений».

Однофакторный дисперсионный анализ – статистический метод, позволяющий установить статистически значимое различие между математическим ожиданием хотя бы в одной генеральной совокупности от математических ожиданий в других изучаемых

13 http://slovari.yandex.ru/~книги/Лопатников/Дисперсионный%20анализ/

177

генеральных совокупностях. «Сущность дисперсионного анализа состоит в выделении и оценке отдельных факторов, вызывающих изменчивость»14. Для этого выполняют разложение общей дисперсии s2 наблюдаемой выборочной совокупности (общей дисперсии переменной), вызванной всеми источниками изменчивости, на составляющие дисперсии, порожденные конкретными факторами. Получаем оценку дисперсии sA2 , sB2 ... , вызванную конкретными источниками изменчивости. Для проверки значимости этих составляющих оценок дисперсии проводят их сравнение с общей дисперсией в общей совокупности (по критерию

Фишера). Скажем, в 2-х факторном анализе имеем: sС2 = sA2 + sB2

+ sAB2 + sε2 ,

где sC2 – общая дисперсия изучаемого

признака; sA2

– доля

дисперсии, вызванная влиянием фактора A;

sB2 – доля дисперсии,

вызванная влиянием фактора В; sAB2

– доля дисперсии, вызванная

взаимодействием факторов A и В; sε2

– доля дисперсии, вызванная

неучтенными факторами (случайная дисперсия). В дисперсионном анализе рассматривается гипотеза H0 – ни один из рассматриваемых факторов не оказывает влияние на изменчивость признака. Значимость каждой из оценок дисперсии проверяется по величине её отношения к оценке случайной дисперсии и сравнивается с соответствующим критическим значением, при уровне значимости α, с помощью таблиц критических значений F-распределения Фишера-Снедекора. Гипотеза H0 относительно того или иного источника изменчивости отвергается, если Fрасч >Fкр . Для фактора

2

 

2

 

A:

sA

> Fкр , для фактора B:

sB

> Fкр .

s2

s2

 

ε

 

ε

 

F-критерий строится так, что в числителе стоит большая дисперсия. При этом Fmin =1, а Fmax →∞. Критические значения F- критерия берутся из таблиц F-распределения. F-распределение зависит от уровня значимости и от числа степеней свободы сравниваемых дисперсий df 1 и df 2. В дисперсионном анализе общая вариация подразделяется на составляющие и проводится сравнение этих составляющих. Проверяемая гипотеза заключается

14 Горелова Г.В. Теория вероятностей и математическая статистика в примерах и задачах с применением Excel/Г.В.Горелова, И.А.Кацко. – Изд. 4-е. – Ростов н/Д: Феникс, 2006. С. 209.

178

в том, что если данные каждой группы представляют собой случайную выборку из нормально распределенной генеральной совокупности, то величины всех частных дисперсий должны быть пропорциональны своим степеням свободы и каждую из них можно рассматривать как оценку генеральной дисперсии. Дисперсионный анализ часто применяется совместно с аналитической группировкой. В таком случае данные подразделяются на группы по значениям признака-фактора, вычисляются значения средних величин результативного признака в группах, считается, что различия в их значениях определяются различиями в значениях фактора. Задача заключается в оценке существенности различий между средними значениями результативного признака в группах: H0 : μ1 = μ2 = μn . Когда имеются две группы подобная задача решается с помощью t-критерия, но когда число сравниваемых групп больше двух, то существенность различий между группами доказывается с помощью F-критерия. Важно заметить, что результаты дисперсионного анализа, так же как и выводы о характере связи, значения показателей ее силы и тесноты, зависят от числа групп, выделенных по признаку-фактору.

В случае выделения групп по одному фактору мы имеем так называемый однофакторный дисперсионный комплекс. Разложение дисперсии при этом осуществляется по правилу

сложения дисперсий: åå(yij - y)2

= å( y j - y)2

× nj + åå(yij - y j )2 , где m

m n j

m

m n j

j=1 i=1

j=1

j=1 i=1

число групп, j – номер группы, i – номер наблюдения (единицы), n

– число наблюдений,

yij

- значение результативного признака у i-

ой

единицы в

j-ой

 

группе,

n j

- численность j-ой группы,

y j

-

 

 

 

 

 

 

 

 

 

 

 

среднее в j-ой

группе,

y -

общее среднее. Суммы

квадратов,

приведенные

в

формуле,

 

можно обозначить

буквами:

Dобщ = Dфакт +Dост . Если привести эти суммы на число степеней

свободы, то получим оценки генеральной дисперсии: 1) sобщ2 =

Dобщ

;

n −1

2)

 

Dфакт ; 3)

 

 

Dост .

 

 

 

 

2

2

 

 

 

 

 

 

 

sобщ =

 

 

sобщ =

 

 

 

 

 

 

 

 

 

m −1

n m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Как видно, число степеней свободы (df - degrees of freedom) для общей вариации: n-1, для факторной (межгрупповой) вариации:

179

df общ

m-1, для остаточной вариации (внутригрупповой): n-m. Подобно тому , как связаны между собой суммы квадратов, связаны между собой и степени свободы: =df факт +df ост или

n −1 =(m −1) +(n −m) .

Поскольку факторная (межгрупповая) сумма квадратов отклонений измеряет вариацию результативного признака (у), связанную с изменением фактора, по которому проведена группировка, а остаточная сумма квадратов отклонений – вариацию вызванную изменением всех иных неучтенных в модели факторов, то сравнение факторной и остаточной дисперсии (просто приводим соответствующую сумму квадратов на одну степень свободы) позволяет оценить значимость влияния фактора на результативную

 

 

s2

 

переменную:

F =

факт

. Обычно sфакт2 ³sост2

. В том случае, когда

2

 

 

sост

 

Fфакт >Fтаб при выбранном значении α и степенями свободы dfфакт и

dfост, то нулевая гипотеза о равенстве средних отклоняется (принимается альтернативная гипотеза), влияние фактора считается статистически значимым. В противном случае Fфакт <Fтаб нулевая гипотеза принимается, а альтернативная отклоняется.

Схема однофакторного дисперсионного анализа15

Источник

Сумма

 

 

Число

Средний

 

 

 

вариации

квадратов

 

степеней

квадрат

F-

 

 

 

 

отклонений, D

свободы,

отклонений,

критерий

 

 

 

 

 

 

 

df

s2 =

D

 

 

 

 

 

 

 

 

 

 

 

df

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Между

m

2

n j

 

m-1

 

s12

 

 

 

группами

å( y j y)

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Внутри

m

n j

 

2

n-m

 

s22

 

s12

групп

åå(yij y j )

 

 

 

 

 

F =

 

 

 

 

 

 

 

2

 

1

1

 

 

 

 

 

 

 

 

s2

Общая

åå( yij y)2

 

n-1

 

s2

 

 

 

 

 

m

n j

 

 

 

 

 

 

 

 

 

1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15 Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник/Под ред. И.И. Елисеевой. – 5-е изд., перераб. и доп. – М.: Финансы и статистика, 2004. С. 298.

180

Основой проведения двухфакторного дисперсионного анализа служит комбинационная группировка по двум факторам x и z, с последующим разложением дисперсии результативного признака y:

m p

n jk

m

p

 

åå å( yijk - y)2

=å( y j - y)2 × nj + å( yk - y)2 × nk +

 

j=1 k =1 i=1

j=1

k =1

, где

m

p

 

m p n jk

+ åå( y jk - y j - yk + y)2

× njk + ååå( yijk - yik )2

 

j=1 k =1

 

j =1 k =1 i=1

 

n jk - число единиц значения признака х

в группе, образованной комбинацией j-го и k-го значения признака z; n – общее число

единиц:

m

p

m p

i – номер единицы в j группе по

n = ån j = ånk = åån jk ;

 

j=1

k =1

j=1 k =1

 

признаку х и в k-ой по признаку z; j=1, 2…m; k=1, 2…p; n j - число единиц в j-ой группе по признаку х; ni - число единиц в i-ой группе

по признаку z; y jk - среднее значение признака y в группе, образованной комбинацией j-го значения признака х и k-го

значения признака z;

y j

- среднее значение признака y в j-ой группе

 

по признаку х;

yk - среднее значение признака y в k-ой группе по

признаку z; y - общее среднее значение признака y в выборке.

 

Упрощая

можно

записать: Dобщ = Dx +Dz + Dxz +Dост

или

Dобщ = Dфакт +Dост

, где Dx - вариация y под влиянием фактора х;

Dz - вариация y под влиянием фактора z;

 

 

 

Dxz

- вариация y под влиянием взаимодействия факторов х и z;

Dост

- вариация y под

влиянием

иных

неучтенных

в

модели

факторов; Dфакт

= Dх +Dz +Dxz .

 

 

 

 

 

При неравенстве численности групп рассчитываются

невзвешенные величины16.

 

 

 

 

 

Схема двухфакторного дисперсионного анализа17

 

 

Источник

 

Сумма

 

 

квадратов

 

Число

Средний

 

 

вариации

 

отклонений, D

 

степен

квадрат

F-

 

16 Более подробно об этом: Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник/Под ред. И.И. Елисеевой. – 5-е изд., перераб. и доп. – М.: Финансы и статистика, 2004. С. 301.

17 Заимствована: Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник/Под ред. И.И. Елисеевой. – 5-е изд., перераб. и доп. – М.: Финансы и статистика, 2004. С. 302.

181

Dобщ

 

 

ей

отклонений

критери

 

 

свобо

,

 

 

й

 

 

 

 

ды,

s2 =

D

 

 

 

 

 

 

df

 

 

 

 

 

df

 

 

 

 

 

 

 

 

 

 

 

 

Факторы x, z

Dфакт × K

mр-1

 

sфакт2

F =

sx2

 

Фактор x

Dx × K

m-1

 

sx2

sост2

 

 

Фактор z

Dz × K

р-1

 

sz2

 

 

 

Взаимодейст (Dфакт -Dx -Dz )K

mp-p-

 

sxz2

F =

sz2

вие фкторов

 

m+1

 

 

 

sост2

 

x, z

 

 

 

 

 

F =

sxz2

 

Dобщ -Dфакт × K

n-mp

 

sост2

 

 

 

 

sост2

Остаточная

Общая n-1 s2 Решение о первой гипотезе принимается на основе сравнения:

sx2

с Fкрит (α, dfx,dfост). Если Fфакт >Fтаб при выбранном значении

F = sост2

α и степенями свободы dfх и dfост, то нулевая гипотеза о равенстве

средних отклоняется (принимается альтернативная гипотеза), влияние фактора считается статистически значимым.

s2

Вторая гипотеза принимается на основе сравнения: F = s2z с

ост

Fкрит (α, dfz,dfост). Если Fфакт >Fтаб при выбранном значении α и

степенями свободы dfz и dfост, то нулевая гипотеза о равенстве средних отклоняется (принимается альтернативная гипотеза), влияние фактора считается статистически значимым.

182

s2

Третья гипотеза принимается на основе сравнения: F = s2xz с

ост

Fкрит (α, dfxz,dfост). Если Fфакт >Fтаб при выбранном значении α и

степенями свободы dfxz и dfост, то нулевая гипотеза о равенстве средних отклоняется (принимается альтернативная гипотеза), влияние фактора считается статистически значимым.

На основе F-критерия принимаются решения о форме уравнения регрессии, о статистической значимости той или иной объясняющей переменной при построении многофакторного уравнения регрессии18.

Примеры.

Дано: таблица с первичными статистическими данными о качестве продукции предлагаемой различными контрагентами19 (возврат покупателями бракованных изделий на 1000 единиц продукции). Возникает вопрос о целесообразности продления договорных, гражданско-правовых отношений с теми из них, которые поставляют товары низкого качества.

 

Фирма

Фирма

Фирма

 

№1

№2

№3

 

 

 

 

январь

15

12

7

 

 

 

 

февраль

12

14

21

 

 

 

 

март

14

10

9

 

 

 

 

апрель

11

8

6

 

 

 

 

май

17

13

8

 

 

 

 

июнь

13

16

5

 

 

 

 

18Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник/Под ред. И.И. Елисеевой. – 5-е изд., перераб. и доп. – М.: Финансы и статистика, 2004. С. 302.

19(лат. contrahens — договаривающийся) — лица, учреждения, организации, связанные

обязательствами по общему договору, сотрудничающие в процессе выполнения договора.

183

Требуется: принять или отклонить нулевую гипотезу о равенстве среднего брака в товарах, поставляемых фирмами №1, №2, №3 с помощью однофакторного дисперсионного анализа.

Решение:

1) Представим диаграмму разброса бракованных изделий поставляемых фирмами.

2) Введем данные таблицы на рабочий лист ППП Excel:

 

 

A

B

C

D

 

 

 

 

 

 

 

1

 

Фирма

Фирма

Фирма

 

 

 

№1

№2

№3

 

 

 

 

 

 

 

2

январь

15

12

7

 

 

 

 

 

 

 

 

3

февраль

12

14

21

 

 

 

 

 

 

 

 

4

март

14

10

9

 

 

 

 

 

 

 

 

5

апрель

11

8

6

 

 

 

 

 

 

 

 

6

май

17

13

8

 

 

 

 

 

 

 

 

7

июнь

13

16

5

 

3) В командной строке выберем «Данные», а далее «Анализ данных». В открывшемся окне «Анализ данных» выберем однофакторный дисперсионный анализ, и нажмем клавишу ОК. Появится диалоговое окно, поля которого следует заполнить. Сначала заполним поле «Входной интервал», выделив значения ячеек В2:D7. Отметим группирование по столбцам, и выберем

184

значение α, например , α=0,05, а также укажем выходной интервал

или новый рабочий лист, куда будут выведены результаты анализа. 4) Получим ответ:

 

ИТОГИ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сче

 

Сумм

 

 

 

 

Дисперси

 

 

 

 

Группы

 

 

т

 

 

а

 

Среднее

 

я

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

13,6666

 

 

 

 

 

 

 

Столбец 1

 

 

6

 

 

82

 

 

7

 

4,666667

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12,1666

 

 

 

 

 

 

 

Столбец 2

 

 

6

 

 

73

 

 

7

 

8,166667

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9,33333

 

 

 

 

 

 

 

Столбец 3

 

 

6

 

 

56

 

 

3

 

34,66667

 

 

 

 

Дисперсионный анализ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P-

F

 

 

Источник

 

 

 

 

 

 

 

 

 

 

 

Значени

критическо

 

 

вариации

SS

 

 

df

 

 

MS

 

 

F

е

е

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Между

 

 

58,1111

 

 

 

 

29,0555

1,83508

 

 

 

 

 

группами

 

 

 

 

1

 

2

 

 

6

 

 

8

0,193674

3,68232

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

15,8333

 

 

 

 

 

 

 

 

Внутри групп

237,5

 

5

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

295,611

 

1

 

 

 

 

 

 

 

 

 

 

 

Итого

 

 

 

 

1

 

7

 

 

 

 

 

 

 

 

 

а

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Соответственно числитель имеет 2 степени свободы,

знаменатель

15.

Fэмп =1,83 .

По таблице

критических значений

найдем Fтаб

=3,68

данном

случае

программа

показывает и

табличное критическое значение, что не требует обращения к таблице). Поскольку Fтаб >Fэмп , постольку принимаем H0 : μ1 = μ2 = μ3 . То есть различия в качестве поставляемой продукции между фирмами, практически, отсутствуют, договорные отношения можно продлить со всеми контрагентами.

Покажем, как выполнить однофакторный дисперсионный анализ вручную.

185

Как видно: m=3 (число групп – фирмы №1,№2,№3), n=18 (общее число наблюдений). Следовательно, число степеней свободы по вариации между группами (факторная вариация): dfф=m-1=2; внутригрупповая (остаточная) вариация имеет: dfост=n- m=18-3=15. Соответственно общая вариация: dfобщ=n-1=17 (данное число в дальнейших расчетах не используется).

Чтобы найти межгрупповую (факторную) дисперсию, сначала

 

 

 

m

 

 

нужно найти общее среднее.

y =

å yi × ni

.

 

i=1

 

m

 

 

 

 

åni

 

 

 

 

 

i=1

 

 

y =

(13,67 ×6) + (12,16 ×6) + (9,33 ×6) = 210 ,96

=11,72 .

 

18

18

 

 

Поскольку у нас частоты по столбцам одинаковы (по 6 значений) можно было просто найти среднее арифметическое:

y =

13,67 +12,16 +9,33)

=

35,16

=11,72 .

 

3

 

3

 

Факторная (межгрупповая) дисперсия находится по формуле:

 

 

 

m

 

 

 

δ 2

=

å(yi - y)2 × ni

.

 

i=1

 

 

 

 

m

 

 

 

 

å ni

 

 

 

 

 

 

i=1

 

 

δ 2

=

(13,67 -11,72)2 ×6 +(12,16 -11,72)2 ×6 +(9,33 -11,72)2 ×6

.

 

 

 

 

 

18

 

δ 2

=

58,249 =3,23

. Для расчетов нас интересует не сама межгрупповая

 

 

 

 

18

 

 

дисперсия, а сумма квадратов отклонений (обозначена в таблице Excel «SS»). В нашем случае это числитель равный 58,2. Разделив его на число степеней свободы (dfф=m-1=2), получим 58,2/2=29,1.

Чтобы найти остаточную дисперсию в данном случае можно просто найти среднюю арифметическую из внутригрупповых

186