Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Дронов С.В. Многомерный статистический анализ-1

.pdf
Скачиваний:
1
Добавлен:
11.04.2024
Размер:
958.12 Кб
Скачать

6.5. Статистический прогноз

~

~

~

(Z) = 0

+

Z;

71

(6.10)

и задача прогноза была бы успешно решена. Займемся оценкой параметров .

Рассмотрим S( ) = M(X (Z~))2, ãäå задан формулой (6.10).

Тогда

 

 

 

 

 

 

 

 

 

 

 

~

~

~ 2

S( ) = M( (X MX) + b (Z

MZ) ) =

= DX + b

2

~

~

~

 

2

~

 

+ M(

(Z MZ))

 

2 ~a;

~

~

 

 

 

 

 

ãäå b = MX 0

MZ константа, k-мерный вектор ~a имеет

в качестве своей i-й координаты ai

=

cov(X; Zi); i = 1; :::; k. Òàê êàê

S( ) минимальна по , то, очевидно, b = 0, èëè

 

0

= MX

~

~

 

(6.11)

MZ:

Введем в рассмотрение функцию

 

 

 

 

 

~

~

~

 

~

 

2

T ( ) = M(

(Z MZ) )

 

и исследуем ее на минимум. Очевидно, что частная производная ее по переменной j; j = 1; :::; k равна

M 2

k

i(Zi MZi)(Zj MZj)! 2aj

= 2

k

icov(Zi; Zj) 2aj:

 

X

 

 

Xi

 

 

i=1

 

 

=1

 

Итак, приравнивая все эти производные к нулю, видим, что необходимо решить систему, которая в матричной записи имеет вид

~

= ~a;

(6.12)

B

~

ãäå B = covZ. Таким образом, если ковариационная матрица обратима, то из (6.11) и (6.12) следует, что

0 = MX B

1

~

~a MZ:

Решение этой системы действительно доставляет минимум (по крайней

мере, нестрогий) функции S, поскольку матрица вторых производных B неотрицательно определена. Таким образом, нами доказана

можно взять любое из ре-

72

Глава 6. Регрессионный анализ

~

Теорема 11 Åñëè B = covZ обратима и функция регрессии линейна, то оптимальный предиктор задается формулой

~

1

~

~

(6.13)

(Z) = MX + B

~a (Z MZ);

 

ãäå ~a k-мерный вектор с координатами

aj = cov(X; Zj); j = 1; :::; k:

Откажемся теперь от каких бы то ни было предположений о виде функции регрессии и подойдем к задаче с другой стороны. Будем искать наилучший предиктор среди тех, которые имеют линейный характер, т.е. такой , который при некотором наборе параметров имеет вид (6.13) и оптимален в классе всех предикторов такого вида.

Таким образом, исходя из условия оптимальности, надо найти такой набор ~ ~

, что введенная выше функция S( ) на нем достигает своего минимального значения. Но эта задача нами только что была решена, поэтому имеет место

~

Теорема 12 Если матрица covZ обратима, то оптимальный линей-

ный предиктор существует и единственен. При этом он задается формулой (6.13)

Заметим, что, если B не является обратимой, то наилучших линейных

предикторов бесконечно много: в качестве ~

шений уравнения (6.12), а затем определить 0 ïî (6.11). Ïðè ýòîì, åñëè1; 2 два предиктора, определенных таким образом, то

~

2

~ 2

M(X 1(Z))

 

= M(X 2(Z)) :

Глава 7

Дисперсионный анализ

7.1Вводные замечания

Рассмотрим задачу выяснения наличия и оценки степени влияния неко-

торого фактора A на случайную величину X. Под фактором A условимся понимать величину, которая является нечисловой категоризованной или числовой, принимающей небольшое число различных значений. Катего-

рии или значения случайной величины A принято называть уровнями фактора.

Чтобы немного прояснить ситуацию, рассмотрим зависимость вели- чины урожая от внесения в почву определенного вещества (удобрения). В простейшем случае имеется два уровня фактора было удобрение внесено или нет. Но возможны и варианты: внесена двойная, тройная, полуторная доза удобрения, В этом случае число уровней фактора повышается.

Пусть нам заранее известна дисперсия величины X в случае, когда фактор A не действовал, обозначим ее через D0X. Теперь "включим в действие"фактор A и вычислим (или хотя бы оценим) дисперсию DX по полному набору данных. Если фактор A не оказывал влияния на измен- чивость X, òî DX не должна сильно отличаться от DOX. Åñëè æå DX

значительно больше, чем D0X, то следует признать вклад фактора в изменчивость наблюдаемой случайной величины значительным. Вообще говоря,

DX = DOX + DAX;

где через DAX обозначана часть дисперсии, объясняемой влиянием фак73

74

Глава 7. Дисперсионный анализ

òîðà A. Если же исследуемых факторов несколько, то

DX = DOX + DAX + DBX + DA;BX + :::

Идея оценки степени влияния факторов основана на изучении доли той дисперсии, которая объясняется через изучаемый фактор в полной дисперсии. Она была предложена Р.Фишером в 1920 году.

Дисперсии X, рассчитанные в предположении, что каждый из факторов зафиксирован в каком-то из своих уровней и не меняется, называют частными дисперсиями.

Сформулируем здесь основные предположения, необходимые для применения описываемого далее инструментария:

1.наблюдаемая величина имеет нормальное распределение;

2.изучаемый фактор или факторы оказывают влияние на среднее значение изучаемой величины;

3.все частные дисперсии однородны, т.е. их различия незначимы.

Таким образом, любое исследование с применением дисперсионного анализа, претендующее на достоверность получаемых результатов, должно начинаться с проверки этих трех предположений. И если второе предположение проверяется, в основном, исходя из опыта экспериментатора (например понятно, что внесение удобрений влияет именно на среднюю величину урожая), то для проверки первого и третьего предположений статистик располагает достаточно разработанным аппаратом. Позволим себе напомнить хотя бы по одному способу проверки этих предположений (их, разумеется, гораздо больше).

7.1.1Проверка гипотезы нормальности

Будем применять так называемый критерий Пирсона (критерий хи-квадрат). Сначала выполним группировку выборки в r групп j = (zj 1; zj); j =

1; :::; r. Как это сделать, было объяснено в разделе 3.1. Обозначим nj; j =

1; :::; r количества элементов выборки, попавших в j-ю группу и вычис-

лим статистику

r

(nj npj)2

 

 

2 =

;

(7.1)

jX

npj

 

 

 

 

=1

 

 

 

 

 

 

7.1.

Вводные замечания

75

ãäå

n

объем выборки, а числа

pj

падания нормально распределеннойпредставляютслучайной величинысобой вероятностив соответствупо--

ющий интервал, являющийся нашей группой. При этом предполагается, что параметры нормального распределения заменены их оценками

максимального правдоподобия. Таким образом, если через обозначена функция стандартного нормального распределения, то

 

j

 

 

!

 

 

S

 

!

 

 

 

S

 

 

 

p

 

=

zj X

 

 

 

zj 1

X

:

(7.2)

 

 

 

 

 

 

Известна принадлежащая К.Пирсону и Р.Фишеру

Теорема 13 Если выборка была произведена из нормального распреде- ления, то статистика 2, вычисляемая по формулам (7.1) и (7.2) име-

ет распределение хи-квадрат с r 3 степенями свободы.

Доказательства мы здесь не приводим. Напомним только, что если бы

при вычислениях p

значения среднего иj мыкорняиспользоваликвадратногобыизнедисперсииоценки, анормальноготочно известныерас-

пределения, то число степеней свободы хи-квадрат увеличилось бы до

r 1, если же только один из параметров (любой) пришлось бы по ходу

вычислений оценивать, то r 2.

 

 

 

 

 

Таким образом, проверку нормальности выборки осуществляем по

следующей схеме. Сначала вычислим среднее

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X и выборочную диспер-

ñèþ S2. Затем произведем группировку и заполним следующую таблицу:

 

 

 

 

Проверка гипотезы нормальности

 

 

строка

 

содержание

 

способ вычисления

 

 

 

 

 

 

 

 

1

 

 

 

 

 

zj

 

 

по выборке

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

(

z

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

по таблице

 

 

 

 

 

4

 

 

 

 

 

S

 

 

(x)

 

 

 

 

 

3

 

 

 

 

 

zj

X

 

 

 

и строке 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

pj

 

 

по формуле (7.2) и строке 3

 

 

 

 

6

 

 

 

 

 

nj

 

 

по выборке

 

 

 

 

7

 

(nj np2j)2

 

по строкам 4,5

 

 

 

 

 

(nj npj) =npj

 

по строкам 4,6

 

 

76

Глава 7. Дисперсионный анализ

Сумма последней строки и есть значение 2. После вычисления оно срав-

нивается с критической точкой распределения хи-квадрат с r 3 степенями свободы, и если расчетное значение меньше критического, то гипотезу о нормальности распределения можно принять.

7.1.2Однородность дисперсий

Для проверки несущественности отличия r выборочных дисперсий (рас- считанных при фиксации фактора на определенных уровнях) после принятия предположения нормальности выборки, можно воспользоваться критерием Бартлетта, основанном на статистике

 

 

1

r

 

 

!

r

 

 

 

 

M = n ln

 

 

nisi2

ni ln si2

:

 

 

 

n

 

 

 

 

 

 

Xi

 

 

 

X

 

 

 

 

 

 

 

=1

 

 

 

i=1

 

 

 

Здесь

2

 

 

 

i

-й группе наблюдений,

ni

 

чествоsi выборочные дисперсии в

 

 

 

 

êîëè-

 

наблюдений в этой группе

 

 

 

 

 

 

наблюдений, n = Pir=1 ni.

 

 

;

i

= 1; :::; r, n общее количество

 

 

 

 

 

 

 

 

 

 

Теорема 14 Если гипотеза о равенстве всех дисперсий верна, выборка нормальна и все ni больше 3, то отношение

 

 

1

 

 

r 1

1

!!

1

M 1 +

 

 

 

 

 

 

 

 

3(r

 

1)

=1 ni

n

 

 

 

 

 

Xi

 

 

 

 

имеет приближенно распределение хи-квадрат с r 1 степенью свободы.

Таким образом, для того, чтобы проверить гипотезу об однородности дисперсий, нужно рассчитать выписанное отношение и сравнить его с критической точкой распределения хи-квадрат. Если критическое значе- ние не превзойдено, то отвергать гипотезу однородности нет оснований.

Если все числа n

лее просто вычисляемымi равныкритериеммежду собой,Кокрена:то можновычислимвоспользоватьсяотношение макбо--

симального из s2i к их сумме

s2

G = Prmax 2 i=1 si

и сравним с критическим значением G по специальной таблице. Эти таблицы можно найти в [1, c.156] и [6, c.242].

7.2. Один фактор

77

7.2Однофакторный анализ. Распределение Фишера

Выделяются следующие разновидности дисперсионного анализа: по числу изучаемых факторов влияния (одно-, двух- , многофакторный), по числу уровней фактора (двух-, трехуровневый ...), по наличию и отсутствию параллельных испытаний (т.е. повторных испытаний при условии фиксации уровней всех факторов влияния). Различают также полный (имеются данные при всех наборах значений факторов) и дробный дисперсионный анализ. На самом деле для решения задач выявления степени влияния факторов различия между полным и дробным анализом несущественны важно лишь, чтобы при фиксации одного из факторов на любом своем уровне нашлось хотя бы одно экспериментальное данное во всем массиве данных, в котором выбранный фактор фиксирован именно на этом уровне. Другими словами, забегая немного вперед, надо чтобы в каждом из рядов заполняемой таблицы было хотя бы одно значение.

Рассмотрим подробнее полный однофакторный анализ с параллельными испытаниями. Будем предполагать, что на каждом из m уровней

фактора A поставлено одинаковое число опытов n по наблюдению слу- чайной величины X. Ее значения, наблюденные в i-м опыте при фик-

сации фактора на j уровне обозначены xi;j; i = 1; :::; n; j = 1; :::; m. Данные соберем в таблицу:

Данные для однофакторного анализа

 

 

Уровни

 

 

 

 

 

Испытание

A1

...

Am

 

 

1

 

 

 

.

x1.;1

....

x1.;m

 

 

средние

xn;1

...

xn;m

 

 

n

 

 

 

 

x1

...

xm

 

Объем полного набора наблюдений здесь, таким образом, равен mn. Îáî-

значим

1

m

1

n

m

 

 

 

X

 

 

Xi

X

X =

m

j=1

xj =

nm

 

xi;j:

 

 

 

 

=1 j=1

Q общей вариативностью. Принято считать, что от- QA=Q дает долю общей вариативности, объясняемой через из-

78 Нетрудно заметить, что если

Глава 7. Дисперсионный анализ

 

 

m

 

n

 

 

 

 

2

 

 

 

 

 

 

 

 

m

n

 

 

 

 

2

 

 

 

 

X X

 

 

 

 

 

 

 

 

 

 

 

jX X

 

 

 

 

 

 

 

 

Q =

 

 

(xi;j X) ;

 

QO =

 

 

 

 

 

 

(xi;j xj) ;

 

 

 

j=1 i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

=1 i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

jX

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

QA = n (xj X) ;

 

 

 

 

 

 

 

 

 

 

òî

 

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Q = QO + QA:

 

 

 

 

 

 

 

 

 

 

Ïðè ýòîì

Q

интерпретируется как общая изменчивость

X

,

QO

как сумма

изменчивостей внутри уровней, а

QA

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

т.е. при переходе от уровня к

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

уровню. изменчивость между уровнями,

После очевидных преобразований формулы приобретают вид

 

 

 

 

 

 

m

 

n

 

2

 

 

mn1

 

m

 

 

 

n

2

 

 

 

 

 

 

 

 

 

m

n

2

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

P

P

 

 

 

 

 

 

 

 

 

P

 

 

 

P

 

 

 

 

 

(7.3)

 

 

Q =

 

 

j=1

i=1 xi;j

 

 

 

 

 

 

1P

j=1

P

i=1 xi;j

 

 

;

 

 

 

 

 

QO

1

 

P

 

 

P

 

 

 

2

 

 

 

 

 

i=1 xi;j) ;

 

 

 

 

 

 

=

 

j=1

 

i=1 xi;j

n

 

j=1(

 

 

 

 

 

 

 

 

QA =

n

 

j=1(

i=1 xi;j)

 

 

nm

j=1 i=1 xi;j

2

 

 

 

 

 

 

:

 

 

 

 

 

 

m

 

 

n

 

 

 

 

 

 

 

 

 

 

 

P

m

 

n

 

 

 

 

 

 

Определим

 

 

P

 

P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

QA

 

 

 

 

 

 

 

 

QO

 

 

 

 

 

 

 

DA

 

 

 

 

DA =

 

 

; DO =

 

 

; F =

 

 

:

 

 

 

 

m 1

m(n 1)

 

DO

 

Теперь сравним рассчитанное по выборочным данным значение F ñ êðè-

тической точкой распределения Фишера с m 1; m(n 1) степенями свободы. Если критическое значение не превзойдено, то следует принять

гипотезу об отсутствии значимого влияния фактора A на величину X.

QA

иногда называют факторной вариативностью,

QO

случайной

 

вариативностью,

 

ношение

менение фактора A.

Введем здесь понятие распределения Фишера, потому что в дисперсионном анализе оно встречается особенно часто. Пусть случайные ве-

личины и имеют распределения хи-квадрат соответственно с k è m

степенями свободы и независимы. Тогда говорят, что величина

= m

имеет распределение Фишера с

k

n; m степенями свободы. Обозначается

это распределение Fk;m и иногда называется F -распределением. Докажем одно полезное свойство F -распределения.

7.2. Один фактор

79

Лемма 6 Åñëè F (k; m; ) квантиль распределения Fk;m уровня , то

F (m; k; 1 ) =

1

:

 

F (k; m; )

Доказательство. Пусть имеет распределение Фишера с k; m степенями свободы. Тогда, по определению, 1= имеет распределение Фишера с m; k степенями свободы, и обе случайные величины положительны. Осталось лишь заметить, что для произвольного значения t справедливо

P( < t) = P(1 > 1t ) = 1 P(1 < 1t );

что и завершает доказательство.

Эта лемма позволяет ограничиваться использованием таблицы F только при k;m

жении.

k < m (или наоборот). Такие таблицы содержатся в прило-

Рассмотрим, наконец, следующий пример, приведенный в [2]. Сравнивается три различных метода преподавания. Результаты тестирования трех групп по 15 человек, обученных по разным методикам, приведены в таблице.

80

 

 

 

Глава 7. Дисперсионный анализ

 

 

Три метода преподавания

 

 

 

Учащийся

 

Метод 1

Метод 2

Метод 3

 

 

 

1

 

9

15

18

 

 

 

2

 

11

16

14

 

 

 

3

 

10

15

17

 

 

 

4

 

12

10

9

 

 

 

5

 

7

13

14

 

 

 

6

 

11

14

17

 

 

 

7

 

12

15

16

 

 

 

8

 

10

7

15

 

 

 

9

 

13

13

16

 

 

 

10

 

11

15

8

 

 

 

11

 

13

15

14

 

 

 

12

 

11

14

10

 

 

 

13

 

10

11

16

 

 

 

14

 

12

15

15

 

 

 

15

 

13

10

17

Всего

 

 

суммы Sj

 

165

198

216

t = 579

 

 

суммы квадратов

 

1853

2706

3242

u = 7801

 

 

Sj2

 

27225

39204

46656

v = 113085

 

В этом примере mn = 45. Вычислим z = (S12

+ S22 + S32)=15 = 7539; 0.

Далее,

 

 

 

 

Факторная вариативность QA

=

z

t2

= 89; 2; DA = 44; 6:

mn

Случайная вариативность QO

=

u z

= 262; 0; DO = 5; 95:

Общая вариативность Q = u mnt2 = 351; 2:

Значение критерия F = 7; 49:

По таблице распределения Фишера с 2, 42 степенями свободы находим квантиль уровня 0,99. Она равна 5,18. Поскольку рассчитанное значение критерия больше, то следует признать существенное влияние метода пре-

подавания на данное тестирование. Более того, определяя долю QA â Q, видим, что изменение методики преподавания дает примерно четверть

(QA=Q 0; 254) общей изменчивости.