Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Математическая статистика. Ответы на вопросы.doc
Скачиваний:
108
Добавлен:
01.05.2014
Размер:
735.23 Кб
Скачать

25) Однофакторный, двуфакторный дисперсионный анализ. Однофакторный дисперсионный анализ

Предположим, что наши наблюдения: yij =i+ij i=1..I, j=1..J

Считаем, что на наблюдения влияет -фактор (например фактор наблюдения)

i – i-ый способ обработки.

влияет ли способ обработки на наблюдение т.е.

H0: ==…=

Сначала покажем, что это линейная схема.

Y=;=;Надо чтобы Y=Xp+, тогда Х=R(x)=числу столбцов, т.е. R(X)=I

Проверим H0: ==…=

Рассмотрим HT

H1T=R(H)=I-1

n=k=I-1; n-r=n-I

Чтобы найти min надо продифференцировать по k

R02=min;==0

k=yk.  некое усреднение

R02=

Предположим, что все i равны и равны 

R12=min

если продифференцировать по , получим

k=y.. ; R12=

R12-R02=; y.. –усреднение по двум параметрам

Двуфакторный дисперсионный анализ

yij=+i+j+ij; i=1..I, j=1..y

Предположим, что = =0

Теперь на наблюдения действуют два фактора

HA=1=…=I=0

HB=1=…=y=0

Пусть существует пшеница разных сортов, она высажена в различных регионах.

Наблюдение – урожайность.

Вопрос – какой сорт лучше.

Но в различных районах – разный урожай, но фактор региона мешает, поэтому на все сорта высаживать, чтобы проверить.

можно наоборот.

 - общее решение.

Будем проверять только H

=-независимы, X=

т.к. Y=X+

везде присутствует 

Ранг : r = R(x)=I+Y+1-2=I+Y-1

n-r = IY-I-Y+1=(I-1)(Y-1)

Ранг H - ?

HT=

Ранг H : R(H)=Y-1=k

Как вычислять R02 и R01

R02=(*)

= =0

Метод множителей Лагранжа.

G=Q-21-22

|

просуммируем по i, с учетом, что = =0

если (*) дифференцируема по , то получим оценку для 

=y..  оценка для 

=> `=`=0

i= yi.-y..

j= y.j-y..

Подставим в (*)

R12=? предположим, что Yij=+i+ij (считаем,  нет)

получим тоже самое

=y..

i= yi.

R12=; R12-R02=вычислили все для дисперсионного анализа

26) Байесовская классификация.

Имелось 2 гипотезы.

Теперь будем рассматривать k гипотез (простых), и надо из них выбрать оптимальную.

Существует вектор наблюдений X = (X1, X2, X3, … Xn ).

Hi : p(x) = pi(x), где i = 1,2…k

n наблюдений.

делим пространство Rn на k областей.

w1 w2 …wk критерий состоит в выборе множеств wi

Пусть XWi, то принимается Hi i<k (нерандомизированный критерий)

Введем проигрыш rj/i – проигрыш от того, что принимается гипотеза Hj при условии, что Hi верна

Введем вектор потерь (средних)

(L1…Lk), Li=w1 r1/i Pi(x) d+…+wk rk/i Pi(x) d

r1/i средняя потеря

Li – средняя потеря от применения нашего критерия, если верна Hi

надо, чтобы потери были min.

L – вектор, векторы несравнимы.

Предположим, что существуют априорные вероятности гипотез.

L= min

можно построить такой критерий.

L===

Sj(x)= --дискриминантный информатор - те X для которых максимум достигается на Wj={XRn, Sj=maxj<k Si(x)}

Теорема: Оптимальный критерий определяется следующим образом

Wj={XRn, Sj=maxj<k Si(x)}

считаем, что все Si различны.

Доказательство: Пусть существует разбиение w, L(w) – потери

L(w) – множество потерь, связанных с другим разбиением и критерием.

L(w)==>

X максимален по крайней мере в том wi в котором Si – максимально, если с минусом, то минимально.

> ==L(w)

значит можно пользоваться критерием w

Sj(x)= -

Рассмотрим проигрыши ri/j={0, i=j; 1,ij}

если мы не ошиблись, то потерь нет, если ошиблись – то потери одинаковые.

Sj(x)= -=-=-+jpj(x), не зависит от j, его можно отбросить.

Sj(x)=pj(x) – часто априорные вероятности одинаковы, тогда j можно опустить, приходим к методу максимального правдоподобия.

Метод часто применяется, когда нормальное распределение, т.е. когда

pi(x)= i<j

можно это прологарифмировать, log возрастает => можно их сравнивать .

- квадратичная дискриминантная функция.

Нужно знать i и mi. Слишком много параметров.

- постоянный множитель его можно убрать.

- можно разбить.

- постоянный множитель, его можно вычислить до опыта.