Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ответы к экзамену (Кафтасьев).docx
Скачиваний:
142
Добавлен:
27.05.2014
Размер:
2.7 Mб
Скачать

3) Принятие решения по максимуму правдоподобия

p(x/i) называется функцией правдоподобия для i

Средние потери решения xk

Это выражение может быть использовано для минимизации для получения максимального правдоподобия для xk. . Для двухклассовой задачи средние или ожидаемые потери решения x1 будут иметь вид :

Решение относительно того что x1 будет принято , если

далее упростим:

или обозначив короче прав и левую части: l12(x) > 12

Соответственно смысл этого: x1 если l12(x) > 12

Обобщим для количества классов M >2

xk если lki(x) > ki для всех i

Это называется правилом максимального отношения правдоподобия .

Правило максимального отношения правдоподобия для симметрической функции будет иметь вид :

т.к.

получим дискриминантную функцию для симметричной функции потерь:

->

То есть xk если:

Дискриминантная функция (1):

В итоге средние потери решения, что xk это(2)

(1), (3),

(2)

Правило максимального правдоподобия: (3)

Левая сторона(3) - средние потери решения xi , правая сторона - потери решения xj , j = 1,…..,M и j i.

4) Ошибки классификации

Рассмотрим для начала классификатор на два класса . Этот классификатор будет делить пространство на две области R1 и R2 . Решение x1 будет принято , когда образ x попадает в область R1 ; и x2 когда x попадает в область R2 . При этих предположениях будут возможны два типа ошибок :

  1. x попадает в область R1 , но в действительности x2 . Это дает вероятность ошибки E1 , которая может быть обозначена как Prob (x R1, 2 ).

  2. x попадает в область R2 , но в действительности x1 . Это дает вероятность ошибки E2 , которая может быть обозначена как

Prob (x R2, 1 ). Тогда общая вероятность ошибки будет

Это информационный критерий который необходимо минимизировать , чтобы получить хорошую классификацию. На рис. 4.1 показаны области принятия решения и области ошибок ( заштрихованы)

Площадь заштрихованных областей определяет суммарную ошибку классификации . Видно что ошибка E2 для произвольной решащей границы состоит из двух частей ( с левой штриховкой и поперечной). Если мы будем двигать произвольную границу к оптимальному положения область с поперечной штриховкой будет уменьшаться до нуля . Оптимальная решающая граница будет иметь место , когда x удовлетворяет следующему уравнению d1(x) = d2(x) или

  1. Оптимальная дискриминантная функция для нормально распределенных образов.

Многомерное нормальное распределение обозначается так:

N- функция нормальной плотности вероятностей,

mk вектор математического ожидания

Ck – ковариационная матрица для классаk,

Образы из нормальной популяции в пространстве признаков принадлежат одному кластеру , центр которого определяется вектором математического ожидания ,а форма – матрицей ковариации. На рис .4.2. показаны три различных кластера с различной формой. В части (а) m= 0 иC=I (единичная матрица),Cij =Cji = 0 ,Cii = 0. Для кластера в части (b) – слева, для кластера в части(с) – справа, далее внизу рисунки a,b,c соответств.,

Главные оси гиперэллипсоидов (контуров равной плотности вероятностей)

Определяются собственными векторами C с собственными числами , определяющими относительную длину этих осей.

Полезная мера подобия(Махаланобисово расстояние)от образаx до среднего m и между двумя классами определяются соответственно:

Возьмем и прологорифмируем с об сторон дискриминантную функцию:

Затем в эту дискриминантную функцию подставляется нормальная плотность распределения:

Ясно, что если первые члены в правой части одинаковы для всех k, то их можно исключить. Сокращая, получим:

Запишем в более компактном виде:

r2– расстояние Махалонобиса

Рассмотрим эту дискриминантную функцию более детально для двух различных случаев:

  1. Случай равных матриц ковариаций для различных классов (Ci = Cj = Ck = C).

Если первый и последний члены в правой части этого равенства одинаковы для всех классов (то есть для всех k), тогда эта дискриминантная функция может быть записана более компактно:

Очевидно, это линейная дискриминантная функция, если мы рассмотрим

как Wk и рассмотрим два члена в скобках как Wk,n+1 для (М=2) двухклассовой задачи, то

  1. Когда матрицы ковариаций Сk диагональной формы

Физический смысл в том, что кластер имеет равное число компонентов вдоль главных осей и распределение сферической формы. Заменим в дискр финкции

Когда характеристики статистически независимы и когда каждая характер истика имеет ту же дисперсию

Эти члены одинаковы для всех k и ими можно пренебречь.

Предположим

где K – константа , то членом log(p(wk)) можно пренебречь

Получено линейное равенство.

Квадратичная дискриминантная функция для нормальной плотности распределения при М классах была упрощена до линейной, что делает задачу более простой.

  1. Проблема выбора информативных признаков. Методы оценки информативности признаков.