- •5. Сетевые модели представления знаний. Семантические сети. Вычислительные сети.
- •Формализация
- •2. Языки инженерии знаний.
- •3 Средства автоматизации разработки экспертных систем.
- •20.Классификация систем распознавания образов.
- •Случай 3.
- •2.4.Нелинейные дискриминантные функции
- •2.4. Ф-машины
- •Потенциальные функции как дф
- •1)Постановка задачи
- •Отрицательный знак перед rk(X) выбирается так чтобы dk(X) представляла наиболее правдоподобный класс . То-есть чемь меньше rk(X) тем более правдоподобно , что Xk . (далее менее важное до п.2)
- •3) Принятие решения по максимуму правдоподобия
- •4) Ошибки классификации
- •1) Проблема выбора информативных признаков
3) Принятие решения по максимуму правдоподобия
p(x/i) называется функцией правдоподобия для i
Средние потери решения xk
Это выражение может быть использовано для минимизации для получения максимального правдоподобия для xk. . Для двухклассовой задачи средние или ожидаемые потери решения x1 будут иметь вид :
Решение относительно того что x1 будет принято , если
далее упростим:
или обозначив короче прав и левую части: l12(x) > 12
Соответственно смысл этого: x1 если l12(x) > 12
Обобщим для количества классов M >2
xk если lki(x) > ki для всех i
Это называется правилом максимального отношения правдоподобия .
Правило максимального отношения правдоподобия для симметрической функции будет иметь вид :
т.к.
получим дискриминантную функцию для симметричной функции потерь:
->
То есть xk если:
Дискриминантная функция (1):
В итоге средние потери решения, что xk это(2)
(1), (3),
(2)
Правило максимального правдоподобия: (3)
Левая сторона(3) - средние потери решения xi , правая сторона - потери решения xj , j = 1,…..,M и j i.
4) Ошибки классификации
Рассмотрим для начала классификатор на два класса . Этот классификатор будет делить пространство на две области R1 и R2 . Решение x1 будет принято , когда образ x попадает в область R1 ; и x2 когда x попадает в область R2 . При этих предположениях будут возможны два типа ошибок :
x попадает в область R1 , но в действительности x2 . Это дает вероятность ошибки E1 , которая может быть обозначена как Prob (x R1, 2 ).
x попадает в область R2 , но в действительности x1 . Это дает вероятность ошибки E2 , которая может быть обозначена как
Prob (x R2, 1 ). Тогда общая вероятность ошибки будет
Это информационный критерий который необходимо минимизировать , чтобы получить хорошую классификацию. На рис. 4.1 показаны области принятия решения и области ошибок ( заштрихованы)
Площадь заштрихованных областей определяет суммарную ошибку классификации . Видно что ошибка E2 для произвольной решащей границы состоит из двух частей ( с левой штриховкой и поперечной). Если мы будем двигать произвольную границу к оптимальному положения область с поперечной штриховкой будет уменьшаться до нуля . Оптимальная решающая граница будет иметь место , когда x удовлетворяет следующему уравнению d1(x) = d2(x) или
Оптимальная дискриминантная функция для нормально распределенных образов.
Многомерное нормальное распределение обозначается так:
N- функция нормальной плотности вероятностей,
mk – вектор математического ожидания
Ck – ковариационная матрица для классаk,
Образы из нормальной популяции в пространстве признаков принадлежат одному кластеру , центр которого определяется вектором математического ожидания ,а форма – матрицей ковариации. На рис .4.2. показаны три различных кластера с различной формой. В части (а) m= 0 иC=I (единичная матрица),Cij =Cji = 0 ,Cii = 0. Для кластера в части (b) – слева, для кластера в части(с) – справа, далее внизу рисунки a,b,c соответств.,
Главные оси гиперэллипсоидов (контуров равной плотности вероятностей)
Определяются собственными векторами C с собственными числами , определяющими относительную длину этих осей.
Полезная мера подобия(Махаланобисово расстояние)от образаx до среднего m и между двумя классами определяются соответственно:
Возьмем и прологорифмируем с об сторон дискриминантную функцию:
Затем в эту дискриминантную функцию подставляется нормальная плотность распределения:
Ясно, что если первые члены в правой части одинаковы для всех k, то их можно исключить. Сокращая, получим:
Запишем в более компактном виде:
r2– расстояние Махалонобиса
Рассмотрим эту дискриминантную функцию более детально для двух различных случаев:
Случай равных матриц ковариаций для различных классов (Ci = Cj = Ck = C).
Если первый и последний члены в правой части этого равенства одинаковы для всех классов (то есть для всех k), тогда эта дискриминантная функция может быть записана более компактно:
Очевидно, это линейная дискриминантная функция, если мы рассмотрим
как Wk и рассмотрим два члена в скобках как Wk,n+1 для (М=2) двухклассовой задачи, то
Когда матрицы ковариаций Сk диагональной формы
Физический смысл в том, что кластер имеет равное число компонентов вдоль главных осей и распределение сферической формы. Заменим в дискр финкции
Когда характеристики статистически независимы и когда каждая характер истика имеет ту же дисперсию
Эти члены одинаковы для всех k и ими можно пренебречь.
Предположим
где K – константа , то членом log(p(wk)) можно пренебречь
Получено линейное равенство.
Квадратичная дискриминантная функция для нормальной плотности распределения при М классах была упрощена до линейной, что делает задачу более простой.
Проблема выбора информативных признаков. Методы оценки информативности признаков.