- •Многослойный персептрон
- •Функции активации в нейронных сетях
- •1. Единичный скачок или жесткая пороговая функция
- •2. Линейный порог или гистерезис
- •3. Сигмоидальная функция или сигмоид
- •Свойства процессов обучения в нейронных сетях Задача обучения нейронной сети на примерах.
- •Классификация и категоризация.
- •Обучение нейронной сети с учителем, как задача многофакторной оптимизации Понятие о задаче оптимизации
- •Постановка задачи оптимизации при обучении нейронной сети
- •Модель Хопфилда
- •Сети с обратными связями
- •Нейродинамика в модели Хопфилда
- •Правило обучения Хебба
- •Ассоциативность памяти и задача распознавания образов
- •Модификации правила Хебба.
- •Матрица Хебба с ортогонализацией образов.
- •Отказ от симметрии синапсов.
- •Алгоритмы разобучения (забывания).
- •Двунаправленная ассоциативная память.
- •Детерминированная и вероятностная нейродинамика.
- •Применения сети Хопфилда к задачам комбинаторной оптимизации.
- •Базовые математические задачи, решаемые нейронными сетями
- •Алгоритмы обучения одного нейрона
- •1. Алгоритм обучения Хебба
Базовые математические задачи, решаемые нейронными сетями
Базовые задачи, решаемые одним нейроном.
С помощью одного нейрона можно реализовать вычисление скалярного произведения входного вектора x∈Rn и вектора синаптических связей w: s =(w,x) , а также функции от такого скалярного произведения: t =ϕ(s)=ϕ((w,x)) .
С помощью одного нейрона, по аналогии с персептроном, можно найти линейную решающую функцию, точно разделяющую (если это возможно) обучающие векторы двух классов.
2. Базовые задачи, решаемые слоем из m нейронов. Если имеется m нейронов с синаптическими связями-векторами wi , i =1,...,m, на каждый из которых подается входной вектор x, то на выходе такой сети мы получим m значений si =(wi ,x) , i =1,...,m. Эти m значений образуют вектор s=(s ,...,sm)T . Таким образом, НС из m нейронов может вычислять произведение матрицы W =[w1,...,wm]T на вектор x: s=Wx.
В частности, после однократного прохождения вектора x через слой из m нейронов с синапсами wi , i =1,...,m, на выходе мы получим вектор s=Wx, W =[w1,...,wm]T , численно равный градиенту квадратичной формы K(x)= 1 (x,Wx) :gradK(x)=Wx.
2
Базовые задачи, решаемые полносвязной сетью.
С помощью полносвязной сети можно осуществлять более сложные вычисления.
а) Вычисление минимума квадрики.
Найдем минимум квадрики (квадрикой в линейной алгебре называют сумму квадратичной формы, линейной формы и константы)
P(x)= 1 (x,Wx)+(b,x). Имеем gradP(x)=Wx+b. Тогда для нахождения минимума функции P(x) воспользуемся методом градиентного спуска:
x(k+1) =x(k) − x(k) +b , k =1,2,... или x(k+1) =(I −hW)x(k) −hb, где I – единичная матрица. Последнюю итерационную процедуру можно реализовать на полносвязной сети: каждый j -й нейрон связан с i -м нейроном (i ≠ j ) с помощью синаптического веса −hwij , с самим собой – с помощью веса 1−hwii . Кроме того, единичный сигнал на вход j -й нейрона подается с весом −hb .
б) Решение СЛАУ.
Численное решение СЛАУ Ax=b можно найти путем минимизации квадрики P(x)= 12 (Ax−b,Ax−b)= 12 (x,ATAx)−(ATb,x)− 12 (b,b) . Имеем gradP(x) =AT(Ax−b). Вычисление такого градиента можно осуществить с помощью двухслойной НС. На первом слое будет вычисляться Ax−b, а на втором – результат вычисления первого слоя будет умножаться на матрицу T Минимизация квадрики, а, следовательно, и вычисление решения СЛАУ осуществляется далее в итерационном процессе по формуле
x(k+1) =x(k) − x(k) , k =1,2,....
hgradP( )
6.7. Основные алгоритмы обучения нейронных сетей
Обучение НС основано на следующей процедуре. НС последовательно (или в случайном порядке – такое обучение называют методом стохастического градиента) предъявляются элементы обучающей выборки и вычисляется величина ошибки, т.е. отклонения результата работы сети на предъявленном обучающем элементе от ожидаемого отклика. Синаптические связи НС корректируются пропорционально величине этого отклонения. Далее предъявляется следующий образ и т.д. Процедуры обучения, таким образом, реализуют нахождения минимума некоторого функционала ошибки методом градиентного спуска. Отличаются эти процедуры друг от друга выбранным функционалом ошибки и реализацией метода градиентного спуска.