Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Нейронные сети для обработки информации

..pdf
Скачиваний:
8
Добавлен:
12.11.2023
Размер:
14.05 Mб
Скачать

вторых - упрощение формулы генерации градиента. Следует отметить, «гго такое подключение нейронпой сети обеспечивает однонаправленное распространение сигналов, поскольку выходной сигнал объекта явллстся сигналом изначально известным (в отличие от выходного сигнала модели),

Рис. 4.16. Способ подключения нейронной сети для идентификации

динамическогообъекта

поэтому сеть не должна быть рекуррентной. Поэтому вектор градиента формируется в соответствии со стандартным для многослойной сети методом обратного распространения, описанным в разделе 3.

При таком подключении отклик у{к) сети зависит от вектора н{к), пред­ ставляющего собой ряд прошедших через элементы задержки реализации возбуждающего сигнала, а также от вектора 4{к) = у(к), представляющего со­ бой ряд прошедших через элементы задержки реализаций заданного сигнала, составляющих ожидаемый выходной вектор сети. В этой ситуации нейронная сеть выполняет функции классической многослойной статической сети.

Для примера рассмотрим идентификацию нелинейного динамического объекта Винера, состоящего из каскадно подключенных' линейного фильтра Баттерворга шестого порядка и нелинейного элемента в форме полиномиальной функции х3. В нейронной модели этого объекта использована сеть с одним скрытым слоем, содержащим 25 нейронов. Входной слой состоит из 24 узлов, о выходной вектор составлен из 12 прошедших через элементы задержки реализаций входного вектора дг и 12 реализаций вектора </, сформирован­ ного из откликов объекта.

В качестве входных сигналов ы(&) использовались случайные значения. Обучение проводилось с применением программы №иеаск. После подбора

значений весов тестировалось способность сет» к обобщению, для чего на сс вход подавались детерминированные сигналы фиксированной структуры. Демонст­ рируемые результаты относятся только к возбуждению в форме синусоидального сигнала. На рнс. 4.17л показаны графики изменения сигнала, сгене­ рированного нелинейным объектом (пунктирная лиши), и сигнала, подучен­ ного на выходе нейронной модерн (непрерывная лиши) при синусоидаль­ ном возбуждающем сигнале. Разность (рис. 4.176) между значениями заданными и фактически сгенерированными моделью системы, подвергнутой идентификации, относительно мала и свидетельствует о высоком качестве полученного решения.

Рис, 4.17. Результаты тестирования обученной сети ш примера обработки входных синусоидальных данных;

а) выходной заданный сигнал (пунктирная линия) и выходной сигнал нейронной сети (непрерывная линия); б) график погрешности идентификации

4.6.4. Прогнозирование нагрузок энергетической системы

Другим важным свойством нейронных сетей считается способность прогнозировать временные ряды. В настоящем подразделе в качестве примерами рассмотрим решение задачи предсказания 24-часовых нагрузок Польской

электроэнергетической системы (Р8 Б).

1

Так же как и при классификации образов, предсказание базируется на учете свойств прогнозируемого процесса. Главная особенность часовых нагрузок энергетической системы - это определенная повторяемость характе­ ризующих их выборок в зависимости от дня недели и месяца. Выделяются либо четыре основных вида нагрузок, соответствующих субботе, воскресенью, понедельнику и остальным четырем рабочим дням, либо только два вида, соответствующие праздничным (т.с. нерабочим) и рабочим дням. В ходе проведенных' авторами [124] статистических исследований установлено, что распределение по четырем типам дней хотя и снижает погрешность обучения, однако увеличивает погрешность обобщения (ухудшает результаты собст­ венно прогнозирования). Поэтому для предсказания 24-часовых нагрузок использовалось распределение на два типа дней, что потребовало вве­ дения одного дополнительного входного узла с двоичным кодированием: О - праздничный день, 1 - рабочий день.

Следующий фактор, который учитывался в прогнозе, - это деление суток на четыре периода: рввномерныи ночной, пиковый утренний, равномерный дневной и пиковый вечерний. Принятое разделение суток предусматривало смещение выделенных периодов соответственно различным временам годв. Для двоичного кодирования этих четырех периодов в сеть были введены еще два входных узла.

И все же важнейшим фактором стал учет зависимости прогноза от значений нагрузки в предыдущие часы и дни (динамические зависимости). Необходимо учитывать как текущий день, так й несколько диен, пред* шествующих прогнозируемому. При прогнозировании нагрузки Р ( 0 , /г) на А-й час в 0 -й день во входном векторе сети учитываются следующие величины: /»(0, /г-1), Р{0, А-2), .... Р(0, Л-*), Г (0 - 1 , А), />(0-1, /г-1), ....

/ >(0 -1, Л-$), .... Р(0-<1, А), Р(0-</, А-1)...... Р{&-4, А-#). Число с1 указывает, столько предшествующих дней, а число # - сколько предшествующих часов принимается во внимание при прогнозировании. Проведенные исследования показали, что удовлетворительные результаты достигаются при </ = 3 и $ = 4. С учетом двух типов дня при разделении суток на четыре периоде размерность входного вектора равна 2 2 .

Последняя задача подготовки данных состояла в их разделении на обучающее и тестовое подмножества. Принимая во внимание огромную базу данных Р8Е, было решено ограничиться избранными днями, представляющими все времена года за последние несколько лет.

Для прогнозирования нагрузок использовалась сигмоидальная есть с одним скрытым слоем. Объем входного слоя выбран равным размерности входного вектора х Количество выходных нейронов определяется количеством прогнозируемых периодов. .Соответственно для 24-часового прогнозирования

выходной слой

должен состоять из 24 линейных нейронов. Самая

трудная задача -

подбор количества нейронов скрытого слоя. Если их

слишком мало, то погрешность обучения невозможно уменьшить до требуемого уровня. Слишком большое их количество приводит к росту погрешности обобщения. Такая сеть с практической точки зрения не будет иметь никакой ценности. Кок правило, количество скрытых нейронов можно либо подобрать экспериментально так, чтобы уменьшить до минимума погрешность обобщения, либо применить один из методов построения оптимальной структуры сети, представленных ранее в настоя­ щем разделе. Процесс прогнозирования нагрузок состоит из следующих этапов.

Подбор архитектуры нейронной сети.

Выбор обучающих данных к структуры входных векторов.

Тренинг нейронной сети.

Тестирование сети на контрольном множестве данных к при необходимости ее дообучение.

Использование сети в качестве средства прогнозирования почасовой нагрузки (этап фактического использования но назначению).

Возможное дообучение сети по истечении определенного времени, например одного года эксплуатации.

Качество прогнозирования оценивается показателем процентной погрешности МАРЕ (вилы Меап АЬзо!и1е РегсеШа&е Еггог), определяемым в виде

где $ - прямо спрогнозированное значение, в Р - фактическая нагрузка сис­ темы, тогда как п обозначено число часов, на которые составлялся прогноз.

Рассмотрим результаты 24-часового прогноза дня Р8Е, полученные при помощи псрселтронпой сети о одним скрытым слоем, состоящим из 25 нейронов. Структура сети имела вид: 22-25-24. Сеть обучалась с исполь­ зованием данных за 1993 и 1994 гг. (выбрана четверть дней различных времен года). Тестирование проводилось на данных 1991-1995 гг На рис. 4.18 представлено распределение погрешности МАРЕ для этих лет по 24-часовому прогнозу. Минимальная погрешность, полученная для 1995 г., составила 3,4%. Несколько лучшие результаты получены при прогнози­ ровании нагрузок только по рабочим дням. На рис. 4.19 приведены погреш-

погрешности для часов, в которые ожидались значительные колебания нагрузок системы, связанные с организацией повседневной жизни (например, 7-00, 16-00, 19-00). Можно сделать общий вывод, что использование многослойной персептронной сети не позволяет существенно снизить погрешность 24-часового прогноза. Лучших результатов, кок это будет показано в разделе 9, можно достичь при использовании самоорганизующихся сетей.

Однако многослойный псрссптрон является очень хорошим средством для предсказания среднесуточных нагрузок энергетической системы. Значения таких нафуэок требуются, иаприМср, при прогнозировании с применением самоорганизации. В [124] авторы представили структуру персептронной сети с одним скрытым слоем, позволяющую весьма точно предсказывать среднесуточные нафузки ко тем же самым значениям, взятым из прошлых периодов. Прогнозирующая модель содержит девять входных узлов, представляющих среднесуточные нафузки данного дня за последние годы, время года и тин дня. Тип дня кодировался одним двоичным узлом (0 - праздник, 1 - рабочий день). Кодирование времени пща требует двух узлов. Примснллись следующие моды: 11 - энмп, 01 - весна, 00 - лето и 10 - осень. На этане обучения сети в качестве ожидаемых значений выступали известные среднесуточные нагрузки энергетической системы за прошедшие годы.

Рис. 4.20. Структура персептронной сети для предсказания среднесуточных нвф ую к

Структура нейронной сети, применявшейся для предсказания нагрузок, изображена на рис. 4.20. Значение />„(</, у) соответствует нормализованной среднесуточной иафуэкс в день 4 годя у . Для улучшения способностей к обобщению количество скрытых нейронов было подобрано эксперимен­ тально (в рассматриваемом примере оно было принято равным 5). Сеть была

Рис. 4.21. Распределение погрешности МАРЕ прогноза среднесуточной нагрузки для

Р5Е, рассчитанного перссптронной сетью МЛРЕ

обучена но данным Р5Е за 1990-1995 гг. На рис. 4.21 представлено распределение погрешности МАРЕ прогноза среднесуточных значении на период 1990-1995 гг. Наибольшая погрешность МАРЕ в течение года не превышала 1,3 %.

Раздел 5

РАДИАЛЬНЫЕ НЕЙРОННЫЕ СЕТИ

Многослойные нейронные сети, представленные в предыдущих разделах, с точки зрения математики выполняют аппроксимацию стохастической функции нескольких переменных путем преобразования множества входных переменных хе Лу во множество выходных переменных у е [46, 56]. Вследствие харак­ тера сигмоидальной функции активации осуществляется аппроксимация глобального типа. В результате ее нейрон, который был однажды включен (после превышения суммарным сигналом щ определенного порогового значения), остается в этом состоянии при любом значении щ, превышающем этот порог. Поэтому всякий раз преобразование значения функции в произвольной точке пространства выполняется объединенными усилиями многих нейронов, что н объясняет название глобальная аппроксимация.

Другой способ отображения входного множества в выходное заключается в преобразовании путем адаптации нескольких одиночных аппроксимирующих функции к ожидаемым значениям, причем эта адаптация проводится только в ограниченной области многомерного пространства. При таком подходе отображение осего множества данных представляет собой сумму локальных преобразований. С учетом роли, которую шрают скрытые нейроны, они состав­ ляют множество базисных функций локального типа. Выпалнеш1е одиночных функций (при ненулевых энпчешшх) регистрируется только в огра1шче11110Й области пространства данных - отсюда и название локальная аппроксимация.

Особое семейство образуют сети с радиальной базисной функцией, в которых скрытые нейроны реализуют функции, радиально изменяющиеся вокруг выбранного центра Л и принимающие ненулевые значения только в окрестности этого центре. Подобные функции, определяемые в виде Ф(х)=р(||х -с ||), будем называть радиальными базисными функциями. В таких сетях роль скрытого нейрона заключается в отображении радиального пространства вокруг одшючной заданной точки либо вокруг труппы таких точек, образующих кластер. Суперпозиция сигналов, поступающих от всех скрытых нейронов, которая выполняется выходным нейроном, позволяет получить отображение всего много­ мерного пространства.

Сети радиального типа представляют собой естественное дополнение сигмоидальных сетей. Сигмоидальный нейрон представляется в многомерном пространстве гиперплоскостью, которая разделяет это пространство на две

кагегоргп! (два класса), в

которых выполняется одно из двух

услошпг: либо

> 0 , либо

< 0 . Такой подход продемонстрирован

на рис. 5.1а. В

свою очередь радиальный нейрон представляет собой гиперсферу, которая осуществляет шаровое разделение пространства вокруг центральной точки (рнс. 5.16). Именно с этой точки зрения он является естественным дополне­ нием сигмоидального нейрона, поскольку в случае круговой симметрии данных

а) щ

+ + + + + / ~ \ +

О О О О О

Л

У.

 

+

— +

Рнс. 5.1. Иллюстрация способов разделения пространства данных:

о ) сигмоидальным нейроном; б) радиальным нейроном

позволяет замелю уменьшить количество нейронов, необходимых для разделения различных классов. Поскольку нейроны могут выполнять различные функции, в радиальных сетах отсутствует необходимость исиользолаиня большого количества скрытых слоев. Структура типичной радиальной сети включает входной слой, на хоторый подаются сигналы, описываемые входным вектором х, скрытый слой с нейронами радиального типа и выходной слон, состоящий, как правило, из одного или нескольких линейных нейронов. Функция выходного нейрона сводится исключительно к взвешенному суммированию сигналов, генерируемых скрытыми нейронами.

5.1. Математические основы

Математическую основу функционирования радиальных сетей составляет теорема Т. Ковера (20] о распознаваемости образов, в соответствии с которой нелинейные проекции образов в некоторое многомерное пространство могут быть линейно разделены с большей вероятностью, чем при их проекции в пространство с меньшей размерностью.

Если вектор радиальных функций <р(х) = [ р 1 (х), <рг (х), .... ^>*(х)]г о АГ-мсрном входном пространстве обозначить 4Р(х), то это пространство является нелинейно р-разделяемым на два пространственных класса Л'4' и Х~ тогда, когда существует такой вектор весов и», что

игг9 ) > 0

х е Х +

(5.1)

|ргф (х)<0

х«=ЛГ

(5.2)

Граница между этими классами определяется уравнением * Т<р(х) =0.

В [20] доказано, что каждое множество образов, случайным образом разме­ шенных в многомерном пространстве, является ^-разделяемым с вероятностью 1 прМ условии соответственно большой размерности К этого пространства. На практике эго означает, что применение достаточно большого количества скрытых нейронов, реализующих радиальные функции ф(к), гарантирует решение задачи классификации при построении всего лишь двухслойной сети: скрытый слой должен реализовать вектор <р(х), а выходной слон может состоять из единственного линейного нейрона, выполняющего суммирование выходных сигналов от скрытых нейронов с весовыми коэффициентами, заданными вектором н>.

Простейшая нейро1шая сеть радиального типа функционирует но принципу многомерной интерполяции, состоящей в отображении р различных входных

векторов .г/ (/ = I, 2,... р) из входного ЛГ-мерлого пространства

во множество из

р рациональных чисел ф (г = I, 2,

р). Для реализации

этого процесса

необходимо использовать р скрытых нейронов радиального типа и задать такую функцию отображения /■'(.г), для которой выполняется условие интерполяции

Г{х,) = ф ,

(5.3)

Использование р скрытых нейронов, соединяемых связями с весами ич е выходными линейными нейронами, означает формирование выходных сигналов сети путем суммирования взвешенных значений соответствующих базисных функций. Рассмотрим радиальную сеть с одним выходом и р обучающими па­ рами (дсь<Г/). Примем, что координаты каждого из р центров узлов сети опреде­ ляются одним из векторов ху, т.е. с\ = В этом случае взаимосвязь между входными и выходныш! сигналами сети может быть определена системой уравнетиг, линейных относительно весов щ, которая в матричной форме имеет вид:

Ф.1

Ф|2

 

4

Ч>21

Фп

Ъ р

я *2

<р,|

 

Урр_ V

.V

где фу, =(|| дгу - х( ||) определяет радиальную функцию с центром

в точке ^ с

вынужденным лектором хр Если обозначить матрицу из элементов

ад, как Ф и

ввести обозначения векторов и» = [и»|, ич»..., Л = [</|, ф ......^р]Т>система уравнений (5.4) может быть представлена в редуцированной матричной форме

Ф и>=</.

(5.5)

В [20] доказано, что для ряда радиальных функций в случае ач * х г * ... * хр квадратная интерполяционная матрица Ф является несобственной и при этом не­ отрицательно определенной. Поэтому существует решение уравнения (5.5) в виде

и '« Ф * | «Г)

(5.6)

что позволяет получить всюор оесов выходного нейрона сети.