Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Математические методы в системах поддержки принятия решений

..pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
16.41 Mб
Скачать

рассматриваемая структура механизма записывается в следующем виде: принимается решение yv если выполняются для всехj # v неравенства

Х Д у , лДг))¥(У/)ХЛгЫ е у,)$(у!)<

/=1

/=1

 

 

п

т/

_____

 

^ X Ц ?! Л )

у <6 У> № у ' )>j =

1>«> J * V.

(2)

(»1

ы

 

 

3.Когда функция потерь — простая, т.е.

L(y„ Viz)) = 0, Цу„ yfz)) = 1, i *j, i = 1,и, j = 1,я,

то структуры механизмов преобразуются соответственно к виду

Л Ф уЖУу) ^Л Ф ;)¥0’у)

И

^Д4у'уе УуШу'уШУу)^'jtfitiy'j е Уу^О'уН'О'у)

(3)

/-1

/=1

 

для всех j * V. Эти соотношения, по существу, отражают реализацию

принципа максимума апостериорной вероятности, который также при­ водит к байесовским механизмам выбора оптимального решения 5°.

4. Функция потерь может быть построена в зависимости от прини­ маемого решения и возможного состояния ПиПС, например, такого вида:

Иу„yj(z))= -lg P(yfoj<z)),

где Р(у/\уj(z))=

, j= 1,и, — апостериорная вероят-

/=i

ность.

Очевидно, что при этом структуры байесовых механизмов не изме­ няются.

5.Заметим, что при полученных к текущему моменту времени tk

данных z= (Zi, z2,Zk) e Zkможно прогнозировать результаты пред­

стоящего в <*+ момент наблюдения г*+,. Действительно, после наблюде­ ния Z\£ Z имеем значение апостериорной вероятности

¥(Уу)/(г,Ьу)

Дг .) ’

91

после второго наблюдения, т.е. после z = (zbz2) е Z 2 имеем

y (y yk , ) / f e k | , y y)

Л у ук,,г2) =

P(z2\zt )

и далее, после наблюдения Zt, т.е. после получения z = (Zi, Z2, .... г*) е Z k:

VO^ki,г 2,...,zk_{ ) f (z k\zx,.~,zki,yy)

P (yj k 1,z2,...,z*) =

Д г*к,,г2

Отсюда непосредственно выводится выражение для вычисления вероят­ ности получения г*+| в tk+l при условии полученных наблюдений (Zi, г2, —Л ) и принимаемого решения ^ в tk относительно состояния yj,т.е.

P(zM \zx,z2,...,zk) =X'l'O'yk, ,г2>-,г*)/к*+1к, ,z2,.~,zk, y ,),

(4)

где множители под знаком суммы вычисляются по формуле апостери­ орной вероятности и заданной функции правдоподобия соответственно.

Возможны и другие зависимости между полученными данными

Z ~ k i, Z2, ..., Zk) е Z k и ожидаемым наблюдением z*+i е Z. Более общее

выражение такой зависимости записывается стохастическим уравнени­ ем, например, в разностной форме:

zk+t = <P(k +

1.

z„ z2,

.... Zk, uk, wk), zo = z(t0),

где Ф(к + 1, к; z u Z2,

Zk, uk, wk)

известная в общем случае вектор-

функция; ик — вектор решений-управлений; wk — вектор помех, сопут­ ствующих процессу получения наблюдений z € Z; к, к + 1 — моменты времени /*, tk+l9 к = 0, 1 ...

Это, в свою очередь, обусловливает возможность последовательного во времени выбора решений, что особенно важно при динамических рисковых условиях. Так, структура последовательного механизма выбо­ ра решения, основанная на принципе максимума апостериорной веро­ ятности, имеет следующий вид: принимается решение yv, если в момен­

ты tk и

выполняются неравенства

 

 

в W

ci„ < ш а х Д у .ki >z2,.... zk_i) = Д п к , >z2, ...,zk_x)< c2v;

 

IV

l£y£/f

J

 

 

 

в tk: maxP (y ,\zx, Zi >•••>

>£*)=

>^2>•••»

>£*) - c2v>

 

l£yS/»

j

 

 

 

 

где C|v, Cft определяются ЛПР из априорных соображений для каждого

v = Т|й, например, по методу [57, 58].

Пусть теперь уравнение для zk+t имеет вид

Zk+i = Фкп\кУк + “к+ $ к + « ж ,

92

из которого можно выписать такие два уравнения

У*+1 — Фк+\\кУк ■*■«* + б*, Zk*1

Л+1

+ я *+1

ИЛИ

 

 

Ук+1 — Ф*+1|* Ук "*■ик At> Z/H-I — Ук*1

я *+1>

(л*> fy ) wb

где управление ик есть результат выбора решения 8(к, ик_ь zk), уравне­ ние для у*+1 называется уравнением состояния, а уравнение для Zk*\ — уравнением наблюдения, (пк, б*) — независимые случайные возмущения-

помехи с известными законами распределения вероятностей. Критериальный функционал примем в виде условного среднего зна­

чения потерь Л(8**_,) на заданном отрезке времени [Л + 1,Л] при полу­ ченных данных z(k) (Zo, Z t , Z k) на отрезке времени [О Л]; очевидно,

объем этой выборки будет возрастать с увеличением времени. Отрезок + l,7V) в общем случае «скользит» по оси времени в направлении воз­

растания.

Потери зависят от решений-управлений

5* лг-1 = (8(Л + 1, ик, z*+I), 8(к +2, uk+l, zk+2), •••» b (N — 1, uN_2, **_,));

видно, что это вектор-функция, она отображает наблюденные дан­ ные в допустимые управления. Наилучшие из них будем отыскивать пу­ тем минимизации принятого критерия

Для этого введем функцию

ивоспользуемся, как в В.7 п. 3.2, принципом оптимальности Беллмана.

Врезультате получим функциональные уравнения для вычисления Функции Беллмана в каждый момент времени получения наблюдений z„ / = к + 1,N; при этом будут найдены также оптимальные искомые

решения-управления. Функциональные уравнения имеют вид

они определяют структуру механизма принятия решения в динамиче­ ской рисковой ситуации. _______

При отыскании решений в каждый момент / = к + l,N должны учи­

тываться уравнение состояния и аддитивная структура уравнения на-

93

блюдения. Тогда выписанные функциональные уравнения могут быть сведены к более простым [57]. Если при этом критерий формулируется как матрица дисперсий вектора состояния, то в результате его миними­ зации структура механизма выбора решения сведется к структуре фильтра Калмана-Бьюси (см. п. 4.3). Последний при воздействии гаус­ совых помех в каналах состояния и наблюдения записывается в виде (при условии г* = ук + пк)

Ук+\/к*1 ~ ®к+\/кУк/к

for Ук/к^^^к > У(®) Уо >

 

где Кк = Фк/к-\Рк/к-\[Ъ + Pk/k -\Y \

0,1,2,...,) — оптимальный

матри­

чный коэффициент усиления фильтра,

 

Рк*\/к ~ [Фк/к-i -Кк\Рк/к-\Ф1/к.\

+ Q — матрица дисперсий

ошибки

оценки вектора состояния ук, к = 0,1,2,..., Р(0) = Р0 — априори известная матрица,

Q и R — матрицы дисперсий, характеризующие шумы возмущений в канале состояния и канале измерения соответственно.

Оптимальное управление, вырабатываемое в результате минимиза­ ции принятого критерия при ограничениях в виде уравнений состояния и наблюдения, определяется по выражению и® = - N ky k/k. В качестве

иллюстрации рассмотрим стационарный случай управления одномер­ ным объектом, Фн-|/, которого примем не зависящим от времени. Возь­ мем скалярную функцию потерь в виде

ЦУ„ 8,(и,-|, г,)) = y l +]Г(у,2 - и2),

/=1

возмущения Ък и ошибки измерений пк — гауссовы с известными дис­ персиями о 2 и а 2 соответственно. При этом критерий записывается в

виде

N -1

R(bk, N - \ ) = М ( £ ( у 2 + и2)]+ М \у2 + £ ( у ] + u f ) / z kl

/=i i=k

В этом выражении первое слагаемое не зависит от управления, подле­ жащего определению в моменты времени г = к, к + 1,..., N - 1 и поэто­

му его минимизация не связана с результатами минимизации на предыдущих моментах, т.е. согласно изложенной выше структуре функ­ ционального уравнения здесь получаем для него выражение

V(Z А ,к) =

min М [у\ + и2к +V(zk, k + l / Z k_l)],

uk>uk + 1*->uN-l

где Z*_, = {Zi, Z2, —. 4-i} = {%к-2>zk- 1}- Теперь необходимо определить ус­

ловное распределение вероятностей для zk~\ относительно г*_2 или, что

94

то же, условное распределение для г*_, относительно Z*_2. Это возможно выполнить с учетом уравнения наблюдения

Zk-l ~Ук- 1 + пк-1>

из которого непосредственно следует, что условное распределение од­ нозначно определяется условным распределением для относительно Zk- 2 (уравнение наблюдения линейное) со средним значением

Уы = ЩУк-ilZk. 2], Ук.1/кА = ФУк-ук-г —1 1 ФУк-2 /к-г)

гк-1/к-1

Р

=

Ф 2Я

+о?

 

_ у][Ф гРк-ук-1 +<*,]

ф2рк-ик-1 +<*? +<уз > Гк-\/к-\

Ф2Рк-2,к-2+0? +<*2

и заданными начальным условием Л/о — дисперсией ошибки на момент времени к = N и начальном значении у 0/0. Функцию И(г*_„Л) следует записать в виде V(ykA ,к), а функциональное уравнение — в виде

 

min

M [y l+ u l+ V & M , k + f ) / y „ l

 

'к*I*••••'ИЛГ-1

 

решение которого отыскивается при условии V {y,N )~ M \y2N / у \

Искомое

решение, доставляющее minJ?(5*, к + 1) вычисляется

по формуле

ик , = -G k_{ у к_{,

в которой <7*_ = [1 + Sk]~lSk0 , Sk_i =

= (Ф +

+ Gt2_, + 1 и последнее из них есть разностное уравнение

для дисперсии оценки экстраполяции среднего значения у к_{.

Одновременно может решаться и задача обнаружения недопустимо­ го — опасного изменения в динамике управляемого процесса ук. Для этого следует вычислить статистику

*<*)-

- У 1 ,У (фщ -\Р1ц-\фФ-1 +Q y '^ k “ Я//)»

 

i-k-M+l

где М — память фильтра (апертура, ширина «окна» накопления М реа­ лизаций оценок вектора состояния), и сравнить ее с пороговым уров­ нем Х„. Значение определяется по таблице %2 — распределения с Mq степенями свободы (q — размерность вектора z, - у (//), характеризую­ щего статистику Х(к), при заданном допустимом уровне вероятности

ложного обнаружения опасного изменения параметра состояния про­ цесса (динамического объекта). Если Х(к) > Х„, то текущее состояние

процесса — опасное.

б. Изложенная выше на основе минимизации условного среднего значения потерь структура достаточно просто переводится в байесову последовательную, если положение на временной оси отрезка времени

+ 1, /V] не ограничено и оно может изменяться в направлении увели­

чения

времени, последовательно занимая положения + 2, N + 1],

[& + 3,

N + 2], .... Тогда возникает вопрос относительно целесообраз­

ности получения дополнительных наблюдений гЛr+i, ZN+i, .... так как по­

95

лучение каждого zN+[, ZN+I , — соответственно связано с дополнительны­ ми затратами к имевшим место затратам на [Л + 1, N], [к + 2, N + 1],....

Для установления такой целесообразности будем осуществлять в каж­ дый момент N, N + 1, N + 2 сравнение значений двух минимальных по

8(-) условных рисков — средних значений потерь: риска, вычисленного при условии получения выборки на отрезке + 1, N], и риска, вычис­

ленного как ожидаемое при условии получения выборки на отрезке [к + 1, N + 1] с учетом прогнозированного результата наблюдения ZN+I, например, по изложенному в п. 1.5 методу. Если риск на [Л+ 1, N\ меньше риска на [Л + 2, N + 1], то наблюдение прекращается и выпол­

няется окончательный выбор решения, в противном случае наблюдение за состоянием управляемого процесса продолжается и предыдущее ре­ шение корректируется. Далее это правило сравнения реализуется для рисков, вычисленных на [Л + 2, N + 1], [к + 3, N + 2] и т.д.

Доказано [2; 59], что для стационарных процессов так построенная байесовская последовательная решающая процедура заканчивается с ве­ роятностью, равной единице за конечное число сравнений рисков.

7. В случае получения выборки на непрерывных отрезках времени [4, tN], [4+|, /д,,.,],... вместо функциональных уравнений Веллмана выво­ дится уравнение Беллмана—Стратонавта. Действительно, выражение для R(8kN) будет иметь интегральный вид, а уравнение состояния и на­

блюдения — стохастических дифференциальных уравнений [73]. Так, уравнение состояния в стандартной форме для одномерного процесса записывается в виде

dx(t) =J[t, х, u)dt + F(t, x, u(t)dw(t),

уравнение наблюдения — в виде

dz{t) = g(t, x(t))dt + Ф(/, x(t))dw(f),

а критерий качества выбора управления — решения имеет вид

i

R(z,u) = R(b,T, и, r) = М J/о(Т, *(Т), и(т))Л+ф0 (7\*(7’))|г(0 = z,

где / 0(т, х(т), и(т)) характеризует потери в каждый момент т е [/, 7], вы­

званные отклонением выработанного состояния в виде управления и(т) от истинного — требуемого х(х); <р0(7’ х(Т)) выражает потери, связанные

с ошибкой выработки управления в конечный момент времени; 8, г оз­ начает решение — управление и(т) как функцию, вырабатываемую на интервале времени [/, Т\~[к, Л/]; x{t) и z(t) — марковские процессы.

Оптимальное управление вырабатывается путем минимизации функционала R(z„ и) — среднего риска, т.е.

и°(т) = argmin/?(£,,M),

U€U

где U — область допустимых управлений.

96

Отметим важное обстоятельство: в каждый момент времени t вычис­ ление управления осуществляется с использованием наблюдения z(t), а

также наблюдений г,„, и управлений и,„,, имевших место в предыдущие моменты времени, т.е. управление осуществляется в зависимости от по­ ведения нового процесса. В связи с этим информация о текущем со­ стоянии марковского диффузионного управляемого процесса может быть представлена апостериорным распределением p(t, x(t)\z,al,u lal), ко­

торое является решением уравнения Стратоновича [119] (обозначим апостериорное распределение через w(t, х). Поэтому и \х ) можно оты­ скивать в зависимости от г, и w(t, х ) или записать его как функцию от г, и параметров Х(0 —(Х,(/), М(0) — достаточных координат (математичес­

кого ожидания и второго начального момента), заменяющих апосте­ риорное распределение. Такие координаты вычисляются из соответст­ вующей системы дифференциальных уравнений [119; 104].

В результате оптимальное управление можно записать в виде u(t) = v(t, Х(0) и получить с учетом этой функции-управления уравне­

ние состояния в виде

dx =ДГ, x(t), v(/, Х(0), z(t))dt + F(t, x(t), v(t, MO), z(0)dco(0,

а вместо первоначального уравнения наблюдения будет получено урав­ нение относительно вектора достаточных координат

ОЦ0 = h(t, U0, v(t, U0,)z(0)dt + 9(/, 4 0 , v(t, M0)z(0) х

х lg{t, MO) ~ m t , M0)]]dt + ф(0 x(t))dw(0,

где M\g{t, JC(0)] — апостериорное среднее, w(0 — стандартный винеровский процесс.

Решение приведенных уравнений представляет марковский про­ цесс, который характеризуется переходной функцией-плотностью рас­ пределения вероятностей р,(т, х'(т), А,'(х), z!{x)\t, х(0, МО, z(0) и началь­ ным распределением w (t,x(0)- Пользуясь теперь этими функциями,

выражение для безусловного среднего риска можно записать в виде

г

/КХ(/)) = Л | | / 0(т ,х /(х ),у (/Л '(х )),г/(х))р(х,х,(х )Д '(х ),г,(т )|/,х (/)Д (0 ,г(0 )х

/

xw{t,x(0)dx(t)dx(x)dk '(x)dx+

+ \\\ip M T ,x(T ^)p (T ,x\T ),X X T ^,z\n t,x{0 M 0 ,z{0 )M t,x(0 )d x,dXdx.

Тогда искомое оптимальное решение-управление будет найдено как ре­ шение следующей экстремальной задачи:

и0 = v°(7, МО) = argmin/J(/,X(0,2(0)-

7 - 5 3 9 6

97

Известно [119; 120; 104], что для этого необходимо подучить решение уравнения Беллмана-Стратоновича для функции V(t, y(t)) & R(t, Х(0> z(t))

= m in jl^ А«Л( 0, «( 0) +

+

 

+j fo ('>x(t)

x(t))dx\ X (,)}

(*)

с граничным условием R(X(T), 7) = J<p0(x(7^,r)w(7’ x(7,))«t>c|X (2r), где

обозначения |A (/) и \X(T) указывают на необходимость записи результата интегрирования через компоненты векторов X(t), Х(7), характеристики А( ) и 0( ) марковского диффузионного процесса (Х(7), z(t)) вычисляют­

ся по стохастическим дифференциальным уравнениям состояния и на­ блюдения, а вектор X(t) вычисляется в результате интегрирования

векторного дифференциального уравнения [104]

Щ = А(г,Х(г),и(О)+0(/,Х(О,и(О)(г(О-(^,х(О)))+Ф(/,х(г))^,

где О — обозначение апостериорного среднего

<g(t, x(t))) = jg(t, x(t))w(t, x(t))dx(t).

Уравнение (*) можно проинтегрировать, например, с использованием метода преобразования Лапласа, предварительно установив выражение для и° путем минимизации правой части (*).

Очевидно, вычисленному оптимальному управлению и0 = v°(f, Х°(/)) соответствует минимальное значение среднего апостериорного риска R(t, Х°(0> Если это значение связано с выбором решения по пре­

дотвращению ущерба, например от нежелательных последствий функ­ ционирования технической системы или от последствий управления производственным процессом, то становится целесообразным при фор­ мировании ЛПР окончательного решения проверить R(t, X°(t), z(t)) с до­ пустимым по безопасности пороговым значением R3. В результате пра­

вило выбора окончательного решения записывается следующим образом: принимается решение и0 = v°(/, Х°(/)) в текущий момент време­ ни t, если R(t, Х°(/)> z(0) £ R* в противном случае ЛПР не может риско­

вать и должно привлечь дополнительную информацию о состоянии управляемой системы или управляемого процесса с целью выработки более осторожного оптимального решения по недопущению реализации возможной опасности.

8. Рассмотрим структуру байесовского механизма выбора решения в условиях близких состояний ПиПС. Пусть Y= {ух,у 2), где y t,y 2 — ска­ лярные параметры и разность между ними у { — у2 = Д мала. Тогда,

очевидно, и разность между значениями функций правдоподобия

98

.ЛФг) —/fabi) при каждой выборке z Z также будет мала, а значит, чув­

ствительность выведенных выше структур механизмов выбора решений уменьшится и возрастут ошибки при выборе решения. Для устранения таких недостатков преобразуем, например, правило (1) п. 1.

¥(Уа)(Дй. У|(г)) - И у 2, Угк))Ж$Уг) *

>v(yi)(I(y,, y2(z)) - Ду„ Yi(z)))/(z|yi)

для 8(у2|г) = 1, 8(у,|г) = 0 к виду

f(z|у2) ^ у(у,)(Цу, ,Уг (z)) ~ Ду, ,У| (г)» f(Avx) ~ y(y2)(i(y2,y, (г))- Д у 22(г)))

а затем левую часть этого неравенства запишем в виде

М У 1 ) - М У х ) { .

Э1п/(г| у,) А+1+о(Д);

Д 4 у {)

ЭУ.

при этом считаем, что вторая производная исследуемой функции прав­ доподобия по у, ограничена по z.

В результате получаем следующую структуру механизма: выбирается

решение 6(у2|г) = 1, если

^ тс,, в противном случае выби-

 

Эу.

рается решение 8(yik) = 1. Доказано [112; 83; 84], что такая структура обладает лучшими характеристиками качества по сравнению с характе­ ристиками исходной структуры, когда у, — у2 = Д, и является локально наиболее мощной по отношению к близким альтернативам у, > у2, y e Y. Она принимается за основу и последовательного механизма вы­

бора решения в условиях близких состояний ПиПС.

9. Пусть объем выборки фиксирован, ПиПС может находиться в од­ ном из двух альтернативных состояний у,, у2 е Y, для которых известны

априорные вероятности

V(yi), ¥(Уг). ¥(У.) + У(Уг) = 1-

Функция потерь — простая (п.1.3). Тогда функционал качества выбора решения преобразуется к виду полной вероятности ошибки, т.е.

в

я

Щ ) = v(y, )j/(^ y , )6(72|г)^ + \|/(у2) |/ ( г |у 2)5(у| \z)dz.

Минимизируем R(8) на множестве допустимых решений 8(у(|г), 8(Угк)

при условии, что

7* 99

8(Yik) = • J. 8(y2k) = I®, 6(Yik) + 5(у2|г) = 1,

получим следующую структуру байесовского механизма выбора реше­ ния:

если

> п, то делается выбор решения в пользу у,.

М У у)

Такую структуру называют [60] структурой идеального наблюдателя или

наблюдателя Зигерта Котельникова, пороговый уровень л для нее вы­

числяется по заданным

Ш ) , v(y2); п = -т ^ т - VO'z)

4.3. Вывод соотношений фильтра Калмана—Бьюси

Искомые соотношения получим как решение задачи оценки состоя­ ния системы с дискретным временем, описываемой уравнениями со­ стояния

y(k + 1) = Ф(к + 1, к)у(к) + G (k+ 1, кЩ к)

и наблюдения

z(k) = Н(к)у(к) + п(к),

где у(к) — параметр состояния (фазовая переменная) в текущий t = к и прогнозируемый t = к + 1 моменты времени к — 0 ,1 ,2 ,..., п;

z(k) — результат наблюдения (измерения) выходной переменной в момент t = к, измерения проводятся последовательно во времени; Ь{к), п{к) — последовательности независимых гауссовых помеховых воздей­

ствий в канале состояния и измерений с нулевыми математическими ожиданиями и ковариациями, соответственно Q(k) и R{k).

Начальное состояние у(0) пусть не зависит от д(к) и п(к) и характе­

ризуется нормальным распределением с математическим ожиданием т и дисперсией Q0. Будем рассматривать задачу получения такой оцен­

ки

у(к+1/к+1)

по выборке наблюдений

{z(k + 1), z(k), z(k — 1), ...

 

г(1), z(0)}, при которой достигается минимум среднеквадратической

ошибки ее вычисления, т.е.

 

 

 

min М \у(к+ 1) -у(& +1/Л +1)]2,

где

у(к + 1 ) —

истинное значение фазовой

переменной в момент

/ =

к + 1,

 

 

юо

Соседние файлы в папке книги