книги / Математические методы в системах поддержки принятия решений
..pdfрассматриваемая структура механизма записывается в следующем виде: принимается решение yv если выполняются для всехj # v неравенства
Х Д у , лДг))¥(У/)ХЛгЫ е у,)$(у!)<
/=1 |
/=1 |
|
|
п |
т/ |
_____ |
|
^ X Ц ?! Л ) |
у <6 У> № у ' )>j = |
1>«> J * V. |
(2) |
(»1 |
ы |
|
|
3.Когда функция потерь — простая, т.е.
L(y„ Viz)) = 0, Цу„ yfz)) = 1, i *j, i = 1,и, j = 1,я,
то структуры механизмов преобразуются соответственно к виду
Л Ф уЖУу) ^Л Ф ;)¥0’у)
И
^Д4у'уе УуШу'уШУу)^'jtfitiy'j е Уу^О'уН'О'у) |
(3) |
|
/-1 |
/=1 |
|
для всех j * V. Эти соотношения, по существу, отражают реализацию
принципа максимума апостериорной вероятности, который также при водит к байесовским механизмам выбора оптимального решения 5°.
4. Функция потерь может быть построена в зависимости от прини маемого решения и возможного состояния ПиПС, например, такого вида:
Иу„yj(z))= -lg P(yfoj<z)),
где Р(у/\уj(z))= |
, j= 1,и, — апостериорная вероят- |
/=i
ность.
Очевидно, что при этом структуры байесовых механизмов не изме няются.
5.Заметим, что при полученных к текущему моменту времени tk
данных z= (Zi, z2,Zk) e Zkможно прогнозировать результаты пред
стоящего в <*+ момент наблюдения г*+,. Действительно, после наблюде ния Z\£ Z имеем значение апостериорной вероятности
¥(Уу)/(г,Ьу)
Дг .) ’
91
после второго наблюдения, т.е. после z = (zbz2) е Z 2 имеем
y (y yk , ) / f e k | , y y)
Л у ук,,г2) =
P(z2\zt )
и далее, после наблюдения Zt, т.е. после получения z = (Zi, Z2, .... г*) е Z k:
VO^ki,г 2,...,zk_{ ) f (z k\zx,.~,zki,yy)
P (yj k 1,z2,...,z*) =
Д г*к,,г2
Отсюда непосредственно выводится выражение для вычисления вероят ности получения г*+| в tk+l при условии полученных наблюдений (Zi, г2, —Л ) и принимаемого решения ^ в tk относительно состояния yj,т.е.
P(zM \zx,z2,...,zk) =X'l'O'yk, ,г2>-,г*)/к*+1к, ,z2,.~,zk, y ,), |
(4) |
где множители под знаком суммы вычисляются по формуле апостери орной вероятности и заданной функции правдоподобия соответственно.
Возможны и другие зависимости между полученными данными
Z ~ k i, Z2, ..., Zk) е Z k и ожидаемым наблюдением z*+i е Z. Более общее
выражение такой зависимости записывается стохастическим уравнени ем, например, в разностной форме:
zk+t = <P(k + |
1. |
z„ z2, |
.... Zk, uk, wk), zo = z(t0), |
где Ф(к + 1, к; z u Z2, |
Zk, uk, wk) |
— известная в общем случае вектор- |
функция; ик — вектор решений-управлений; wk — вектор помех, сопут ствующих процессу получения наблюдений z € Z; к, к + 1 — моменты времени /*, tk+l9 к = 0, 1 ...
Это, в свою очередь, обусловливает возможность последовательного во времени выбора решений, что особенно важно при динамических рисковых условиях. Так, структура последовательного механизма выбо ра решения, основанная на принципе максимума апостериорной веро ятности, имеет следующий вид: принимается решение yv, если в момен
ты tk и |
выполняются неравенства |
|
|
|||
в W |
ci„ < ш а х Д у .ki >z2,.... zk_i) = Д п к , >z2, ...,zk_x)< c2v; |
|||||
|
IV |
l£y£/f |
J |
|
|
|
в tk: maxP (y ,\zx, Zi >•••> |
>£*)= |
>^2>•••» |
>£*) - c2v> |
|||
|
l£yS/» |
j |
|
|
|
|
где C|v, Cft определяются ЛПР из априорных соображений для каждого
v = Т|й, например, по методу [57, 58].
Пусть теперь уравнение для zk+t имеет вид
Zk+i = Фкп\кУк + “к+ $ к + « ж ,
92
из которого можно выписать такие два уравнения
У*+1 — Фк+\\кУк ■*■«* + б*, Zk*1 |
Л+1 |
+ я *+1 |
ИЛИ |
|
|
Ук+1 — Ф*+1|* Ук "*■ик At> Z/H-I — Ук*1 |
я *+1> |
(л*> fy ) wb |
где управление ик есть результат выбора решения 8(к, ик_ь zk), уравне ние для у*+1 называется уравнением состояния, а уравнение для Zk*\ — уравнением наблюдения, (пк, б*) — независимые случайные возмущения-
помехи с известными законами распределения вероятностей. Критериальный функционал примем в виде условного среднего зна
чения потерь Л(8**_,) на заданном отрезке времени [Л + 1,Л] при полу ченных данных z(k) — (Zo, Z t , Z k) на отрезке времени [О Л]; очевидно,
объем этой выборки будет возрастать с увеличением времени. Отрезок [к + l,7V) в общем случае «скользит» по оси времени в направлении воз
растания.
Потери зависят от решений-управлений
5* лг-1 = (8(Л + 1, ик, z*+I), 8(к +2, uk+l, zk+2), •••» b (N — 1, uN_2, **_,));
видно, что это вектор-функция, она отображает наблюденные дан ные в допустимые управления. Наилучшие из них будем отыскивать пу тем минимизации принятого критерия
Для этого введем функцию
ивоспользуемся, как в В.7 п. 3.2, принципом оптимальности Беллмана.
Врезультате получим функциональные уравнения для вычисления Функции Беллмана в каждый момент времени получения наблюдений z„ / = к + 1,N; при этом будут найдены также оптимальные искомые
решения-управления. Функциональные уравнения имеют вид
они определяют структуру механизма принятия решения в динамиче ской рисковой ситуации. _______
При отыскании решений в каждый момент / = к + l,N должны учи
тываться уравнение состояния и аддитивная структура уравнения на-
93
блюдения. Тогда выписанные функциональные уравнения могут быть сведены к более простым [57]. Если при этом критерий формулируется как матрица дисперсий вектора состояния, то в результате его миними зации структура механизма выбора решения сведется к структуре фильтра Калмана-Бьюси (см. п. 4.3). Последний при воздействии гаус совых помех в каналах состояния и наблюдения записывается в виде (при условии г* = ук + пк)
Ук+\/к*1 ~ ®к+\/кУк/к |
^к for —Ук/к^^^к > У(®) —Уо > |
|
где Кк = Фк/к-\Рк/к-\[Ъ + Pk/k -\Y \ |
(к —0,1,2,...,) — оптимальный |
матри |
чный коэффициент усиления фильтра, |
|
|
Рк*\/к ~ [Фк/к-i -Кк\Рк/к-\Ф1/к.\ |
+ Q — матрица дисперсий |
ошибки |
оценки вектора состояния ук, к = 0,1,2,..., Р(0) = Р0 — априори известная матрица,
Q и R — матрицы дисперсий, характеризующие шумы возмущений в канале состояния и канале измерения соответственно.
Оптимальное управление, вырабатываемое в результате минимиза ции принятого критерия при ограничениях в виде уравнений состояния и наблюдения, определяется по выражению и® = - N ky k/k. В качестве
иллюстрации рассмотрим стационарный случай управления одномер ным объектом, Фн-|/, которого примем не зависящим от времени. Возь мем скалярную функцию потерь в виде
ЦУ„ 8,(и,-|, г,)) = y l +]Г(у,2 - и2),
/=1
возмущения Ък и ошибки измерений пк — гауссовы с известными дис персиями о 2 и а 2 соответственно. При этом критерий записывается в
виде
N -1
R(bk, N - \ ) = М ( £ ( у 2 + и2)]+ М \у2 + £ ( у ] + u f ) / z kl
/=i i=k
В этом выражении первое слагаемое не зависит от управления, подле жащего определению в моменты времени г = к, к + 1,..., N - 1 и поэто
му его минимизация не связана с результатами минимизации на предыдущих моментах, т.е. согласно изложенной выше структуре функ ционального уравнения здесь получаем для него выражение
V(Z А ,к) = |
min М [у\ + и2к +V(zk, k + l / Z k_l)], |
uk>uk + 1*->uN-l
где Z*_, = {Zi, Z2, —. 4-i} = {%к-2>zk- 1}- Теперь необходимо определить ус
ловное распределение вероятностей для zk~\ относительно г*_2 или, что
94
то же, условное распределение для г*_, относительно Z*_2. Это возможно выполнить с учетом уравнения наблюдения
Zk-l ~Ук- 1 + пк-1>
из которого непосредственно следует, что условное распределение од нозначно определяется условным распределением для относительно Zk- 2 (уравнение наблюдения линейное) со средним значением
Уы = ЩУк-ilZk. 2], Ук.1/кА = ФУк-ук-г -Г —1 1 “ ФУк-2 /к-г)
гк-1/к-1 |
Р |
= |
|
Ф 2Я |
+о? |
|
_ у][Ф гРк-ук-1 +<*,] |
ф2рк-ик-1 +<*? +<уз > Гк-\/к-\ |
Ф2Рк-2,к-2+0? +<*2 |
и заданными начальным условием Л/о — дисперсией ошибки на момент времени к = N и начальном значении у 0/0. Функцию И(г*_„Л) следует записать в виде V(ykA ,к), а функциональное уравнение — в виде
|
min |
M [y l+ u l+ V & M , k + f ) / y „ l |
|
'к*I*••••'ИЛГ-1 |
|
решение которого отыскивается при условии V {y,N )~ M \y2N / у \ |
||
Искомое |
решение, доставляющее minJ?(5*, к + 1) вычисляется |
|
по формуле |
ик , = -G k_{ у к_{, |
в которой <7*_ = [1 + Sk]~lSk0 , Sk_i = |
= (Ф + |
+ Gt2_, + 1 и последнее из них есть разностное уравнение |
для дисперсии оценки экстраполяции среднего значения у к_{.
Одновременно может решаться и задача обнаружения недопустимо го — опасного изменения в динамике управляемого процесса ук. Для этого следует вычислить статистику
*<*)- |
- У 1 ,У (фщ -\Р1ц-\фФ-1 +Q y '^ k “ Я//)» |
|
i-k-M+l |
где М — память фильтра (апертура, ширина «окна» накопления М реа лизаций оценок вектора состояния), и сравнить ее с пороговым уров нем Х„. Значение определяется по таблице %2 — распределения с Mq степенями свободы (q — размерность вектора z, - у (//), характеризую щего статистику Х(к), при заданном допустимом уровне вероятности
ложного обнаружения опасного изменения параметра состояния про цесса (динамического объекта). Если Х(к) > Х„, то текущее состояние
процесса — опасное.
б. Изложенная выше на основе минимизации условного среднего значения потерь структура достаточно просто переводится в байесову последовательную, если положение на временной оси отрезка времени
[к + 1, /V] не ограничено и оно может изменяться в направлении увели
чения |
времени, последовательно занимая положения [к + 2, N + 1], |
[& + 3, |
N + 2], .... Тогда возникает вопрос относительно целесообраз |
ности получения дополнительных наблюдений гЛr+i, ZN+i, .... так как по
95
лучение каждого zN+[, ZN+I , — соответственно связано с дополнительны ми затратами к имевшим место затратам на [Л + 1, N], [к + 2, N + 1],....
Для установления такой целесообразности будем осуществлять в каж дый момент N, N + 1, N + 2 сравнение значений двух минимальных по
8(-) условных рисков — средних значений потерь: риска, вычисленного при условии получения выборки на отрезке [к + 1, N], и риска, вычис
ленного как ожидаемое при условии получения выборки на отрезке [к + 1, N + 1] с учетом прогнозированного результата наблюдения ZN+I, например, по изложенному в п. 1.5 методу. Если риск на [Л+ 1, N\ меньше риска на [Л + 2, N + 1], то наблюдение прекращается и выпол
няется окончательный выбор решения, в противном случае наблюдение за состоянием управляемого процесса продолжается и предыдущее ре шение корректируется. Далее это правило сравнения реализуется для рисков, вычисленных на [Л + 2, N + 1], [к + 3, N + 2] и т.д.
Доказано [2; 59], что для стационарных процессов так построенная байесовская последовательная решающая процедура заканчивается с ве роятностью, равной единице за конечное число сравнений рисков.
7. В случае получения выборки на непрерывных отрезках времени [4, tN], [4+|, /д,,.,],... вместо функциональных уравнений Веллмана выво дится уравнение Беллмана—Стратонавта. Действительно, выражение для R(8kN) будет иметь интегральный вид, а уравнение состояния и на
блюдения — стохастических дифференциальных уравнений [73]. Так, уравнение состояния в стандартной форме для одномерного процесса записывается в виде
dx(t) =J[t, х, u)dt + F(t, x, u(t)dw(t),
уравнение наблюдения — в виде
dz{t) = g(t, x(t))dt + Ф(/, x(t))dw(f),
а критерий качества выбора управления — решения имеет вид
i
R(z,u) = R(b,T, и, r) = М J/о(Т, *(Т), и(т))Л+ф0 (7\*(7’))|г(0 = z,
где / 0(т, х(т), и(т)) характеризует потери в каждый момент т е [/, 7], вы
званные отклонением выработанного состояния в виде управления и(т) от истинного — требуемого х(х); <р0(7’ х(Т)) выражает потери, связанные
с ошибкой выработки управления в конечный момент времени; 8, г оз начает решение — управление и(т) как функцию, вырабатываемую на интервале времени [/, Т\~[к, Л/]; x{t) и z(t) — марковские процессы.
Оптимальное управление вырабатывается путем минимизации функционала R(z„ и) — среднего риска, т.е.
и°(т) = argmin/?(£,,M),
U€U
где U — область допустимых управлений.
96
Отметим важное обстоятельство: в каждый момент времени t вычис ление управления осуществляется с использованием наблюдения z(t), а
также наблюдений г,„, и управлений и,„,, имевших место в предыдущие моменты времени, т.е. управление осуществляется в зависимости от по ведения нового процесса. В связи с этим информация о текущем со стоянии марковского диффузионного управляемого процесса может быть представлена апостериорным распределением p(t, x(t)\z,al,u lal), ко
торое является решением уравнения Стратоновича [119] (обозначим апостериорное распределение через w(t, х). Поэтому и \х ) можно оты скивать в зависимости от г, и w(t, х ) или записать его как функцию от г, и параметров Х(0 —(Х,(/), М(0) — достаточных координат (математичес
кого ожидания и второго начального момента), заменяющих апосте риорное распределение. Такие координаты вычисляются из соответст вующей системы дифференциальных уравнений [119; 104].
В результате оптимальное управление можно записать в виде u(t) = v(t, Х(0) и получить с учетом этой функции-управления уравне
ние состояния в виде
dx =ДГ, x(t), v(/, Х(0), z(t))dt + F(t, x(t), v(t, MO), z(0)dco(0,
а вместо первоначального уравнения наблюдения будет получено урав нение относительно вектора достаточных координат
ОЦ0 = h(t, U0, v(t, U0,)z(0)dt + 9(/, 4 0 , v(t, M0)z(0) х
х lg{t, MO) ~ m t , M0)]]dt + ф(0 x(t))dw(0,
где M\g{t, JC(0)] — апостериорное среднее, w(0 — стандартный винеровский процесс.
Решение приведенных уравнений представляет марковский про цесс, который характеризуется переходной функцией-плотностью рас пределения вероятностей р,(т, х'(т), А,'(х), z!{x)\t, х(0, МО, z(0) и началь ным распределением w (t,x(0)- Пользуясь теперь этими функциями,
выражение для безусловного среднего риска можно записать в виде
г
/КХ(/)) = Л | | / 0(т ,х /(х ),у (/Л '(х )),г/(х))р(х,х,(х )Д '(х ),г,(т )|/,х (/)Д (0 ,г(0 )х
/
xw{t,x(0)dx(t)dx(x)dk '(x)dx+
+ \\\ip M T ,x(T ^)p (T ,x\T ),X X T ^,z\n t,x{0 M 0 ,z{0 )M t,x(0 )d x,dXdx.
Тогда искомое оптимальное решение-управление будет найдено как ре шение следующей экстремальной задачи:
и0 = v°(7, МО) = argmin/J(/,X(0,2(0)-
7 - 5 3 9 6 |
97 |
Известно [119; 120; 104], что для этого необходимо подучить решение уравнения Беллмана-Стратоновича для функции V(t, y(t)) & R(t, Х(0> z(t))
= m in jl^ А«Л( 0, «( 0) + |
+ |
|
|
+j fo ('>x(t) |
x(t))dx\ X (,)} |
(*) |
с граничным условием R(X(T), 7) = J<p0(x(7^,r)w(7’ x(7,))«t>c|X (2r), где
обозначения |A (/) и \X(T) указывают на необходимость записи результата интегрирования через компоненты векторов X(t), Х(7), характеристики А( ) и 0( ) марковского диффузионного процесса (Х(7), z(t)) вычисляют
ся по стохастическим дифференциальным уравнениям состояния и на блюдения, а вектор X(t) вычисляется в результате интегрирования
векторного дифференциального уравнения [104]
Щ = А(г,Х(г),и(О)+0(/,Х(О,и(О)(г(О-(^,х(О)))+Ф(/,х(г))^,
где О — обозначение апостериорного среднего
<g(t, x(t))) = jg(t, x(t))w(t, x(t))dx(t).
Уравнение (*) можно проинтегрировать, например, с использованием метода преобразования Лапласа, предварительно установив выражение для и° путем минимизации правой части (*).
Очевидно, вычисленному оптимальному управлению и0 = v°(f, Х°(/)) соответствует минимальное значение среднего апостериорного риска R(t, Х°(0> Если это значение связано с выбором решения по пре
дотвращению ущерба, например от нежелательных последствий функ ционирования технической системы или от последствий управления производственным процессом, то становится целесообразным при фор мировании ЛПР окончательного решения проверить R(t, X°(t), z(t)) с до пустимым по безопасности пороговым значением R3. В результате пра
вило выбора окончательного решения записывается следующим образом: принимается решение и0 = v°(/, Х°(/)) в текущий момент време ни t, если R(t, Х°(/)> z(0) £ R* в противном случае ЛПР не может риско
вать и должно привлечь дополнительную информацию о состоянии управляемой системы или управляемого процесса с целью выработки более осторожного оптимального решения по недопущению реализации возможной опасности.
8. Рассмотрим структуру байесовского механизма выбора решения в условиях близких состояний ПиПС. Пусть Y= {ух,у 2), где y t,y 2 — ска лярные параметры и разность между ними у { — у2 = Д мала. Тогда,
очевидно, и разность между значениями функций правдоподобия
98
.ЛФг) —/fabi) при каждой выборке z € Z также будет мала, а значит, чув
ствительность выведенных выше структур механизмов выбора решений уменьшится и возрастут ошибки при выборе решения. Для устранения таких недостатков преобразуем, например, правило (1) п. 1.
¥(Уа)(Дй. У|(г)) - И у 2, Угк))Ж$Уг) *
>v(yi)(I(y,, y2(z)) - Ду„ Yi(z)))/(z|yi)
для 8(у2|г) = 1, 8(у,|г) = 0 к виду
f(z|у2) ^ у(у,)(Цу, ,Уг (z)) ~ Ду, ,У| (г)» f(Avx) ~ y(y2)(i(y2,y, (г))- Д у 2,у2(г)))
а затем левую часть этого неравенства запишем в виде
М У 1 ) - М У х ) { . |
Э1п/(г| у,) А+1+о(Д); |
Д 4 у {) |
ЭУ. |
при этом считаем, что вторая производная исследуемой функции прав доподобия по у, ограничена по z.
В результате получаем следующую структуру механизма: выбирается
решение 6(у2|г) = 1, если |
^ тс,, в противном случае выби- |
|
Эу. |
рается решение 8(yik) = 1. Доказано [112; 83; 84], что такая структура обладает лучшими характеристиками качества по сравнению с характе ристиками исходной структуры, когда у, — у2 = Д, и является локально наиболее мощной по отношению к близким альтернативам у, > у2, y e Y. Она принимается за основу и последовательного механизма вы
бора решения в условиях близких состояний ПиПС.
9. Пусть объем выборки фиксирован, ПиПС может находиться в од ном из двух альтернативных состояний у,, у2 е Y, для которых известны
априорные вероятности
V(yi), ¥(Уг). ¥(У.) + У(Уг) = 1-
Функция потерь — простая (п.1.3). Тогда функционал качества выбора решения преобразуется к виду полной вероятности ошибки, т.е.
в |
я |
Щ ) = v(y, )j/(^ y , )6(72|г)^ + \|/(у2) |/ ( г |у 2)5(у| \z)dz.
Минимизируем R(8) на множестве допустимых решений 8(у(|г), 8(Угк)
при условии, что
7* 99
8(Yik) = • J. 8(y2k) = I®, 6(Yik) + 5(у2|г) = 1,
получим следующую структуру байесовского механизма выбора реше ния:
если |
> п, то делается выбор решения в пользу у,. |
М У у)
Такую структуру называют [60] структурой идеального наблюдателя или
наблюдателя Зигерта — Котельникова, пороговый уровень л для нее вы
числяется по заданным
Ш ) , v(y2); п = -т ^ т - VO'z)
4.3. Вывод соотношений фильтра Калмана—Бьюси
Искомые соотношения получим как решение задачи оценки состоя ния системы с дискретным временем, описываемой уравнениями со стояния
y(k + 1) = Ф(к + 1, к)у(к) + G (k+ 1, кЩ к)
и наблюдения
z(k) = Н(к)у(к) + п(к),
где у(к) — параметр состояния (фазовая переменная) в текущий t = к и прогнозируемый t = к + 1 моменты времени к — 0 ,1 ,2 ,..., п;
z(k) — результат наблюдения (измерения) выходной переменной в момент t = к, измерения проводятся последовательно во времени; Ь{к), п{к) — последовательности независимых гауссовых помеховых воздей
ствий в канале состояния и измерений с нулевыми математическими ожиданиями и ковариациями, соответственно Q(k) и R{k).
Начальное состояние у(0) пусть не зависит от д(к) и п(к) и характе
ризуется нормальным распределением с математическим ожиданием т и дисперсией Q0. Будем рассматривать задачу получения такой оцен
ки |
у(к+1/к+1) |
по выборке наблюдений |
{z(k + 1), z(k), z(k — 1), ... |
|
г(1), z(0)}, при которой достигается минимум среднеквадратической |
||
ошибки ее вычисления, т.е. |
|
||
|
|
min М \у(к+ 1) -у(& +1/Л +1)]2, |
|
где |
у(к + 1 ) — |
истинное значение фазовой |
переменной в момент |
/ = |
к + 1, |
|
|
юо