Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Математические методы принятия решений

..pdf
Скачиваний:
2
Добавлен:
13.11.2023
Размер:
22.94 Mб
Скачать

распределениям, зависящим от неизвестного параметра со. Получают последовательную выборку. После каждого наблюдения Х{ можно оценить информацию об о, полученную на основе наблюде­ ний х\, Х2, . ■, Xi. Каждое наблюдение имеет некоторую стоимость. Предположим, что можно проводить наблюдения последовательно, делая после каждого наблюдения вывод о том, следует ли при­ нять решение d e D или провести очередное наблюдение. После­ довательный выбор может дать, например, выигрыш при проверке большой партии изделий путем извлечения т изделий, из которых допускается к бракованных изделий. Последовательный отбор пре­ кращается, если будет отобрано к бракованных изделий или т — к годных изделий. Как правило, это происходит до отбора всех т из­ делий. В первом случае вся партия будет забракована, во втором — принята.

Рассмотрим задачу последовательного принятия решения при параметрическом пространстве П = {б>ь <02} и пространстве реше-

m » D = № , * > ■

 

 

 

Табт щ б!

Функция потерь задана в табл. 6.5, где Xi > 0, функция „ 0Терь

г = 1 ,2 . Мы можем

наблюдать последователь­

 

 

D

ную выборку х\, Х2, ...; каждое

наблюдение

п

 

стоит с уел. ед. Пусть fi(x | (Oj) — условная о. в. п.

à>2

di

 

наблюдения х при

Поскольку

параметр <о

0)1

0

Xl

может принимать всего два значения, то его рас­

0)2

^2

0

пределение на каждом шаге процесса выбора

 

 

 

задается одним числом P(<oi) = р, 0

^ 1.

 

 

 

Риск принятия решения до наблюдения находим по формуле

ро(р) = min{Xip; Х2(1 - р )} .

Обозначим через Д класс всех процедур последовательного реше­ ния 5, требующих хотя бы одного наблюдения, и пусть

р'(р) = inf р(р, 8). обД

Таким образом, байесовский риск р*(р) удовлетворяет соотношению

P*(р) = min{po(p); р'(р)}.

Ранее указывалось, что р'(р) — вогнутая непрерывная функция,

заданная на отрезке [0,1]. Поскольку в формулу риска входит це­ на с, то р'(0) = с и р'(р) > с при всех значениях р е [0,1] (рис. 6.4).

Р(Р)

^1^2

Рис. 6.4. Связь минимального риска р(р) и цены наблюдения

Пусть Е* — множество тех значений р, для которых процесс за­ канчивается, т.е. Е* = {р: р(р) ^ р'(р)}. Предположим, что

Х| )

Х|Хг

Х,+Х2’

(X, + Х2 /

тогда Е* является объединением отрезков [0, р'] и [р", 1], причем р' и р" удовлетворяют уравнениям

Х,р' = р(р'), Х2(1 - р") = рip").

Если это условие не выполнено, то Е* совпадает со всем отрезком [О, 1]. В этом случае проводить наблюдения не имеет смысла. Мно­ жество Е* задает байесовскую процедуру последовательного реше­ ния. Трудность состоит в получении информации о функции р'(р), достаточной для того, чтобы явным образом определить р' и р"

Предположим, что априорная вероятность р удовлетворяет усло­

вию р' < р < р " В

этом случае

целесообразно провести первое

наблюдение. Пусть

х2,

— априорная вероятность того,

что (о = (Oi при проведенных х\, i = 1,2,..., п, наблюдениях; тогда дальнейшие наблюдения необходимо проводить, если выполнено соотношение р' < \{ х \, х2, ..., х п) < р" Если нарушается первое

неравенство, то принимается решение d2, если второе - принима­ ется решение d\.

Апостериорную вероятность можно записать следующим об­ разом:

\(Х \, ... Xfi)

 

 

-1

J ,

l - P / 2 ( g l ) . . . / 2fanV

 

 

P

■■■f\(xn)

Введем постоянные A n

В:

 

 

A

PV - P")

д _ р (1 -р 0

 

(1 - р )р "’

(1 -р )р Г

Поскольку р' < р < р ",

то А <

1, В >

1. Дальнейшие наблюдения

следует проводить, если

 

 

Л ^ М*\) — МХп) < В .

При нарушении неравенств принимаются соответственно реше­

ния d\ ИЛИ С?2-

Процедура последовательного принятия решения такого вида называется последовательным критерием отношения вероятно­ стей.

Вычислим вероятность принятия решений d\ п d2 п найдем среднюю стоимость выбора для последовательной процедуры. В большинстве задач точные формулы получить не удается, но суще­ ствуют простые приближенные формулы. Для последовательности наблюдений х п, приводящих к решению d\, выполняется со­ отношение

П71

П / г ( ж » ) ^ А ] ^ [ / 1(хО или P(d] | ь>2) ^ AP(d\ | o>i). г=1 г=1

Для последовательности наблюдений, приводящих к решению d2, получим

71

п

ИЛИ P(d2 16)2) ^ BP(d2 10>i).

П

/гО®*) ^ в П

г=1

г=1

 

Однако P(d\ | (02) + P(d2 |to i)= 1,т. е. точка (P(d2 | соi), P(di | «г)) ле­ жит в области Ф (рис. 6.5). Можно считать приведенные соотноше­ ния приближенными равенствами, т. е.

P ( d l | < 0 , ) = l - P ( d 2 | u , ) * | ^ ,

р(di 1« 2) = 1 -

Р № I о>2) « ^

Ц г •

Эти приближенные значения являются

координатами точки

M(P(d2 I oil), P(di I о>г)) (см. рис. 6.5).

 

 

P(rf,|(02)

Введем случайную величину

 

îliXi)

 

 

= In

i = 1,2, .. . , n ,

 

 

M xiY

 

и

положим

In A = a < 0, In B = b > 0;

тогда согласно последовательному крите­

рию отношения вероятностей необходи­ мо продолжать наблюдения при выпол-

нении условия а <

71

z* < b.

Рис. 6.5. Вероятности при­

 

i=1

нятия решений d\ и d2

При фиксированном значении to*, г =

=

1,2, случайные величины х \, х 2, ..., х п

независимы и одинаково распределены. Следовательно, этими же свойствами обладают и случайные величины z\, z2, ..., zn. Для любых заданных значений а к b все моменты распределения случайного числа наблюдений N конечны и процесс выбора за­ канчивается с вероятностью 1, т. е. P(N < 00) = 1, М(N k) < 00 для k= 1,2,...

Если z \, z2, ..., zn — последовательность независимых одинако­ во распределенных случайных величин, для которых M(zj) = т, i = 1 , 2 , . . . , N , то для всякой последовательной процедуры с мо­ ментом М(N ) < оо имеет место равенство

М= mM(JV).

Вобщем случае границы о и Ь можно найти, минимизируя функцию риска р(р, 8). Как правило, это сделать сложно. При малой цене с оптимальная процедура обычно предписывает проведение

большого числа наблюдений, величины границ о и 6 являются боль­ шими числами. Тогда получают следующие приближения:

P(d2 | ( o i ) « e -b,

P(di I (02) % е~а,

 

 

M(N I 0>i) :

а

M(N I ы2):

Ь

 

 

 

 

 

M(z|<o2) ’

 

a % In c —In

/ I X2(1 - P )

1

h h p

,

 

In —

I- In ,

- p

 

 

c

1

 

где I\ = —M(z I wi), I2 = M(z I <02); /1 и h называют информацион­ ными числами.

§ 6.7. Байесовские методы обучения Перед тем как система может быть использована для принятия

решений (для классификации классов или объектов) по результатам наблюдений, она должна быть «обучена»: должны быть получены (оценены) все ее характеристики вплоть до разделяющих функций. Причем в обучающей выборке результаты наблюдений или зара­ нее отождествлены с конкретными классами —обучение с учителем поощрением), или не относятся к конкретным классам — обучение без учителя (без поощрения).

Обучение с поощрением

Проводится серия наблюдений, причем известен класс, к ко­ торому относится каждое наблюдение. Известен также общий вид функции плотности. Параметры известной функции плотности р(х | (ùi), могут быть оценены путем итерационного применения теоремы Байеса (далее параметр ы* в записи функции плотности не используем).

Пусть существует априорная функция плотности ро(в) с неиз­ вестным параметром 6, отражающая первоначальную информацию о параметре 0. Когда наблюдается последовательность независи­ мых и одинаково распределенных векторов признаков х\, Х2, • • ■, х п, относящихся к одному классу образов, функция стремится к апо­ стериорной плотности р (0 1х \, . . . , хп). После первого наблюдения априорная функция плотности для следующего наблюдения будет

иметь вид

р{х\ 19)ро(6)

p ( 0 |z i ) =

Р(х\)

После наблюдения х 2 получим

p(x2|x b 6)p(0|xi)

р(01 х\, х 2) =

р(х2|х|)

В общем случае имеем

р ( 0 | х ь . . . , х п) =

р(Хп | Хп—1, ..., Х\, 0)р(0 | Х\, ... , Хц—Х)

(6.18)

 

p(xn |xi, ...,Xn_l)

 

Искомая функция плотности может быть вычислена по формуле

р(хп+1| х ь . . . , х п, (ùi) =

^ р(хп-\-11х 1). • • >Хц, 6)j, 0)р(01 х 1, ..., Xfi, o)j) dSj Ti 1,2,...,

где член p(xn+i \ х \ , ... ,х п, со*, 0) известен, а р(0 | х \, ... , х п) получа­ ется из соотношения (6.18). Известно, что в среднем апостериорная функция плотности улучшает оценку параметра, которая сходится к истинному значению, если только оно не исключено из априорной функции плотности.

Пример. Имеем п обучающих наблюдений х \ , ... х п, проведен­ ных на двух классах образов оц и а>2, которые имеют одномерные гауссовы распределения с неизвестными параметрами. Оптималь­ ная решающая граница, минимизирующая вероятность ошибочного распознавания, является функцией априорных вероятностей, сред­ них значений наблюдений и дисперсий.

Совместное распределение в этом случае имеет вид

2

 

 

 

 

 

Р(Я) = Y i

P(“ i)P(z I <Oi) =

 

 

 

i=1

_ J_

1

(x — mi)2

(x — m2)2

 

 

2

y/2no

(exp I

2 ^

})■

 

2a2

Тогда оптимальная решающая граница определяется условием

Обучение без поощрения

Поскольку невозможно точно отнести каждое наблюдение к пра­ вильному классу образов, то задача определения решающей гра­ ницы формируется как задача оценки параметров общего рас­ пределения. Обучающие наблюдения считают принадлежащими этому совместному распределению, его составляющие могут быть распределениями каждого класса образов или распределениями, со­ ответствующими различным разбиениям пространства наблюдений (признаков). Пусть множество случайных наблюдений х\, х2, ..., х п может быть разбито на т ячеек z™,..., z^.

Совместное распределение определяется следующим образом:

771

 

Р ( х ) = ^ Р(х I zi ) P(zi)> Я = ( X i, Х2, . . . , Хп ),

(6 .19 )

2=1

 

где р(х | г") — условная плотность вероятности для г-ro разбиения, P(zf) — параметр г-го разбиения.

Условная плотность совместного распределения р(х | 0) может быть построена на основе семейства условных плотностей распре­ деления р(х 10j, х"), г= 1,2,..., ni, с двумя множествами парамет­ ров 0 = {01,02,..., 0т } и Р = {P(zf), P(z£),..., P(z£ )}.

Основное уравнение (6.19) примет вид

771

р(х 10) = ^ р(х 10j, zf)P(zf). i= l

Известно, что класс плотностей совместных распределений, для ко­ торых существует единственное решение для 0 и P(z”), ограничен. Метод оценки параметров 0 и P(z”) зависит от конкретных условий задачи.

Рассмотрим два метода оценки параметров совместных распре­

делений.

 

Пусть «1

и (о2 —два класса образов. Вид функции плотности

р(х | со*), г =

1,2, известен, неизвестным параметром является 0.

По наблюдениям х \ , ... ,х п необходимо найти оценку 0. Если после­ довательность X], х2, ..., х п разбить на всевозможные комбинации по классам coi и со2, то получим 2п комбинаций. Пусть г” — г-е раз­ биение последовательности x i , x 2, . . . , х п. Тогда апостериорная

плотность вероятности будет

 

 

р ф \х и - - - ,х п) = '£ 1р ф \х и -

- ,х п, Z ? )P(z? I X

I , Х „ ) .

1=1

 

 

Задача свелась к обучению с

поощрением для

каждого из

2П разбиений. Оценка параметров производится по взвешенной сумме результатов для каждого разбиения с весами, равными

P ( * " | x i, . . . , x „ ) , i = 1,2, . . . , 2 n .

Объем вычислений при этом растет экспоненциально.

Рассмотрим применение другого метода. По теореме Байеса имеем

р ( 0 |х ь ... ,х п) = Р(.Хц |0, Х\, . •., Хп—\)р(0 |X] , . . . , Xfi—l)

(6.20)

р(х n |Xl , . . . , Xn_ i)

 

Пусть обучающие наблюдения условно независимы,

т. е.

р(хп+110, XI........хп) = р(х„+110). Тогда

 

p(xn|0,Xi,...,a:n_i)=P((Oi)p(xn|0,(Oi)+P(a)2)p(æn|0,<O2).

(6.21)

Подставляя равенство (6.21) в формулу (6.20), получим рекуррент­ ное соотношение для оценки 0:

р(0 | х ь . . . , х п) =

P(G)l)p(xn |6,0>i)

Р((02)р(Дп I 6. 6>2)

= p ( 0 | x i , . . . , x n_ i )

p^Xfi I X\, .. •, Xfi—1)

р(х-п |^ 1»•••»Хп—l)

Если p(0|xi, ...,x„ _ i), p(xn |0,(Oi), p(xn |0,co2), P(toi), P(co2) из­ вестны, то можно получить p(Q | x i , . . . , x n). Пусть P(o>i) и P(co2) известны. Тогда для нахождения р(хп 10, toi) и р(в | х \ , ..., х п) при всех значениях 0 следует предположить, что к величине 0 можно применить конечное квантование, чтобы объем вычислений был ко­ нечным.

Для т классов и ряда неизвестных параметров 0,, относящих­ ся соответственно к Qj, полагая условную независимость обучаю­ щих наблюдений и значений параметров 0*, получим рекуррентное

соотношение для оценки 0*:

p (0 j I Х\, . . . ,

х п) =

 

т

 

 

•P(OiMxn |0i,Cdi)+ Е P(Wj)p(xn |Uj,Xl......X„_l)

р(9г | Х\

>• •

1 )

3= 1

ш

 

 

 

Е P(Wj)p(xn |Oj,Xb ...,Xn_l)

 

 

i =

1,2,

В общем случае начальные оценки либо Ро(9г), либо Po(ojj), г = 1,2,...» т , должны быть различны, иначе для всех 0; будет оце­ ниваться одно и то же значение (так как вычисляется одна величи­ на) и система в целом ничему не будет обучена.

§ 6.8. Обучение с помощью стохастической аппроксимации

Поставим перед собой следующую задачу: найти оценки па­ раметров функций плотностей распределения вероятностей. Здесь так же возможны два случая: в первом наблюдения отождествле­ ны с конкретными классами (обучение с поощрением), во втором рассматриваются совместные распределения.

Обучение с поощрением

Имеем наблюдения х \,Х 2,- .- ,х п, щ число наблюдений, со­

ответствующих о г = 1,2,..., т, п =

771

Щ- Необходимо оценить

2

 

г=1

 

 

 

неизвестную вероятность P(tOi), если 2

Р(<«>*)= 1. Имеем (задаем)

 

 

771

 

начальную оценку вероятности

Po(wj),

2

Ро(^г) = 1» и полагаем,

 

 

i=i

что Р(о>г) = Ро(сОг). Последовательные оценки имеют вид

“I" Yfc+1

^

 

» k 0,1,2, ...

Оценим неизвестную функцию плотности р(х) по наблюдени­ ям х \, Х2, ..., х п, предварительно разложив ее в ряд:

m

Г

[0

при

i ï j ,

J

(pi(x)cpj(x)dx= <

при

i = j,

( l

Cijfc+l = Citk "b Yк[фг(®к)

,fcL i = 1> 2,..., ТП, к = O, 1,2,...

 

oo

oo

1 > Yfc > о,

2 Yfc = °°>

2 Yfe < °°-

 

fc=i

fc=i

В частном случае можно найти оценки неизвестных параметров функции плотности по наблюдениям х\, Х2, ■■■, х п.

Обучение без поощрения

Рассматривается задача оценки параметров в совместном рас­ пределении с помощью стохастической аппроксимации.

Предполагается, что:

1) существуют т классов распределений вероятностей, соответ­ ствующих т классам образов, априорные вероятности P(<Di) кото-

 

ТП

рых фиксированы, но неизвестны, XI Р(ь><) = U

 

1=1

2) функции распределения вероятностей (или плотности) каж­

дого класса

характеризуются некоторым множеством парамет­

ров вц

 

3) обучающие наблюдения взяты из совместного распределе­ ния, построенного из составляющих распределений:

771

р(х I е, о ) = 2 р(х I(Di, 9i)P(6>i); t=i

здесь параметры 0 и P((Dj) неизвестны;

4) существуют несмещенные оценки некоторых статистик Н = {Н(х)}, например моментов; известно для каждого шага про­

цесса

обучения функциональное отношение F{H, 0, р\ ) = 0 меж­

ду Я

и множествами параметров 0 и pi;

5) имеются дополнительные соотношения G(0,pi) = O, обеспе­ чивающие получение единственного решения для неизвестных па­ раметров 0 и p i.

Из равенств F (H ,B ,p\) = 0 и G (0,pi) = O получают оценки 0 и pi ; F(-) может быть найдено из последовательных оценок {Н (х)},

Соседние файлы в папке книги