Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Математические методы принятия решений

..pdf
Скачиваний:
2
Добавлен:
13.11.2023
Размер:
22.94 Mб
Скачать

или неравенство

Р ( х \ Н \ )

lp\i

р (х I Но)

i i ( l - n ) ’

в противном случае выбирается гипотеза Н\.

§ 6.2. Статистические задачи решения с наблюдениями

Перед тем как выбрать решение из множества D, наблюдается значение случайной величины или случайного вектора х, которые связаны с параметром со. Наблюдение случайной величины х по­ могает принять рациональное решение. Предполагается, что для всех со 6 ft задано условное распределение значений случайной ве­ личины х при известном со. Подобные задачи называются стати­ стическими задачами принятия решения. Основными элементами статистической задачи принятия решения являются параметриче­ ское пространство О, пространство решений D, функция потерь L(со, d) и семейство условных обобщенных вероятностных плотно­ стей (о. в. п.) /(• | со), со е П, значений случайной величины х, на­ блюдаемой до принятия решения. Пусть S — выборочное простран­ ство возможных значений наблюдения х. Для принятия решения требуется знать решающую функцию 8, заданную для любого воз­ можного значения х е S решения d(x) е D. Класс всех решающих функций 8 обозначим А.

Для любой о. в. п. £(со) параметра со и любой решающей функ­ ции 8 6 А функция риска р(£, 8) определяется соотношением

p(Ç,8) = M{L(co,8(x))} =

=JJL(со, 8(х))/(х | co)S(co) d\i(x) dv(co). (6.1) u s

Предполагается, что при всех со е П функция Д(со, 8(-)) измерима и интегрируема на множестве S. Через d|i(x) и dv(x) обозначены меры, указывающие на то, что каждый из интегралов может быть как обычным интегралом от о. в. п., так и суммой значений дис­ кретной функции вероятностей. Функция риска определяет здесь средний ущерб (потери).

и*

Для каждого решения d e D функция риска р(£, 8) при о. в. п. Д о) определяется формулой

р(Д d) = JД о, сЩ о) dv(o),

п

для каждого значения о е fi функция риска р(о>,8), соответствую­ щая решающей функции 8 е Д, — формулой

р(о, 8) = JД о , 8(®))/(®| о ) ф (ж ).

(6.2)

s

Из соотношений (6.1) и (6.2) имеем

р(Д 8) = Jр(о, 8)Ç(o)dv(o).

п

Пусть 8* е Д — такая решающая функция, что

p(Ç,8*)= inf p(Ç,8) = p*(Ç);

ÔGA

тогда 8* называется байесовской решающей функцией при заданной о. в. п. Д о), а р*(2[) называется байесовским риском..

При заданной о. в. п. Д о) параметра о надо найти решающую функцию 8, минимизирующую функцию риска р(Д 8) (см. (6.1)). Если функция Д о , d) неотрицательна или ограничена, то в равен­ стве (6.1) можно изменить порядок интегрирования:

р(Д 8) = J J Д ы , b(x))f(x | о )Д о ) dv(o) d\i(x).

s n

Поэтому решающую функцию 8, минимизирующую риск, при каж­ дом значении х е S можно определить из условия минимизации внутреннего интеграла, т. е. байесовская решающая функция имеет вид Ь*(х) = d*, где d* — решение из D, минимизирующее интеграл

JД о , d )f(x | о )Д о ) dv(o).

(6.3)

п

 

Вместо того чтобы искать минимизирующее решение d* для ин­ теграла (6.3), можно найти то же самое значение d* из условия

где / 1Д )

минимума интеграла

f(x | 0))£((0)

dv(o>),

/l(z)

n

= J / Д | co)Ç(co) dv(o>).

n

Поскольку дробь, заключенная в квадратные скобки, являет­ ся о. в. п. случайной величины со, то значение интеграла равно условному математическому ожиданию М{До>, d) | х}. Маргиналь­ ное распределение случайной величины со называется априорным распределением, оно задает распределение случайной величины со до проведения наблюдений над х. Условное распределение слу­ чайной величины со при известном значении х называется апо­ стериорным распределением, оно задает распределение со после наблюдения х.

Пример 1. Пространство П содержит только точки 0 и 1. Про­ странство решений D состоит из чисел d, d е [0,1]. Функция потерь определена для со е П и d e D формулой Дсо, d) = |со —d\. Заданы значения вероятностей Р(со) параметра со:

Р(0) = { , Р ( 1 ) = { . Тогда для любого решения d e D

р(Р, d) = ДО, d)Р(0) 4- Д 1, d)P(l) = J d + { (1 - d) = у d + j .

Отсюда получаем

inf р(Р, d) = р(Р, 0) =

т. е. р*(Р) = 1/4 —единственное байесовское решение.

Если предположить, что пространство решений — полуоткры­ тый интервал (0,1], то байесовский риск будет по-прежнему ра­ вен 1/4, но ни одно решение из D не будет байесовским.

Если решение принимается без предварительных наблюдений, то оптимальным является байесовское решение при априорном рас­ пределении случайной величины со. Если же было предварительное наблюдение, то априорное распределение случайной величины со заменяется на апостериорное. Отсюда видно, что решение d*(xо),

задаваемое байесовской решающей функцией 8*(х) для наблюдае­ мого значения хо, можно найти без вычисления 8*(х), и 8*(х) при о. в. п. £(со) можно определить без расчета байесовского риска р*(£).

Рассмотрим влияние цены наблюдения на принимаемое ре­ шение. Пусть с(а,х) —цена наблюдения значения х при задан­ ном о). Тогда если £(со) — о. в. п. случайной величины (параметра) со, то средняя цена наблюдения

М{с(б>, х)}

с(о), х )/(х | <о)£((о) dyt(x) dv(o)

 

■ Я

 

n s

может быть такой, что выигрыш от проведенного наблюдения не окупит стоимости измерения.

Общим риском, зависящим от наблюдения х и принятой реша­ ющей функции 8, называется сумма риска р(£, 8) и средней цены наблюдения M{c(w, х)}. Выбирается наблюдение х и соответст­ вующая байесовская решающая функция 8, минимизирующая общий риск.

Пример 2. Пусть £2 = {б>ьG>2}, D = { d \,d 2 } и функция по­ терь задается значениями, приведенными в табл. 6.3. Случайная

 

Таблица 6.3

величина х принимает значения 0 и 1 со следу­

Функция потерь

ющими условными вероятностями:

 

п

 

D

Р (х = 1 |о > ,) =

| ,

Р(х = 0|<о,) =

| ,

dx

di

 

CÜ1

0

5

Р(х = О I (02) =

у ,

Р (х = 1 |о>2) =

J .

0)2

10

0

 

 

 

 

Априорное распределение параметра <о следующее:

 

 

 

P(wi) = p, Р(<о2) = 1 - р ,

0 < р ^ 1 ;

 

здесь априорная вероятность р задана. Построить байесовскую ре­ шающую функцию.

Р е ш е н и е . Пусть £(х) — апостериорная вероятность события о)i ; если х — наблюдаемое значение, то

Ç(x) = P(o>i | х).

Пусть х = 1; тогда

 

 

Ш ) = 3

1

~Р)

j P

+ j ( 1

Для х = 0 имеем

 

 

Ш =

 

 

J P

+ у О

- Р )

После наблюдения х = х\ = \ риск от принятия решения d\ ра­ вен 0 -р + 10(1 —5(ж)), а от принятия решения da равен 55(ж). Ре­ шение с?2 будет байесовским, если 10(1 —5(ж)) > 55(ж) и 5(ж) < 2 /3 ; решение d\ будет байесовским, если 5(ж) > 2/3. При 5(ж) = 2/3 и d\, и da байесовское решение.

Если наблюдается значение х = 1, то для байесовской реша­

ющей функции

8* имеем:

S*(l) = d2 при

5(1) < 2 /3 или р < 8/17

и 8*(l) = di при

Ç(l) > 2/3

или р > 8/17;

при р = 8/17 оба реше­

ния d\ и da являются байесовскими. Если наблюдается значение х = 0, то 8*(0) = di при ^(0) < 2/3 или р < 16/19 и 8*(0) = d\ при р> 16/19; при р = 16/19 оба решения d\ и da являются байесов­ скими.

Вычислим значения байесовского риска р*(р) для произволь­ ной априорной вероятности р. Если 0 ^ р ^ 8/17, то решение da будет байесовским независимо от наблюдаемых значений х; для

таких р байесовский риск будет р*(р) = 5р. При 8/17 < р <

16/19

имеем 8*(0) = da, 8*(1) = d\. Поэтому

 

 

 

 

р*(р) = рр(<оь 8*) + (1 -р)р(о>2, 8*) = р (0 • |

+ 5 • 1 )

+

 

ч Л «

1 л

2 \

5

10,,

. 10

25

+ (1 - р ) ( ю т + 0 - т ) = _ р + —(1 _ р) = _ _ _ р .

Если 16/19 ^ р ^ 1, то решение d\

будет байесовским для лю­

бого значения х; р*(р) =

10(1 —р).

 

 

 

 

Таким образом, мы

провели

экстенсивный вид

анализа —по­

строение байесовской решающей функции (рис. 6.2). В данном при­ мере не учитывалась цена наблюдения. Если в рассмотренном при­ мере потребуется принять решение до проведения измерения х,

наблюдения х.
Рip)

 

то минимальный риск ро(р) (по апри­

 

орной

информации)

будет вычисляться

 

по формуле

 

 

 

 

 

5р

при

0 ^ р ^ 2/3,

 

 

10(1 — р)

при

2 / 3 < р ^ 1 .

 

Функция{ро(р) представлена на рис. 6.3,

 

где обозначена сплошными и пунктирны­

 

ми линиями, образующими треугольник;

Рис. 6.2. Байесовская ре­ на нее

наложена байесовская

функция

шающая функция

р*(р),

построенная

на рис.

6.2. Если

 

р ^ 8/17 или р ^ 16/19, то тот же риск может быть достигнут без Если же 8/17 < р < 16/19, то р*(р) < ро(р)- За воз­ можность наблюдения х может быть уплачена цена с < ро(р) — р*(р). Эта раз­ ность максимальна при р = 2/3 и равна

25/18.

 

 

 

 

Если

в задаче х — случайный

век­

 

 

 

 

тор, т. е.

набор нескольких случайных

 

 

 

 

величин, то эти величины могут наблю­

 

 

 

 

даться одновременно или в несколько

 

 

 

 

этапов; тогда апостериорное распределе­

I

2

16

1 р

ние можно вычислять на каждом этапе,

17

3

19

 

взяв в качестве априорного распределе­

Рис. 63.

Зависимость

ния апостериорное распределение,

полу­

минимального риска от р

ченное

на

предыдущем этапе. В

итоге

получим то же апостериорное распреде­ ление, что и при одновременном учете всех случайных величин.

Например, пусть f(x , у | со) — совместная (многомерная) услов­ ная о. в. п. случайных величин х н у при сое fl. Апостериорная о. в. п. £(со | х, у) параметра со при наблюдениях х, у имеет вид

f { x ,

у I со)р(со)

Ç(to | X, у) =

(6.4)

J f ( x , y \

со)р(со) dv(co)

Пусть наблюдаем случайную величину х, затем у; функция д(х | со) означает условную о. в. п. х при заданном со. После наблюдения .т

апостериорная о. в. п. £(со | х) для со имеет вид

 

№ > !* )=

,

.

(6.5)

 

I д(х | со)р(со) dv(co)

 

 

п

 

 

Условная о. в. п. h(y | со, х ) для

случайной величины у при

задан­

ных со и х определяется по формуле

 

Н у | со, х) = f( x , у | со)

(6.6)

 

 

я(х|со)

 

Апостериорная о. в. п. £(со | х, у) параметра со при заданном у

запи­

шется в виде

 

 

 

£(со | х, у) =

 

Н у | со, х)£(ы | х)

(6.7)

Jh(y | со, х)£(со | х) dv(co)

п

Подставляя выражения (6.5) и (6.6) в равенство (6.7), получим со­ отношение (6.4).

§ 6.3. Статистическая классификация при фиксированном объеме выборки

Пусть результаты измерений х*, г = 1 ,2 ,..., N , случайные ве­ личины. Считаем, что для каждого класса образов coj, j = 1,2,.. .,m , известны многомерная (/V-мерная) функция условной плотности вероятности р(х | coj) (или условного распределения) вектора при­ знаков х и вероятность Р(оу,) появления образа <о^, j = 1 ,2 ,..., т. Классификация образов проводится путем минимизации вероятно­ сти ошибочного распознавания с помощью определения решающей функции 8(х), где равенство 8(х) = bj означает, что принимается гипотеза Hj : х ~ су,. Пусть принятие решения dj, когда в дей­ ствительности реальный образ принадлежит ы*, приводит к потере L((ùi, dj). Величина условных потерь (условный риск) для х ~ щ

составит

J L(<x>i, d)p(x | <0j) dx,

p(o>i, d) =

x a

где Xçi — множество значений х, по которым определяется образ to. Для данного множества априорных вероятностей Р = {P(<Oj)} сред­ ние потери (средний риск) определяется по формуле

Р(Р, d) = Y i p(wj)p("j> d),

3=1

где p(tOj, d) —условный риск, когда решение d приводит к гипотезе

X ~

(ù j, или

J P ( x ) p x ( P , d ) d x ,

 

 

Р(Р, d ) =

(6.8)

где

pæ(P, d) — апостериорный

условный средний риск решения d

при данных замерах признаков х :

 

 

т

d)P(tOj)p(x I (ùj)

 

 

2

 

 

Pæ(P, d) — j=i

 

 

 

P(x)

 

Необходимо найти такое решение dj, j = 1 ,2 ,..., m, которое мини­ мизирует средний риск р(Р, d) или минимизирует максимум услов­ ного риска p(ojj, d) (критерий минимакса).

Оптимальное решающее правило минимизации среднего риска называется байесовским правилом. Из соотношения (6.8) следует, что достаточно рассмотреть каждый вектор х в отдельности и ми­ нимизировать функцию pI(P, d). Если d* — оптимальное решение в смысле минимума среднего риска, то

т. е.

Рх(Р»d

) ^ рх(Р>^0»

 

 

 

 

 

771

 

771

 

 

2

d*)P(ùij)p(x I (ùj) ^

 

d)P((ùj)p(x | (ùj).

j =1

 

j=i

 

 

Для функции потерь вида

 

 

 

 

L((ÙJ , dî) 1

0

при

i = j,

 

Sjî —

 

i Фj

 

 

1

при

средний риск является также вероятностью ложного распознавания и байесовское решающее правило приводит к гипотезе х ~ to* при

d \= d * , если

 

P(a>i)p(x | iùi) JÏ Р(б>j)p(x I (ùj)

(6.9)

для всех j = 1 ,2 ,..., т.

Определим отношение правдоподобия между классами следую­

щим образом:

А = P(s 1Uj) Р(х\и>зУ

Тогда неравенство (6.9) примет вид d* = du если А ^

Р (^ )

' ■" для всех

j = 1,2,

Р М

Если информация об априорных вероятностях Р((ол) отсутству­ ет, то классификация строится на основе минимаксного критерия по отношению к наименее благоприятному априорному распреде­ лению. Из условия (6.9) получаем разделяющую функцию

Di(X) = P(oii)p(x | toj), i = 1, 2, . . . , т,

или эквивалентную ей функцию

Di(X) = ln(P(<ùi)p(x |o>i)), i = 1, 2, . . . , т.

Решающая граница между областями в О, разделяющая образы (о* и (x>j, определяется условием

P((Oj)p(x 16н) - P((ùj)p(x |(ùj) = О,

или

Pf/.\ •Vnf'r I /л \

 

ln

P (<ù j)p (x I (ùj)

(6.10)

 

 

P ((ù j)p ix \ (ù j)

Пример 1. Рассмотрим статическую задачу принятия решения в случае, когда пространства П и D состоят из двух точек.

Пусть Q = {toi, (02}, D = {d],d2 }, функция потерь L(co,d) зада­ на в табл. 6.4, а(8) — условная вероятность для любой решающей

функции 8 принятия решения d2 при истинно­

 

Таблица 6.4

сти coi, Р(8) —условная вероятность

принятия

Функция потерь

решения d\ при истинности сог, l\,h >

0.

 

 

D

Другими словами, а(5) и (3(8) — вероятности

п

di

di

того, что 8 предписывает неправильные реше­

 

(01

0

и

ния в случаях (О) и (02 соответственно. Пусть

С02

h

0

априорное распределение параметра (о задано:

 

 

 

Р(<д>1 ) = р, где

0 < р < 1. С

учетом

функции

потерь L(<û,d) риск

р(р, 8) решающей функции 5 запишется в виде

 

 

P(p,b) = hP*(b) + h ( \ - p ) №

-

В каждой

конкретной

задаче

необходимо минимизировать

эту комбинацию. Согласно лемме Неймана—Пирсона решающая функция, доставляющая минимум линейной комбинации lipa(b) +

+ /г(1 — р)Р(8),

определяется

отношением

/ 2(2; 10J2V/1 | соi).

Тогда 5*(ж) = d\,

если a f\(x | a>i) > &/г(х | <02),

и b*(x) = d,2, если

o /i(x I Qi) < 6/ 2(ж 16)2). Здесь а — l\p, b = hp-

 

Если р(х | <0j) — плотность многомерного гауссова распределе­

ния со средним

вектором М*

и ковариационной матрицей К и

i = 1,2,

 

 

 

е х р { - у ( х - М ^ К ~ \ х - M i)}

Р(Х |(ùi) =

то уравнение решающей границы согласно соотношению (6.10) имеет вид

1 п Р ^ _ ^

п |к,

 

 

Р (^ )

\Щ\

 

 

1

 

 

J)] = 0,

- j [ ( x - M ifK - 'ix - М д - - Mj jrK - \ x - M

 

i , j = 1, 2, ...,m .

 

 

При Ki = Kj = К имеем

 

 

xTK ~ l(Mi -

M j) - U M i + M jfK - 'iM i -

M j) + In

= 0.

 

2.

глб)j )

 

Получили уравнение гиперплоскости. При P(<0i) = P(<0j) имеем

xTK~\Mi - Mj) - y ( M i + M jfK ~\M i - Mj) = 0.

Вдействительности должны получить «полосу», так как х, М

иК определяются в процессе наблюдений с погрешностями.

Соседние файлы в папке книги