книги / Математические методы принятия решений
..pdfили неравенство
Р ( х \ Н \ ) |
lp\i |
р (х I Но) |
i i ( l - n ) ’ |
в противном случае выбирается гипотеза Н\.
§ 6.2. Статистические задачи решения с наблюдениями
Перед тем как выбрать решение из множества D, наблюдается значение случайной величины или случайного вектора х, которые связаны с параметром со. Наблюдение случайной величины х по могает принять рациональное решение. Предполагается, что для всех со 6 ft задано условное распределение значений случайной ве личины х при известном со. Подобные задачи называются стати стическими задачами принятия решения. Основными элементами статистической задачи принятия решения являются параметриче ское пространство О, пространство решений D, функция потерь L(со, d) и семейство условных обобщенных вероятностных плотно стей (о. в. п.) /(• | со), со е П, значений случайной величины х, на блюдаемой до принятия решения. Пусть S — выборочное простран ство возможных значений наблюдения х. Для принятия решения требуется знать решающую функцию 8, заданную для любого воз можного значения х е S решения d(x) е D. Класс всех решающих функций 8 обозначим А.
Для любой о. в. п. £(со) параметра со и любой решающей функ ции 8 6 А функция риска р(£, 8) определяется соотношением
p(Ç,8) = M{L(co,8(x))} =
=JJL(со, 8(х))/(х | co)S(co) d\i(x) dv(co). (6.1) u s
Предполагается, что при всех со е П функция Д(со, 8(-)) измерима и интегрируема на множестве S. Через d|i(x) и dv(x) обозначены меры, указывающие на то, что каждый из интегралов может быть как обычным интегралом от о. в. п., так и суммой значений дис кретной функции вероятностей. Функция риска определяет здесь средний ущерб (потери).
и*
Для каждого решения d e D функция риска р(£, 8) при о. в. п. Д о) определяется формулой
р(Д d) = JД о, сЩ о) dv(o),
п
для каждого значения о е fi функция риска р(о>,8), соответствую щая решающей функции 8 е Д, — формулой
р(о, 8) = JД о , 8(®))/(®| о ) ф (ж ). |
(6.2) |
s
Из соотношений (6.1) и (6.2) имеем
р(Д 8) = Jр(о, 8)Ç(o)dv(o).
п
Пусть 8* е Д — такая решающая функция, что
p(Ç,8*)= inf p(Ç,8) = p*(Ç);
ÔGA
тогда 8* называется байесовской решающей функцией при заданной о. в. п. Д о), а р*(2[) называется байесовским риском..
При заданной о. в. п. Д о) параметра о надо найти решающую функцию 8, минимизирующую функцию риска р(Д 8) (см. (6.1)). Если функция Д о , d) неотрицательна или ограничена, то в равен стве (6.1) можно изменить порядок интегрирования:
р(Д 8) = J J Д ы , b(x))f(x | о )Д о ) dv(o) d\i(x).
s n
Поэтому решающую функцию 8, минимизирующую риск, при каж дом значении х е S можно определить из условия минимизации внутреннего интеграла, т. е. байесовская решающая функция имеет вид Ь*(х) = d*, где d* — решение из D, минимизирующее интеграл
JД о , d )f(x | о )Д о ) dv(o). |
(6.3) |
п |
|
Вместо того чтобы искать минимизирующее решение d* для ин теграла (6.3), можно найти то же самое значение d* из условия
минимума интеграла
f(x | 0))£((0)
dv(o>),
/l(z)
n
= J / Д | co)Ç(co) dv(o>).
n
Поскольку дробь, заключенная в квадратные скобки, являет ся о. в. п. случайной величины со, то значение интеграла равно условному математическому ожиданию М{До>, d) | х}. Маргиналь ное распределение случайной величины со называется априорным распределением, оно задает распределение случайной величины со до проведения наблюдений над х. Условное распределение слу чайной величины со при известном значении х называется апо стериорным распределением, оно задает распределение со после наблюдения х.
Пример 1. Пространство П содержит только точки 0 и 1. Про странство решений D состоит из чисел d, d е [0,1]. Функция потерь определена для со е П и d e D формулой Дсо, d) = |со —d\. Заданы значения вероятностей Р(со) параметра со:
Р(0) = { , Р ( 1 ) = { . Тогда для любого решения d e D
р(Р, d) = ДО, d)Р(0) 4- Д 1, d)P(l) = J d + { (1 - d) = у d + j .
Отсюда получаем
inf р(Р, d) = р(Р, 0) =
т. е. р*(Р) = 1/4 —единственное байесовское решение.
Если предположить, что пространство решений — полуоткры тый интервал (0,1], то байесовский риск будет по-прежнему ра вен 1/4, но ни одно решение из D не будет байесовским.
Если решение принимается без предварительных наблюдений, то оптимальным является байесовское решение при априорном рас пределении случайной величины со. Если же было предварительное наблюдение, то априорное распределение случайной величины со заменяется на апостериорное. Отсюда видно, что решение d*(xо),
задаваемое байесовской решающей функцией 8*(х) для наблюдае мого значения хо, можно найти без вычисления 8*(х), и 8*(х) при о. в. п. £(со) можно определить без расчета байесовского риска р*(£).
Рассмотрим влияние цены наблюдения на принимаемое ре шение. Пусть с(а,х) —цена наблюдения значения х при задан ном о). Тогда если £(со) — о. в. п. случайной величины (параметра) со, то средняя цена наблюдения
М{с(б>, х)} |
с(о), х )/(х | <о)£((о) dyt(x) dv(o) |
|
■ Я |
|
n s |
может быть такой, что выигрыш от проведенного наблюдения не окупит стоимости измерения.
Общим риском, зависящим от наблюдения х и принятой реша ющей функции 8, называется сумма риска р(£, 8) и средней цены наблюдения M{c(w, х)}. Выбирается наблюдение х и соответст вующая байесовская решающая функция 8, минимизирующая общий риск.
Пример 2. Пусть £2 = {б>ьG>2}, D = { d \,d 2 } и функция по терь задается значениями, приведенными в табл. 6.3. Случайная
|
Таблица 6.3 |
величина х принимает значения 0 и 1 со следу |
|||||
Функция потерь |
ющими условными вероятностями: |
|
|||||
п |
|
D |
Р (х = 1 |о > ,) = |
| , |
Р(х = 0|<о,) = |
| , |
|
dx |
di |
||||||
|
|||||||
CÜ1 |
0 |
5 |
Р(х = О I (02) = |
у , |
Р (х = 1 |о>2) = |
J . |
|
0)2 |
10 |
0 |
|||||
|
|
|
|
||||
Априорное распределение параметра <о следующее: |
|
||||||
|
|
P(wi) = p, Р(<о2) = 1 - р , |
0 < р ^ 1 ; |
|
здесь априорная вероятность р задана. Построить байесовскую ре шающую функцию.
Р е ш е н и е . Пусть £(х) — апостериорная вероятность события о)i ; если х — наблюдаемое значение, то
Ç(x) = P(o>i | х).
Пусть х = 1; тогда |
|
|
Ш ) = 3 |
1 |
~Р) |
j P |
+ j ( 1 |
|
Для х = 0 имеем |
|
|
Ш = |
|
|
J P |
+ у О |
- Р ) |
После наблюдения х = х\ = \ риск от принятия решения d\ ра вен 0 -р + 10(1 —5(ж)), а от принятия решения da равен 55(ж). Ре шение с?2 будет байесовским, если 10(1 —5(ж)) > 55(ж) и 5(ж) < 2 /3 ; решение d\ будет байесовским, если 5(ж) > 2/3. При 5(ж) = 2/3 и d\, и da —байесовское решение.
Если наблюдается значение х = 1, то для байесовской реша
ющей функции |
8* имеем: |
S*(l) = d2 при |
5(1) < 2 /3 или р < 8/17 |
и 8*(l) = di при |
Ç(l) > 2/3 |
или р > 8/17; |
при р = 8/17 оба реше |
ния d\ и da являются байесовскими. Если наблюдается значение х = 0, то 8*(0) = di при ^(0) < 2/3 или р < 16/19 и 8*(0) = d\ при р> 16/19; при р = 16/19 оба решения d\ и da являются байесов скими.
Вычислим значения байесовского риска р*(р) для произволь ной априорной вероятности р. Если 0 ^ р ^ 8/17, то решение da будет байесовским независимо от наблюдаемых значений х; для
таких р байесовский риск будет р*(р) = 5р. При 8/17 < р < |
16/19 |
||||||
имеем 8*(0) = da, 8*(1) = d\. Поэтому |
|
|
|
|
|||
р*(р) = рр(<оь 8*) + (1 -р)р(о>2, 8*) = р (0 • | |
+ 5 • 1 ) |
+ |
|
||||
„ |
ч Л « |
1 л |
2 \ |
5 |
10,, |
. 10 |
25 |
+ (1 - р ) ( ю т + 0 - т ) = _ р + —(1 _ р) = _ _ _ р . |
|||||||
Если 16/19 ^ р ^ 1, то решение d\ |
будет байесовским для лю |
||||||
бого значения х; р*(р) = |
10(1 —р). |
|
|
|
|
||
Таким образом, мы |
провели |
экстенсивный вид |
анализа —по |
строение байесовской решающей функции (рис. 6.2). В данном при мере не учитывалась цена наблюдения. Если в рассмотренном при мере потребуется принять решение до проведения измерения х,
|
то минимальный риск ро(р) (по апри |
||||
|
орной |
информации) |
будет вычисляться |
||
|
по формуле |
|
|
|
|
|
|
5р |
при |
0 ^ р ^ 2/3, |
|
|
|
10(1 — р) |
при |
2 / 3 < р ^ 1 . |
|
|
Функция{ро(р) представлена на рис. 6.3, |
||||
|
где обозначена сплошными и пунктирны |
||||
|
ми линиями, образующими треугольник; |
||||
Рис. 6.2. Байесовская ре на нее |
наложена байесовская |
функция |
|||
шающая функция |
р*(р), |
построенная |
на рис. |
6.2. Если |
|
|
р ^ 8/17 или р ^ 16/19, то тот же риск может быть достигнут без Если же 8/17 < р < 16/19, то р*(р) < ро(р)- За воз можность наблюдения х может быть уплачена цена с < ро(р) — р*(р). Эта раз ность максимальна при р = 2/3 и равна
25/18.
|
|
|
|
Если |
в задаче х — случайный |
век |
|
|
|
|
|
тор, т. е. |
набор нескольких случайных |
||
|
|
|
|
величин, то эти величины могут наблю |
|||
|
|
|
|
даться одновременно или в несколько |
|||
|
|
|
|
этапов; тогда апостериорное распределе |
|||
I |
2 |
16 |
1 р |
ние можно вычислять на каждом этапе, |
|||
17 |
3 |
19 |
|
взяв в качестве априорного распределе |
|||
Рис. 63. |
Зависимость |
ния апостериорное распределение, |
полу |
||||
минимального риска от р |
ченное |
на |
предыдущем этапе. В |
итоге |
получим то же апостериорное распреде ление, что и при одновременном учете всех случайных величин.
Например, пусть f(x , у | со) — совместная (многомерная) услов ная о. в. п. случайных величин х н у при сое fl. Апостериорная о. в. п. £(со | х, у) параметра со при наблюдениях х, у имеет вид
f { x , |
у I со)р(со) |
Ç(to | X, у) = |
(6.4) |
J f ( x , y \ |
со)р(со) dv(co) |
Пусть наблюдаем случайную величину х, затем у; функция д(х | со) означает условную о. в. п. х при заданном со. После наблюдения .т
апостериорная о. в. п. £(со | х) для со имеет вид |
|
||
№ > !* )= |
, |
. |
(6.5) |
|
I д(х | со)р(со) dv(co) |
|
|
|
п |
|
|
Условная о. в. п. h(y | со, х ) для |
случайной величины у при |
задан |
|
ных со и х определяется по формуле |
|
||
Н у | со, х) = f( x , у | со) |
(6.6) |
||
|
|
я(х|со) |
|
Апостериорная о. в. п. £(со | х, у) параметра со при заданном у |
запи |
||
шется в виде |
|
|
|
£(со | х, у) = |
|
Н у | со, х)£(ы | х) |
(6.7) |
Jh(y | со, х)£(со | х) dv(co) |
п
Подставляя выражения (6.5) и (6.6) в равенство (6.7), получим со отношение (6.4).
§ 6.3. Статистическая классификация при фиксированном объеме выборки
Пусть результаты измерений х*, г = 1 ,2 ,..., N , —случайные ве личины. Считаем, что для каждого класса образов coj, j = 1,2,.. .,m , известны многомерная (/V-мерная) функция условной плотности вероятности р(х | coj) (или условного распределения) вектора при знаков х и вероятность Р(оу,) появления образа <о^, j = 1 ,2 ,..., т. Классификация образов проводится путем минимизации вероятно сти ошибочного распознавания с помощью определения решающей функции 8(х), где равенство 8(х) = bj означает, что принимается гипотеза Hj : х ~ су,. Пусть принятие решения dj, когда в дей ствительности реальный образ принадлежит ы*, приводит к потере L((ùi, dj). Величина условных потерь (условный риск) для х ~ щ
составит |
J L(<x>i, d)p(x | <0j) dx, |
p(o>i, d) = |
x a
где Xçi — множество значений х, по которым определяется образ to. Для данного множества априорных вероятностей Р = {P(<Oj)} сред ние потери (средний риск) определяется по формуле
Р(Р, d) = Y i p(wj)p("j> d),
3=1
где p(tOj, d) —условный риск, когда решение d приводит к гипотезе
X ~ |
(ù j, или |
J P ( x ) p x ( P , d ) d x , |
|
|
Р(Р, d ) = |
(6.8) |
|
где |
pæ(P, d) — апостериорный |
условный средний риск решения d |
|
при данных замерах признаков х : |
|
||
|
т |
d)P(tOj)p(x I (ùj) |
|
|
2 |
|
|
|
Pæ(P, d) — j=i |
|
|
|
|
P(x) |
|
Необходимо найти такое решение dj, j = 1 ,2 ,..., m, которое мини мизирует средний риск р(Р, d) или минимизирует максимум услов ного риска p(ojj, d) (критерий минимакса).
Оптимальное решающее правило минимизации среднего риска называется байесовским правилом. Из соотношения (6.8) следует, что достаточно рассмотреть каждый вектор х в отдельности и ми нимизировать функцию pI(P, d). Если d* — оптимальное решение в смысле минимума среднего риска, то
т. е. |
Рх(Р»d |
) ^ рх(Р>^0» |
|
|
|
|
|
|
|
771 |
|
771 |
|
|
2 |
d*)P(ùij)p(x I (ùj) ^ |
|
d)P((ùj)p(x | (ùj). |
|
j =1 |
|
j=i |
|
|
Для функции потерь вида |
|
|
|
|
|
L((ÙJ , dî) 1 |
0 |
при |
i = j, |
|
Sjî — |
|
i Фj |
|
|
|
1 |
при |
средний риск является также вероятностью ложного распознавания и байесовское решающее правило приводит к гипотезе х ~ to* при
d \= d * , если |
|
P(a>i)p(x | iùi) JÏ Р(б>j)p(x I (ùj) |
(6.9) |
для всех j = 1 ,2 ,..., т.
Определим отношение правдоподобия между классами следую
щим образом:
А = P(s 1Uj) Р(х\и>зУ
Тогда неравенство (6.9) примет вид d* = du если А ^ |
Р (^ ) |
' ■" для всех |
|
j = 1,2, |
Р М |
Если информация об априорных вероятностях Р((ол) отсутству ет, то классификация строится на основе минимаксного критерия по отношению к наименее благоприятному априорному распреде лению. Из условия (6.9) получаем разделяющую функцию
Di(X) = P(oii)p(x | toj), i = 1, 2, . . . , т,
или эквивалентную ей функцию
Di(X) = ln(P(<ùi)p(x |o>i)), i = 1, 2, . . . , т.
Решающая граница между областями в О, разделяющая образы (о* и (x>j, определяется условием
P((Oj)p(x 16н) - P((ùj)p(x |(ùj) = О,
или |
Pf/.\ •Vnf'r I /л \ |
|
ln |
P (<ù j)p (x I (ùj) |
(6.10) |
|
|
P ((ù j)p ix \ (ù j)
Пример 1. Рассмотрим статическую задачу принятия решения в случае, когда пространства П и D состоят из двух точек.
Пусть Q = {toi, (02}, D = {d],d2 }, функция потерь L(co,d) зада на в табл. 6.4, а(8) — условная вероятность для любой решающей
функции 8 принятия решения d2 при истинно |
|
Таблица 6.4 |
|||
сти coi, Р(8) —условная вероятность |
принятия |
Функция потерь |
|||
решения d\ при истинности сог, l\,h > |
0. |
|
|
D |
|
Другими словами, а(5) и (3(8) — вероятности |
п |
di |
|||
di |
|||||
того, что 8 предписывает неправильные реше |
|
||||
(01 |
0 |
и |
|||
ния в случаях (О) и (02 соответственно. Пусть |
|||||
С02 |
h |
0 |
|||
априорное распределение параметра (о задано: |
|||||
|
|
|
Р(<д>1 ) = р, где |
0 < р < 1. С |
учетом |
функции |
потерь L(<û,d) риск |
р(р, 8) решающей функции 5 запишется в виде |
|
|||
|
P(p,b) = hP*(b) + h ( \ - p ) № |
- |
||
В каждой |
конкретной |
задаче |
необходимо минимизировать |
эту комбинацию. Согласно лемме Неймана—Пирсона решающая функция, доставляющая минимум линейной комбинации lipa(b) +
+ /г(1 — р)Р(8), |
определяется |
отношением |
/ 2(2; 10J2V/1 (х | соi). |
Тогда 5*(ж) = d\, |
если a f\(x | a>i) > &/г(х | <02), |
и b*(x) = d,2, если |
|
o /i(x I Qi) < 6/ 2(ж 16)2). Здесь а — l\p, b = hp- |
|
||
Если р(х | <0j) — плотность многомерного гауссова распределе |
|||
ния со средним |
вектором М* |
и ковариационной матрицей К и |
|
i = 1,2, |
|
|
|
е х р { - у ( х - М ^ К ~ \ х - M i)}
Р(Х |(ùi) =
то уравнение решающей границы согласно соотношению (6.10) имеет вид
1 п Р ^ _ ^ |
п |к, |
|
|
Р (^ ) |
\Щ\ |
|
|
1 |
|
|
J)] = 0, |
- j [ ( x - M ifK - 'ix - М д - (х - Mj jrK - \ x - M |
|||
|
i , j = 1, 2, ...,m . |
|
|
При Ki = Kj = К имеем |
|
|
|
xTK ~ l(Mi - |
M j) - U M i + M jfK - 'iM i - |
M j) + In |
= 0. |
|
2. |
глб)j ) |
|
Получили уравнение гиперплоскости. При P(<0i) = P(<0j) имеем
xTK~\Mi - Mj) - y ( M i + M jfK ~\M i - Mj) = 0.
Вдействительности должны получить «полосу», так как х, М
иК определяются в процессе наблюдений с погрешностями.