Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Саратовский государственный университет им. Н.Г. Чернышевского

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Kurs_TPR.doc

Скачиваний:

Добавлен:

27.09.2019

Размер:

2.06 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 1112 / 1412 13 14 > Следующая >>>

§ 2. Принятие решений в условиях риска

Ситуация ПР в условиях риска возникает в случаях, когда известны априорные вероятности состояний природы

р(Q₁), р(Q₂), … , р(Q_n),

. (3.5)

Естественно воспользоваться этой дополнительной информацией. С этой целью для каждой операции а_i находят взвешенные суммы полезностей

i=1,2, …, m , (3.6)

и выбирают в качестве наилучшей ту операцию , для которой взвешенная сумма полезностей в (3.6) максимальна,

Пусть в рассмотренном выше примере р(Q₁)=0.25, р(Q₂)=0.75. По данным табл. 3.3 имеем

= 10.25 + 110.75 = 8.5,

= 100.25 + 60.75 = 7.0,

= 00.25 + 140.75 = 10.5,

max (8.5; 7.0; 10.5) = 10.5.

Следовательно, наилучшей операцией является операция а₃, если р(Q₁)=0.25, р(Q₂)=0.75. Но при других значениях априорных вероятностей состояний природы возможен и другой выбор. Используя данные табл.3.3 и формулу (3.6) для каждой операции а_i, i = 1,2,3, имеем

= р +11(1 – p) = 11 – 10p,

= 10p +6(1 – p) = 6 + 4p,

= 14(1 – p) = 14 – 14p.

На рис.3.1 даны графики функций , i = 1, 2, 3.

Рис.3.1

Прямые , пересекаются в точке В, при , вычисленном из равенства 6 + 4р = 14 – 14р. Из рис. 3.1 следует, что при лучшей операцией является а₃, а при лучшей операцией является а₂. При безразлично, какую операцию а₂илиа₃использовать. Операцию а₁применять невыгодно.

Если р=0 или 1, то имеем ситуацию ПР в условиях достоверности. При р=0 лучшая операция – а₃, при р=1 лучшая операция – а₂.

§3. Принятие решений при проведении эксперимента

3.1. Принятие решений в условиях неопределенности

Человек, прежде чем принять решение, пытается получить некоторую информацию о состоянии природы экспериментальным путем. Предполагается, что проведение эксперимента не требует никаких затрат,

Пусть проведен эксперимент, имеющий t исходов – возможных прогнозов состояния природы,

Z=(z₁, z₂,…, z_t), .

Известна условная вероятность Р(z_β/Q_j) -го результата эксперимента при состоянии природы Q_j,

P__j= Р(z_β/Q_j), =1,2,…,t, j=1,2,…,n. (3.7)

Множество значений P__jможно представить в виде матрицы размера t·n, данной в табл. 3.5.

Для использования информации, полученной в результате эксперимента, введем понятие стратегии.

Таблица 3.5

Q_j Z_	Q₁	Q₂	…	Q_n
z₁	P₁₁	P₁₂	…	P_1n
z₂	P₂₁	P₂₂	…	P_2n
…	…	…	…	…
z_t	P_t1	P_t2	…	P_tn

Определение 3.2. Стратегия - это соответствие последовательности t результатов эксперимента последовательности t операций,

(z₁, z₂,…, z_t)→ (a_i, a_j,…, a_k). (3.8)

Выражение (3.8) подразумевает, что

z₁→ a_i, ,

z₂→ a_j, ,

……………………

z_t→ a_k, .

Число возможных стратегий  определяется формулой

 = m^t,

m – число операций, t - число результатов эксперимента. При m=2, t=3 всевозможные стратегии представлены в табл.3.6.

Таблица 3.6

S_i z_	S₁	S₂	S₃	S₄	S₅	S₆	S₇	S₈
z₁	a₁	a₁	a₁	a₁	а₂	а₂	а₂	а₂
z₂	a₁	a₁	а₂	а₂	a₁	a₁	а₂	а₂
z₃	a₁	а₂	a₁	а₂	a₁	а₂	a₁	а₂

Задача ПР формулируется так: какую одну из операций a₁,a₂,…, a_m следует выбрать в зависимости от одного из результатов эксперимента z₁, z₂,…, z_t.

Для принятия решения находим усредненные полезности стратегий S_i, i= 1,2, …, , при состояниях природы Q_j, j=1, 2, …, n,

U(S_i,Q_j)= α_i_β_jP_β_j , i= 1,2, …, , j=1, 2, …, n, (3.9)

где α_iβj - полезность β-й компоненты i-й стратегии при состоянии природы Q_j, P_βj– условная вероятность β-го результата эксперимента при состоянии природы Q_j. Стратегия S_iопределена множеством операций, значения α_{i β
j}берутся из таблицы полезностей значения P_βj– из табл. 3.5. Полученные значения усредненных полезностей U(S_i,Q_j) можно записать в виде матрицы размера n·. Для принятия решения – выбора наилучшей стратегии можно воспользоваться уже рассмотренными критериями: максимина, минимакса сожалений и равновозможных состояний.

Рассмотрим конкретный пример. Предполагаются лишь два состояния природы: Q₁- теплая погода, Q₂– холодная погода,

и - только две операции: – одеться для теплой погоды, –одеться для холодной погоды. Эта ситуация характерна для туристов. Матрица полезности дана в табл.3.7.

Таблица 3.7 Таблица 3.8

Q_j a_i	Q₁		Q₂	Q_j z_	Q₁	Q₂
a₁	10		0	z₁	0.6	0.3
a₁	10		0	z₂	0.2	0.5
a₂		4	7	z₃	0.2	0.2

Критерий максимина гарантирует 4 ед. полезности и рекомендует выбирать операцию а₂. Критерий минимакса дает этот же ответ.

Но есть возможность воспользоваться данными прогноза погоды (в этом и состоит эксперимент), которые могут быть трех видов:

z₁– ожидается теплая погода,

z₂– ожидается холодная погода,

z₃– прогноз неизвестен.

Из прошлого опыта известны условные вероятности этих трех видов прогноза для каждого состояния природы , =1,2,3, j =1,2, представленные в табл. 3.8.

Для каждой из 8 стратегий и каждого из 2–х состояний природы определим взвешенные суммы полезностей по формуле (3.9), используя данные табл. 3.6 – 3.8,

U(S₁,Q₁) =100.6 + 100.2 +100.2 =10,

U(S₂,Q₁) =100.6 + 100.2 +40.2 = 8.8,

U(S₃,Q₁) =100.6 + 40.2 + 100.2 = 8.8,

........................................................

U(S₈,Q₁) = 40.6 + 40.2 + 40.2 = 4,

U(S₁,Q₂) = 00.3 + 00.5 +00.2 = 0,

.........................................................

U(S₈,Q₂) = 70.3 + 70.5 + 70.2 = 7.

Все вычисленные значения U(S_i,Q_j), i = 1,2,…8, j = 1, 2, помещены в табл.3.9, [13].

Таблица 3.9

S_i

Q_j

S₁

S₂

S₃

S₄

S₅

S₆

S₇

S₈

Q₁

8.8

7.6

6.4

5.2

Q₂

1.4

3.5

4.9

2.1

3.5

5.6

Из табл. 3.9 предварительно следует исключить плохие стратегии – те стратегии, обе компоненты которых не больше () соответствующих компонент какой–либо другой стратегии. Ввиду того, что , , S₆≤ S₇, стратегии исключаются из рассмотрения (в табл. 3.9 они помечены знаком "–").

К оставшимся допустимым стратегиям можно применить известные нам критерии. Используя критерий максимина, имеем

, ,

, , ,

Следовательно, наилучшей стратегией является стратегия S₇, гарантирующая 5.2 ед. полезности. Для сравнения максиминная операция гарантирует лишь 4 ед. полезности. Так как S₇ = (a₂, a₂, a₁), то в силу (3.8) имеем

Это значит, что при прогнозе z₁ выбирается операция а₂, при прогнозе z₂– a₂, при прогнозе z₃– a₁, т.е. максиминная стратегия S₇ рекомендует одеваться тепло, если прогноз – теплая или холодная погода, и одеваться легко, если прогноз неизвестен. Последнее утверждение весьма непрактично.

Максиминная стратегия S₇при неблагоприятном стечении обстоятельств может привести и к худшему результату, чем максиминная операция . Например, имеет место холодная погода . Тогда согласно максиминной операции турист получит 7 ед. полезности (табл. 3.7). С другой стороны, если результат прогноза будет (прогноз неизвестен) и согласно стратегии S₇ будет выбрана операция (одеться легко),то он получит 0 ед. полезности. Это явление –– типичное для теории игр и теории принятия решений. S₇ гарантирует лишь среднюю полезность в 5.2 ед.

3.2. Использование смешанной стратегии

Определение 3.3. Стратегия S^* называется смешанной, если она представлена в виде выпуклой комбинации двух других стратегий,

S^* = сS_m₁+ (1 - с)S_m_2,0<с<1, m₁, m₂  {1, 2, …, t}.

Это определение базируется на понятии выпуклой комбинации точек [14]. Переход к смешанной стратегии осуществляется с целью повышения гарантированной средней полезности.

Стратегии рассмотренного выше примера изобразим точками на п лоскости с координатами , , i=1,3,4,7,8 (рис. 3.2).

По рис. 3.2 видно, что если взять в определенных пропорциях стратегии S₄и S₈, то получим смешанную стратегию, лучшую по сравнению со стратегией S₇. Проведем биссектрису I координатного угла и найдем точку пересечения ее с отрезком [S₄,S₈] –– точку .

Запишем уравнение прямой, проходящей через две точки: S₄(7.6; 4.9), S₈ (4;7) [15],

которое приводится к виду

Из этого уравнения находим координаты точки , для которой ,

Так как , то стратегия лучше стратегии S₇, гарантирующей 5.2 ед. полезности, S^*>S₇.

Теперь остается представить стратегию в виде выпуклой комбинации стратегий S₄, S₈,

S^*= cS₄ + (1 – c)S₈, 0 < c <1. (3.10)

Для определения значения параметра c достаточно записать уравнение (3.10) для абсцисс входящих в него точек

из которого получаем . Тогда равенство (3.10) принимает вид

. (3.11)

Так как , , то в силу равенства (3.11) имеем

Практически смешанную стратегию S^* можно реализовать так. Если результат эксперимента есть z₂ или z₃, то используется операция a₂.

Если же результат эксперимента есть z₁, то с помощью подходящего случайного механизма с вероятностью используется операция a₁ и с вероятностью –– операция а₂. Основой случайного механизма могут служить 19 одинаковых карточек, на 10 из которых записан символ а₁, а на 9 –– символ а₂. Из этого набора 19 карточек случайно выбирается одна, и используется та операция, символ, которой изображен на этой карточке.

3.3. Принятие решений в условиях риска

К условиям, перечисленным в п. 3.1, добавляется еще одно – значения априорных вероятностей состояний окружающей среды (природы):

p(Q₁), p(Q₂), ..., p(Q_n). (3.12)

Тогда для каждой стратегии определяется усредненная по всем состояниям природы средняя полезность по формуле

, (3.13)

U(S_i,Q_j) – полезность стратегии при состоянии природы , которая находится по формуле (3.9). Затем из множества , , выделяется максимальный элемент,

, .

Определение 3.4. Стратегия , обладающая максимальной средней полезностью , называется байесовской стратегией,

, .

Пусть в рассмотренном ранее примере р(Q₁) = 0.6, p(Q₂) = 0.4. Используя данные табл. 3.9 и формулу (3.13), вычислим среднюю полезность для каждой допустимой стратегии,

= 100.6 + 00.4 = 6,

= 8.80.6 + 3.50.4 = 6.68,

= 7.60.6 + 4.90.4 = 6.52,

= 5.20.6 +5.60.4 =5.36,

= 40.6 + 70.4 =5.2 .

Затем найдем наибольшее число из полученных пяти чисел,

Следовательно, оптимальной стратегией является стратегия , обладающая максимальной средней полезностью, равной 6.68 ед.

Заметим, что стратегия является байесовской для конкретных значений априорных вероятностей: р(Q₁) = 0.6, p(Q₂) = 0.4. При других значениях р(Q₁), р(Q₂) байесовской может быть и другая стратегия. Так, при р(Q₁) = 0.5, p(Q₂) = 0.5 байесовской является стратегия .

Проведение эксперимента в рассмотренной ситуации выгодно. Действительно, если эксперимент не проводить, то по данным табл. 3.7 имеем

Байесовской операцией (стратегией) является операция а₁, средняя полезность которой равна 6 ед.

Для дальнейших рассуждений нам понадобится объединить выражения (3.13), (3.9) в одно,

Меняя порядок суммирования в правой части последнего равенства, получим

(3.14)

Из этого равенства следует, что при выборе оптимальной стратегии максимизация сводится к максимизации выражения в квадратных скобках в правой части (3.14), т.е. для каждого результата эксперимента z_β максимизация полезности U_β(a_i) сводится к выбору такой операции , которая максимизирует выражение в квадратных скобках.

3.4. Использование формулы Байеса

В общем случае число допустимых стратегий S_i, i =1, 2,…, ,может быть очень велико, и поэтому пользоваться формулой (3.13) затруднительно. Эта трудность обходится с помощью формулы Байеса [3, 8, 13]. Проводя эксперимент, оценивают новые апостериорные вероятности состояний природы P(Qj/z_), j = 1, 2, …, n, = 1, 2, …, t. Используя эти уточненные вероятности состояний природы, находят оптимальную операцию a_i, i  {1, 2, …, m}, обычным способом. Для простоты предположим, что распределения дискретные. Согласно формуле Байеса для апостериорной вероятности состояния природы Q_j при результате эксперимента z_ имеем

, j= 1, 2,…,n,  =1, 2,…, t, (3.15)

– известная условная вероятность получить результат эксперимента z_ при состоянии природы Q_j, p(Q_j) – априорная вероятность состояния природы Q_j, P(z_) – полная вероятность результата эксперимен-та z_

. (3.16)

Фиксируя , {1, 2,…, t}, для каждой операции a_i, i =1, 2, … ,m, находим среднюю полезность U_(a_i) по формуле

, (3.17)

– условная вероятность, определяемая из равенства (3.15), _i_j – полезность операции a_iпри состоянии природы Q_j. Далее при фиксированном значении  находим

Операцию , i_{1, 2,…, m}, считаем оптимальной для данного результата эксперимента z_, {1, 2,…, t},

Покажем, что таким путем получается байесовская стратегия

S_B=_.

В силу формул (3.15) – (3.17) имеем

. (3.18)

Из этого равенства следует, что для каждого результата эксперимента z_ максимизация полезности U_(a_i) сводится к отысканию такой операции  которая максимизирует выражение в квадратных скобках в его правой части

В формулах (3.14), (3.18) для каждого результата эксперимента максимизация , U_ (a_i) сводится к нахождению такой операции , которая максимизирует выражения в квадратных скобках, стоящих в их правых частях. А так как эти максимизирующие операции совпадают, то оба метода приводят к одному и тому же результату, что и требовалось доказать.