Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Games_theory5

.pdf

Скачиваний:

Добавлен:

22.03.2016

Размер:

274.92 Кб

Скачать

☆

1 / 21 2 > Следующая >>>

5.Элементы теории матричных игр

Втеории игр исследуются модели и методы принятия решений в конфликтных ситуациях. В рамках теории игр рассматриваются парные игры (с двумя сторонами) или игры многих лиц. Мы ограничимся рассмотрением парных игр. Участников игры принято называть игроками.

Игра состоит из последовательности действий (ходов), которые подразделяются на личные (совершаемые игроками осмысленно на основе некоторого правила – стратегии) и случайные (не зависящие от игроков). В теории игр рассматриваются ситуации, в которых обязательно присутствуют личные ходы.

Стратегия игрока – это набор правил, используемых при выборе очередного личного хода.

Целью игры является нахождение оптимальной стратегии для каждого игрока, т. е. такой, при которой достигается максимум ожидаемого среднего выигрыша при многократном повторении игры. Предполагается, что игроки ведут себя разумно, исключаются элементы азарта и риска.

Определение 5.1. Матричная игра – это парная игра, которая задается набором чистых стратегий {1, K, n} и {1, K, m} первого и второго игро-

ков, а также платежной матрицей (aij )m×n , определяющей выигрыш пер-

вого игрока при выборе игроками стратегий i и j соответственно. Целью первого игрока является максимизация своего выигрыша, а целью второго – минимизация выигрыша противника.

Пример 5.1 («камень–ножницы–бумага»). Каждый игрок во время своего хода независимо от другого выбирает одну из трех стратегий, называемых «камень», «ножницы» и «бумага». Выбранные стратегии сравниваются. Если они совпадают, выигрыш первого игрока составляет 0 (ничья), в противном случае побеждает игрок с более сильной стратегией. «Камень» считается сильнее «ножниц», которые, в свою очередь, сильнее «бумаги», которая сильнее «камня». Выигрыш победившего игрока составляет 1, проигравшего −1. Платежная матрица в этом случае имеет следующий вид:

			Игрок 2
			«Камень»	«Ножницы»	«Бумага»
Игрок 1	«Камень»	0		1	–1
Игрок 1	«Ножницы»		–1	0	1
	«Бумага»	1		–1	0

Пример 5.2 («вооружение и самолет»). Первый игрок выбирает один из трех типов вооружения i = 1, 2, 3, другой – один из трех видов самолетов j = 1, 2, 3. Платежная матрица задана таблицей

i / j	1	2	3
1	0,5	0,6	0,8
2	0,9	0,7	0,8
3	0,7	0,5	0,6

Элементами aij платежной матрицы являются вероятности поражения

самолета вида j вооружением типа i. Целью первого игрока является поражение самолета, второго – прорыв обороны противника.

5.1. Решение матричной игры в чистых стратегиях

Заметим, что в игре из примера 5.1 ни у кого из игроков нет причины предпочесть одну из стратегий другой, поскольку на каждую стратегию одного игрока найдется контрстратегия другого, обеспечивающая его выигрыш (при условии, что он знает или угадал стратегию первого). В примере 5.2 ситуация иная. Для обоих игроков целесообразным является использование чистых стратегий i = 2 для первого и j = 2 для второго. Отклонение любого из игроков от указанных стратегий может только уменьшить его выигрыш. Разница в приведенных примерах объясняется наличием во второй платежной матрице седловой точки.

Определение 5.2. Седловой точкой матрицы(aij )m×n называется такая пара (i0 , j0 ) номеров строки и столбца, что для любых i = 1, …, m и j = 1, … , n выполняются неравенства

aij0 ≤ ai0 j0 ≤ ai0 j .

Таким образом, элемент ai0 j0 в матрице с седловой точкой (i0 , j0 ) явля-

ется одновременно максимальным в своем столбце и минимальным в своей строке, что и объясняет нецелесообразность выбора любым из игроков другой стратегии.

При решении матричных игр используется принцип минимакса. Принцип минимакса. Предположим, что противник заранее знает все

ходы соперника. Тогда на каждую стратегию i = 1, …, m он отвечает наилучшей контрстратегией j(i), для которой aij (i ) ≤ aij для всех j = 1, …, n.

Обозначим α0	= a	= min a , i = 1, …, m. В описанной ситуации наи-
i	ij(i )	1≤ j≤n ij

лучшей чистой стратегией первого игрока является стратегия i, максимизирующая αi0 , которая называется максиминной стратегией. Величину

α0 = max min a		=α0
1≤i≤m 1≤ j≤n	ij	i
1≤i≤m 1≤ j≤n		0

назовем нижней ценой игры в чистых стратегиях. Если первый игрок по-

ступает в соответствии с максиминной стратегией, он гарантированно по-

лучит выигрыш не менее α0 независимо от действий второго игрока. Однако второй игрок, руководствуясь аналогичными соображениями и

оставаясь в рамках чистых стратегий, должен поступать так, чтобы минимизировать величину

β0	= a		= max a .
j		i( j) j	1≤i≤m	ij

При таком выборе стратегии	j0	(минимаксной стратегии второго игро-
ка) он гарантированно проиграет не более
β0 = min max a = β0 .
1≤ j≤n 1≤i≤m			ij	j0

Величина β0 называется верхней ценой игры в чистых стратегиях.
В примере 5.1 имеем α0 = −1,		β0 =1, т. е. нижняя цена меньше верх-
ней. В примере 5.2 получаем следующие значения:
α0 = maxαi0 = max{0,5,			0,7,	0,5} = 0,7 =α20 ,
i
β0 = min β0j = min{0,9,			0,7,	0,8} = 0,7 = β20.
j

Имеем совпадение верхней и нижней цен игры и седловую точку

(i0 , j0 ) = (2, 2).

Заметим, что нижняя цена игры не может быть больше верхней в силу следующей леммы.

Лемма 5.1 (о максимине и минимаксе). Для любой функции f(x, y), x X , y Y справедливо неравенство

max min f (x, y) ≤ min max f (x, y) .
x X y Y	y Y x X

Из этой леммы вытекает утверждение.

Утверждение 5.1. Необходимым и достаточным условием равенства нижней и верхней цен матричной игры в чистых стратегиях является существование седловой точки в платежной матрице (aij )m×n .

Седловая точка в матричной игре определяет некоторое положение равновесия, когда ни одному из игроков не выгодно отклоняться от оптимальной стратегии, если противник придерживается своей оптимальной стратегии. В случае существования седловой точки верхняя и нижняя цены

игры совпадают и называются ценой игры. Решением игры в чистых стратегиях называется нахождение оптимальных стратегий для каждого из игроков и вычисление цены игры. Заметим, что решение в чистых стратегиях существует только в том случае, когда в платежной матрице существует седловая точка.

Пример 5.3. Найти решения в чистых стратегиях, если они существуют, для игр со следующими платежными матрицами:

	−2 0		1			1 2			3	−4			1	2	3	4	5
													3	2	1	0
а)	3	4	5		б)		4	3	2	−1		в)					−1
				;							;		1	3	5	4	2	.
	2	7	−2				0	3	1	−3
													3	1	−1	0	2

Решение. а) Найдем нижнюю и верхнюю цены игры в чистых стратегиях:

α0 = maxαi0 = max{−2, 3, −2} = 3 =α20 ;

β0 = min β0j = min{3, 7, 5} = 3 = β10 .

Верхняя и нижние цены совпадают, следовательно, существует решение игры в чистых стратегиях. Это решение соответствует седловой точке

i0 = 2 и j0 = 1 , и значению платежной матрицы a21 = 3. Оптимальные стратегии игроков соответственно равны i0 = 2 и j0 =1.

Задачи б и в предлагаются в качестве упражнения.

Заметим, что в некоторых играх одна из стратегий может быть заведомо менее целесообразной, чем другая. Например, стратегия i = 2 в игре из примера 5.3 а дает первому игроку больший выигрыш, чем стратегия i =1

при любом выборе стратегии вторым игроком: a2 j ≥ a1 j ,

j = 1, …, n. Это означает, что вторая строка платежной матрицы доминирует первую.

Определение 5.3. Будем говорить, что строка i1 доминирует строку

i2 , если для всех j = 1, …, n справедливы неравенства ai j				≥ ai j и сущест-
			1	2
вует такая стратегия j0, что ai	j	> ai	j .
1	0	2	0

Если из платежной матрицы убрать все доминируемые строки, то решение игры с полученной матрицей совпадает с решением исходной игры. Таким образом, иногда можно уменьшить размерность платежной матрицы путем удаления доминируемых строк.

Аналогично доминирование определяется и для столбцов.

Определение 5.4. Столбец j1 доминирует столбец j2 , если для любого i = 1, …, m справедливы неравенства aij1 ≤ aij2 и существует такая страте-

гия i0, что ai0 j1 < ai0 j2 .

Платежная матрица может быть упрощена также с помощью удаления доминируемых столбцов.

Пример 5.4. Матрицы из примера 5.3 а, б могут быть упрощены следующим образом:

	−2	0	1			3 4 5					3 5
						3 4 5					3 5			(3 5)→ (3);
а)	3 4									→			→
а)	3 4		5 →				2 7	−2		→			→
	2	7	−2				2 7	−2			2	−2
	2	7	−2
				1		2	3	−4			−4
			б)		4	3	2	−1			−1	→ (−1).
			б)		4	3	2	−1	→		−1	→ (−1).
					0	3	1	−3			−3
					0	3	1	−3			−3

В матрице из примера 5.3 в нет доминирующих строк и столбцов. Пример 5.5. Решить матричную игру с платежной матрицей

(aij )m×n = (i − j)m×n .

Решение. Рассмотрим две строки с номерами i > k. Для любого столбца j выполняется aij − akj = i − j −(k − j) = i − k > 0. Таким образом, строка с бóльшим номером доминирует строку с меньшим номером, и строка m доминирует все остальные. Аналогично, если j > l – два номера столбца,

то для любого i = 1, …, m имеем aij − ail = i − j −(i −l) = l − j < 0, т. е. столбец с бóльшим номером доминирует столбцы с меньшими номерами. В результате получаем оптимальные чистых стратегии i0 = m, j0 = n, цена

игры равна ν = amn = m −n.

Как мы видим, игры с матрицами, в которых существует седловая точка, решаются достаточно просто. В следующих разделах будет рассмотрен более общий случай решения задачи – так называемое решение в смешан-

ных стратегиях.

Далее будем предполагать, что в платежных матрицах рассматриваемых игр все возможные упрощения уже проведены и доминирующих строк и столбцов нет.

5.2. Смешанные стратегии

Если седловая точка в платежной матрице отсутствует, то решения

вчистых стратегиях не существует. В таких случаях ищут решение игры

всмешанных стратегиях.

Определение 5.5. Смешанной стратегией называют произвольное вероятностное распределение на множестве чистых стратегий:

p = ( p1 ,K, pm ) Pm		m	=1, pi
p = ( p1 ,K, pm ) Pm	= p \| ∑pi		=1, pi	≥ 0 ,
		i=1
q = (q1 ,K, qn ) Qn		n	=1, qj
q = (q1 ,K, qn ) Qn	= q \| ∑qj		=1, qj	≥ 0 .
		j=1

Применение смешанных стратегий означает чередование чистых стратегий согласно их вероятностям при многократном повторении игры. Платежная функция при этом определяется как математическое ожидание выигрыша первого игрока при применении игроками смешанных стратегий p

и q и равна E( p, q) = ∑∑aij pi q j .

i j

В соответствии с принципом минимакса каждый игрок должен выбирать такую смешанную стратегию, которая максимизирует его наименьший гарантированный выигрыш. Аналогично случаю использования чистых стратегий наименьший гарантированный выигрыш первого игрока называется нижней ценой игры и равен

α = maxα( p) = max min E( p, q).
p Pm	p Pm q Qn

Аналогично определяется верхняя цена игры

β = min β(q) = min max E( p, q).
q Qn	q Qn p Pm

Основным результатом теории матричных игр является теорема 5.1. Теорема 5.1 (фон-Неймана). В любой матричной игре существует такая

пара смешанных стратегий (p*, q *), что

1)E( p, q*) ≤ E( p*, q*) ≤ E( p*, q) для любых p Pm, q Pn;

2)α = β = E( p*, q*).

Число ν = E( p*, q*) называется ценой игры в смешанных стратегиях.

По теореме фон-Неймана любая матричная игра имеет пару оптимальных смешанных стратегий. Для решения матричной игры необходимо отыскать эти оптимальные стратегии и цену игры.

Определение 5.6. Чистая стратегия называется активной, если она используется в некоторой оптимальной смешанной стратегии с ненулевой вероятностью.

Теорема 5.2 (об активных стратегиях). Если один из игроков использует оптимальную стратегию, то его противник достигает цены игры ν при любой своей смешанной стратегии, в которой используются только активные чистые стратегии.

	a	a
Пример 5.6. Для игры, заданной матрицей	11	12	без седловой
Пример 5.6. Для игры, заданной матрицей			без седловой
	a21	a22

точки, найти оптимальные смешанные стратегии и цену игры.

Решение. Пусть p* = ( p1* , p2* ) – оптимальная стратегия первого игрока.

В силу теоремы об активных стратегиях, если первый игрок использует оптимальную стратегию, то второй достигает цены игры ν при любой своей смешанной стратегии, в которой используются только активные чистые

стратегии, например при q1 = (1,0) и q2 = (0,1) .

Записывая для них выражения соответствующей цены игры, получаем

ν1 = a11 p1 + a21 p2 =ν ,

ν2 = a12 p1 + a22 p2 =ν

и, учитывая соотношение p1 + p2 =1, имеем систему из трех уравнений с тремя неизвестными, решив которую, находим

p* =

a22 −a21

;

a11 −a12

;

a11

−a12 −a21 + a22

a11

−a12 −a21

+ a22

ν =

a22a11 −a12a21

−a

+ a

Поменяв игроков местами и проведя аналогичные вычисления, получаем выражения для оптимальной стратегии второго игрока:

q* =		a22 −a12		; q* =		a11 −a21		.
1	a11	−a12 −a21 +a22		2	a11	−a12 −a21	+a22
	a11	−a12 −a21 +a22			a11	−a12 −a21	+a22
Рассмотрим игру		2 ×n. Найдем оптимальную смешанную стратегию
первого игрока p* = ( p* , p* ), на которой достигается максимум
		1	2	E( p, q) → max .
			α( p) = min	E( p, q) → max .
			q Qm			p Pn

Положим x = p2 ,1− x = p1, 0 < x <1. Обозначим f (x) =α( p). Тогда по теореме об активных стратегиях

	=	n	+		−		= minν		(x),
f (x)	=	min ∑[a1 j	+	(a2 j	−	a1 j )x]qj	= minν	j	(x),
f (x)		min ∑[a1 j		(a2 j		a1 j )x]qj	1≤ j≤n	j
		q Qm j=1

где ν j (x) = a1 j +(a2 j −a1 j )x, j = 1, …, n. В итоге получаем задачу максимизации миноранты семейства линейных функций в интервале (0, 1):

minν j (x) → max.
1≤ j≤n	0<x<1

Поскольку известно, что p1* , p2* > 0 и миноранта семейства линейных

функций вогнута, непрерывна и кусочно-линейная, то ее максимум на отрезке (0, 1) достигается в одной из внутренних точек излома и может быть

найден за время O(n2 ).

Пусть максимум миноранты достигается на пересечении прямых

ν jk −1 (x) и ν jk (x) (рис. 5.1).

f(x)

νjk (x)

νjk−1 (x)

		x
0	p2*	1

Рис. 5.1

Тогда для решения игры достаточно рассмотреть матричную игру 2 ×2 с

			a		a
матрицей				1 jk −1	a	1 jk .
			a	2 jk −1	a
				2 jk −1		2 jk
	Пример			5.7.	Решить матричную игру с платежной матрицей
4		2	3	−1

	−4	0	−2	2	.
	−4	0	−2	2

Решение. Запишем уравнения прямых ν j (x) :

ν1 (x) = 4 −8x, ν2 (x) = 2 −2x, ν3 (x) = 3 −5x, ν4 (x) = −1 +3x.

Максимум миноранты достигается на пересечении прямых ν1 (x) и ν4 ( x) (рис. 5.2), поэтому для решения исходной задачи используем матри-

4		−1
цу	−4	2	.

4												4
3												3
2												2
1												1
0				x = p		=	•5			1			–1		x
–1				x = p		=				1					x
–1					2	11
–2													–2
–3													–3
–4													–4
							Рис. 5.2
							Рис. 5.2
Применяя полученные ранее формулы, получаем
6			5					3		8		4
p* =		,			, q* =				,0,0,		,ν =			.
p* =	11	,	11		, q* =			11	,0,0,		,ν =	11		.
	11		11					11		11		11

Игра m ×2 решается аналогично сведением к задаче минимизации мажоранты m линейных функций. Заметим также, что игра с платежной мат-

рицей A = (aij )m×n сводится к игре с матрицей (− AT )перестановкой игроков, а игра m ×2 сводится к игре 2 ×n.

5.3. Метод фиктивного розыгрыша Брауна–Робинсон

Идея метода заключается в поочередном выборе каждой стороной наилучшей чистой стратегии против наблюдаемого эмпирического распределения чистых стратегий противника.

На первом шаге противники выбирают произвольные чистые стратегии i1 и j1 соответственно. Пусть противниками на первых N шагах последо-

вательно выбирались стратегии (i , i , K, i	N	)	и ( j ,	j , K, j	N	) и	x N , y N	–
1 2	N		1	2	N		i j

количество шагов, на которых первым и вторым игроками выбирались

	m	n
стратегии i и j	соответственно. Очевидно, ∑xiN	= ∑y Nj	= N.	Обозначим
	i	j
относительные	частоты применения стратегий	i и j	через	piN =	xiN
относительные	частоты применения стратегий	i и j	через	piN =	N
					N

иq Nj = Nj . Таким образом, на каждом шаге N имеем наблюдаемые сме-

шанные стратегии	p N = ( p N ,K, p N )		и	q N = (q N ,K, q N ).		Эти векторы
	1	m		1	n

определяют эмпирическое распределение стратегий после первых N шагов. На шаге (N + 1) выбираются такие чистые стратегии iN +1 и jN +1, что

		n	n
α N	= max	∑aij q Nj	= ∑aiN +1 j q Nj ,
	1≤i≤m	j=1	j=1
		j=1	j=1
		n	n
β N	= min	∑aij piN	= ∑aijN +1 piN .
	1≤ j≤n	i=1	i=1
		i=1	i=1

Частоты стратегий пересчитываются по следующим формулам:

		N
		Npi	, i ≠ iN +1,
N +1		N +1

pi	=		1
	NpiN +			, i = iN +1	;
		N +1

		N
		Nqj		, j ≠		jN +1,
N +1		N +	1	, j ≠		jN +1,
N +1		N +	1
qj	=
	NqNj +1				, j = jN +1.
		N +	1		, j = jN +1.
		N +	1

Авторами метода доказано, что с ростом N эмпирические распределения сходятся к оптимальным смешанным стратегиям:

pN → p*, qN → q * и ν N = αN +2 βN →ν .

Метод прост в описании и реализации, сложность одной итерации составляет O(n+m). Недостатком метода является его медленная немонотонная сходимость. На практике остановка алгоритма происходит после выполнения достаточно большого числа итераций.

1 / 21 2 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
09.02.20151.45 Mб63FOPI_OTVET_-_kopia.doc
#
20.04.2019107.01 Кб0for Olya.doc
#
09.02.20151.08 Mб2Formirovanie.docx
#
09.02.2015924.68 Кб46full.pdf
#
23.11.201994.72 Кб0full_lectures.doc
#
22.03.2016274.92 Кб8Games_theory5.pdf
#
09.02.201533.11 Кб8Gerund.docx
#
09.02.201523.45 Кб9GE_spetsov_voprosy_2012_2013.docx
#
20.09.2019736.77 Кб8GE_voprosy_1.doc
#
16.07.2019152.58 Кб2GF-_2_kontrolnaya.doc
#
09.02.2015199.68 Кб26GL5-2010.DOC