Seminar A - Spieltheorie und Multiagent Reinforcement Learning in

Werbung
Seminar A - Spieltheorie und Multiagent
Reinforcement Learning in Team Spielen
Michael Gross
[email protected]
20. Januar 2003
1
1.1
Spieltheorie
Matrix Game
Definition 1.1 Ein Matrix Game, Strategic Game, Spiel in strategischer
Form oder Spiel in Normalform ist ein Tupel (n, A 1..n , R1..n ). n ist die Anzahl Spieler, Ai ist die Menge von Aktionen (Strategien), aus der Spieler
i auswählen kann. Ri : A1 × A2 × . . . An → R ist die payoff Funktion.
A = A1 × . . . An , a ∈ A (a = (a1 , a2 , . . . , an )) wird als Strategieprofil bezeichnet. a−i sind die gewählten Aktionen aller Spieler mit ausnahme von
Spieler i.
Da diese Spiele in Form einer n dimensionalen Matrix geschrieben werden
können, werden sie auch als Matrix Spiele bezeichnet. Das wohl bekannteste
Beispiel ist das Gefangenendilemma.
Abbildung 1: Gefangenendilemma
Beispiel 1.1 Zwei Komplizen werden verhört. Wenn beide schweigen, dann
müssen sie für jeweils ein Jahr ins Gefängnis. Wenn einer schweigt und der
1
andere gegen ihn aussagt, dann wird der Schweigende für 10 Jahre eingesperrt und der Aussagende kommt frei. Wenn beide gegeneinander aussagen,
dann müssen beide für jeweils 6 Jahre ins Gefängnis. Abbildung 1 zeigt dieses Spiel in Matrixform.
Definition 1.2 Ein Spiel wird als strictly collaborative oder als Team Spiel
bezeichnet, wenn alle Agenten die selbe payoff Funktion haben.
Definition 1.3 Ein Spiel wird als strictly competitive, zero-sum game oder
Nullsummenspiel bezeichnet, wenn die Summe der payoff aller Agenten null
ist. Bei einem zweispieler Nullsummenspielt bedeutet das, dass R 1 = −R2 .
Abbildung 2: Stein-Papier-Schere Spiel
Beispiel 1.2 Ein bekanntes zweispieler Nullsummenspiel ist Stein-PapierSchere. Abbildung 2 zeigt die Matrixschreibweise des Spiels. R 1 und R2 ist
dabei:


0 −1 1
R1 =  1
0 −1 = −R2
(1)
−1 1
0
Definition 1.4 Ein Matrixspiel, das kein Nullsummenspiel ist, wird als
general-sum game bezeichnet.
1.2
Strategie
Ein Spieler muss eine Strategie finden, die seinen payoff maximiert. Beim
Gefangenendilemma (Beispiel 1.1) ist die beste Strategie eine Aussage zu
machen, egal welche Strategie der andere Spieler wählt. Beim Stein-PapierSchere Spiel (Beispiel 1.2) gibt es keine allgemein gültige beste Strategie, sie
hängt von der Wahl des anderen Spielers ab.
Definition 1.5 Eine Strategie, die die Aktionen deterministisch auswählt
wird reinen Strategie, pure strategy oder deterministische Strategie genannt.
2
Wenn die Aktionen mit Hilfe einer Wahrscheinlichkeitsverteilung über den
verfügbaren Aktionen ausgewählt werden, spricht man von einer gemischten
Strategie, mixed strategy oder randomized strategy.
ai ∼ p i , a i ∈ A i , p i : A i → R
(2)
a ∼ p, a ∈ A = A1 × An , p : A → R
(3)
Bei einer gemischten Strategie kann der payoff von Spieler i als Erwartungswert angegeben werden:
ri = Ea∼p [Ri (a)] = ui (pi , p−i )
(4)
ui ist eine stetige, quasi-konkave Funktion.
Definition 1.6 BRi (a−i ) ist die beste Antwort (best response) des Spielers
i auf die Strategien a−i der restlichen Spieler. Bzw. für gemischte Strategie
BRi (p−i ).
1.3
Nash Equilibrium
Definition 1.7 Ein Strategieprofil p ist ein Nash Equilibrium oder Nash
Gleichgewicht, wenn kein Spieler durch Änderung seiner Strategie pi einen
besseren payoff erreichen kann.
∀p0i , ∀i = 1 . . . nEa∼p [Ri (a)] ≥ Ea∼p[i:p0 ] [Ri (a)]
i
(5)
Das kann auch so geschrieben werden:
∀i : BRi (p−i ) = arg maxui (pi , p−i )
(6)
pi ∈Pi
Beispiel 1.3 Beim Gefangenendilemma (siehe Beispiel 1.1) ist (Aussage, Aussage)
ein Nash Gleichgewicht, weil keine Spieler seine Situation duch wahl einer
anderen Strategie (Aktion) verbessern kann. Das wird auch Pure Strategy
Nash Equilibrium genannt.
Beispiel 1.4 Beim Stein-Papier-Schere Spiel (siehe Beispiel 1.2) gibt es kein
Pure Strategy Nash Equilibrium. Ein Spieler (der Verlierer) kann seine Situation immer durch die Wahl einer anderen Aktion verbessern.
Wenn es auch kein Pure Strategy Nash Equilibrium gibt, so gibt es
doch ein Mixed Strategy Nash Equilibrium. Wenn beide Spieler aus allen
drei möglichen Aktionen mit gleicher Wahrscheinlichkeit auswählen, dann
ist der Erwartungswert für beide Spieler maximal und kann nicht durch
einseitige Änderung der Strategie erhöht werden.
3
Abbildung 3: Falke/Taube Spiel
Beispiel 1.5 Ein weiteres bekanntes Spiel ist das Falke/Taube Spiel (Abbildung 3). Zwei Spieler, die um eine wertvolle Resource mit dem Wert V
konkurieren können aus jeweils zwei Strategien auswählen: Entweder sie verhalten sich kämpferisch (Falke) oder friedfertig (Taube). Wenn ein Spieler
kämpferisch ist und einer friedfertig, dann gewinnt immer der Falke. Wenn
beide Tauben sind, dann teilen sie sich die Resource. Wenn beide Falken
sind, dann kämpfen sie gegeneinander. Der Spieler, der den Kampf verliert
muß dafür mit C bezahlen. Wenn C > V dann besitzt das Spiel drei Nash
Gleichgewichte: Zwei pure, nämlich (Falke, Taube) und (Taube, Falke) und
ein gemischtes (P [Falke] = V /C, P [Falke] = V /C).
Beispiel 1.6 Zwei Spieler wählen jeweils eine Zahl. Der Spieler mit der
größten Zahl hat gewonnen. Diese Spiel hat überhaupt kein Nash Gleichgewicht. Egal was ein Spieler wählt, der andere kann immer eine noch größere
Zahl wählen.
1.4
Existenz des Nash Equilibirum
Satz 1.1 Jedes endliche Matrix Spiel hat ein gemischtes Nash Equilibrium.
Dieser Satz wurde 1950 von John Nash in [4] bewiesen. Er benutzte dazu
den Kakutani Fixpunktsatz [2], der eine Verallgemeinerung des Brouwer
Fixpunkt Satz ist.
Definition 1.8 Eine Teilmenge C eines reellen Vektorraumes R n heißt konvex, wenn für jedes Paar von Vektoren x, y ∈ C alle Vektoren der Form
λx + (1 − λ) y, 0 ≤ λ ≤ 1 (die Verbindungsstrecke) ebenfalls zu C gehören.
Definition 1.9 Eine Menge A ⊆ Rn ist kompakt, wenn sie abgeschlossen
und beschränkt ist.
Definition 1.10 Der Graph einer Korrespondenz (mengenwertigen Funktion) r : X → Y ist die Menge {(x, y) |y ∈ r (x)}.
4
Definition 1.11 Eine Korrespondenz hat einen geschlossenen Graph, wenn
der Graph der Korrespondenz eine geschlossene Menge ist.
Satz 1.2 Kakutani Fixpunktsatz: Eine Korrespondenz r : X → X hat einen
Fixpunkt x ∈ X sodass x ∈ r (x), wenn:
• X ⊆ Rn kompakt, konvex und nicht leer.
• r (x) ist nicht leer für alle x.
• r (x) ist konvex für alle x.
• r hat einen geschlossenen Graph.
Lemma 1.1 Eine gemischtes Strategieprofil p ? ist ein Nash Gleichgewicht
dann und nur dann, wenn es ein Fixpunkt in der BR Korrespondenz ist,
also p? ∈ BR (p? ).
Das folgt direkt aus der Definition des Nash Equilibrium (6), also die
beste Antwort auf Spieler, die ein Nash Gleichgewicht spielen, ist ebenfalls
das Nash Gleichgewicht zu spielen, weil man sonst sicher verliert.
Beweis Es müssen die einzelnen Bedingungen für den Kakutani Fixpunktsatz überprüft werden. Die Menge ist dabei P , die Menge der möglichen
gemischten Strategien und die Korrespondenz ist BR.
P ist jedenfalls nicht leer. Weiters kann p ∈ P auch als p = (p 1 , p2 , . . . pn )
geschrieben werden. Um die Konvexität zu zeigen muss q = λp + (1 − λ) p0
wieder in P sein. Das ist dann der Fall, wenn q i eine gültige Wahrscheinlichkeitsverteilung auf Ai ist, was natürlich der Fall ist.
i
X (j) X h (j)
(j)
qi =
λpi + (1 − λ) p0 i = 1
(7)
j
j
m
m
P ist auch kompakt: P ist beschränkt. Sei pm = (pm
1 , p2 , . . . , pn ) eine
Reihe, die gegen p? = (p?1 , p?2 , . . . , p?n ) konvergiert. Dann ist p? ∈ P , weil p?i
eine gültige Wahrscheinlichkeitsverteilung ist, d.h. die Wahrscheinlichkeiten
sich zu eins aufsummieren (der Grenzwert der Summe ist die Summe der
Grenzwerte). Daraus folgt, dass P abgeschlossen ist.
BR (p−i ) kann nicht leer sein, weil es immer eine Strategie gibt, die der
Spieler wählen kann.
Sei p und q ein BR auf eine Strategie. Es muss gezeigt werden, daß jede
Linearkombination der beiden Strategien wieder
eine BR ist. p und q müssen
0
den gleichen payoff haben, also ui pi , p−i = ui qi , p0−i für alle i. Aus der
Eigenschaft von BR folgt, dass
ui λpi + (1 − λ) qi , p0−i ≤ ui pi , p0−i
(8)
5
Da ui aber quasi-konkav ist:
ui λpi + (1 − λ) qi , p0−i ≥ min{ui pi , p0−i , ui qi , p0−i }
= ui pi , p0−i
= ui qi , p0−i
(9)
(10)
(11)
Dann muss die Linearkombination aber auch ein BR sein.
Angenommen pm ist eine Reihe von Strategieprofilen und p̃ m ∈ BR (pm ).
Die Reihen konvergieren zu p? und p̃? . Dann ist für alle p0i :
m
0 m
ui p̃m
(12)
i , p−i ≥ ui pi , p−i
Da ui stetig ist gilt auch:
ui p̃?i , p?−i ≥ ui p0i , p?−i
(13)
für alle p0i . Das bedeutet, daß der Grenzwert der Folge auch in BR i p?−i ist
und somit der Graph von BR geschlossen ist.
Literatur
[1] ISI glossary of statistical terms.
http://europa.eu.int/en/comm/eurostat/research/isi/index.htm
[2] S. Kakutani. A Generalization of Brouwer’s Fixed Point Theorem. Duke
Journal of Mathematics, Vol. 8. 1941.
[3] C. E. Lemke and J. T. Howson, Jr. (1964), Equilibrium points of bimatrix
games. Journal of the Society for Industrial and Applied Mathematics 12,
413–423. 1964.
[4] J. Nash. Equilibrium points in n-person games. In Proceedings of the
National Academy of Sciences, volume 36, pages 48–49, 1950.
6
Herunterladen