Seminar A - Spieltheorie und Multiagent Reinforcement Learning in

Werbung
Seminar A - Spieltheorie und Multiagent
Reinforcement Learning in Team Spielen
Michael Groß
[email protected]
20. Januar 2003
0-0
Matrixspiel
• Matrix Game, Strategic Game, Spiel in strategischer Form.
• Tupel (n, A1..n , R1..n ).
20. Januar 2003
Seite 1
Michael Groß
Nullsummenspiel
• Zero Sum Game, Nullsummenspiel
• Die Summe aller payoff R1 + R2 + . . . + Rn = 0.
• Strictly Competitve.
20. Januar 2003
Seite 2
Michael Groß
Team Spiel
• Strictly Cooperative, Team Spiel.
• Eine gemeinsame payoff Matrix.
20. Januar 2003
Seite 3
Michael Groß
Gefangenendilemma - Pure Strategy
• pure strategy, reine Strategie, deterministische Strategie
• ai von Spieler i gewählte Aktion.
• a Aktion von allen Spielern (Joint-Action).
• a−i Aktion von allen Spielern ausser Spieler i.
20. Januar 2003
Seite 4
Michael Groß
Stein-Papier-Schere - Mixed Strategy
• gemischte Strategie, mixed strategy, stochastische Strategie
• Wahrscheinlichkeitsverteilung pi auf den Aktionen Ai .
• p Strategie aller Spieler.
• p−i Strategie aller Spieler ausser Spieler i.
• Reine Strategie ist Spezialfall.
20. Januar 2003
Seite 5
Michael Groß
Best Response
• BRi (p−i ) ist die beste Antwort von Spieler i auf die Strategien
der anderen Spieler.
• ui (pi , p−i ) ist der erwartete Payoff von Spieler i wenn er die
Strategie pi spielt.
20. Januar 2003
Seite 6
Michael Groß
Nash Gleichgewicht
• Jeder Spieler spielt den Best Response - ein Spieler kann sich
nicht alleine verbessern.
• ∀i∀pi : pi = BRi (p−i )
• ∀i : BRi (p−i ) = arg maxui (pi , p−i )
pi ∈Pi
• Pure Strategy Nash Equilibrium, Mixed Strategy Nash
Equilibrium.
20. Januar 2003
Seite 7
Michael Groß
Multiple Equilibria
• Das Falke-Taube Spiel hat mehrere Nash Gleichgewichte.
• V Belohnung, C Strafe für verlorenen Kampf. V > C.
• Pure NE: (Falke, Taube), (Taube, Falke)
• Mixed NE: P [Falke] =
20. Januar 2003
V
C,P
[Falke] =
Seite 8
V
C
.
Michael Groß
Kein Equilibrium
• Zwei Spieler wählen jeweils eine Zahl.
• Der mit der höheren Zahl hat gewonnen.
• Spiel hat kein Nash Gleichgewicht.
• Grund: unendlich viele Aktionen.
20. Januar 2003
Seite 9
Michael Groß
Equilibrium im Team Spiel
• Team Spiel hat eine gemeinsame payoff Matrix.
• Offensichtlich existiert immer ein reines Nash Equilibrium.
20. Januar 2003
Seite 10
Michael Groß
Existenz eines Equilibrium
• John Nash, 1950: Jedes endliche Matrix Spiel hat ein gemischtes
Nash Equilibrium.
• Beweis mit Kakutani Fixpunktsatz.
20. Januar 2003
Seite 11
Michael Groß
Kakutani Fixpunktsatz
• Verallgemeinerung des Brouwer Fixpunkt Satz.
• Statt Funktionen auf Korrespondenzen (mengenwertige
Funktionen).
• Eine Korrespondenz r : X → X hat einen Fixpunkt x ∈ X sodass
x ∈ r (x), wenn:
– X ⊆ Rn kompakt, konvex und nicht leer.
– r (x) ist nicht leer für alle x.
– r (x) ist konvex für alle x.
– r hat einen geschlossenen Graph.
20. Januar 2003
Seite 12
Michael Groß
Anwendung des Kakutani Fixpunktsatz
• Korrespondenz ist BR (p) (Beste Response).
• Menge ist P - Menge aller gemischter Strategien.
• Eine Korrespondenz BR : P → P hat einen Fixpunkt p ∈ P
sodass p ∈ BR (p), wenn:
– siehe Handout....
20. Januar 2003
Seite 13
Michael Groß
MDP
• Markov Decision Process - Grundlage von RL.
• Tupel (S, A, T, R).
– Zustandsmenge S.
– Aktionen A.
– Übergangsfunktion T : S × A × S → [0, 1].
– Rewards R : S × A → R.
20. Januar 2003
Seite 14
Michael Groß
Stochastisches Spiel, Markov Spiel
• Zusammenführung von Matrix Spiel und MDP.
• Stochastisches Spiel oder Markov Spiel.
• Tupel (n, S, A, T, R1 . . . Rn ).
– Agenten n.
– Zustandsmenge S.
– Aktionen A = A1 × A2 . . . An .
– Übergangsfunktion T : S × A × S → [0, 1].
– Rewards Ri : S × A → R.
20. Januar 2003
Seite 15
Michael Groß
Team Markov Spiel
• Zusammenführung von Matrix Spiel und MDP.
• Stochastisches Spiel oder Markov Spiel.
• Tupel (n, S, A, T, R1 . . . Rn ).
– Agenten n.
– Zustandsmenge S.
– Aktionen A = A1 × A2 . . . An .
– Übergangsfunktion T : S × A × S → [0, 1].
– Reward R : S × A → R.
20. Januar 2003
Seite 16
Michael Groß
Aufgabenstellung
• Auffinden des optimalen Nash Gleichgewicht.
• Koordiniertes spielen des Nash Gleichgewicht.
20. Januar 2003
Seite 17
Michael Groß
Fictitious Play
• Der Agent i merkt sich, wie oft Agent j die Aktion ak gespielt
hat: Caj k .
• P r Agent j spielt a
j
=
Cjj
a
P
bj ∈Aj
C jj
b
• Agent wählt Aktion mit größtem erwarteten Payoff.
• Konvergiert in Single Stage Team Markov Spielen.
20. Januar 2003
Seite 18
Michael Groß
Q-Lernen - Single Agent
0 0
Q (s, a) = Q (s, a) + α r + γmax
Q
(s
, a ) − Q (s, a)
0
a
• Zustand s, Aktion a, Lernrate α, Discount Faktor γ.
• Q-Lernen konvergiert zum optimalen Q? .
20. Januar 2003
Seite 19
Michael Groß
Independend Learner
• Idependend Learner beachtet die Existenz der anderen Agenten
nicht.
• Jeder Agent führt für sich gesehen die Q Update Regel mit
a ∈ Ai aus.
0 0
Q
(s
, a ) − Q (s, a)
Q (s, a) = Q (s, a) + α r + γmax
0
a
20. Januar 2003
Seite 20
Michael Groß
Joint Action Learner
• Der Agent benutzt für seine Q-Tabelle die Aktionen aller
Agenten, die Joint Action a ∈ A.
• Auswahl einer Aktion mit Hilfe eines Modells der anderen
Agenten.
P
Q
Q (a−i ∪ {ai }) P r (Agent j wählt a−i [j])
E (ai ∈ Ai ) =
a−i ∈A−i
j6=i
0 0
Q
(s
, a ) − Q (s, a)
Q (s, a) = Q (s, a) + α r + γmax
0
20. Januar 2003
a
Seite 21
Michael Groß
Modellbildung mit Fictitious Play
• Verwendung von Fictitious Play zur Modellbildung.
• Der Agent i merkt sich, wie oft Agent j die Aktion ak gespielt
hat: Caj k .
• P r Agent j spielt a
20. Januar 2003
j
=
Cjj
a
P
bj ∈Aj
C jj
b
Seite 22
Michael Groß
Probleme
• Probleme werden an Single Stage Stochastic Games untersucht.
• Da |S| = 1 ist der Q-Update Mechanismus anders:
• Q (a) = Q (a) + α (r − Q (a))
20. Januar 2003
Seite 23
Michael Groß
Vergleich Independend und Joint Action Learner
20. Januar 2003
Seite 24
Michael Groß
Mehrere Equilibria
20. Januar 2003
Seite 25
Michael Groß
Kein Equilibrium?
20. Januar 2003
Seite 26
Michael Groß
Open Adaptive Learning
• RL Algorithmus, der in Team Markov Spielen immer ein
optimales Equilibrium findet und spielt.
• Idee: Verwendung eines virtuellen Spiels, das die suboptimale
Equilibria bestraft.
• Das virtuelle Spiel ist gegeben durch eine Reward Funktion
V G (s, a).
20. Januar 2003
Seite 27
Michael Groß
Problem von Open Adaptive Learning
• Algorithmus benötigt eine S × A × S Datenstruktur.
• Beispiel Predator-Prey.
• 8 States pro Agent
• 4 Aktionen pro Agent
• 84 × 44 × 84 = 4096 × 256 × 4096 = 4.294.967.296
• 4 Byte pro Eintrag: 16 Gigabyte Speicher
20. Januar 2003
Seite 28
Michael Groß
Bibliographie
Literatur
[1] ISI glossary of statistical terms.
http://europa.eu.int/en/comm/eurostat/research/isi/index.htm
[2] B. von Stengel. Computing equilibria for two-person games. Technical Report 253, Dept. of Computer Science, ETH Zürich. To appear in Handbook
of Game Theory , Vol. 3, eds. R. J. Aumann und S. Hart, North-Holland,
Amsterdam. 1996.
http://citeseer.nj.nec.com/stengel99computing.html
[3] C. E. Lemke and J. T. Howson, Jr. (1964), Equilibrium points of bimatrix
games. Journal of the Society for Industrial and Applied Mathematics 12,
413–423. 1964.
[4] O. Mangasarian and H. Stone. Two-person nonzero-sum games and quadratic programming, 1964.
[5] J. Nash. Equilibrium points in n-person games. In Proceedings of the National Academy of Sciences, volume 36, pages 48–49, 1950.
20. Januar 2003
Seite 28
Michael Groß
Bibliographie
[6] S. Kakutani. A Generalization of Brouwer’s Fixed Point Theorem. Duke
Journal of Mathematics, Vol. 8. 1941.
[7] L.P. Kaelbling, L.M. Littman and A.W. Moore. Reinforcement learning: a
survey. Journal of Artificial Intelligence Research, vol. 4, pp. 237–285. 1996.
http://citeseer.nj.nec.com/kaelbling96reinforcement.html
[8] C. Watkins and P. Dyan. Q-learning. Machine Learning, 8(3/4):279-292.
1992.
[9] Christopher J.C.H. Watkins. Learning from Delayed Rewards. PhD thesis,
Cambridge University. 1989.
[10] Xiaofeng Wang and Tuomas Sandholm. Reinforcement Learning to Play
An Optimal Nash Equilibrium in Team Markov Games. 2002.
http://citeseer.nj.nec.com/535677.html
20. Januar 2003
Seite 28
Michael Groß
Herunterladen