Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß [email protected] 20. Januar 2003 0-0 Matrixspiel • Matrix Game, Strategic Game, Spiel in strategischer Form. • Tupel (n, A1..n , R1..n ). 20. Januar 2003 Seite 1 Michael Groß Nullsummenspiel • Zero Sum Game, Nullsummenspiel • Die Summe aller payoff R1 + R2 + . . . + Rn = 0. • Strictly Competitve. 20. Januar 2003 Seite 2 Michael Groß Team Spiel • Strictly Cooperative, Team Spiel. • Eine gemeinsame payoff Matrix. 20. Januar 2003 Seite 3 Michael Groß Gefangenendilemma - Pure Strategy • pure strategy, reine Strategie, deterministische Strategie • ai von Spieler i gewählte Aktion. • a Aktion von allen Spielern (Joint-Action). • a−i Aktion von allen Spielern ausser Spieler i. 20. Januar 2003 Seite 4 Michael Groß Stein-Papier-Schere - Mixed Strategy • gemischte Strategie, mixed strategy, stochastische Strategie • Wahrscheinlichkeitsverteilung pi auf den Aktionen Ai . • p Strategie aller Spieler. • p−i Strategie aller Spieler ausser Spieler i. • Reine Strategie ist Spezialfall. 20. Januar 2003 Seite 5 Michael Groß Best Response • BRi (p−i ) ist die beste Antwort von Spieler i auf die Strategien der anderen Spieler. • ui (pi , p−i ) ist der erwartete Payoff von Spieler i wenn er die Strategie pi spielt. 20. Januar 2003 Seite 6 Michael Groß Nash Gleichgewicht • Jeder Spieler spielt den Best Response - ein Spieler kann sich nicht alleine verbessern. • ∀i∀pi : pi = BRi (p−i ) • ∀i : BRi (p−i ) = arg maxui (pi , p−i ) pi ∈Pi • Pure Strategy Nash Equilibrium, Mixed Strategy Nash Equilibrium. 20. Januar 2003 Seite 7 Michael Groß Multiple Equilibria • Das Falke-Taube Spiel hat mehrere Nash Gleichgewichte. • V Belohnung, C Strafe für verlorenen Kampf. V > C. • Pure NE: (Falke, Taube), (Taube, Falke) • Mixed NE: P [Falke] = 20. Januar 2003 V C,P [Falke] = Seite 8 V C . Michael Groß Kein Equilibrium • Zwei Spieler wählen jeweils eine Zahl. • Der mit der höheren Zahl hat gewonnen. • Spiel hat kein Nash Gleichgewicht. • Grund: unendlich viele Aktionen. 20. Januar 2003 Seite 9 Michael Groß Equilibrium im Team Spiel • Team Spiel hat eine gemeinsame payoff Matrix. • Offensichtlich existiert immer ein reines Nash Equilibrium. 20. Januar 2003 Seite 10 Michael Groß Existenz eines Equilibrium • John Nash, 1950: Jedes endliche Matrix Spiel hat ein gemischtes Nash Equilibrium. • Beweis mit Kakutani Fixpunktsatz. 20. Januar 2003 Seite 11 Michael Groß Kakutani Fixpunktsatz • Verallgemeinerung des Brouwer Fixpunkt Satz. • Statt Funktionen auf Korrespondenzen (mengenwertige Funktionen). • Eine Korrespondenz r : X → X hat einen Fixpunkt x ∈ X sodass x ∈ r (x), wenn: – X ⊆ Rn kompakt, konvex und nicht leer. – r (x) ist nicht leer für alle x. – r (x) ist konvex für alle x. – r hat einen geschlossenen Graph. 20. Januar 2003 Seite 12 Michael Groß Anwendung des Kakutani Fixpunktsatz • Korrespondenz ist BR (p) (Beste Response). • Menge ist P - Menge aller gemischter Strategien. • Eine Korrespondenz BR : P → P hat einen Fixpunkt p ∈ P sodass p ∈ BR (p), wenn: – siehe Handout.... 20. Januar 2003 Seite 13 Michael Groß MDP • Markov Decision Process - Grundlage von RL. • Tupel (S, A, T, R). – Zustandsmenge S. – Aktionen A. – Übergangsfunktion T : S × A × S → [0, 1]. – Rewards R : S × A → R. 20. Januar 2003 Seite 14 Michael Groß Stochastisches Spiel, Markov Spiel • Zusammenführung von Matrix Spiel und MDP. • Stochastisches Spiel oder Markov Spiel. • Tupel (n, S, A, T, R1 . . . Rn ). – Agenten n. – Zustandsmenge S. – Aktionen A = A1 × A2 . . . An . – Übergangsfunktion T : S × A × S → [0, 1]. – Rewards Ri : S × A → R. 20. Januar 2003 Seite 15 Michael Groß Team Markov Spiel • Zusammenführung von Matrix Spiel und MDP. • Stochastisches Spiel oder Markov Spiel. • Tupel (n, S, A, T, R1 . . . Rn ). – Agenten n. – Zustandsmenge S. – Aktionen A = A1 × A2 . . . An . – Übergangsfunktion T : S × A × S → [0, 1]. – Reward R : S × A → R. 20. Januar 2003 Seite 16 Michael Groß Aufgabenstellung • Auffinden des optimalen Nash Gleichgewicht. • Koordiniertes spielen des Nash Gleichgewicht. 20. Januar 2003 Seite 17 Michael Groß Fictitious Play • Der Agent i merkt sich, wie oft Agent j die Aktion ak gespielt hat: Caj k . • P r Agent j spielt a j = Cjj a P bj ∈Aj C jj b • Agent wählt Aktion mit größtem erwarteten Payoff. • Konvergiert in Single Stage Team Markov Spielen. 20. Januar 2003 Seite 18 Michael Groß Q-Lernen - Single Agent 0 0 Q (s, a) = Q (s, a) + α r + γmax Q (s , a ) − Q (s, a) 0 a • Zustand s, Aktion a, Lernrate α, Discount Faktor γ. • Q-Lernen konvergiert zum optimalen Q? . 20. Januar 2003 Seite 19 Michael Groß Independend Learner • Idependend Learner beachtet die Existenz der anderen Agenten nicht. • Jeder Agent führt für sich gesehen die Q Update Regel mit a ∈ Ai aus. 0 0 Q (s , a ) − Q (s, a) Q (s, a) = Q (s, a) + α r + γmax 0 a 20. Januar 2003 Seite 20 Michael Groß Joint Action Learner • Der Agent benutzt für seine Q-Tabelle die Aktionen aller Agenten, die Joint Action a ∈ A. • Auswahl einer Aktion mit Hilfe eines Modells der anderen Agenten. P Q Q (a−i ∪ {ai }) P r (Agent j wählt a−i [j]) E (ai ∈ Ai ) = a−i ∈A−i j6=i 0 0 Q (s , a ) − Q (s, a) Q (s, a) = Q (s, a) + α r + γmax 0 20. Januar 2003 a Seite 21 Michael Groß Modellbildung mit Fictitious Play • Verwendung von Fictitious Play zur Modellbildung. • Der Agent i merkt sich, wie oft Agent j die Aktion ak gespielt hat: Caj k . • P r Agent j spielt a 20. Januar 2003 j = Cjj a P bj ∈Aj C jj b Seite 22 Michael Groß Probleme • Probleme werden an Single Stage Stochastic Games untersucht. • Da |S| = 1 ist der Q-Update Mechanismus anders: • Q (a) = Q (a) + α (r − Q (a)) 20. Januar 2003 Seite 23 Michael Groß Vergleich Independend und Joint Action Learner 20. Januar 2003 Seite 24 Michael Groß Mehrere Equilibria 20. Januar 2003 Seite 25 Michael Groß Kein Equilibrium? 20. Januar 2003 Seite 26 Michael Groß Open Adaptive Learning • RL Algorithmus, der in Team Markov Spielen immer ein optimales Equilibrium findet und spielt. • Idee: Verwendung eines virtuellen Spiels, das die suboptimale Equilibria bestraft. • Das virtuelle Spiel ist gegeben durch eine Reward Funktion V G (s, a). 20. Januar 2003 Seite 27 Michael Groß Problem von Open Adaptive Learning • Algorithmus benötigt eine S × A × S Datenstruktur. • Beispiel Predator-Prey. • 8 States pro Agent • 4 Aktionen pro Agent • 84 × 44 × 84 = 4096 × 256 × 4096 = 4.294.967.296 • 4 Byte pro Eintrag: 16 Gigabyte Speicher 20. Januar 2003 Seite 28 Michael Groß Bibliographie Literatur [1] ISI glossary of statistical terms. http://europa.eu.int/en/comm/eurostat/research/isi/index.htm [2] B. von Stengel. Computing equilibria for two-person games. Technical Report 253, Dept. of Computer Science, ETH Zürich. To appear in Handbook of Game Theory , Vol. 3, eds. R. J. Aumann und S. Hart, North-Holland, Amsterdam. 1996. http://citeseer.nj.nec.com/stengel99computing.html [3] C. E. Lemke and J. T. Howson, Jr. (1964), Equilibrium points of bimatrix games. Journal of the Society for Industrial and Applied Mathematics 12, 413–423. 1964. [4] O. Mangasarian and H. Stone. Two-person nonzero-sum games and quadratic programming, 1964. [5] J. Nash. Equilibrium points in n-person games. In Proceedings of the National Academy of Sciences, volume 36, pages 48–49, 1950. 20. Januar 2003 Seite 28 Michael Groß Bibliographie [6] S. Kakutani. A Generalization of Brouwer’s Fixed Point Theorem. Duke Journal of Mathematics, Vol. 8. 1941. [7] L.P. Kaelbling, L.M. Littman and A.W. Moore. Reinforcement learning: a survey. Journal of Artificial Intelligence Research, vol. 4, pp. 237–285. 1996. http://citeseer.nj.nec.com/kaelbling96reinforcement.html [8] C. Watkins and P. Dyan. Q-learning. Machine Learning, 8(3/4):279-292. 1992. [9] Christopher J.C.H. Watkins. Learning from Delayed Rewards. PhD thesis, Cambridge University. 1989. [10] Xiaofeng Wang and Tuomas Sandholm. Reinforcement Learning to Play An Optimal Nash Equilibrium in Team Markov Games. 2002. http://citeseer.nj.nec.com/535677.html 20. Januar 2003 Seite 28 Michael Groß