Spieltheorie – Gemischte Strategien Emanuel Kitzelmann Kognitive Systeme Universität Bamberg Übung KogSys I, WS 06/07 E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 1 / 15 Gliederung 1 Game Trees Game Trees 2 Gemischte Strategien Gemischte Strategien E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 2 / 15 Problemstellung Nullsummenspiel mit zwei Spielern Spieler ziehen abwechselnd der zuerst ziehende Spieler heißt MAX, der Gegner MIN indem der Payoff/Nutzen für MIN durch den von MAX determiniert ist (Nullsummenspiel) genügt es, den Nutzen von MAX zu betrachten Problem: besten Zug/beste Strategie für MAX finden unter der Annahme, dass MIN optimal spielt E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 3 / 15 Game Trees Spielzustände und Züge der Spieler werden im Game Tree folgendermaßen repräsentiert: Level 0 Wurzelknoten: Initialzustand; ausgehende Kanten: mögliche Züge von MAX Level 1 Knoten: Resultierende Zustände der im Initialzustand möglichen Züge von MAX ; ausgehende Kanten: die jeweils möglichen Züge von MIN Level 2 Knoten: Resultierende Zustände der möglichen Züge von MIN in Level 1; ausgehende Kanten: die jeweils möglichen Züge von MAX Level ... usw. Blätter Endzustände E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 4 / 15 Berechnen der Minimax-Werte MAX nutzt den Game Tree, um seinen besten Zug zu wählen. Dazu wird jeder Knoten mit dem Payoff/Nutzen annotiert, den MAX sich ausgehend vom jeweiligen Knoten nach Spielende maximal erwarten kann (also den Nutzen, den MAX nach Spielende hat, falls er selbst und auch MIN ab dem jeweiligen Zustand optimal spielen) – Minimax-Wert. Berechnung der Minimax-Werte Die Minimax-Werte werden ausgehend von den Blättern durch den Baum bis zur Wurzel hochpropagiert: Blätter: Nutzen, den MAX im jeweiligen Endzustand hat Knoten/Zustand, in dem MAX zieht: maximaler Nutzenwert der Nachfolgeknoten (denn MAX spielt den Zug, der seinen möglichen Nutzen maximiert) Knoten/Zustand, in dem MIN zieht: minimaler Nutzenwert der Nachfolgeknoten (denn MIN spielt den Zug, der den möglichen Nutzen von MAX minimiert – Nullsummenspiel) E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 5 / 15 Beispiel: Game Tree Example (Game Tree) MAX 3 A a2 a1 3 B MIN b1 b2 b3 3 12 a3 2 C c1 8 2 2 D d1 c2 c3 4 6 14 d2 d3 5 2 Game Tree eines Ein-Zug (d.h., jeder Spieler zieht einmal)-Spiels: Die Blätter zeigen den Nutzen für MAX, die anderen Knoten sind mit ihren Minimax-Werten annotiert. MAX spielt a1 , da dieser Zug zum Nachfolgezustand mit dem höchsten Minimax-Wert führt. E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 6 / 15 Gliederung 1 Game Trees Game Trees 2 Gemischte Strategien Gemischte Strategien E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 7 / 15 Motivation Es gibt Fälle, wo ein Spiel, das durch eine Payoff-Matrix definiert ist, kein Nash-Equilibrium mit puren Strategien (also Strategien, die eine feste Aktion wählen) hat. Wenn man allerdings gemischte Strategien (engl. mixed strategies) (das sind Strategien, die verschiedene Aktionen mit bestimmten Wahrscheinlichkeiten wählen) zulässt, dann gibt es immer ein Nash-Equilibrium. E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 8 / 15 Zwei-Finger Morra Beim Spiel “Zwei-Finger Morra” zeigen beide Spieler (Even und Odd) gleichzeitig jeweils ein oder zwei Finger. Ist die Gesamtanzahl der Finger gerade, dann ist der Payoff für Even diese Anzahl und für Odd das Negative. Ist die Gesamtanzahl ungerade, dann ist der Payoff für Odd diese Anzahl und für Even das Negative. “Zwei-Finger Morra” ist ein Zwei-Spieler Nullsummenspiel. Payoff-Matrix für “Zwei-Finger Morra” Even: one Even: two Odd: one Even = 2, Odd = −2 Even = −3, Odd = 3 Odd: two Even = −3, Odd = 3 Even = 4, Odd = −4 “Zwei Finger-Morra” hat kein Nash-Equilibrium mit puren Strategien. E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 9 / 15 Gemischte Strategie Definition (Gemischte Strategie) Eine gemischte Strategie ist eine Strategie, die nicht eine bestimmte Aktion auswählt, sondern verschiedene Aktionen mit verschiedenen Wahrscheinlichkeiten. Example (Gemischte Strategie) Beim “Zwei Finger-Morra” wäre eine mögliche gemischte Strategie: Even : [0.3 : one, 0.7 : two] D.h. Spieler Even wählt mit Wahrscheinlichkeit 0.3 die Aktion “one” und mit Wahrscheinlichkeit 0.7 die Aktion “two”. E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 10 / 15 Game Tree für “Zwei Finger-Morra” Die folgende Folie zeigt den Game Tree für den Fall, dass Even (E) zuerst zieht. Even kann eine gemischte Strategie spielen, d.h. der Game Tree hat unendlich viele von der Wurzel ausgehende Kanten (weil es unendlich viele mögliche Wahrscheinlichkeiten für die Aktionen “one” und “two” gibt). Diese werden repräsentiert durch eine mit der Wahrscheinlichkeit p für “one” parametrisierten Kante (die Wahrscheinlichkeit für “two” ergibt sich dann als 1 − p). Odd spielt anschließend eine pure Strategie, da keine gemischte Strategie einen höheren Payoff liefern kann als eine pure, sofern die (gemischte) Strategie von Even bekannt ist. Die sich an den beiden Blättern ergebenden Payoffs für Even sind auch parametrisiert mit der Wahrscheinlichkeit p. Die beiden Payoffs sind als Geraden in ein Koordinatenfeld eingetragen, wobei die x-Achse die Wahrscheinlichkeit p repräsentiert und die y -Achse den entsprechenden Payoff. Odd wird “one” oder “two” spielen, je nachdem, welcher Payoff bei gegebenem p niedriger ist (die entsprechenden Geradenabschnitte sind fett eingezeichnet). E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 11 / 15 Game Tree und Payoff-Geraden für “Zwei Finger-Morra” E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 12 / 15 Optimale gemischte Strategie für Even Das beste, was Even an der Wurzel machen kann, ist, dasjenige p zu wählen, das die von Odd minimierten Payoffs maximiert, also genau den Schnittpunkt der beiden Geraden. Dazu werden die beiden Payoffs gleichgesetzt und nach p aufgelöst: 2p − 3(1 − p) = −3p + 4(1 − p) ⇔ 5p − 3 = −7p + 4 ⇔ 12p = 7 7 p= 12 ⇔ Die optimale gemischte Strategie für Even ist also 5 7 : one, : two 12 12 E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 13 / 15 Erwarteter Payoff für Even Den erwarteten Payoff (also den Wert des Schnittpunkts der beiden Geraden) erhält man, indem man das gefundene p in eine der beiden Geradengleichungen einsetzt: 5p − 3 einsetzen: p = 7 12 5·7 −3 12 1 = − 12 = E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 14 / 15 Verallgemeinerung auf beliebig viele Aktionen Bei Spielen mit mehr als zwei (k) möglichen Aktionen ist die Kante an der Wurzel des Game Trees nicht mehr nur mit einer Wahrscheinlichkeit p parametrisiert, sondern mit k − 1 Wahrscheinlichkeiten p1 , . . . , pk−1 . Die Ausdrücke an den Blättern repräsentieren dann Hyperebenen und man hat nicht zwei Geraden, die man schneidet, sondern k Hyperebenen, die man schneidet. E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 15 / 15