Gemischte Strategien - Universität Bamberg

Werbung
Spieltheorie – Gemischte Strategien
Emanuel Kitzelmann
Kognitive Systeme
Universität Bamberg
Übung KogSys I, WS 06/07
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
1 / 15
Gliederung
1
Game Trees
Game Trees
2
Gemischte Strategien
Gemischte Strategien
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
2 / 15
Problemstellung
Nullsummenspiel mit zwei Spielern
Spieler ziehen abwechselnd
der zuerst ziehende Spieler heißt MAX, der Gegner MIN
indem der Payoff/Nutzen für MIN durch den von MAX determiniert
ist (Nullsummenspiel) genügt es, den Nutzen von MAX zu betrachten
Problem: besten Zug/beste Strategie für MAX finden unter der
Annahme, dass MIN optimal spielt
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
3 / 15
Game Trees
Spielzustände und Züge der Spieler werden im Game Tree folgendermaßen
repräsentiert:
Level 0 Wurzelknoten: Initialzustand; ausgehende Kanten: mögliche
Züge von MAX
Level 1 Knoten: Resultierende Zustände der im Initialzustand
möglichen Züge von MAX ; ausgehende Kanten: die jeweils
möglichen Züge von MIN
Level 2 Knoten: Resultierende Zustände der möglichen Züge von
MIN in Level 1; ausgehende Kanten: die jeweils möglichen
Züge von MAX
Level ... usw.
Blätter Endzustände
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
4 / 15
Berechnen der Minimax-Werte
MAX nutzt den Game Tree, um seinen besten Zug zu wählen. Dazu wird
jeder Knoten mit dem Payoff/Nutzen annotiert, den MAX sich ausgehend
vom jeweiligen Knoten nach Spielende maximal erwarten kann (also den
Nutzen, den MAX nach Spielende hat, falls er selbst und auch MIN ab
dem jeweiligen Zustand optimal spielen) – Minimax-Wert.
Berechnung der Minimax-Werte
Die Minimax-Werte werden ausgehend von den Blättern durch den Baum
bis zur Wurzel hochpropagiert:
Blätter: Nutzen, den MAX im jeweiligen Endzustand hat
Knoten/Zustand, in dem MAX zieht: maximaler Nutzenwert der
Nachfolgeknoten (denn MAX spielt den Zug, der seinen möglichen
Nutzen maximiert)
Knoten/Zustand, in dem MIN zieht: minimaler Nutzenwert der
Nachfolgeknoten (denn MIN spielt den Zug, der den möglichen
Nutzen von MAX minimiert – Nullsummenspiel)
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
5 / 15
Beispiel: Game Tree
Example (Game Tree)
MAX
3 A
a2
a1
3 B
MIN
b1
b2 b3
3
12
a3
2 C
c1
8
2
2 D
d1
c2 c3
4
6
14
d2 d3
5
2
Game Tree eines Ein-Zug (d.h., jeder Spieler zieht einmal)-Spiels: Die
Blätter zeigen den Nutzen für MAX, die anderen Knoten sind mit ihren
Minimax-Werten annotiert. MAX spielt a1 , da dieser Zug zum
Nachfolgezustand mit dem höchsten Minimax-Wert führt.
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
6 / 15
Gliederung
1
Game Trees
Game Trees
2
Gemischte Strategien
Gemischte Strategien
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
7 / 15
Motivation
Es gibt Fälle, wo ein Spiel, das durch eine Payoff-Matrix definiert ist, kein
Nash-Equilibrium mit puren Strategien (also Strategien, die eine feste
Aktion wählen) hat. Wenn man allerdings gemischte Strategien (engl.
mixed strategies) (das sind Strategien, die verschiedene Aktionen mit
bestimmten Wahrscheinlichkeiten wählen) zulässt, dann gibt es immer ein
Nash-Equilibrium.
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
8 / 15
Zwei-Finger Morra
Beim Spiel “Zwei-Finger Morra” zeigen beide Spieler (Even und Odd)
gleichzeitig jeweils ein oder zwei Finger. Ist die Gesamtanzahl der Finger
gerade, dann ist der Payoff für Even diese Anzahl und für Odd das
Negative. Ist die Gesamtanzahl ungerade, dann ist der Payoff für Odd
diese Anzahl und für Even das Negative. “Zwei-Finger Morra” ist ein
Zwei-Spieler Nullsummenspiel.
Payoff-Matrix für “Zwei-Finger Morra”
Even: one
Even: two
Odd: one
Even = 2, Odd = −2
Even = −3, Odd = 3
Odd: two
Even = −3, Odd = 3
Even = 4, Odd = −4
“Zwei Finger-Morra” hat kein Nash-Equilibrium mit puren Strategien.
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
9 / 15
Gemischte Strategie
Definition (Gemischte Strategie)
Eine gemischte Strategie ist eine Strategie, die nicht eine bestimmte
Aktion auswählt, sondern verschiedene Aktionen mit verschiedenen
Wahrscheinlichkeiten.
Example (Gemischte Strategie)
Beim “Zwei Finger-Morra” wäre eine mögliche gemischte Strategie:
Even : [0.3 : one, 0.7 : two]
D.h. Spieler Even wählt mit Wahrscheinlichkeit 0.3 die Aktion “one” und
mit Wahrscheinlichkeit 0.7 die Aktion “two”.
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
10 / 15
Game Tree für “Zwei Finger-Morra”
Die folgende Folie zeigt den Game Tree für den Fall, dass Even (E) zuerst
zieht. Even kann eine gemischte Strategie spielen, d.h. der Game Tree hat
unendlich viele von der Wurzel ausgehende Kanten (weil es unendlich viele
mögliche Wahrscheinlichkeiten für die Aktionen “one” und “two” gibt).
Diese werden repräsentiert durch eine mit der Wahrscheinlichkeit p für
“one” parametrisierten Kante (die Wahrscheinlichkeit für “two” ergibt sich
dann als 1 − p). Odd spielt anschließend eine pure Strategie, da keine
gemischte Strategie einen höheren Payoff liefern kann als eine pure, sofern
die (gemischte) Strategie von Even bekannt ist.
Die sich an den beiden Blättern ergebenden Payoffs für Even sind auch
parametrisiert mit der Wahrscheinlichkeit p. Die beiden Payoffs sind als
Geraden in ein Koordinatenfeld eingetragen, wobei die x-Achse die
Wahrscheinlichkeit p repräsentiert und die y -Achse den entsprechenden
Payoff. Odd wird “one” oder “two” spielen, je nachdem, welcher Payoff
bei gegebenem p niedriger ist (die entsprechenden Geradenabschnitte sind
fett eingezeichnet).
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
11 / 15
Game Tree und Payoff-Geraden für “Zwei Finger-Morra”
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
12 / 15
Optimale gemischte Strategie für Even
Das beste, was Even an der Wurzel machen kann, ist, dasjenige p zu
wählen, das die von Odd minimierten Payoffs maximiert, also genau den
Schnittpunkt der beiden Geraden.
Dazu werden die beiden Payoffs gleichgesetzt und nach p aufgelöst:
2p − 3(1 − p) = −3p + 4(1 − p)
⇔
5p − 3 = −7p + 4
⇔
12p = 7
7
p=
12
⇔
Die optimale gemischte Strategie für Even ist also
5
7
: one,
: two
12
12
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
13 / 15
Erwarteter Payoff für Even
Den erwarteten Payoff (also den Wert des Schnittpunkts der beiden
Geraden) erhält man, indem man das gefundene p in eine der beiden
Geradengleichungen einsetzt:
5p − 3
einsetzen: p =
7
12
5·7
−3
12
1
= −
12
=
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
14 / 15
Verallgemeinerung auf beliebig viele Aktionen
Bei Spielen mit mehr als zwei (k) möglichen Aktionen ist die Kante an der
Wurzel des Game Trees nicht mehr nur mit einer Wahrscheinlichkeit p
parametrisiert, sondern mit k − 1 Wahrscheinlichkeiten p1 , . . . , pk−1 . Die
Ausdrücke an den Blättern repräsentieren dann Hyperebenen und man hat
nicht zwei Geraden, die man schneidet, sondern k Hyperebenen, die man
schneidet.
E. Kitzelmann (Universität Bamberg)
Gemischte Strategien
Übung KogSys I, WS 06/07
15 / 15
Herunterladen