Essentials of Game Theory

Werbung
Grundlagen der Spieltheorie
Spieltheorie untersucht das strategische Verhalten von Akteuren (Spielern) in Situationen, in
denen der Nutzen einer gewählten Aktion (Strategie) von den gewählten Aktionen
(Strategien) der anderen Akteure abhängt.
Typische Fragestellungen:
Wie lassen sich solche Situationen abstrakt beschreiben?
=> abstrakte Spiele
Welches Verhalten der Spieler kann als „rational“ bezeichnet werden?
=> Kombinationen von Strategien, die bestimmte Bedingungen erfüllen
Spieltheorie ist im Grenzbereich von Ökonomie, Mathematik und Informatik angesiedelt.
1. Spiele in Normalform (strategische Spiele)
Def.: Ein Spiel in Normalform ist ein Tripel G = (P, (Si)i  P, (ui)i  P). Hierbei ist
P die Menge der Spieler (wir nehmen o.B.d.A. an: P = {1, …, n})
Si ist die Menge der Strategien von Spieler i
ui: S1 x … x Sn -> R ist eine Nutzenfunktion (payoff function), die den Wert eines
Strategieprofils für Spieler i beschreibt.
Strategieprofile: Elemente von S1 x … x Sn (ordnen jedem Spieler eine Strategie zu).
Spiele dieser Art lassen sich als n-dimensionale Tabellen repräsentieren, Einträge sind
Vektoren (u1(P), …, un(P)) und repräsentieren den Nutzen eines gewählten Strategieprofils P
für alle Spieler.
Beispiele:
1\2
H
T
H
1,-1
-1,1
T
-1,1
1,-1
Matching Pennies
Beide Spieler wählen simultan eine Seite einer Münze. Wenn beide Kopf oder beide Zahl
haben, kriegt Spieler 1 alles, sonst Spieler 2.
1\2
Opera Movie
Opera
2,1
0,0
Movie 0,0
1,2
Battle of Sexes
Anna (1) und Peter (2) wollen gemeinsam ausgehen. Sie steht mehr auf Oper, er mehr auf
Kino, aber beide wollen auf jeden Fall zusammen sein.
1\2
C
D
C
2,2
4,0
D
0,4
3,3
Prisoners’ Dilemma
Zwei Diebe werden ertappt, aber die Polizei kann ihnen den Diebstahl nur teilweise
nachweisen. Wenn beide gestehen (confess), bekommt jeder 2 Jahre. Wenn beide leugen
(deny) bekommt jeder 1 Jahr. Wenn einer gesteht, der andere leugnet, dann geht der andere
für 4 Jahre in den Knast, der gesteht kommt frei.
Dominanz: betrachte folgendes Spiel:
1\2
U
D
L
2,3
1,0
R
5,0
4,3
Welche Strategie sollte 1 wählen ? Was immer 2 tut, U ist besser für 1 als D.
Def.: Sei sk eine Strategie von Spieler k in einem n-Personen-Spiel. Eine Strategie sk’ von
Spieler k dominiert sk gdw. sk’ für jede Kombination von Strategien der anderen Spieler einen
höheren Nutzen für k erbringt als Strategie sk.
Wahl einer dominierten Strategie wird üblicher Weise als irrational betrachtet.
Prisoners’ Dilemma: für jeden Dieb wird deny dominiert von confess. Deshalb geht die
(nichtkooperative) Spieltheorie davon aus, dass C,C gewählt wird, obwohl D,D beiden
höheren Nutzen bringen würde!!
Iterative Elimination von dominierten Strategien:
1\2
A
B
X
3,3
0,0
Y
0,5
1,1
Z
0,4
1,2
X wird dominiert von Y und eliminiert. In der verbleibenden Tabelle wird A dominiert von B.
Jetzt dominiert Z Y.
Die nach iterativer Elimination dominierter Strategien verbleibenden Strategieprofile heißen
rationalisierbar.
Def.: Seien p und p’ Strategieprofile. p ist mindestens so effizient wie p’ (p  p’), wenn für
alle Spieler k gilt: uk(p)  uk(p’). p ist strikt effizienter als p’, wenn p  p’ und nicht p’  p. p
heißt Pareto-optimal, wenn es kein Strategieprofil gibt, das strikt effizienter als p ist.
Zu beachten: Profile aus rationalisierbaren Strategien sind nicht notwendiger Weise Paretooptimal (siehe obiges Beispiel).
Entspricht rationalisierbar „rational“? Oft gibt es sehr viele rationalisierbare Profile. Z.B sind
im Battle of Sexes Spiel alle Strategieprofile rationalisierbar:
1\2
Opera Movie
Opera
2,1
0,0
Movie 0,0
1,2
Battle of Sexes
Iterative Elimination eliminiert gar nichts. (Opera,Opera) und (Movie,Movie) „irgendwie“
besser. Was haben diese Profile, was die anderen nicht haben?
Def. : Sei p = (s1, ..., sk-1, sk+1, …, sn) ein Strategieprofil für die Spieler außer k. sk heißt beste
Antwort (best response) von k auf p, wenn es kein sk’ gibt mit
uk(s1, ..., sk-1, sk’ ,sk+1, …, sn) > uk(s1, ..., sk-1, sk ,sk+1, …, sn).
Def.: Sei p = (s1, ..., sn) ein Strategieprofil für alle Spieler. p ist ein Nash-Gleichgewicht, wenn
für alle Spieler j gilt: sj ist beste Antwort auf die Strategien der übrigen Spieler in p.
Intuitiv: in einem Nash-Gleichgewicht gibt es keine Möglichkeit für einen einzelnen Spieler,
seinen Gewinn dadurch zu erhöhen, dass er (alleine) seine Strategie ändert.
Battle of Sexes: (Opera,Opera), (Movie,Movie) Nash-Gleichgewichte
Prisoners’ Dilemma: CC Nash-Gleichgewicht, denn DC ist nicht besser für Spieler 1, und CD
ist nicht besser für Spieler 2.
Anmerkung 1: nicht jedes Spiel hat ein Nash-Gleichgewicht. Beispiel: Matching Pennies
HH -> HT (besser für 2) -> TT (besser für 1) -> TH (besser für 2) -> HH (besser für 1)
Anmerkung 2: Die Spieltheorie untersucht auch so genannte gemischte Strategien. Hierbei
kann ein Spieler die verfügbaren (reinen) Strategien mit gewisser Wahrscheinlichkeit spielen.
2. Spiele in extensiver Form
weniger abstrakt: berücksichtigen Spielverläufe (Folgen von Aktionen) und die jeweiligen
Informationszustände der Spieler:



Menge von Spielern P
Menge von Aktionen A
Menge von Zuständen N, entsprechen legalen Folgen von Aktionen. Ein Zustand ist
entweder Terminalzustand oder Entscheidungszustand
 Äquivalenzrelation auf Zuständen (äquivalente sind nicht unterscheidbar),
Äquivalenzklassen heißen Informationsmengen
 Zuordnung eines Spielers und legaler Aktionen zu jeder Informationsmenge
 Nutzenfunktion ui definiert Nutzen von Spieler i für jedes Strategieprofil
Strategieprofil: Strategie für jeden Spieler;
Strategie für i: legale Aktion für jede Informationsmenge von i.
Alle früheren Definitionen anwendbar, da sie nur von Strategie und Nutzen abhängen, die
auch für extensive Spiele definiert sind.
Lässt sich als Baum repräsentieren: Beispiel
strategische Form des Spiels:
Zu beachten: eine Strategie eines Spielers besteht aus einer Aktion für jede Informationsmenge dieses Spielers, die in dem Spiel vorkommt. LL heißt also nicht: Spieler I spielt erst L,
dann noch mal L (was nicht geht), sondern: falls seine Informationsmenge {4} ist, spielt I L,
falls sie {7} ist, spielt er L.
In dieser Matrix ist (LL, RL) ein Nash-Gleichgewicht. Das ist etwas verwunderlich, denn
wenn Spieler I Knoten 7 erreicht, würde er nicht L spielen, da R einen höheren Gewinn
bringt. Die Analyse der Nash-Gleichgewichte erfasst das nicht, denn dieser Effekt tritt off the
path of play ein. Da Spieler I am Knoten 4 L wählt, wird 7 nicht erreicht.
Einige neue Begriffe sind deshalb von Bedeutung
Teilspiel:
Spiel, das durch den Baum unter einem Knoten repräsentiert wird
Baum muss information set complete sein, d.h. alle Knoten enthalten, die zu
einer Informationsmenge eines seiner Knoten gehören.
Teilspiel-perfektes Nash Gleichgewicht:
Strategieprofil, das ein Nash Gleichgewicht für jedes Teilspiel spezifiziert.
Im obigen Beispiel ist (LL, RL) nicht Teilspiel-perfekt, denn für das Teilspiel unter Knoten 7
ist R besser für Spieler I.
Herunterladen