3 Dynamische Spiele mit vollständiger Information 3.1

Werbung
Spieltheorie (Winter 2009/10)
3-1
Prof. Dr. Ana B. Ania
3
Dynamische Spiele mit vollständiger
Information
Literaturhinweise zu Kapitel 3:
Osborne (2004), Kapitel 5-7
Gibbons (1992), Kapitel 2
MasColell, Whinston, Green (1995), Kapitel 7 und 9A+B
Fudenberg und Tirole (1991), Kapitel 3 und 4
3.1 Rückwärtsinduktion
Bisher hatten wir Situationen betrachtet, in denen beide
Parteien simultan über ihre Strategie entscheiden müssen.
Jetzt betrachten wir etwas kompliziertere zeitliche Strukturen. Dabei beschränken wir uns zunächst auf Spiele mit
vollständiger und perfekter Information, d.h., alle Spieler
spielen sequentiell, und jeder Spieler beobachtet alle vorangegangenen Züge.
Klaus M. Schmidt 2007
Spieltheorie (Winter 2009/10)
3-2
Prof. Dr. Ana B. Ania
Die Zeitstruktur eines Spiels
Spieler 1
qqqqqqq
qqqqqx
qqqqqqq
qqqqqqq
qqqqqqq
qqqqqqq
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqx
qq
q
q
x
q
q
q
qq qqq
q qqqq
q
q
q
qqqq
qqqq qqqqqqqq
q
q
q
q
qqqq
qqqq
qqqq
q
q
q
q
q
q
q
q
qqqq
q
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
q
qqqq
q
q
q
q
q
q
qqqq
qqqq
q
q
q
q
q
q
q
qqqq
q
q
q
qqqq
q
q
q
q
q
q
qqqq
q
qqqq
q
q
q
q
q
q
qqqq
q
q
qqq
qqq
qqq
Aktion 1
Spieler 2
Aktion 3
a
b
Aktion 2
Aktion 4 Aktion 3
c
d
e
f
Spieler 2
Aktion 4
g
h
Abb. 3.1: Ein Spielbaum
Beispiel 1: IBM vs. Intel
In den frühen 70er Jahren ist Intel der einzige Lieferant
von IBM für bestimmte Computerchips. IBM steht vor der
Wahl, entweder Intel als einzigen Lieferanten zu behalten
oder einen zweiten Lieferanten (AMD) aufzubauen.
Ohne einen zweiten Lieferanten kann Intel seine Monopolmacht ausnutzen. Dann würde IBM einen Gewinn von 10
und Intel einen Gewinn von 90 erhalten. Intel kündigt jedoch
an, auf das Ausnutzen der Monopolstellung zu verzichten
und die Gewinne gleichmäßig aufzuteilen (jeder bekommt
einen Gewinn von 50). Wenn sich IBM entscheidet, AMD
als zweiten Lieferanten aufzubauen, erhält IBM einen Gewinn von 40 und Intel einen Gewinn von 30.
Spieltheorie (Winter 2009/10)
3-3
Prof. Dr. Ana B. Ania
Sollte IBM eine zweite Lieferantenbeziehung aufbauen oder
darauf verzichten?
Zeichnen Sie den Spielbaum für dieses Spiel.
Bestimmen Sie die Normalform für dieses Spiel.
Spieltheorie (Winter 2009/10)
3-4
Prof. Dr. Ana B. Ania
Beispiel 2: Marktzutrittsspiel
Zutreter
qqqqqqq
qqqqqx
qqqqqqq
qqqqqqq
qqqqqqq
qqqqqqq
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqx
qqqqq
qq qqq
qqqq qqqqqqqq
qqqq
qqqq
q
q
q
q
qqqq
0
qqqq
qqqq
qqqq
qqqq
q
q
q
qqqq
q
q
q
2
q
qqqq
q
q
q
qqqq
q
q
q
q
qqqq
q
qqq
N
E
k
Monopolist
n
−1
−1
2
1
Abb. 3.2: Marktzutrittsspiel
Der Marktzutreter entscheidet, ob er eintritt (E) oder
nicht (N ).
Der Monopolist entscheidet, ob er kämpft (k) oder nicht
kämpft und sich den Markt teilt (n).
Ein sequentielles Spiel mit endlich vielen Stufen und perfekter Information wird von hinten (durch Rückwärtsinduktion)
gelöst.
Monopolist: Gegeben, dass der Zutreter eingetreten ist,
ist es für mich optimal, den Markt zu teilen.
Zutreter: Wenn ich zutrete, wird der Monopolist den
Markt teilen. Also sollte ich zutreten.
Das Ergebnis der Rückwärtsinduktion ist also (E, n).
Spieltheorie (Winter 2009/10)
3-5
Prof. Dr. Ana B. Ania
Rückwärtsinduktion und Nash-Gleichgewicht
Das Ergebnis der Rückwärtsinduktion ist ein Nash-GG:
Gegeben, dass der Zutreter E spielt, ist für den Monopolisten n optimal.
Gegeben, dass der Monopolist n spielt, ist für den Zutreter E optimal.
M
@
@
@
@
@
k
n
N
0, 2
0, 2
E
-1, -1
2, 1
Z
Abb. 3.3: Normalform des Marktzutrittsspiels
Analyse der Normalform zeigt, dass es noch ein zweites
Nash-GG gibt: (N, k).
Diese Strategie des Monopolisten ist nicht optimal, wenn
der Zutreter E spielen sollte. Aber: Im Nash-GG (N, k) tritt
der Zutreter eben nicht ein, also ist dieser Fall irrelevant.
Trotzdem ist das Nash-GG (N, k) nicht überzeugend. Der
Monopolist “droht”, zu kämpfen, falls der Zutreter zutritt.
Spieltheorie (Winter 2009/10)
3-6
Prof. Dr. Ana B. Ania
Das ist eine unglaubwürdige Drohung, weil es nicht
im Interesse des Monopolisten liegt, sie im Fall des Falles
tasächlich wahr zu machen.
Die Unglaubwürdigkeit einer Drohung lässt sich aus der Normalform des Spiels nicht erkennen. Darum werden wir bei
dynamischen Spielen oft die extensive Form des Spiels
betrachten, die die Zeit- und Informationsstruktur explizit
macht.
Ziel: Verfeinerung des Nash-Gleichgewichts. D.h.,
Ausschluss von Gleichgewichten, die unglaubwürdige Drohungen enthalten.
Bevor wir das tun, werden wir aber ein paar weitere Anwendungsbeispiele für Rückwärtsinduktion betrachten
Spieltheorie (Winter 2009/10)
3-7
Prof. Dr. Ana B. Ania
3.2 Anwendungsbeispiele für Rückwärtsinduktion
3.2.1 Stackelberg-Duopol
Heinrich von Stackelberg (1934)
1) Unternehmen 1, der Stackelberg-Führer, wählt seine Menge x1.
2) Unternehmen 2, der Stackelberg-Anpasser, beobachtet
x1 und wählt seine Menge x2.
3) Auf dem Markt ergibt sich der Preis als Funktion der
gesamten Menge: p = p(x1 + x2).
Dieses Modell wird oft verwendet, wenn es auf einem Markt
einen dominanten Anbieter gibt, an den alle übrigen Anbieter ihr Verhalten anpassen.
Beispiele:
Saudi-Arabien als größter Ölproduzent legt seine Menge
als erster fest. Andere Ölproduzenten passen sich an.
Südafrika: Dominierender Diamantenproduzent De Beers.
Andere Marktführer: Microsoft, IBM, Telekom, etc., aber
hier geht es meist um Preis- und/oder Qualitätswettbewerb bei heterogenen Gütern.
Spieltheorie (Winter 2009/10)
3-8
Prof. Dr. Ana B. Ania
Das Entscheidungsproblem des Anpassers
Der Anpasser maximiert seinen Gewinn
π2 = p(x1 + x2)x2 − c2(x2)
durch geeignete Wahl von x2. Dabei liegt die Menge x1
bereits fest und ist bekannt.
Bedingung erster Ordnung (BEO) für Gewinnmaximum:
dp(x1 + x∗2 )
dc2(x∗2 )
∗
p(x1 + x2 ) +
x2 =
dx2
dx2
Diese Bedingung legt die optimale Menge x∗2 als Funktion
von x1 fest, d.h.:
x∗2 = R2(x1)
Die Funktion R2(x1) wird Reaktionsfunktion von Unternehmen 2 genannt.
Beispiel:
Lineare Nachfrage: p(x1 + x2) = a − b · (x1 + x2)
Konstante Grenzkosten: c1(x) = c2(x) = c · x
Gewinnfunktion des Anpassers:
π2 = [a − b(x1 + x2)] · x2 − c · x2
BEO für Gewinnmaximum:
a − b(x1 + x2) − bx2 = c
Spieltheorie (Winter 2009/10)
3-9
Prof. Dr. Ana B. Ania
Gewinnfunktion ist streng konkav:
dπ22
= −2b < 0
d 2 x2
Reaktionsfunktion des Anpassers:
x2 =
a−c 1
a − bx1 − c
=
− x1
2b
2b
2
Das Problem des Marktführers
Der Marktführer kennt das Entscheidungsproblem des Anpassers und weiß, dass er die Menge x∗2 = R2(x1) wählen
wird. Also ist sein Gewinnmaximierungsproblem:
max
p(x1 + R2(x1)) · x1 − c1(x1)
x
1
BEO für Gewinnmaximum:
⎛
p(x∗1
+
R(x∗1 ))
⎞
dR2 ⎟ dp ∗
dc1
⎠
x1 =
+ 1+
dx1 dx
dx1
⎜
⎝
Der Stackelberg-Führer berücksichtigt nicht nur, wie eine
zusätzliche Einheit den Martkpreis direkt senkt, sondern
auch, wie sie die Menge seines Konkurrenten und damit
indirekt den Marktpreis beeinflusst.
Spieltheorie (Winter 2009/10)
3-10
Prof. Dr. Ana B. Ania
Im Beispiel:
Gewinnfunktion des Marktführers:
π1 = [a − b(x1 + R2(x1))] · x1 − c · x1
a−c
b
· x1 − · x21
=
2
2
BEO für Gewinnmaximum:
a−c
− bx∗1 = 0
2
a−c
x∗1 =
2b
Nachdem wir die optimale Menge des Stackelberg-Führers
kennen, können wir sie in die Reaktionsfunktion des Anpassers einsetzen, um dessen Menge, die gesamte Menge, und
den Marktpreis zu bestimmen.
Einsetzen von x∗1 in R2(x1) ergibt:
a−c
x∗2 =
4b
Die gesamte Menge ist also:
3(a − c)
x1 + x2 =
4b
Der Marktpreis ergibt sich als:
a + 3c
p∗ =
4
Spieltheorie (Winter 2009/10)
3-11
Prof. Dr. Ana B. Ania
Vergleich zum Cournot-Duopol
Der Gewinn des Stackelberg-Führers ist immer höher als
der Gewinn eines Cournot-Duopolisten. Warum?
Im Stackelberg-Spiel ist der Anpasser besser informiert
als ein Duopolist im Cournot-Spiel. Er kann beobachten,
welche Menge der Stackelberg-Führer auf den Markt
wirft. Trotzdem geht es dem Anpasser schlechter als
dem Cournot-Duopolisten. Warum?
In Ein-Personen-Entscheidungssituationen ist es unmöglich, dass sich der Entscheidungsträger schlechter stellt,
wenn er zusätzliche Informationen oder zusätzliche Handlungsmöglichkeiten bekommt.
In interpersonellen Entscheidungssituationen ist es dagegen oft besser, weniger Informationen oder weniger
Handlungsmöglichkeiten zu haben. Beispiele:
– Cournot- versus Stackelberg-Spiel.
– Chicken-Spiel: Angenommen, einer der Fahrer kann
sein Lenkrad aus dem Fenster werfen und sich damit
die Möglichkeit zum Ausweichen nehmen.
⇒ Gegenspieler wird ausweichen.
– Viele andere Beispiele für Selbstbindung (Commitment).
Spieltheorie (Winter 2009/10)
3-12
Prof. Dr. Ana B. Ania
3.2.2 Löhne und Beschäftigung
Leontief (1946), später in zahlreichen Variationen.
Zweistufiges Spiel:
1. Gewerkschaft bestimmt den Lohnsatz, w.
2. Unternehmen bestimmt die Beschäftigungsmenge, L.
Auszahlungsfunktionen:
Gewerkschaft:
U (w, L),
streng monoton steigend in w und L,
quasikonkav (konvexe Indifferenzkurven)
Unternehmen:
π(w, L) = R(L) − wL,
R(L) steigend und streng konkav,
limL→0 R(L) = ∞,
limL→∞ R(L) = 0.
Spieltheorie (Winter 2009/10)
3-13
Prof. Dr. Ana B. Ania
Rückwärtsinduktion
Unternehmen:
max R(L) − wL
L≥0
BEO (hier notwendig und hinreichend):
R(L) − w = 0
Die optimale Beschäftigungsmenge L∗(w) ist eine fallende Funktion von w. (Warum?)
Isogewinnlinien:
R(L) − c
R(L) − wL = c ⇒ w =
L
rrrrrrrr
rrrrrrrr
R r rrrrr
w r rrrrr
rr
rr
rrrr
rr
rrrrr
rr
rrrrr
r
rr
r
r
r
r
rr
rrrrr
rr
rrrrr
rr
rrrrr
rr
r
r
r
r
r
rr
rrrrr
rr
rrrrr
rr
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
r
rr
r
r
r
rr rrr
rr
rrrrrrrrrr
rr
rrrrrr
rr
rrrr
r
rr
r
r
r
r
rr
rrrrrr
rr
rrrrrrrrr
rr
rrrrrrrrrrrr
r
rr
r
r
r
rr rrrrrr rrr
rr rrrrrr rr
rrrrrr rrr
rr
rr
rr rrr
rr rr
rrr rrr
rr rrr
rr rr
rrr rrr
rrrr
rrr
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
r
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
L
L
Abb. 3.4: Gewinnmaximum und Isogewinnlinien der
Unternehmung
Spieltheorie (Winter 2009/10)
3-14
Prof. Dr. Ana B. Ania
Gewerkschaft antizipiert L∗(w):
max U (w, L∗(w))
w≥0
BEO:
w
∂U ∂U dL∗(w)
+
= 0
∂w ∂L dw
rr
rrrrrrrr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
rr
rrrrrrrr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
L
L
w
Abb. 3.5: Nutzenmaximum der Gewerkschaft, Ineffizienz
Bemerkungen:
1) Gewerkschaft sucht sich den besten Punkt auf der Reaktionsfunktion des Unternehmens.
2) Aber das Ergebnis ist ineffizient: Gewerkschaften und
Unternehmen könnten sich besser stellen, wenn sie den
Spieltheorie (Winter 2009/10)
3-15
Prof. Dr. Ana B. Ania
Lohn etwas verringerten und die Beschäftigung etwas
erhöhten.
3) Die Ineffizienz besteht, weil Gewerkschaft und Unternehmen nicht über Beschäftigung und Lohnhöhe gleichzeitig verhandeln. Warum wird das nicht gemacht?
3.2.3 Zeitkonsistenz der Geldpolitik
Barro und Gordon (1983)
Zweistufiges Spiel zwischen Zentralbank und privatem Sektor:
1. Die Privaten bilden Inflationserwartungen π e, die sich
insbesondere in Tarifabschlüssen niederschlagen.
2. Die Zentralbank beobachtet π e und entscheidet über die
Geldpolitik, die die tatsächliche Inflationsrate π determiniert.
Stark stilisiertes Modell in reduzierter Form. Tarifabschlüsse,
Transmissionsmechanismus von Geldpolitik auf realen und
monetären Sektor etc. werden nicht explizit modelliert.
Stattdessen: Zentralbank möchte die gesamtwirtschaftliche
Wohlfahrt maximieren, indem sie die Verlustfunktion
L(u, π) = u + γπ 2
minimiert. Dabei ist u > 0 die Arbeitslosenquote, γ > 0.
Spieltheorie (Winter 2009/10)
3-16
Prof. Dr. Ana B. Ania
Die Volkswirtschaft wird durch eine modifizierte Phillipskurve beschrieben:
u = un − α(π − π e)
Die natürliche Arbeitslosenquote un > 0 wird durch Tarifabschlüsse bestimmt. Die Zentralbank kann die tatsächliche
Inflationsrate perfekt und ohne Zeitverzögerung steuern.
Die privaten Wirtschaftssubjekte möchten die tatsächliche
Inflation so gut wie möglich voraussagen:
U (π, π e) = −(π − π e)2
Rückwärtsinduktion
Zentralbank: Inflationserwartungen liegen bereits fest.
min
un − α(π − π e) + γπ 2
π
BEO:
dL
= −α + 2γπ = 0
dπ
Daraus folgt:
α
2γ
Beachten Sie: Die “optimale Inflationsrate” für die Zentralbank ist in diesem Modell unabhängig von den Inflationserwartungen der Privaten.
π∗ =
Spieltheorie (Winter 2009/10)
3-17
Prof. Dr. Ana B. Ania
Private Wirtschaftssubjekte antizipieren π ∗:
max
−(π ∗ − π e)2
e
π
Daraus folgt:
α
2γ
Für die Arbeitslosenquote ergibt sich:
πe = π∗ =
u = un − α(π ∗ − π e) = un
Bemerkungen:
Ergebnis ist ineffizient: u = un und π = 0 wäre besser.
Problem der Zentralbank: Sie kann sich nicht binden,
eine Inflationsrate von 0 zu wählen. Die Privaten antizipieren, dass die Bank ex post einen Anreiz hat, zu
inflationieren.
Der Anreiz zu inflationieren besteht, obwohl die Privaten
die Inflation perfekt voraussehen und sie darum keine für
die Zentralbank positiven Effekte hat.
Regelgebundene Geldpolitik: Wenn die Zentralbank eine
“Reputation” dafür aufbauen könnte, nie zu inflationieren, würde sie sich besserstellen. Siehe dazu das Kapitel
über wiederholte Spiele.
Spieltheorie (Winter 2009/10)
3-18
Prof. Dr. Ana B. Ania
3.3 Die extensive Form eines Spiels
Definition 3.1 (Extensive Form) Die extensive
Form eines Spiels spezifiziert:
(1) die Menge der Spieler {1, . . . , n};
(2a) zu welchem Zeitpunkt welcher Spieler am
Zug ist;
(2b) welche Aktionen einem Spieler zur Verfügung
stehen, wenn er am Zug ist;
(2c) was ein Spieler weiß, wenn er am Zug ist;
(3) die Auszahlung eines jeden Spielers für jede
mögliche Kombination von Zügen.
Die Definition der extensiven Form ist ganz analog zu der
der Normalform. Einziger Unterschied: Die Beschreibung
der Strategienräume kann sehr viel komplexer sein.
Spiele in extensiver Form können mit Hilfe eines Spielbaums
beschrieben werden.
Spieltheorie (Winter 2009/10)
3-19
Prof. Dr. Ana B. Ania
Ein Spielbaum besteht einer Menge von geordneten und
miteinander verbundenen Knoten:
Entscheidungsknoten: Hier kann genau ein Spieler
aus einer Menge von Aktionen auswählen. Jede Aktion
führt zu einem neuen Entscheidungs- oder Endknoten.
Endknoten: Hier endet das Spiel, und Auszahlungen
werden zugeordnet.
Der Spielbaum beginnt mit genau einem Anfangs-Entscheidungsknoten.
Wir werden immer annehmen, dass ein Spielbaum sich echt
verzweigt:
Er wächst nicht in sich selbst zurück (keine Zyklen);
Zweige wachsen nicht wieder zusammen (keine gemeinsamen Vorgänger).
Gegenbeispiele?
Spieltheorie (Winter 2009/10)
3-20
Prof. Dr. Ana B. Ania
Zufallszüge der Natur
In vielen Spielen gibt es exogene Unsicherheit. Wir können
das modellieren, indem wir einen zusätzlichen Spieler, die
“Natur”, einführen, die aus der Menge der möglichen Zustände
der Welt einen nach einer gegebenen Wahrscheinlichkeitsverteilung auswählt.
Z
qx
qqqqqqq qqqqqqqqqqqqqq
qqqqqqq
qqqqqqq
qqqqqqq
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
qqqqqqq
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqx
q
q
q
qq
qqq qqqq
qqqq qqqqqqqq
q
q
q
q
qqqq
q
q
1
1
q
q
qqqq
0
qqqq
qqqq
qqqq 2
qqqq
q
2
q
q
qqqq
qq
2
qqqq
qqqq
qqqq
qqqq
qqqx
qqqqq
qq qx
qqq
qq qqq
qq qqq
qq q qqqq
qq qqq
qq
qqq
qq
qqq
q
qqq
qqq
qq
qq
qqq
qqq
qq
q
qq q
qqq
qqq
qq
q
qqq
qqq
qq q
qq q
qq
qq
qq
qq
N
E
Natur
M
M
n
k
0
0
3
3
k
−1
−1
n
1
1
Abb. 3.6: Marktzutrittsspiel mit exogener Unsicherheit
Nach der Zutrittsentscheidung realisiert sich der Zustand
der Welt:
Mit Wahrscheinlichkeit 12 ist die Nachfrage groß, beide
können hohe Gewinne machen.
Mit Wahrscheinlichkeit 12 ist die Nachfrage niedrig, beide
machen bei Wettbewerb Verluste.
Spieltheorie (Winter 2009/10)
3-21
Prof. Dr. Ana B. Ania
Informationsmengen
Definition 3.2 (Informationsmenge) Eine Informationsmenge ist eine Menge von Entscheidungsknoten mit den Eigenschaften:
Bei allen Entscheidungsknoten einer Informationsmenge ist derselbe Spieler am Zug.
Ein Spieler kann die verschiedenen Knoten einer Informationsmenge nicht unterscheiden. Insbesondere hat er an jedem Knoten einer Informationsmenge dieselbe Menge von Aktionen.
Jeder Entscheidungsknoten gehört zu genau einer
Informationsmenge.
Beispiele:
1
qqqq
qqqqx
qqqqqqq qqqqqqqqqqqqq
qqqqqqq
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
qqqqqqq
qqqqqqq
qqqqqqq
qqqqqqq
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
qq
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
qq q
q
q
x
q
q
qq
q
qqqqx
q qqqq
q
q
q
qqqq qqqqqqqq
q
qqqq
q
q
q
qqqq
qqqq
qqqq
q
q
q
q
q
q
q
q
qqqq
qqqq
q
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
q
q
q
q
q
q
q
qqqq
q
q
qqqq
q
q
q
q
q
q
qqqq
qqqq
q
q
q
q
q
q
qqqq
q
q
qqqq
q
q
q
q
q
q
qqqq
q
q
qqqq
q
qqq
qqq
G
L
2
g
−3
−3
2
0
−5
g
−5
0
−1
−1
Abb. 3.7: Das Gefangenen-Dilemma
Spieltheorie (Winter 2009/10)
3-22
Prof. Dr. Ana B. Ania
1
qqqqqqq
qqqqqqqx
qqqqqqq
qqqqqqq
qqqqqqq
qqqqqqq
qqqqqqq
q
q
q
q
q
q
qqqqqqq
qq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqx
q
q
q
qqqqq
x
q
q
q
qqq qqqqq
q qqqq
q
q
q
qqqq qqqqqqq
qqqq
q
q
q
q
q
q
q
q
qqqq
qqqq
q
q
q
q
q
q
q
qqqq
qqqq
q
q
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
q
q
q
q
q
q
qqqq
q
qqqq
q
q
q
q
q
q
qqqq
q
q
qqqq
q
q
q
q
q
q
qqqq
q
q
qqqq
q
q
qqqqx
qq qq
q
q
qqx
q
qqq
qqq
qx
q qq
qq qqx
q
qq qqq
qq qq
qq qqq
qq q qqq
qq qq
qq q qqqqq
qq qqq
qq qqq
qq qqq
q
qq
q
q
qqq
qqq
qqq
qqq
q
q
q
q
qqq
qqq
qqq
qqq
qq
qq
qq
qq
qqq
qqq
qqq
qq
qq
qq
qqq
qq
qq
qqq
qqq
qq
qq
qqq
qqq
q
q
qq q
q
qqq
qqq
qqq
qqq
qq q
qq q
qq
qq q
qq
qq
qq
qq
qq
qq
qq
q
2
1
2
1
1
1
Abb. 3.8: Mögliche und unmögliche Informationsmengen
Wenn ein Spiel nur einelementige Informationsmengen enthält,
sprechen wir von einem Spiel mit perfekter Information
(nicht zu verwechseln mit vollständiger Information).
Gibt es mehrelementige Informationsmengen sprechen wir
von einem Spiel mit imperfekter Information (nicht zu
verwechseln mit unvollständiger Information).
Strategien
Definition 3.3 (Strategie) Eine Strategie ist ein
vollständig konditionierter Aktionsplan: Für jede Informationsmenge, in der der Spieler am Zug ist, spezifiziert sie eine mögliche Aktion, d.h., sie konditioniert die Aktion auf die von Spieler i beobachtete
bisherige Geschichte des Spiels.
Spieltheorie (Winter 2009/10)
3-23
Prof. Dr. Ana B. Ania
Beispiele:
1
qqq
qqx
qqqqqqq qqqqqqqqqqqqq
qqqqqqq
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
qqqqqqq
qqqqqqq
qqqqqqq
qqqqqqq
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
qq
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
qq
q
qqqqqx
q
q
q
x
q
q
q qqqqq
q
q
q
qqqq qqqqqqqq
q qqqq
q
q
q
qqqq
qqqq
qqqq
q
q
q
q
q
q
q
qqqq
qqqq
q
q
q
q
q
q
q
q
qqqq
qqqq
q
q
qqqq
qqqq
qqqq
qqqq
q
q
q
q
q
qqqq
q
q
q
q
qqqq
q
q
q
q
q
qqqq
q
qqqq
q
q
q
q
q
q
qqqq
q
q
qqqq
q
q
q
q
q
q
qqqq
q
q
qqqq
qq
q
qqqq
qqqq
L
R
2
2
r
3
1
r
1
2
2
1
0
0
Abb. 3.9: Strategien in einem Spiel mit perfekter
Information
Spieler 1 hat 2 Strategien: L, R
Spieler 2 hat 4 Strategien: , r, r, rr
2
@
@
@
@
@
r
r
rr
L
3, 1
3, 1
1, 2
1, 2
R
2, 1
0, 0
2, 1
0, 0
1
Abb. 3.10: Normalform dieses Spiels
Spieltheorie (Winter 2009/10)
3-24
Prof. Dr. Ana B. Ania
1
qqqqqqq
qqqqqqqx
qqqqqqq
qqqqqqq
qqqqqqq
qqqqqqq
qqqqqqq
q
q
q
q
q
q
qqqqqqq
qq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqx
q
q
q
qqqqq
x
q
q
q
qqq qqqqq
q qqqq
q
q
q
qqqq qqqqqqq
qqqq
q
q
q
q
q
q
q
q
qqqq
qqqq
q
q
q
q
q
q
q
qqqq
qqqq
q
q
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
q
q
q
q
q
q
qqqq
q
qqqq
q
q
q
q
q
q
qqqq
q
q
qqqq
q
q
q
q
q
q
qqqq
q
q
qqqq
q
q
qqqqx
qq qq
q
q
qqx
q
qqq
qqq
q
qx
qq qqx
q
qq qqq
qq qq
qq qqq
qq q qqq
qq qq
qqq qqqq qqq qqqq qqq qqqq qqqqq qqqqqq qqq
qqq
qqq
qqq
qq
qq
qq
qq
qqq
qqq
qqq
qqq
qq
qq
qq
qq
qqq
qqq
qqq
qqq
qq
qq
qq
qq
qqq
qqq
qq q
qqq
qqq
qq q
qq q
qq q
qqq
q
q
qq
q
qqq
qqq
qqq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
L
R
2
2
r
1
L
R
L
1
R
r
1
L
R
L
1
R
Abb. 3.11: Strategien in einem Spiel mit imperfekter
Information
Strategien von Spieler 1:
Strategien von Spieler 2:
Jedes Spiel in extensiver Form kann in ein Spiel in Normalform überführt werden.
Aber: Zu einem Spiel in Normalform können mehrere verschiedene Spiele in extensiver Form existieren.
Spieltheorie (Winter 2009/10)
3-25
Prof. Dr. Ana B. Ania
3.4 Teilspielperfekte Gleichgewichte
Definition 3.4 (Teilspiel) Ein Teilspiel eines Spiels
in extensiver Form
a) beginnt in einem Entscheidungsknoten K einer
einelementigen Informationsmenge,
b) beinhaltet alle Entscheidungs- und Endknoten,
die K nachfolgen, aber keine Knoten, die K nicht
nachfolgen,
c) durchtrennt keine nachfolgenden Informationsmengen.
1
qqqqqqq
qqqqqx
qqqqqqq
qqqqqqq
qqqqqqq
qqqqqqq
q
q
qqqqqqq
q
q
q
q
qq
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqx
q
qqqq
q
x
q
q
q
qq qqq
q qqqq
q
q
q
qqqq qqqqqqqq
q
qqqq
q
q
q
q
q
q
qqqq
q
qqqq
q
q
q
q
q
q
q
qqqq
q
qqqq
q
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
q
q
q
q
q
qqqq
q
q
q
q
qqqq
q
q
q
q
q
qqqq
q
qqqq
q
q
q
q
q
q
qqqq
q
q
qqqq
q
q
q
q
q
q
qqqqx
q
q
qqqx
qqqqq
qq qqq
qq qx
qq qx
qqqqq
qqqqq
qq qqq
qq qq
qq qq
q
q
q
q
q
q
q
qq qqq
qq qqqq qq qqq qq q qqqqqq qqq
qqq
qqq
qqq
qq
qq
qq
qq
qqq
qqq
qqq
qq
qq
qq
qq
qqq
qqq
qq
qqq
qqq
qq
qq
qq
qqq
q
q
q
q
q
qq q
q
qqq
qqq
qqq
qqq
q
q
q
q
q
qq
q
qqq
qqq
qqq
qqq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
L
R
2
2
r
1
L
R
L
1
R
r
1
L
R
Abb. 3.12: Teilspiele
L
1
R
Spieltheorie (Winter 2009/10)
3-26
Prof. Dr. Ana B. Ania
Intuitiv ist ein Teilspiel einfach ein Teil des gesamten Spiels,
der in einem Knoten beginnt und alle nachfolgenden Knoten enthält. An diesem Knoten muss die gesamte bisherige
Geschichte des Spiels dem Spieler, der hier am Zug ist, bekannt sein.
Ein Teilspiel kann isoliert betrachtet und analysiert werden.
Die folgende Definition stammt von Reinhard Selten (1965).
Definition 3.5 (Teilspielperfekte GG) Ein NashGleichgewicht ist teilspielperfekt, wenn die Strategien der Spieler in jedem Teilspiel ein Nash-Gleichgewicht
bilden.
Beispiel:
1
qqqqqqq
qqqqqqx
qqqqqqq
qqqqqqq
qqqqqqq
qqqqqqq
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
q
qqqqqqq
q
q
q
q
q
q
qqqqqx
q
qqqq
q
x
q
q
q
qq qqqq
q qqqq
q
q
q
qqqq qqqqqqq
qqqq
q
q
q
q
q
q
q
q
qqqq
qqqq
q
q
q
q
q
q
q
qqqq
qqqq
q
q
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
qqqq
q
q
q
q
q
q
qqqq
q
q
q
qqqq
q
q
q
q
q
q
qqqq
qqqq
q
q
q
q
q
q
qqqq
q
q
qqqq
q
q
q
q
qqqq
q
q
q
q
q
qq
qq
qq
L
R
2
3
1
2
r
1
2
2
1
r
0
0
Abb. 3.13: Teilspielperfektes Nash-Gleichgewicht
Spieltheorie (Winter 2009/10)
3-27
Prof. Dr. Ana B. Ania
Analyse der Teilspiele:
Gegeben, dass Spieler 1 L gewählt hat, sollte 2 r spielen.
Gegeben, dass Spieler 1 R gewählt hat, sollte 2 spielen.
Gegeben das Verhalten von 2 sollte 1 R spielen.
Das teilspielperfekte Nash-Gleichgewicht ist (R, rl).
Beachten Sie:
Der Gleichgewichtspfad ist (R, l)
Aber: Das Gleichgewicht muss auch angeben, was außerhalb des Gleichgewichtspfades passieren würde. Darum
ist das Gleichgewicht (R, rl).
Es existiert ein zweites Nash-Gleichgewicht: (L, rr).
Aber, dieses Nash-GG ist nicht teilspielperfekt. Es enthält
die unglaubwürdige Drohung, dass Spieler 2 r spielt,
sollte Spieler 1 R spielen.
Teilspielperfektheit ist nicht nur für Spiele mit perfekter Information, sondern auch für beliebige Spiele mit
imperfekter Information wohldefiniert.
Spieltheorie (Winter 2009/10)
3-28
Prof. Dr. Ana B. Ania
Satz 3.1 Jedes endliche Spiel in extensiver Form
hat wenigstens ein teilspielperfektes Nash-Gleichgewicht.
Beweisskizze: Der Beweis ist konstruktiv und zeigt, wie man
ein teilspielperfektes Gleichgewicht finden kann. Das Verfahren ist eine Verallgemeinerung der Rückwärtsinduktion.
1) Beginne am Ende des Spielbaums und bestimme für
alle letzten Teilspiele die Nash-Gleichgewichte. Da es
sich bei diesen letzten Spielen um endliche Spiele handelt, muss in jedem von ihnen wenigstens ein NashGleichgewicht (eventuell in gemischten Strategien) existieren.
2) Wähle für jedes dieser Teilspiele ein Nash-Gleichgewicht
aus und ersetze das Teilspiel durch den Vektor der Gleichgewichtsauszahlungen.
3) Wiederhole diese Schritte für das reduzierte Spiel solange, bis alle Züge im gesamten Spiel bestimmt sind.
Damit ist ein teilspielperfektes Nash-Gleichgewicht gefunden.
Spieltheorie (Winter 2009/10)
3-29
Prof. Dr. Ana B. Ania
Satz 3.2 Jedes endliche Spiel in extensiver Form
mit perfekter Information hat generisch ein eindeutiges teilspielperfektes Nash-Gleichgewicht.
Beweis: Bei perfekter Information gibt es auf jeder Stufe der Rückwärtsinduktion nur einfache Ein-Personen-Entscheidungsprobleme. Da diese Probleme endlich sind, haben
sie eine Lösung. Generisch führen unterschiedliche Aktionen
nie zu denselben Auszahlungen. Also gibt es auf jeder Stufe eine eindeutige optimale Aktion, und folglich auch ein
eindeutiges Nash-Gleichgewicht.
Bemerkungen:
1. Dieser Satz wurde schon von Zermelo (1913) bewiesen.
2. Bei Spielen mit imperfekter Information kann es natürlich
mehrdeutige Gleichgewichte in einem Teilspiel geben.
Die Menge aller TPGG im gesamten Spiel erhält man,
indem man die Rückwärtsinduktion mit jeder möglichen
Kombination aller möglichen Gleichgewichte durchführt.
Spieltheorie (Winter 2009/10)
3-30
Prof. Dr. Ana B. Ania
Beispiel: Ein Spiel mit imperfekter Information
Betrachten Sie das folgende Spiel mit zwei Perioden, bei
dem die Spieler in der ersten Periode ein Gefangenen-Dilemma
und in der zweiten Periode ein Koordinationsspiel spielen:
B
@
@
cooperate defect
@
A @@
cooperate
2, 2
-1, 3
defect
3, -1
0, 0
r
L
x, x
0, 0
R
0, 0
y, y
B
@
@
@
@
@
A
Fig. 4.12: SPE of a Game of Imperfect Information
Was sind die teilspielperfekten Gleichgewichte dieses Spiels?
Unter welcher Annahme an x und y kann ein teilspielperfektes Gleichgewicht gestützt werden, bei dem die beiden
Spieler in der ersten Periode kooperieren?
Spieltheorie (Winter 2009/10)
3-31
Prof. Dr. Ana B. Ania
3.5 Teilspielperfektheit und Rationalität
Teilspielperfektheit erfordert, dass es “Common Knowledge” ist, dass alle Spieler rational sind. Betrachten Sie das
folgende Spiel:
1
qqqq
qqqqx
qqqq qqqqqqqq
qqqq
qqqq
q
q
q
qqqq
q
qqqq
qqqq
qqqq
qqqq
q
q
q
qqqq
q
q
q
qqqq
q
q
q
q
qqqq
q
qqqq
qqq qqq
qqq
qqqx
qqqq qqqqqqqq
q
q
q
q
qqqq
q
q
q
q
qqqq
2
qqqq
qqqq
qqqq
qqqq
q
q
q
qqqq
q
q
q
0
q
qqqq
q
q
q
q
qqqq
qq q
qqq qqq
qq
qqqqx
qqqq qqqqqqqq
q
q
q
q
qqqq
q
q
q
qqqq
q
1
qqqq
qqqq
q
q
q
qqqq
qqqq
qqqq
1
qqqq
qqqq
qqqq
qqqq
qqqq
qqq qqq
L
R
2
r
1
L
3
0
R
0
2
Abb. 3.14: Rationalität und Rückwärtsinduktion
Rückwärtsinduktion ergibt, dass Spieler 1 L spielen und das
Spiel damit beenden sollte. Begründung: Wenn Spieler 1 R
spielt, sollte Spieler 2 spielen, denn würde er r spielen,
würde Spieler 1 in der letzten Runde L spielen.
Angenommen, Spieler 1 spielt dennoch R.
Zeigt er damit nicht, dass er irrational ist?
Wenn Spieler 1 aber irrational ist, sollte Spieler 2 dann
Spieltheorie (Winter 2009/10)
3-32
Prof. Dr. Ana B. Ania
nicht vielleicht doch lieber r spielen, in der Hoffnung,
dass Spieler 1 sich in der letzten Runde ebenfalls irrational verhält und R spielt?
Wenn Spieler 2 durch diese Argumentation verleitet wird,
r zu spielen, sollte dann nicht auch ein rationaler Spieler
1 R in Runde 1 spielen?
Rückwärtsinduktion ist nur solange überzeugend, solange
Abweichungen vom Rückwärtsinduktionspfad rational erklärt werden können. Das hat Selten (1975) motiviert, das
Konzept des “perfekten Gleichgewichts” einzuführen:
1) Es ist common knowledge, beide Spieler sind rational.
2) Aber: Beide Spieler machen mit sehr kleinen Wahrscheinlichkeiten Fehler: ihre Hände zittern bei der Auswahl
der Strategien. Mit Wahrscheinlichkeit 1 − spielt jeder
Spieler die intendierte Strategie, aber mit Wahrscheinlichkeit macht er einen Fehler und wählt eine andere
(zufällig ausgewählte) Strategie. Die Wahl von R kann
dann als nicht intendierter Fehler von 1 interpretiert werden und bedeutet nicht, dass 1 irrational ist.
3) Ein perfektes Gleichgewicht ist der Limes einer Folge
von Gleichgewichten, in denen jeder Spieler mit Wahrscheinlichkeit einen Fehler macht, wenn gegen 0 konvergiert.
Spieltheorie (Winter 2009/10)
3-33
Prof. Dr. Ana B. Ania
Das folgende Spiel soll noch einmal darauf hinweisen, dass
Teilspielperfektheit nicht immer völlig plausibel sein muss.
Spieler 1 und 2 sind abwechselnd am Zug und können jedesmal entscheiden, ob das Spiel enden oder weitergehen
soll.
1
2
1
2
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqx
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqx
qqqqqqqqqqqqqqqq
qx
qqq
qqq
q
qqq
qq
q
qq
qq
qqq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
q
q
q
w
w
s
1
1
w
s
0
3
2
2
2
w
s
1
qqqqqqqx
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqx
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqx
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qq
qq
q
qqq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
qq
q
q
q
w
s
97
100
w
s
99
99
100
100
s
98
101
Abb. 3.15: Rosenthals Hundertfüßler
Das eindeutige TPGG ist, dass jeder Spieler das Spiel beendet, wenn er zum Zug kommt.
Was passiert, wenn Spieler 1 das Spiel in Periode 1 nicht
beendet? Sollte Spieler 2 sich dennoch an das Gleichgewicht
halten?
Ob dieses TPGG überzeugend ist oder nicht, hängt entscheidend davon ab, wie die Spieler Abweichungen vom Gleichgewichtspfad interpretieren.
Spieltheorie (Winter 2009/10)
3-34
Prof. Dr. Ana B. Ania
3.6 Ein Zermürbungskrieg
Das klassische Beispiel für einen Zermürbungskrieg stammt
aus der Biologie (Maynard Smith, 1974): Kampf zweier Tiere um ein Territorium.
Wir betrachten dieses Spiel nur in diskreter Zeit mit unendlichem Horizont:
Folge von Zeitpunkten: t = 0, 1, 2, . . .
In jeder Periode entscheiden beide Spieler simultan, ob sie
“kämpfen” oder “aufgeben” sollen.
Wenn beide kämpfen, verlieren beide eine Nutzeneinheit
pro Periode, und das Spiel geht weiter.
Wenn einer aufgibt, der andere aber nicht, erhält der
Gewinner einer Preis im Wert v, der Verlierer nichts,
und das Spiel ist zu Ende.
Wenn beide gleichzeitig aufgeben, sind beide Verlierer
und erhalten beide nichts.
Auszahlungen: Sei t̂ die Periode, in der der Verlierer aufgegeben hat.
Verlierer:
uv (t̂) = −(1 + δ + · · · + δ
t̂−1
1 − δ t̂
)·1=−
1−δ
Spieltheorie (Winter 2009/10)
3-35
Prof. Dr. Ana B. Ania
Gewinner:
ug (t̂) = −(1 + δ + · · · + δ
t̂−1
1 − δ t̂
+ δ t̂v
)·1+δ v = −
1−δ
t̂
Existiert ein symmetrisches, stationäres TPGG?
Ja, aber nur in gemischten Strategien.
Angenommen beide Spieler geben in jeder Periode mit Wahrscheinlichkeit p auf und kämpfen mit Wahrscheinlichkeit
1 − p.
Diese Strategien sind nur dann ein Gleichgewicht, wenn jeder Spieler in jeder Periode indifferent ist, ob er aufgeben
oder weiterkämpfen soll. Also muss in jeder Periode t gelten:
0 = p v + (1 − p) · [−1 + δ · 0]
Interpretation:
Die bisher verlorenen Nutzeneinheiten sind “sunk costs”.
Wir brauchen also nur Auszahlungen zu betrachten, die
von der jetzigen Periode an erhalten werden.
0 ist die Auszahlung, wenn ich heute aufgebe.
Wenn ich nicht aufgebe, gibt es zwei Möglichkeiten:
– Mit Wahrscheinlichkeit p gibt mein Gegner auf, und
ich bekomme v.
Spieltheorie (Winter 2009/10)
3-36
Prof. Dr. Ana B. Ania
– Mit Wahrscheinlichkeit 1 − p gibt er nicht auf, was
mich diese Runde eine Nutzeneinheit kostet. In der
nächsten Runde bin ich dann wieder indifferent zwischen Aufgeben und Kämpfen. Also ist der FolgePayoff ab der nächsten Runde genau 0.
Auflösen ergibt:
p∗ =
1
1+v
Bemerkungen:
1) Je höher der Preis v, um so kleiner ist die Wahrscheinlichkeit des Aufgebens.
2) Das Ergebnis ist ineffizient, weil mit positiver Wahrscheinlichkeit gekämpft wird. Mit positiver Wahrscheinlichkeit sind die Kosten des Kämpfens sogar höher als
der zu gewinnende Preis.
3) Es gibt noch andere TPGG. Beispiel: Spieler 1 wird immer kämpfen, Spieler 2 wird immer aufgeben. Insbesondere sind alle stationären Nash-Gleichgewichte auch
teilspielperfekt.
4) Aber: Das Gleichgewicht, dass wir oben charakterisiert
haben, ist das einzige symmetrische Gleichgewicht.
Spieltheorie (Winter 2009/10)
3-37
Prof. Dr. Ana B. Ania
3.7 Das “Einmal-Abweichungsprinzip”
In den bisherigen Beispielen war es relativ einfach, zu prüfen,
ob ein Strategientupel (s∗1 , . . . , s∗n) ein TPGG ist. In komplizierteren Spielen kann das jedoch sehr aufwendig sein. Der
folgende Satz macht uns das Leben erheblich leichter:
Satz 3.3 (Einmal-Abweichungsprinzip) Ein Strategientupel s∗ ist teilspielperfekt genau dann, wenn
es für keinen Spieler i eine Strategie s̃i gibt, die sich
von s∗i nur in einer Periode t und nach einer Geschichte ht unterscheidet, und die echt besser ist als
s∗i , wenn das Teilspiel nach ht erreicht wird.
Bemerkungen:
1) Es ist offensichtlich, dass die Bedingung notwendig für
Teilspielperfektheit ist. Gäbe es eine solche profitable
Abweichungsstrategie s̃i, dann kann sicher kein TPGG
vorliegen. (Achtung: Es könnte immer noch ein NashGleichgewicht vorliegen, falls die Geschichte ht auf dem
Gleichgewichtspfad nicht erreicht wird.)
2) Es ist nicht offensichtlich, dass die Bedingung auch hinreichend für Teilspielperfektheit ist. Angenommen, es
gäbe keine profitable Strategie s̃i, die nur in einer Informationsmenge von s∗i abweicht. Dann könnte es immer
Spieltheorie (Winter 2009/10)
3-38
Prof. Dr. Ana B. Ania
noch eine Strategie ŝi geben, die an mehreren Informationsmengen gleichzeitig von s∗i abweicht und echt besser
als s∗i ist.
3) Wenn wir den Satz bewiesen haben, können wir uns das
Leben in Zukunft sehr viel leichter machen: Wir müssen
nur noch prüfen, ob es Abweichungsstrategien gibt, die
profitabel an nur einer Informationsmenge abweichen.
Das ist besondern nützlich bei wiederholten Spielen.
4) Wir führen den Beweis für Spiele mit endlichem Horizont. Der Beweis für Spiele mit unendlichem Horizont
wird nur skizziert. Siehe Fudenberg-Tirole, S. 107-110.
Beweis (durch Widerspruch): Angenommen, wir haben ein
Strategientupel s∗, das der Bedingung des Einmal-Abweichungsprinzips genügt, das aber nicht teilspielperfekt ist.
Dann existiert ein Zeitpunkt t und eine Geschichte ht, so
dass es für einen Spieler i eine Strategie ŝi gibt, die nach
ht echt besser gegen s∗−i ist als s∗i und an wenigstens zwei
Informationsmengen von s∗i abweicht.
Wir suchen jetzt die “letzte” Informationsmenge, an der eine Abweichung von s∗i echt profitabel ist: Betrachte den
letzten Zeitpunkt, an dem es eine Informationsmenge gibt,
in der ŝi von s∗i abweicht. Wenn ŝi zu keiner strikten Verbesserung führt, falls diese Informationsmenge erreicht wird,
Spieltheorie (Winter 2009/10)
3-39
Prof. Dr. Ana B. Ania
dann ersetze diesen Teil von ŝi durch den entsprechenden
Teil von s∗i und gehe zur nun “letzten” Informationsmenge
mit einer Abweichung. Tue das solange, bis die “letzte” Informationsmenge gefunden ist, in der ŝi echt besser ist als
s∗i . Die Geschichte, die zu dieser Informationsmenge führt,
nennen wir h̃t̃.
Betrachte jetzt eine Strategie s̃i, die mit s∗i in allen Informationsmengen übereinstimmt, bis auf diejenige im Anschluss
an h̃t̃, die wir im letzten Abschnitt gefunden haben. An dieser Informationsmenge stimmt die Strategie mit ŝi überein.
In allen folgenden Informationsmengen ist sie aber wieder
identisch mit s∗i . Aufgrund unserer Konstruktion muss gelten:
s̃i ist gegen s∗−i echt besser als s∗i , wenn h̃t̃ erreicht wird.
s̃i weicht von s∗i in nur einer einzigen Informationsmenge
ab.
Also ist eine profitable Abweichung mit einfacher Abweichung gefunden. Das ist ein Widerspruch zu der Annahme, dass s∗i die Bedingung des Einmal-Abweichungsprinzips
erfüllt.
Q.E.D.
Spieltheorie (Winter 2009/10)
3-40
Prof. Dr. Ana B. Ania
Beweisskizze für Spiele mit unendlichem Horizont:
Bei unendlichem Horizont muss es keine “letzte” Informationsmenge mit einer profitablen Abweichung geben. Was
dann?
Wenn die Strategie ŝi gegen s∗−i echt besser ist als s∗i , dann
existiert ein > 0, so dass
ui(ŝi, s∗−i | ht) > ui(s∗i , s∗−i | ht) + .
Wenn die Spieler zukünftige Auszahlungen diskontieren, dann
existiert ein t < ∞, so dass der Gegenwartswert aller Auszahlungen nach t kleiner als sind.
Also muss die Strategie ŝi zu einer profitablen Abweichung
vor der Periode t führen.
Damit haben wir wieder ein endliches Problem, das wir von
hinten aufrollen können genau wie im obigen Beweis.
Herunterladen