Lösungen Aufgabenblatt 9 zur Spieltheorie SS 2017

Lösungen Aufgabenblatt 9 zur Spieltheorie SS 2017
Aufgabe 9.1: Zur Entstehung von Vertrauen in langfristigen Beziehungen“ soll die Itera”
tion des folgenden Basisspiels zwischen SP1 und SP2 betrachtet werden:
SP1
N
(0,0)
T
C
(1,1)
SP2
D
(-1,2)
SP1 kann einen Auftrag an SP2 erteilen. SP2 kann den Auftrag im Sinne von SP1 ausführen (C =cooperate) oder pfuschen“
”
(D = defect). Wenn SP2 kooperiert, nutzt dies beiden Spielern.
Wenn SP2 defektiert, vergrößert er seinen Nutzen, aber schadet
SP1. SP1 kann SP2 vertrauen (T = trust), indem er den Auftrag
erteilt, oder es lassen (N = no trust).
Ein solches Vertrauensspiel“ entsteht z.B. dann, wenn SP1 die von SP2 angebotene, nicht
”
dessen tatsächlich erbrachte (vielleicht minderwertige) Leistung bezahlen muss.
a) Welche Nash-GGe in reinen Strategien hat das Basisspiel?
Antwort: Strategien von SP1: {N, T},
C
D
N 0, 0 0, 0
⇒
⇒ Normalform:
T 1, 1 -1, 2
Strategien von SP2: {C, D}
Einziges Nash-GG: (N, D)
Welche teilspielperfekten Nash-GGe in reinen Strategien hat das Basisspiel?
Rück.Ind.: Auf Stufe 2 wählt SP2 D, dann sieht“ SP1 auf Stufe 1 folgendes Spiel:
”
SP1
N
T
(0,0)
(-1,2)
und wählt N. Eindeutiges TSPNGG also (N, D)
Gibt es im Basisspiel strikt dominierte Strategien? Gibt es schwach dominierte?
Antwort: Nur eine Dominanzrelation: C von SP2 ist schwach dominiert von D.
Anmerkung:
Das ist schon anders als im GD (wo beide SP strikt dominierte Strategien haben).
Iterierte Elimination strikt dominierter Strategien würde hier gar nichts bringen
(und iterierte Elimination schwach dominierter Strategien hat den Nachteil, dass dabei
manchmal auch Nash-GGe eliminiert werden).
1
b) Der folg. Spielbaum soll das zweimal (undiskontiert) wiederholte Basisspiel darstellen:
SP1
N
T
SP2
SP2
T
N
(0,0)
SP1
D
C
(1,1)
N
(-1,2)
C
SP1
T
(1,0) C
(3,2)
D
SP1
N
T
SP2
D (-1,2) C
(0,3)
SP2
D
(0,3) (-2,4)
Der Spielbaum ist zwar formal korrekt, gibt aber nicht das zweimal wiederholte Basisspiel wieder, bei dem die Spieler die Aktionen der ersten Runde beobachten, an jedem
Endknoten der ersten Runde ein neues Basisspiel beginnt und die Auszahlungen beider
Runden sich zur Endauszahlung addieren. Korrigieren Sie die (fünf ) Fehler.
Fehler rot:
SP1
N
T
SP2
SP2
T
N
(0,0)
SP1
D
C
(1,1)
N
(-1,2)
Korrekt:
C
SP1
T
(1,0) C
(3,2)
SP1
N
(0,0)
T
SP2
D (-1,2) C
(0,3)
SP2
D
(0,3) (-2,4)
T
SP1
N
D
SP1
N
SP2
T
C
(1,1)
SP2
D
N
(-1,2)
C
SP1
T
(1,1) C
(2,2)
D
N
SP1
T
SP2
D (-1,2) C
(0,3)
SP2
D
(0,3) (-2,4)
Bestimmen Sie das teilspielperfekte Nash-GG des zweimal wiederholten Spiels.
Lösung: Rückwärtsinduktion:
In den beiden T-Spielen rechts unten: SP2 wählt jeweils D, da 3 > 2 bzw. 4 > 3.
Im reduzierten Spiel rechts: SP1 wählt jeweils N, da 1 > 0 und 0 > −2
Im reduzierten Spiel rechts: SP2 wählt D, da 2 > 1
Im letzten T-Spiel links: SP2 wählt D, da 2 > 1
Im reduzierten Spiel links: SP1 wählt N, da 0 > −1
Im reduzierten Spiel: SP1 sieht N : (0, 0) vs. T : (−1, 2) und wählt N
TSPNGG (s1 , s2 ) also gegeben durch: s1 = IMMER-N, s2 = IMMER-D
2
Wie viele reine Strategien hat SP1, wie viele hat SP2 im zweimal wiederholten Spiel?
Antwort: Betrachte Spielbaum:
SP1
N
T
SP1
SP2
T
N
(0,0)
C
(1,1)
SP2
D
C
SP1
T
N
(-1,2)
(1,1) C
(2,2)
D
N
SP1
T
SP2
D (-1,2) C
(0,3)
SP2
D
(0,3) (-2,4)
SP1 hat 4 Info-Mengen (Entsch.knoten) mit jeweils 2 Aktionen ⇒ 24 = 16 Strategien
SP2 hat 4 Info-Mengen (Entsch.knoten) mit jeweils 2 Aktionen ⇒ 24 = 16 Strategien
c) Das Basisspiel wird nun unendlich oft wiederholt, wobei die Spieler zukünftigen Nutzen
mit einem Faktor δ ∈ (0, 1) pro Runde diskontieren.
Zeigen Sie, dass bei genügend großem δ Vertrauen und Kooperation“ (T, C) durch ein
”
teilspielperfektes Nash-GG (s1 , s2 ) im unendlich-oft wiederholten Spiel gestützt wird.
Verwenden Sie die folgenden Triggerstrategien:
s1 : SP1 spielt T in der ersten Runde; in der t-ten Runde spielt er T, wenn in allen
vorherigen Runden (T,C ) gespielt wurde; ansonsten spielt er nun N.
s2 : SP2 spielt C in der ersten Runde; in der t-ten Runde spielt er C, wenn (T,C ) in
allen vorherigen Runden gespielt wurde, ansonsten spielt er nun D.
Wie groß ist dabei der kritische Diskontfaktor?
Lösung: Unterscheide zwischen:
– T-Spiel vom Typ 1: In irgendeiner vorherigen Runde wurde nicht (T, C) gespielt
– T-Spiel vom Typ 2: In allen vorherigen Runden wurde (T, C) gespielt
Betrachte T-Spiel vom Typ 1: Wenn die Spieler den Strategien s1 bzw. s2 folgen, werden sie in allen Runden des Teilspiels (N, D) wählen. Das ist ein TSPNGG und damit
ein Nash-GG des Teilspiels, von dem es kein profitables Abweichen gibt.
T-Spiel vom Typ 2: Betrachte SP1 (wenn SP2 dem Kandidaten-GG folgt):
1
U1Abw = u1 (N, C) + δ · u1 (N, D) + δ 2 · u1 (N, D) + . . . = 0 + δ 1−δ
·0 = 0
F olgen
1
1
2
U1
= u1 (T, C) + δ · u1 (T, C) + δ · u1 (T, C) + . . . = 1−δ · 1 = 1−δ
Für SP1 ist Abweichen“ (vom Kandidaten-GG) für kein δ < 1 profitabel
”
Jetzt SP2 (unter der Annahme, dass SP1 dem Kandidaten-GG folgt):
δ
U2Abw = u2 (T, D) + δ · u2 (N, D) + δ 2 · u2 (N, D) + . . . = 2 + 1−δ
·0 = 2
F olgen
1
1
2
U2
= u2 (T, C) + δ · u2 (T, C) + δ · u2 (T, C) + . . . = 1−δ · 1 = 1−δ
SP2 hat genau dann keine profitable Abweichung vom Kandidaten-GG, wenn
1
1−δ
≥ 2 ⇐⇒
1
2
≥ 1 − δ ⇐⇒ δ ≥
3
1
2
← Krit. Diskontfaktor
Aufgabe 9.2 Gegeben ist folgendes Basisspiel mit Parameter v < 9:
x
y
z
a 0, 9 v, v 0, 0
b 0, 0 0, 0 1, 1
c 4, 4 9, 0 0, 0
Das Spiel wird zwei mal nacheinander gespielt, ohne die Auszahlungen aus Runde 2 zu
diskontieren. Beide Spieler können nach der ersten Runde den Spielausgang in Runde 1
beobachten.
Wie groß muss v mindestens sein, damit es ein teilspielperfektes Nash-Gleichgewicht (in
reinen Strategien) gibt, in dem in Runde 1 das Profil (a, y) gespielt wird?
Lösung:
• Für v < 9 sind (c, x) und (b, z) die Nash-GGe des T-Spiels in Runde 2 (= Stufe 2).
⇒ Bei der Rückw.Ind. addiert sich im reduzierten Spiel der Stufe 1 entweder (1,1) oder
(4,4) zu den Auszahlungen des Basisspiels.
• Wenn (a, y) ein Nash-GG des (reduzierten) Spiels mit möglichst kleinem v sein soll,
... muss man (a, y) in Runde 1“ mit dem Nash-GG (c, x) in Runde 2“ belohnen (um
”
”
für (a, y) die Addition der hohen Auszahlung (4, 4) zu erreichen)
und die anderen (acht) Spielausgänge von Runde 1 mit dem Nash-GG (b, z) in der
zweiten Runde bestrafen“, um bei diesen nur ein Zuwachs um (1, 1) zu erreichen (man
”
muss dazu nicht alle acht Spielausgänge bestrafen – es reicht, (a, x) und (c, y) so zu bestrafen)
Für das reduzierte Spiel erhält man dann:
x
y
z
a 0 + 1, 9 + 1 v + 4, v + 4 0 + 1, 0 + 1
b 0 + 1, 0 + 1 0 + 1, 0 + 1 1 + 1, 1 + 1
c 4 + 1, 4 + 1 9 + 1, 0 + 1 0 + 1, 0 + 1
=
x
y
z
a 1, 10 v + 4, v + 4 1, 1
b 1, 1
1, 1
2, 2
c 5, 5
10, 1
1, 1
Dieses Spiel hat für v ≥ 6 ein Nash-GG bei (a, y) (und mit einem kleineren v könnte man
das nicht erreichen).
Geben Sie zu den ermittelten Werten von v ein Strategienprofil (s1 , s2 ) an, das ein TSPNGG
des wiederholten Spieles darstellt.
Antwort: Ein teilspielperfektes Nash-GG (s1 , s2 ) im wiederholten Spiel, bei dem (a, y) in
Runde 1 gespielt wird, wäre (zum Beispiel, es gibt weitere):
s1 : SP1 wählt
– in Runde 1: anund
c, wenn (a, y) in Runde 1 gespielt wurde;
– in Runde 2:
b in allen anderen Fällen
s2 : SP2 wählt
– in Runde 1: y und
n x, wenn (a, y) in Runde 1 gespielt wurde;
– in Runde 2:
z in allen anderen Fällen
4
Aufgabe 9.3 Wir betrachten einen Markt, in dem in jeder Periode t = 0, 1, 2, ... die PreisAbsatz-Funktion gegeben ist durch P (Q) = a − Q. Es gibt zwei identische Firmen, i = 1, 2,
mit Grenzkosten c < a. In jeder Periode produzieren die Firmen simultan Mengen qi ≥ 0,
mit der sie jeweils den Gewinn πi (q1 , q2 ) = P (Q) qi − c qi = (a − c − q1 − q2 ) qi erzielen.
Beide Firmen diskontieren Zukunftsgewinne mit dem Diskontfaktor δ ∈ [0, 1).
Für das Nash-GG (q1∗ , q2∗ ) des Basisspiels (d.h. wenn es nur eine Periode gibt) haben wir
bereits qi∗ = 31 (a − c) ermittelt.
a) Zeigen Sie (für das Basisspiel, d.h. für eine feste Periode): Wenn sich beide Firmen
zusammenschließen könnten um als Monopolist aufzutreten, d.h. π(Q) = (a − c − Q) Q
zu maximieren, würden sie die gemeinsame Menge Q̂ = 21 (a − c) wählen.
Lösung: π 0 (Q) = (a − c − Q) · 1 + (−1) · Q = 0 ⇐⇒ Q = 12 (a − c) (u. π 00 (Q) = −2 < 0)
Wenn sich beide Firmen entscheiden, in einer Periode jeweils die halbe Monopolistenmenge q̂i = 14 (a − c) zu produzieren, wie groß ist dann ihr Gewinn R := πi (q̂1 , q̂2 )?
Lösung: Der reward“ R für beiderseitiges Wohlverhalten“ in einer Periode ist
”
”
R = πi (q̂1 , q̂1 ) = (a − c − q̂1 − q̂2 ) q̂i = a − c − 21 (a − c) · 14 (a − c) = 81 (a − c)2
Zeigen Sie, dass dieser Gewinn größer ist als der Gewinn P := πi (q1∗ , q2∗ ) im Nash-GG.
Lösung: Der Gewinn im NGG des Basisspiels (das punishment“ P für Defektion) ist
”
2
∗ ∗
∗
∗
∗
P = πi (q1 , q2 ) = (a−c−q1 −q2 ) qi = a−c− 3 (a−c) · 31 (a−c) = 13 (a−c)· 13 (a−c) = 19 (a−c)2
Da
1
8
> 19 , ist R > P .
Wenn Firma 2 die halbe Monopolistenmenge produziert, was ist dann die beste Antwort
q̌1 von Firma 1 darauf und welchen Gewinn T := π1 (q̌1 , q̂2 ) realisiert sie dabei?
Lösung: Die beste Antwort von Firma 1 auf die Wahl q̂2 von Firma 2 ergibt sich durch
Maximierung von
π1 (q1 , q̂2 ) = π1 q1 , 41 (a − c) = a − c − q1 − 14 (a − c) q1 = 34 (a − c) − q1 q1 =: g(q1 )
über q1 . Ableiten nach q1 :
g(q1 ) = 43 (a − c) − q1 q1 = 34 (a − c) q1 − q12
g 0 (q1 ) = 34 (a − c) − 2q1
g 00 (q1 ) = −2 < 0 X
Aus der Bed.1.Ordn., g 0 (q1 ) = 0, ergibt sich das maximierende q1 als q̌1 = 38 (a − c).
Bei q̌1 = 38 (a − c), q̂2 = 14 (a − c) erzielt Firma 1 den Gewinn
9
T := π1 (q̌1 , q̂2 ) = a − c − 83 (a − c) − 41 (a − c) · 83 (a − c) = 83 (a − c) · 38 (a − c) = 64
(a − c)2
9
Anmerkung: Die temptation T = 64
(a−c)2 ist größer als der reward R = 18 (a−c)2 (da
9
8
1
> 64 = 8 ), der wiederum größer als das punishment P = 19 (a − c)2 ist: T > R > P .
64
b) Definieren Sie eine geeignete Trigger-Strategie für Firma i, bei der sie in t = 0 mit der
Menge q̂i = 41 (a − c) beginnt.
Lösung: si : In der ersten Runde wählt Firma i q̂i . In der t-ten Runde wählt Fa. i q̂i ,
wenn in allen vorherigen Runden (q̂1 , q̂2 ) gespielt wurde, ansonsten wählt sie nun qi∗ .
5
c) Zeigen Sie, dass diese Trigger-Strategien für genügend großes δ ein teilspielperfektes
Gleichgewicht im unendlich oft wiederholten Spiel bilden. Wie groß ist der kritische
Diskontfaktor, oberhalb dessen eine stillschweigende Kollusion der beiden Firmen mit
”
gleichmäßiger Aufteilung des Monopolgewinns“ von diesem TSPNGG gestützt wird?
Lösung (ganz knapp): Damit ein Abweichen von den Trigger-Strategien nicht profitabel ist, muss gelten:
1
δ
P ≤ 1−δ
R
T + 1−δ
−R
Für δ < 1 und T > R > P ist dies gerade für alle δ ≥ δkrit := TT −P
erfüllt.
1 64
8
Für den kritischen Diskontfaktor erhält man hier, da R/T = 8 · 9 = 9 , P/T = 19 · 64
=
9
δkrit =
T −R
T −P
=
1−R/T
1−R/T
=
9−8
9
81−64
81
=
1
9
·
81
17
=
9
17
64
81
≈ 0.53
Lösung (knapp): Wie im Folk-Theorem, kann es mit diesen Trigger-Strategien nur
an einer Stelle ein profitables Abweichen für (sagen wir) Firma 1 geben: Wenn beide Firmen sich bislang an ihre Strategien gehalten haben, Fa. 1 glaubt, dass Fa. 2
sich auch weiterhin an ihre Strategie hält, und nun vor der Versuchung steht, Fa. 2
auszubeuten“, indem sie statt q̂1 ihre beste Antwort q̌1 auf die Wahl q̂2 von Fa. 2 gibt:
”
V1Abw = π1 (q̌1 , q̂2 ) + δ π1 (q1∗ , q2∗ ) + δ 2 π1 (q1∗ , q2∗ ) + . . . = T + δ P + δ 2 P + . . . = T +
V1F olg
1
1−δ
= π1 (q̂1 , q̂2 ) + δ π1 (q̂1 , q̂2 ) + δ 2 π1 (q̂1 , q̂2 ) + . . . = R + δ R + δ 2 R + . . . =
δ
1−δ
R
Für δ < 1 ist das Abweichen genau dann nicht profitabel, wenn
δ
P ≤
T + 1−δ
1
1−δ
R ⇐⇒ (1 − δ) T + δ P ≤ R ⇐⇒ T − R ≤ δ (T − R) ⇐⇒ δ ≥
Als kritischer Diskontfaktor ergibt sich hier, da R/T =
δkrit =
T −R
T −P
=
1−R/T
1−R/T
=
9−8
9
81−64
81
=
1
9
·
1
8
·
81
17
64
9
= 89 , P/T =
=
9
17
1
9
·
64
9
=
T −R
T −P
64
:
81
≈ 0.53
Lösung (ausführlich):
Teilspiel vom Typ 1: In vorherigen Perioden gab es eine Abweichung von (q̂1 , q̂1 ).
Wenn die Firmen ihren Strategien folgen, werden sie im gesamten Teilspiel (q1∗ , q2∗ )
spielen. Das ist ein TSPNGG und damit ein Nash-GG des Teilspiels, von dem es keine
profitable Abweichung gibt.
Teilspiel vom Typ 2: In vorherigen Runden gab es keine Abweichung von (q̂1 , q̂2 ).
Betrachte Firma 1: Die Strategie s1 schreibt für Fa. 1 vor, dass sie nun q̂1 spielt.
Kann Firma 1 profitabel abweichen, wenn sie erwartet, dass Firma 2 sich an ihre
Strategie s2 hält (insbesondere nun q̂2 wählt)?
Wenn Firma 1 jetzt abweicht, wird Firma 2 in der nächsten Periode und allen folgenden
Perioden mit q2∗ bestrafen. Die beste Antwort (in allen Folgeperioden) von Firma 1 auf
Fa.2: q2∗ ist: q1∗ .
Firma 1 müsste durch ein heutiges q1 6= q̂1 einen größeren Wert
π1 (q1 , q̂1 ) + δ π1 (q1∗ , q2∗ ) + δ 2 π1 (q1∗ , q2∗ ) + . . . = π1 (q1 , q̂1 ) +
6
δ
1−δ
π1 (q1∗ , q2∗ )
P
erzielen als mit q1 = q̂1 heute (und in allen Folgeperioden).
Also: Der größte (Unternehmens-)Wert, den Fa. 1 mit einem Abweichen von der Strategie s1 bekommen kann, entsteht, wenn sie heute q̌1 = Lösung von maxq1 ≥0 π1 (q1 , q̂1 )
wählt und von morgen an immer q1∗ . Dann:
δ
V1Abweich = T + 1−δ
P
← max. möglicher Wert, der mit Abweichen“ zu erreichen ist
”
Anmerkung: Die Argumentation basiert auf dem Bellman-Prinzip, das in der Spieltheorie auch als principle of one-shot-deviations“ bezeichnet wird: Man optimiert nur
”
die heutige Aktion, berücksichtigt aber die damit verbundene Veränderung des morgigen Zustands und unterstellt, dass man morgen, übermorgen, ... optimal agieren wird.
V1Abweich bzw. max{V1Abweich , V1F olgen } ist die Bellman’sche Optimalwertfunktion V ∗ . Mit Folgen der Strategie s1“ erreicht Fa. 1:
”
V1F olgen = R + δR + δ 2 R + . . . =
1
1−δ
R
Es gibt genau dann keine profitable Abweichung für Firma 1, wenn
V1F olgen ≥ V1Abweich ⇐⇒
1
1−δ
δ
1−δ
≥ T+
P ⇐⇒ (1 − δ) T + δ P ≤ R
wobei δ < 1 benutzt wurde.
Beachte nun: T > R > P . Für 0 < δ < 1 ist (1 − δ) T + δ P eine Zahl im Intervall
(P, T ), die für δ → 0 in den linken Randpunkt P wandert und für δ → 1 in den
rechten Randpunkt T . Wenn R im Intervall (P, T ) liegt, gibt es genau ein δkrit , so dass
(1−δ) T +δ P ≥ R ist für alle δ ≥ δkrit . Für diese δ gibt es keine profitable Abweichung
für Firma 1. Rechnerisch ergibt sich δkrit als
T −R
T −P
δkrit =
Da hier R/T =
1
8
·
64
9
δkrit =
=
8
9
T −R
T −P
und P/T =
=
1−R/T
1−R/T
=
1
9
·
64
9
9−8
9
=
=
1−R/T
1−P/T
64
,
81
81−64
81
erhält man:
=
1
9
·
81
17
=
9
17
≈ 0.53
Da Fa. 2 hier identisch mit Fa. 1 ist, hat sie den gleichen kritischen Diskontfaktor.
7