Lösungen Aufgabenblatt 9 zur Spieltheorie SS 2017

Werbung
Lösungen Aufgabenblatt 9 zur Spieltheorie SS 2017
Aufgabe 9.1: Zur Entstehung von Vertrauen in langfristigen Beziehungen“ soll die Itera”
tion des folgenden Basisspiels zwischen SP1 und SP2 betrachtet werden:
SP1
N
(0,0)
T
C
(1,1)
SP2
D
(-1,2)
SP1 kann einen Auftrag an SP2 erteilen. SP2 kann den Auftrag im Sinne von SP1 ausführen (C =cooperate) oder pfuschen“
”
(D = defect). Wenn SP2 kooperiert, nutzt dies beiden Spielern.
Wenn SP2 defektiert, vergrößert er seinen Nutzen, aber schadet
SP1. SP1 kann SP2 vertrauen (T = trust), indem er den Auftrag
erteilt, oder es lassen (N = no trust).
Ein solches Vertrauensspiel“ entsteht z.B. dann, wenn SP1 die von SP2 angebotene, nicht
”
dessen tatsächlich erbrachte (vielleicht minderwertige) Leistung bezahlen muss.
a) Welche Nash-GGe in reinen Strategien hat das Basisspiel?
Antwort: Strategien von SP1: {N, T},
C
D
N 0, 0 0, 0
⇒
⇒ Normalform:
T 1, 1 -1, 2
Strategien von SP2: {C, D}
Einziges Nash-GG: (N, D)
Welche teilspielperfekten Nash-GGe in reinen Strategien hat das Basisspiel?
Rück.Ind.: Auf Stufe 2 wählt SP2 D, dann sieht“ SP1 auf Stufe 1 folgendes Spiel:
”
SP1
N
T
(0,0)
(-1,2)
und wählt N. Eindeutiges TSPNGG also (N, D)
Gibt es im Basisspiel strikt dominierte Strategien? Gibt es schwach dominierte?
Antwort: Nur eine Dominanzrelation: C von SP2 ist schwach dominiert von D.
Anmerkung:
Das ist schon anders als im GD (wo beide SP strikt dominierte Strategien haben).
Iterierte Elimination strikt dominierter Strategien würde hier gar nichts bringen
(und iterierte Elimination schwach dominierter Strategien hat den Nachteil, dass dabei
manchmal auch Nash-GGe eliminiert werden).
1
b) Der folg. Spielbaum soll das zweimal (undiskontiert) wiederholte Basisspiel darstellen:
SP1
N
T
SP2
SP2
T
N
(0,0)
SP1
D
C
(1,1)
N
(-1,2)
C
SP1
T
(1,0) C
(3,2)
D
SP1
N
T
SP2
D (-1,2) C
(0,3)
SP2
D
(0,3) (-2,4)
Der Spielbaum ist zwar formal korrekt, gibt aber nicht das zweimal wiederholte Basisspiel wieder, bei dem die Spieler die Aktionen der ersten Runde beobachten, an jedem
Endknoten der ersten Runde ein neues Basisspiel beginnt und die Auszahlungen beider
Runden sich zur Endauszahlung addieren. Korrigieren Sie die (fünf ) Fehler.
Fehler rot:
SP1
N
T
SP2
SP2
T
N
(0,0)
SP1
D
C
(1,1)
N
(-1,2)
Korrekt:
C
SP1
T
(1,0) C
(3,2)
SP1
N
(0,0)
T
SP2
D (-1,2) C
(0,3)
SP2
D
(0,3) (-2,4)
T
SP1
N
D
SP1
N
SP2
T
C
(1,1)
SP2
D
N
(-1,2)
C
SP1
T
(1,1) C
(2,2)
D
N
SP1
T
SP2
D (-1,2) C
(0,3)
SP2
D
(0,3) (-2,4)
Bestimmen Sie das teilspielperfekte Nash-GG des zweimal wiederholten Spiels.
Lösung: Rückwärtsinduktion:
In den beiden T-Spielen rechts unten: SP2 wählt jeweils D, da 3 > 2 bzw. 4 > 3.
Im reduzierten Spiel rechts: SP1 wählt jeweils N, da 1 > 0 und 0 > −2
Im reduzierten Spiel rechts: SP2 wählt D, da 2 > 1
Im letzten T-Spiel links: SP2 wählt D, da 2 > 1
Im reduzierten Spiel links: SP1 wählt N, da 0 > −1
Im reduzierten Spiel: SP1 sieht N : (0, 0) vs. T : (−1, 2) und wählt N
TSPNGG (s1 , s2 ) also gegeben durch: s1 = IMMER-N, s2 = IMMER-D
2
Wie viele reine Strategien hat SP1, wie viele hat SP2 im zweimal wiederholten Spiel?
Antwort: Betrachte Spielbaum:
SP1
N
T
SP1
SP2
T
N
(0,0)
C
(1,1)
SP2
D
C
SP1
T
N
(-1,2)
(1,1) C
(2,2)
D
N
SP1
T
SP2
D (-1,2) C
(0,3)
SP2
D
(0,3) (-2,4)
SP1 hat 4 Info-Mengen (Entsch.knoten) mit jeweils 2 Aktionen ⇒ 24 = 16 Strategien
SP2 hat 4 Info-Mengen (Entsch.knoten) mit jeweils 2 Aktionen ⇒ 24 = 16 Strategien
c) Das Basisspiel wird nun unendlich oft wiederholt, wobei die Spieler zukünftigen Nutzen
mit einem Faktor δ ∈ (0, 1) pro Runde diskontieren.
Zeigen Sie, dass bei genügend großem δ Vertrauen und Kooperation“ (T, C) durch ein
”
teilspielperfektes Nash-GG (s1 , s2 ) im unendlich-oft wiederholten Spiel gestützt wird.
Verwenden Sie die folgenden Triggerstrategien:
s1 : SP1 spielt T in der ersten Runde; in der t-ten Runde spielt er T, wenn in allen
vorherigen Runden (T,C ) gespielt wurde; ansonsten spielt er nun N.
s2 : SP2 spielt C in der ersten Runde; in der t-ten Runde spielt er C, wenn (T,C ) in
allen vorherigen Runden gespielt wurde, ansonsten spielt er nun D.
Wie groß ist dabei der kritische Diskontfaktor?
Lösung: Unterscheide zwischen:
– T-Spiel vom Typ 1: In irgendeiner vorherigen Runde wurde nicht (T, C) gespielt
– T-Spiel vom Typ 2: In allen vorherigen Runden wurde (T, C) gespielt
Betrachte T-Spiel vom Typ 1: Wenn die Spieler den Strategien s1 bzw. s2 folgen, werden sie in allen Runden des Teilspiels (N, D) wählen. Das ist ein TSPNGG und damit
ein Nash-GG des Teilspiels, von dem es kein profitables Abweichen gibt.
T-Spiel vom Typ 2: Betrachte SP1 (wenn SP2 dem Kandidaten-GG folgt):
1
U1Abw = u1 (N, C) + δ · u1 (N, D) + δ 2 · u1 (N, D) + . . . = 0 + δ 1−δ
·0 = 0
F olgen
1
1
2
U1
= u1 (T, C) + δ · u1 (T, C) + δ · u1 (T, C) + . . . = 1−δ · 1 = 1−δ
Für SP1 ist Abweichen“ (vom Kandidaten-GG) für kein δ < 1 profitabel
”
Jetzt SP2 (unter der Annahme, dass SP1 dem Kandidaten-GG folgt):
δ
U2Abw = u2 (T, D) + δ · u2 (N, D) + δ 2 · u2 (N, D) + . . . = 2 + 1−δ
·0 = 2
F olgen
1
1
2
U2
= u2 (T, C) + δ · u2 (T, C) + δ · u2 (T, C) + . . . = 1−δ · 1 = 1−δ
SP2 hat genau dann keine profitable Abweichung vom Kandidaten-GG, wenn
1
1−δ
≥ 2 ⇐⇒
1
2
≥ 1 − δ ⇐⇒ δ ≥
3
1
2
← Krit. Diskontfaktor
Aufgabe 9.2 Gegeben ist folgendes Basisspiel mit Parameter v < 9:
x
y
z
a 0, 9 v, v 0, 0
b 0, 0 0, 0 1, 1
c 4, 4 9, 0 0, 0
Das Spiel wird zwei mal nacheinander gespielt, ohne die Auszahlungen aus Runde 2 zu
diskontieren. Beide Spieler können nach der ersten Runde den Spielausgang in Runde 1
beobachten.
Wie groß muss v mindestens sein, damit es ein teilspielperfektes Nash-Gleichgewicht (in
reinen Strategien) gibt, in dem in Runde 1 das Profil (a, y) gespielt wird?
Lösung:
• Für v < 9 sind (c, x) und (b, z) die Nash-GGe des T-Spiels in Runde 2 (= Stufe 2).
⇒ Bei der Rückw.Ind. addiert sich im reduzierten Spiel der Stufe 1 entweder (1,1) oder
(4,4) zu den Auszahlungen des Basisspiels.
• Wenn (a, y) ein Nash-GG des (reduzierten) Spiels mit möglichst kleinem v sein soll,
... muss man (a, y) in Runde 1“ mit dem Nash-GG (c, x) in Runde 2“ belohnen (um
”
”
für (a, y) die Addition der hohen Auszahlung (4, 4) zu erreichen)
und die anderen (acht) Spielausgänge von Runde 1 mit dem Nash-GG (b, z) in der
zweiten Runde bestrafen“, um bei diesen nur ein Zuwachs um (1, 1) zu erreichen (man
”
muss dazu nicht alle acht Spielausgänge bestrafen – es reicht, (a, x) und (c, y) so zu bestrafen)
Für das reduzierte Spiel erhält man dann:
x
y
z
a 0 + 1, 9 + 1 v + 4, v + 4 0 + 1, 0 + 1
b 0 + 1, 0 + 1 0 + 1, 0 + 1 1 + 1, 1 + 1
c 4 + 1, 4 + 1 9 + 1, 0 + 1 0 + 1, 0 + 1
=
x
y
z
a 1, 10 v + 4, v + 4 1, 1
b 1, 1
1, 1
2, 2
c 5, 5
10, 1
1, 1
Dieses Spiel hat für v ≥ 6 ein Nash-GG bei (a, y) (und mit einem kleineren v könnte man
das nicht erreichen).
Geben Sie zu den ermittelten Werten von v ein Strategienprofil (s1 , s2 ) an, das ein TSPNGG
des wiederholten Spieles darstellt.
Antwort: Ein teilspielperfektes Nash-GG (s1 , s2 ) im wiederholten Spiel, bei dem (a, y) in
Runde 1 gespielt wird, wäre (zum Beispiel, es gibt weitere):
s1 : SP1 wählt
– in Runde 1: anund
c, wenn (a, y) in Runde 1 gespielt wurde;
– in Runde 2:
b in allen anderen Fällen
s2 : SP2 wählt
– in Runde 1: y und
n x, wenn (a, y) in Runde 1 gespielt wurde;
– in Runde 2:
z in allen anderen Fällen
4
Aufgabe 9.3 Wir betrachten einen Markt, in dem in jeder Periode t = 0, 1, 2, ... die PreisAbsatz-Funktion gegeben ist durch P (Q) = a − Q. Es gibt zwei identische Firmen, i = 1, 2,
mit Grenzkosten c < a. In jeder Periode produzieren die Firmen simultan Mengen qi ≥ 0,
mit der sie jeweils den Gewinn πi (q1 , q2 ) = P (Q) qi − c qi = (a − c − q1 − q2 ) qi erzielen.
Beide Firmen diskontieren Zukunftsgewinne mit dem Diskontfaktor δ ∈ [0, 1).
Für das Nash-GG (q1∗ , q2∗ ) des Basisspiels (d.h. wenn es nur eine Periode gibt) haben wir
bereits qi∗ = 31 (a − c) ermittelt.
a) Zeigen Sie (für das Basisspiel, d.h. für eine feste Periode): Wenn sich beide Firmen
zusammenschließen könnten um als Monopolist aufzutreten, d.h. π(Q) = (a − c − Q) Q
zu maximieren, würden sie die gemeinsame Menge Q̂ = 21 (a − c) wählen.
Lösung: π 0 (Q) = (a − c − Q) · 1 + (−1) · Q = 0 ⇐⇒ Q = 12 (a − c) (u. π 00 (Q) = −2 < 0)
Wenn sich beide Firmen entscheiden, in einer Periode jeweils die halbe Monopolistenmenge q̂i = 14 (a − c) zu produzieren, wie groß ist dann ihr Gewinn R := πi (q̂1 , q̂2 )?
Lösung: Der reward“ R für beiderseitiges Wohlverhalten“ in einer Periode ist
”
”
R = πi (q̂1 , q̂1 ) = (a − c − q̂1 − q̂2 ) q̂i = a − c − 21 (a − c) · 14 (a − c) = 81 (a − c)2
Zeigen Sie, dass dieser Gewinn größer ist als der Gewinn P := πi (q1∗ , q2∗ ) im Nash-GG.
Lösung: Der Gewinn im NGG des Basisspiels (das punishment“ P für Defektion) ist
”
2
∗ ∗
∗
∗
∗
P = πi (q1 , q2 ) = (a−c−q1 −q2 ) qi = a−c− 3 (a−c) · 31 (a−c) = 13 (a−c)· 13 (a−c) = 19 (a−c)2
Da
1
8
> 19 , ist R > P .
Wenn Firma 2 die halbe Monopolistenmenge produziert, was ist dann die beste Antwort
q̌1 von Firma 1 darauf und welchen Gewinn T := π1 (q̌1 , q̂2 ) realisiert sie dabei?
Lösung: Die beste Antwort von Firma 1 auf die Wahl q̂2 von Firma 2 ergibt sich durch
Maximierung von
π1 (q1 , q̂2 ) = π1 q1 , 41 (a − c) = a − c − q1 − 14 (a − c) q1 = 34 (a − c) − q1 q1 =: g(q1 )
über q1 . Ableiten nach q1 :
g(q1 ) = 43 (a − c) − q1 q1 = 34 (a − c) q1 − q12
g 0 (q1 ) = 34 (a − c) − 2q1
g 00 (q1 ) = −2 < 0 X
Aus der Bed.1.Ordn., g 0 (q1 ) = 0, ergibt sich das maximierende q1 als q̌1 = 38 (a − c).
Bei q̌1 = 38 (a − c), q̂2 = 14 (a − c) erzielt Firma 1 den Gewinn
9
T := π1 (q̌1 , q̂2 ) = a − c − 83 (a − c) − 41 (a − c) · 83 (a − c) = 83 (a − c) · 38 (a − c) = 64
(a − c)2
9
Anmerkung: Die temptation T = 64
(a−c)2 ist größer als der reward R = 18 (a−c)2 (da
9
8
1
> 64 = 8 ), der wiederum größer als das punishment P = 19 (a − c)2 ist: T > R > P .
64
b) Definieren Sie eine geeignete Trigger-Strategie für Firma i, bei der sie in t = 0 mit der
Menge q̂i = 41 (a − c) beginnt.
Lösung: si : In der ersten Runde wählt Firma i q̂i . In der t-ten Runde wählt Fa. i q̂i ,
wenn in allen vorherigen Runden (q̂1 , q̂2 ) gespielt wurde, ansonsten wählt sie nun qi∗ .
5
c) Zeigen Sie, dass diese Trigger-Strategien für genügend großes δ ein teilspielperfektes
Gleichgewicht im unendlich oft wiederholten Spiel bilden. Wie groß ist der kritische
Diskontfaktor, oberhalb dessen eine stillschweigende Kollusion der beiden Firmen mit
”
gleichmäßiger Aufteilung des Monopolgewinns“ von diesem TSPNGG gestützt wird?
Lösung (ganz knapp): Damit ein Abweichen von den Trigger-Strategien nicht profitabel ist, muss gelten:
1
δ
P ≤ 1−δ
R
T + 1−δ
−R
Für δ < 1 und T > R > P ist dies gerade für alle δ ≥ δkrit := TT −P
erfüllt.
1 64
8
Für den kritischen Diskontfaktor erhält man hier, da R/T = 8 · 9 = 9 , P/T = 19 · 64
=
9
δkrit =
T −R
T −P
=
1−R/T
1−R/T
=
9−8
9
81−64
81
=
1
9
·
81
17
=
9
17
64
81
≈ 0.53
Lösung (knapp): Wie im Folk-Theorem, kann es mit diesen Trigger-Strategien nur
an einer Stelle ein profitables Abweichen für (sagen wir) Firma 1 geben: Wenn beide Firmen sich bislang an ihre Strategien gehalten haben, Fa. 1 glaubt, dass Fa. 2
sich auch weiterhin an ihre Strategie hält, und nun vor der Versuchung steht, Fa. 2
auszubeuten“, indem sie statt q̂1 ihre beste Antwort q̌1 auf die Wahl q̂2 von Fa. 2 gibt:
”
V1Abw = π1 (q̌1 , q̂2 ) + δ π1 (q1∗ , q2∗ ) + δ 2 π1 (q1∗ , q2∗ ) + . . . = T + δ P + δ 2 P + . . . = T +
V1F olg
1
1−δ
= π1 (q̂1 , q̂2 ) + δ π1 (q̂1 , q̂2 ) + δ 2 π1 (q̂1 , q̂2 ) + . . . = R + δ R + δ 2 R + . . . =
δ
1−δ
R
Für δ < 1 ist das Abweichen genau dann nicht profitabel, wenn
δ
P ≤
T + 1−δ
1
1−δ
R ⇐⇒ (1 − δ) T + δ P ≤ R ⇐⇒ T − R ≤ δ (T − R) ⇐⇒ δ ≥
Als kritischer Diskontfaktor ergibt sich hier, da R/T =
δkrit =
T −R
T −P
=
1−R/T
1−R/T
=
9−8
9
81−64
81
=
1
9
·
1
8
·
81
17
64
9
= 89 , P/T =
=
9
17
1
9
·
64
9
=
T −R
T −P
64
:
81
≈ 0.53
Lösung (ausführlich):
Teilspiel vom Typ 1: In vorherigen Perioden gab es eine Abweichung von (q̂1 , q̂1 ).
Wenn die Firmen ihren Strategien folgen, werden sie im gesamten Teilspiel (q1∗ , q2∗ )
spielen. Das ist ein TSPNGG und damit ein Nash-GG des Teilspiels, von dem es keine
profitable Abweichung gibt.
Teilspiel vom Typ 2: In vorherigen Runden gab es keine Abweichung von (q̂1 , q̂2 ).
Betrachte Firma 1: Die Strategie s1 schreibt für Fa. 1 vor, dass sie nun q̂1 spielt.
Kann Firma 1 profitabel abweichen, wenn sie erwartet, dass Firma 2 sich an ihre
Strategie s2 hält (insbesondere nun q̂2 wählt)?
Wenn Firma 1 jetzt abweicht, wird Firma 2 in der nächsten Periode und allen folgenden
Perioden mit q2∗ bestrafen. Die beste Antwort (in allen Folgeperioden) von Firma 1 auf
Fa.2: q2∗ ist: q1∗ .
Firma 1 müsste durch ein heutiges q1 6= q̂1 einen größeren Wert
π1 (q1 , q̂1 ) + δ π1 (q1∗ , q2∗ ) + δ 2 π1 (q1∗ , q2∗ ) + . . . = π1 (q1 , q̂1 ) +
6
δ
1−δ
π1 (q1∗ , q2∗ )
P
erzielen als mit q1 = q̂1 heute (und in allen Folgeperioden).
Also: Der größte (Unternehmens-)Wert, den Fa. 1 mit einem Abweichen von der Strategie s1 bekommen kann, entsteht, wenn sie heute q̌1 = Lösung von maxq1 ≥0 π1 (q1 , q̂1 )
wählt und von morgen an immer q1∗ . Dann:
δ
V1Abweich = T + 1−δ
P
← max. möglicher Wert, der mit Abweichen“ zu erreichen ist
”
Anmerkung: Die Argumentation basiert auf dem Bellman-Prinzip, das in der Spieltheorie auch als principle of one-shot-deviations“ bezeichnet wird: Man optimiert nur
”
die heutige Aktion, berücksichtigt aber die damit verbundene Veränderung des morgigen Zustands und unterstellt, dass man morgen, übermorgen, ... optimal agieren wird.
V1Abweich bzw. max{V1Abweich , V1F olgen } ist die Bellman’sche Optimalwertfunktion V ∗ . Mit Folgen der Strategie s1“ erreicht Fa. 1:
”
V1F olgen = R + δR + δ 2 R + . . . =
1
1−δ
R
Es gibt genau dann keine profitable Abweichung für Firma 1, wenn
V1F olgen ≥ V1Abweich ⇐⇒
1
1−δ
δ
1−δ
≥ T+
P ⇐⇒ (1 − δ) T + δ P ≤ R
wobei δ < 1 benutzt wurde.
Beachte nun: T > R > P . Für 0 < δ < 1 ist (1 − δ) T + δ P eine Zahl im Intervall
(P, T ), die für δ → 0 in den linken Randpunkt P wandert und für δ → 1 in den
rechten Randpunkt T . Wenn R im Intervall (P, T ) liegt, gibt es genau ein δkrit , so dass
(1−δ) T +δ P ≥ R ist für alle δ ≥ δkrit . Für diese δ gibt es keine profitable Abweichung
für Firma 1. Rechnerisch ergibt sich δkrit als
T −R
T −P
δkrit =
Da hier R/T =
1
8
·
64
9
δkrit =
=
8
9
T −R
T −P
und P/T =
=
1−R/T
1−R/T
=
1
9
·
64
9
9−8
9
=
=
1−R/T
1−P/T
64
,
81
81−64
81
erhält man:
=
1
9
·
81
17
=
9
17
≈ 0.53
Da Fa. 2 hier identisch mit Fa. 1 ist, hat sie den gleichen kritischen Diskontfaktor.
7
Herunterladen