' Spieltheorie $ Sommersemester 2007 1 Beispiel (Cournot Duopol): Die beiden Firmen im Cournot Duopol entscheiden sich, entweder die Menge des Cournot–Nash Gleichgewichts x∗i (nichtkooperative Lösung) oder die halbe Monopolmenge xK i (kooperative oder Kartellösung) anzubieten. Die vereinfachte Auszahlungsmatrix lautet dann xK 2 & Jörg Naeve x∗2 xK 1 18, 18 15, 20∗ . x∗1 20∗ , 15 16∗ , 16∗ Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 2 Man erkennt die Struktur des Gefangenendilemmas: Beide Firmen haben eine strikt dominante Strategie, nämlich x∗i , es gibt ein eindeutiges Nash Gleichgewicht in strikt dominanten Strategien, das aber Pareto dominiert ist. Die Menge aller erreichbaren Auszahlungsvektoren im Cournot Duopol ist auf der folgenden Folie dargestellt. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 3 π2 20 π ∗ xK 1 , x2 19 π 18 K xK 1 , x2 17 16 π (x∗1 , x∗2 ) = v 15 & Jörg Naeve 15 16 17 18 Universität des Saarlandes 19 π x∗1 , xK 2 20 π1 % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 4 Unendlich oft wiederholte Spiele Wir werden nun zwei Beispiele für Strategien in einem unendlich oft wiederholten Spiel betrachten, die wir im Kontext des unendlich oft wiederholten Cournot Duopols diskutieren. Es handelt sich dabei um die beiden vielleicht bekanntesten Strategietypen in wiederholten Spielen, insbesondere für das wiederholte Gefangenendilemma (vgl. Axelrod, 1984). Beide sind verhältnismäßig einfache Strategien. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 5 Beispiel (Grim Trigger): Diese Strategie, die oft auch nur Triggerstrategie genannt wird, geht zurück auf James Friedman und lässt sich wie folgt beschreiben. • In der ersten Runde spiele xK i . • In jeder folgenden Runde – spiele xK i , solange die andere Firma in allen Vorrunden K gespielt hat, – spiele x∗i , falls der Gegner mindestens einmal x∗i gespielt hat. Dies ist eine Bestrafungsstrategie ohne Vergebung: Wenn die andere Firma nur ein einziges Mal vom Kartell abweicht, wird sie für immer mit x∗i bestraft. An dieser Stelle kommt die Minimax Strategie ins Spiel: Wenn ich meine Mitspielerin bestrafen möchte, ist dies am wirkungsvollsten, wenn ich sie auf die niedrigste Auszahlung drücke, die mir möglich ist, d. h. wenn ich eine Minimax Strategie spiele. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 6 Beispiel (Tit for tat): Die Strategie Tit for tat geht auf Anatol Rapoport zurück. Sie ähnelt der Triggerstrategie, mit dem wesentlichen Unterschied, dass sie nach einmaliger Abweichung nicht für immer auf Bestrafung umschaltet. • In der 1. Runde spiele xK i . • In jeder folgenden Runde K – spiele xK i , falls der Gegner in der Vorrunde x−i gespielt hat, – spiele x∗i , falls der Gegner in der Vorrunde x∗−i gespielt hat. Tit for tat sagt also: Imitiere die Aktion des Gegners der Vorperiode. Dies ist ein Bestrafungsmechanismus mit Vergebung: Weicht die andere Firma Gegner einmal ab und spielt x∗−i , wird sie in der nächsten Runde mit x∗i bestraft. K Spielt sie jedoch danach wieder xK , so schreibt Tit for tat auch wieder x −i i vor. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 7 Ein Nash Gleichgewicht im wiederholten Spiel ist eine Strategiekombination, bei der sich kein Spieler durch einseitiges Abweichen verbessern kann. Da die Strategien im wiederholten Spiel recht kompliziert werden können, ist es nicht immer leicht, zu überprüfen, ob eine gegebene Strategiekombination ein Nash Gleichgewicht ist. Der folgende Satz liefert aber sofort mögliche Nash Gleichgewichte des wiederholten Spiels. Satz: Hat das Stufenspiel Γ ein Nash Gleichgewicht (s∗1 , s∗2 ), so ist die Strategiekombination, bei der in jeder Runde (unabhängig von der Geschichte) (s∗1 , s∗2 ) gespielt wird, ein Nash Gleichgewicht des wiederholten Spiels. (Dies gilt sowohl für unendlich als auch für endlich oft wiederholte Spiele.) & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 8 Beweis: Diesen Satz kann man sich sehr leicht klar machen. Da die Strategie der anderen Spielerin unabhängig von der Geschichte ist, können wir uns darauf beschränken, die Wirkung möglichen einseitigen Abweichens in einer Periode zu betrachten. Im Stufenspiel ist aber (s∗1 , s∗2 ) ein Nash Gleichgewicht, d. h., ein profitables einseitiges Abweichen ist unmöglich. An diesem Beweis erkennt man sofort, dass für ein Stufenspiel mit multiplen Nash Gleichgewichten auch jede Abfolge von Nash Gleichgewichten (auch unterschiedlicher in unterschiedlichen Perioden) ein Nash Gleichgewicht des wiederholten Spiels ist. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 9 Im obigen Beispiel des wiederholten Cournot Duopols ist also die Strategiekombination ((x∗1 , x∗2 ), (x∗1 , x∗2 ), (x∗1 , x∗2 ), . . .) ein Nash Gleichgewicht. Die spannende Frage lautet, ob es im wiederholten Spiel noch andere Gleichgewichte gibt, als Kombinationen von Gleichgewichten des Stufenspiels. Erst eine positive Antwort auf diese Frage würde die Beschäftigung mit wiederholten Spielen lohnend erscheinen lassen. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 10 Beispiel (Triggerstrategien im wiederholten Cournot Duopol): Wenn beide Firmen eine Triggerstrategie verwenden, spielen beide in jeder Periode xK i , d. h. sie bilden ein Kartell. Ist dies aber ein Nash Gleichgewicht im wiederholten Spiel? Die Frage lautet, ob es sich für eine Spielerin lohnt, in einer Periode t abzuweichen und x∗2 zu spielen? & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie Sommersemester 2007 $ 11 Aufgrund der Symmetrie des Spiels, reicht es, dies für eine Spielerin zu tun. Wir nehmen also an, Spielerin 1 spielt die Triggerstrategie. Für Spielerin 2 vergleichen wir ihre Auszahlungen bei der Triggerstrategie mit denen, die sie bekommt, wenn sie in Periode t′ abweicht, indem sie x∗2 spielt. Dies bedeutet, dass 1 gemäß der Triggerstrategie in allen Folgeperioden x∗ spielen wird. Daher nehmen wir an, dass 2 von Periode t′ + 1 an darauf mit ihrer besten Antwort x∗2 reagiert. Dies bedeutet, dass sie die optimale Abweichung wählt, m. a. W., wenn sich diese Abweichung nicht lohnt, dann gibt es keine lohnende Abweichung. Wir fassen die resultierenden Strategien im Stufenspiel und die Periodenauszahlungen, die sich aus der Auszahlungsmatrix ergeben, in zwei Tabellen zusammen. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 12 Zunächst die Situation, in der sowohl Spielerin 1 als auch 2 bei der Triggerstrategie bleiben. 1 2 ... t′ − 1 t′ t′ + 1 t′ + 2 ... s1 t xK 1 xK 1 ... xK 1 xK 1 xK 1 xK 1 ... π1 t 18 18 ... 18 18 18 18 ... s2 t xK 2 xK 2 ... xK 2 xK 2 xK 2 xK 2 ... π2 t 18 18 ... 18 18 18 18 ... Periode Spielerin 1 Spielerin 2 & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 13 Wenn Spielerin 2 in Periode t′ abweicht, ergibt sich folgende Situation. 1 2 ... t′ − 1 t′ t′ + 1 t′ + 2 ... s1 t xK 1 xK 1 ... xK 1 xK 1 x∗1 x∗1 ... π1 t 18 18 ... 18 15 16 16 ... s2 t xK 2 xK 2 ... xK 2 x∗2 x∗2 x∗2 ... π2 t 18 18 ... 18 20 16 16 ... Periode Spielerin 1 Spielerin 2 & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 14 Wenn wir nun die abdiskontierte Auszahlung für Spielerin 2 im wiederholten Spiel beginnend in Periode t′ für die beiden Situationen vergleichen ergibt sich folgendes Bild (in den Perioden davor, stimmen die Auszahlungen in beiden Fällen überein). Bei der Triggerstrategie: ⇐⇒ V2Trigger = 18 + δ 18 + δ 2 18 + . . . (1) δ V2Trigger = δ 18 + δ 2 18 + δ 3 18 + . . . (2) Die Differenz der beiden Gleichungen (1) und (2) ergibt ⇐⇒ & Jörg Naeve (1 − δ) V2Trigger = 18 18 Trigger V2 . = (1 − δ) Universität des Saarlandes (3) % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 15 Die Gleichung für den Zahlungsstrom mit dem Diskontfaktor δ zu multiplizieren und dann die Differenz zu bilden, ist nur ein Rechentrick. Genausogut kann man die unendliche Reiheanders berechnen, z.B. so. ⇐⇒ V2Trigger = 18 + δ 18 + δ 2 18 + . . . ∞ X 1 Trigger i δ = 18 V2 = 18 1−δ i=0 (4) (5) (6) Hilfreich ist dazu, zu wissen, dass ∞ X 1 i δ = 1−δ i=0 & Jörg Naeve und Universität des Saarlandes ∞ X δ δ = . 1 − δ i=1 i % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 16 Beim Abweichen in Periode t′ : ⇐⇒ V2Abweichen = 20 + δ 16 + δ 2 16 + . . . (7) δ V2Abweichen = δ 20 + δ 2 16 + δ 3 16 + . . . (8) Die Differenz der beiden Gleichungen (7) und (8) ergibt ⇐⇒ & Jörg Naeve (1 − δ) V2Abweichen = (1 − δ) 20 + δ 16 δ 16 Abweichen V2 = 20 + . (1 − δ) Universität des Saarlandes (9) % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 17 Das Abweichen lohnt sich, falls ⇐⇒ V2Trigger ≤ V2Abweichen 18 δ 16 ≤ 20 + . (1 − δ) (1 − δ) Auflösen nach δ ergibt δ ≤ 2 = 0, 5. 4 Im Ergebnis wird es sich für eine Spielerin lohnen, einseitig davon abzuweichen, die Triggerstrategie zu spielen, falls der Diskontfaktor kleiner als 0, 5 ist. Andersherum formuliert, solange der Diskontfaktor groß genug ist, nämlich δ ≥ 0, 5, bildet ein Paar von Triggerstrategien ein Nash Gleichgewicht des wiederholten Cournot Duopols. In diesem Fall wird im wiederholten Spiel von beiden Spielern immer die Kartellmenge gespielt, das Kartell ist also stabil. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 18 Die Bedeutung des Diskontfaktors hat eine klare ökonomische Interpretation: Ein großer Diskontfaktor bedeutet, dass die Zukunft nur geringfügig abdiskontiert wird. D. h., die Zukunft ist wichtig, die Spieler sind geduldig. In diesem Fall haben zukünftige Zahlungen ein hohes Gewicht. Ein Spieler wird die zukünftigen Kartellgewinne nicht wegen eines einmaligen höheren Gewinns durch Abweichen aufs Spiel setzen. Anders bei niedrigem Diskontfaktor: In diesem Fall sind die Spieler ungeduldig, die Zukunft wird nur gering bewertet. Der höhere Gewinn durch einmaliges Abweichen ist dann mehr wert als die zukünftigen Kartellgewinne, so dass es sich lohnt, von der Triggerstrategie abzuweichen. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie Sommersemester 2007 $ 19 Nehmen wir nun an, beide Spielerinnen spielten eine Tit for tat Strategie. Lohnt es sich für Spielerin 2, in einer Periode t abzuweichen und x∗2 zu spielen? Ohne Abweichen ergibt sich das selbe Bild wie in der Analyse der Triggerstrategien. 1 2 ... t′ − 1 t′ t′ + 1 t′ + 2 ... s1 t xK 1 xK 1 ... xK 1 xK 1 xK 1 xK 1 ... π1 t 18 18 ... 18 18 18 18 ... s2 t xK 2 xK 2 ... xK 2 xK 2 xK 2 xK 2 ... π2 t 18 18 ... 18 18 18 18 ... Periode Spielerin 1 Spielerin 2 & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 20 Weicht Spielerin 2 in Periode t′ von der Tit for tat Strategie ab, heißt dies, ∗ dass sie in Periode t′ statt xK 2 die Cournot–Menge x2 wählt, um dadurch in dieser Periode ihren Gewinn zu steigern. Die Frage ist, ob es danach optimal ist, auch in den Folgeperioden x∗2 zu spielen. In diesem Falle ergäbe sich exakt das selbe Ergebnis wie für die Triggerstrategien. Wir analysieren hier den Fall, dass Spielerin 2 nur in Periode t′ die Cournot–Menge spielt, um danach wieder zur halben Monopolmenge xK 2 zurückzukehren. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 21 Wenn Spielerin 2 in Periode t′ abweicht, ergibt sich unter dieser Annahme folgende Situation. 1 2 ... t′ − 1 t′ t′ + 1 t′ + 2 ... s1 t xK 1 xK 1 ... xK 1 xK 1 x∗1 xK 1 ... π1 t 18 18 ... 18 15 20 18 ... s2 t xK 2 xK 2 ... xK 2 x∗2 xK 2 xK 2 ... π2 t 18 18 ... 18 20 15 18 ... Periode Spielerin 1 Spielerin 2 & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 22 Die Auszahlungen unterscheiden sich nur in den beiden Perioden t′ und t′ + 1. Damit ist die Differenz der Auszahlungen V2Abweichen − V2Tit for tat = 2 − 3δ. Das Abweichen lohnt sich, falls diese Differnz positiv ist, also ⇐⇒ & Jörg Naeve 2 − 3δ ≥ 0 2 δ ≤ = 0, 6. 3 Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 23 Im Ergebnis wird es sich für eine Spielerin lohnen, einseitig davon abzuweichen, die Tit for tat Strategie zu spielen, falls der Diskontfaktor kleiner als 0, 6 ist. Andersherum formuliert, solange der Diskontfaktor groß genug ist, nämlich δ ≥ 0, 6, bildet ein Paar von Tit for tat Strategien ein Nash Gleichgewicht des wiederholten Cournot Duopols. In diesem Fall wird im wiederholten Spiel von beiden Spielern immer die Kartellmenge gespielt, das Kartell ist also stabil. Im Vergleich zur Triggerstrategie ist Tit for tat weniger leicht als Gleichgewicht zu stützen, da ein profitables Abweichen in einer Periode in der Zukunft weniger gravierende Konsequenzen hat. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 24 Folk Theoreme Wie man sieht, können in unendlich oft wiederholten Spielen im Nash Gleichgewicht pro Periode andere Kombinationen von Auszahlungen erreicht werden als im Stufenspiel. Frage: Können alle möglichen Kombinationen von Auszahlungen in einem Nash Gleichgewicht erreicht werden? Frage: Nein, nur solche, die individuell rational sind. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 25 Ein wichtiger Bezugspunkt in der Menge der erreichbaren Auszahlungsvektoren ist der Punkt der Maximin Auszahlungen der Spielerinnen v Γ . Jede Spielerin kann sich ihre Maximin Auszahlung sichern und wird daher keine Vereinbarung mit den anderen Spielerinnen treffen, die ihr weniger als diese Auszahlung liefert. b , die jeder Definition: Die erreichbaren Auszahlungsvektoren x ∈ π Σ Spielerin mindestens ihre Maximin Auszahlung geben heißen individuell rational. Die Menge aller individuell rationalen Auszahlungsvektoren, die in der kooperativen Spieltheorie auch Imputationen genannt werden ist also die Menge n o b v ≤ x . I = x∈π Σ (Zur Erinnerung v ≤ x heißt, v i ≤ xi für alle i ∈ I.) & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 26 Beispiel (Cournot Duopol): xK 2 x∗2 xK 1 18, 18 15, 20∗ . x∗1 20∗ , 15 16∗ , 16∗ Die Maximin Strategie ist x∗i mit der zugehörigen Maximin Auszahlung von 16. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 27 Satz ( Folk Theorem‘“) ” In einem unendlich oft wiederholten Spiel kann jede Kombination von individuell rationalen Auszahlungen als durchschnittliche Auszahlungen in einem Nash Gleichgewicht erreicht werden, wenn der Diskontfaktor “groß genug” ist. Satz Für jedes Paar von individuell rationalen Auszahlungen gibt es einen Diskontfaktor δ 0 ∈ [0, 1], so dass für jedes δ ≥ δ 0 ein Nash Gleichgewicht existiert, in dem diese Auszahlungen im Durchschnitt pro Periode erreicht werden. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 28 Teilspiel perfektes Nash Gleichgewicht in unendlich oft wiederholten Spielen Bestrafungen (z.B. bei der Triggerstrategie) sind teuer: Der bestrafende Spieler muss selbst eine Einbuße hinnehmen. Frage: Ist die Strafandrohung glaubwürdig? Zu beachten ist, dass im Nash Gleichgewicht die Drohung niemals ausgeführt wird. (Z.B. Tit for tat: Beide spielen xK i für immer.) Drohungen liegen also abseits des Gleichgewichtspfades. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 29 Wie ist ein Teilspiel in einem wiederholten Spiel definiert? In einem wiederholten Spiel beginnt nach jeder Geschichte ein Teilspiel. Eine Geschichte ht dokumentiert den Spielverlauf bis Periode t. Eine Fortsetzungsgeschichte von ht ist eine Geschichte, die ht als die ersten t − 1 Strategiekombinationen hat. Definition Ein teilspielperfektes Nash Gleichgewicht für ein wiederholtes Spiel ist eine Strategiekombination, die nach jeder Geschichte ht ein Nash Gleichgewicht für die Fortsetzungsgeschichte vorschreibt, für alle t ≥ 1. Daraus folgt: Eine Strategiekombination, die in jeder Runde ein Nash Gleichgewicht des Stufenspiels vorschreibt, ist ein teilspielperfektes Nash Gleichgewicht für das wiederholte Spiel. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 30 Satz Sei (s∗1 , s∗2 ) ein Nash Gleichgewicht des Stufenspiels mit Auszahlungen πi (s∗1 , s∗2 ), i = 1, 2. Dann gibt es für jeden Auszahlungsvektor πi ≥ πi (s∗1 , s∗2 ), i = 1, 2 einen Diskontfaktor δ 0 ∈ (0, 1), so dass für alle δ ≥ δ 0 die Auszahlungen πi (s∗1 , s∗2 ), i = 1, 2 in einem teilspielperfekten Nash Gleichgewicht des unendlich oft wiederholten Spiels erreicht werden können. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 31 Endlich oft wiederholte Spiele Beispiel: Das Cournot Duopolspiel wird 10 mal wiederholt. Was ergibt sich für das Verhalten der Unternehmen? Wir verwenden zur Analyse die Methode der Rückwärtsinduktion. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 32 Rückwärtsinduktion: • In der zehnten Runde (dem letzten Teilspiel) ist x∗i für beide Spielerinnen eine dominante Strategie, da es keine weitere Runde gibt und daher keine Bestrafung mehr erfolgen kann. • In der neunten Runde antizipieren die Spielerinnen, dass in der zehnten Runde (x∗1 , x∗2 ) gespielt wird. Wiederum ist x∗i eine dominante Strategie für beide Spielerinnen. Kooperation xK i lohnt sich nicht. • In Runde t antizipieren die Spielerinnen, dass in Runde t + 1 das Strategienpaar (x∗1 , x∗2 ) gespielt wird. Daher ist x∗i eine dominante Strategie für jede Spielerin. Somit wird in jeder Runde (x∗1 , x∗2 ) gespielt! Das ist das einzige teilspielperfekte Nash Gleichgewicht des endlich oft wiederholten Spiels. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 33 Satz Hat das Stufenspiel ein eindeutiges Nash Gleichgewicht, in dem die Auszahlungen gleich den Maximin Auszahlungen sind, dann ist die einzig mögliche Kombination von Auszahlungen in jeder Runde des endlich oft wiederholten Spiels gegeben durch diese Maximin Auszahlungen. Satz Hat das Stufenspiel ein Nash Gleichgewicht (s∗1 , s∗2 ) mit Auszahlungen, die größer sind als die Maximin Auszahlungen mi , dann kann jede Kombination von Auszahlungen mit πi ≥ mi für i = 1, 2 in einem Nash Gleichgewicht des endlich oft wiederholten Spiels erreicht werden, vorausgesetzt • der Diskontfaktor ist nahe eins und • die Zahl der Wiederholungen des Spiels ist hinreichend groß. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 34 Beispiel: Das Gefangenendilemma wird modifiziert, indem wir eine strikt dominierte Strategie für jeden Spieler hinzufügen. N C A N 1, 1 −1, 3 −4, −4 C 3, −1 0, 0 −3, −4 A −4, −4 −4, −3 −4, −4 Dadurch wird das Gleichgewicht nicht verändert, aber die Maximin Auszahlungen (−3, −3) der Spieler sind geringer als die gleichgewichtigen Auszahlungen im Stufenspiel (0, 0). Wenn das Spiel zweimal wiederholt wird, dann kann (N, N ) in der ersten Periode als Nash Gleichgewicht implementiert werden: & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 35 Strategie für jeden Spieler: • Spiele in der ersten Periode N . • Spiele in der zweiten Periode C, falls in der ersten Periode (N, N ) gespielt wurde, und A sonst. Bildet diese Strategiekombination ein Nash Gleichgewicht? Angenommen, Spieler 2 hält sich an diese Strategie – könnte sich Spieler 1 durch Abweichen verbessern? & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 36 Bei der angegebenen Strategie erhält er die Auszahlung π1 (N, N ) + π1 (C, C) = 1 + 0 = 1. Weicht Spieler 1 ab, könnte er bestenfalls C in beiden Runden spielen. Seine Auszahlung wäre π1 (C, N ) + π1 (C, A) = 3 − 3 = 0. Fazit: Abweichen lohnt nicht. Um das gewünschte Verhalten eines Spielers in der ersten Periode zu induzieren, droht man in der zweiten Periode mit einem schlechteren Ergebnis als dem Nash Gleichgewicht. In der ursprünglichen Version des Gefangenendilemmas war das nicht möglich. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 37 Aber dieses Nash Gleichgewicht ist nicht teilspielperfekt: Spieler 2 muss, um Spieler 1 zu bestrafen, eine für ihn suboptimale Aktion wählen. Frage: Gibt es teilspielperfekte Nash Gleichgewichte des wiederholten Spiels, die andere Auszahlungen als die im Nash Gleichgewicht des Stufenspiels induzieren? Antwort: Satz Hat das Stufenspiel ein eindeutiges Nash Gleichgewicht, so hat jedes endlich oft wiederholte Spiel ein eindeutiges teilspielperfektes Nash Gleichgewicht: Das Gleichgewicht des Stufenspiels wird in jeder Runde gespielt. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 38 Dies folgt aus der Rückwärtsinduktion. Konsequenz: Spiele, die nur ein Nash Gleichgewicht haben, bieten keine Möglichkeit, glaubwürdig zu drohen, wenn das Spiel endlich oft wiederholt wird. Wenn es jedoch im Stufenspiel mehr als ein Nash–Gleichgewicht gibt, bei denen sich die Auszahlungen unterscheiden, dann könnte eine glaubwürdige Drohung darin bestehen, in den letzten Runde das ‘schlechte’ Nash–Gleichgewicht zu spielen. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 39 Die Rückwärtsinduktion hängt allerdings eng dmit zusammen, dass wir Common knowledge der Rationaliät annehmen. Ein Bespiel, dass illustriert, wie problematisch diese Annahme sein kann, bzw. zu welchen Konsequenzen die Logik der Rückwärtsinduktion führt, ist das Hundertfüsslerspiel (centipede game) von rosenthal (1981) Es ist auf der folgenden Folie dargestellt & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 40 100 Ir c II r c Ir c II r c Ir c II r . .c. Ir c II r c Ir c II r c Ir c II r c 100 d d d d d d d d d d d d 1 −1 2 0 3 1 97 95 98 96 99 97 1 3 2 4 3 5 97 99 98 100 99 101 & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie $ Sommersemester 2007 41 Rückwärtsinduktion führt zum eindeutigen teilspielperfekten Nash Gleichgewicht. Beide Spieler wählen stets die Aktion d, die resultierende Auszahlung ist (1, 1). Sie könnten aber beide 100 erreichen. Erneut scheinen individuelle und soziale Rationalität nicht zusammen zu passen. & Jörg Naeve Universität des Saarlandes % 14. Vorlesung, 28. 06.2̇007 ' Spieltheorie & Jörg Naeve Sommersemester 2007 Universität des Saarlandes $ 42 % 14. Vorlesung, 28. 06.2̇007