22. Juli 2006 Kooperative 2-Personen-Spiele - Ausarbeitung des Vortrags im Rahmen des Proseminars Spieltheorie Carolin Torchiani 1 Das Verhandlungsproblem Im Folgenden werde ich 2-Personen-Spiele betrachten, bei denen der Gewinn des einen nicht automatisch den Verlust des anderen Spielers bedeutet und bei denen es den beiden Spielern erlaubt ist, zu kooperieren, um dadurch ihren Nutzen zu steigern. Der Nutzen jedes Spielers wird durch eine Nutzenfunktion gemessen, die jeder Lotterie der Ereignisse eine Zahl zuordnet. Dabei sind folgende Bedingungen erfüllt (A und B beliebige Ereignisse, U die Nutzenfunktion): • U (B) > U (A) ⇐⇒ BpA • U (rA + (1 − r)B) = rU (A) + (1 − r)U (B) ∀ 0 ≤ r ≤ 1 Die Wertemenge von U ist eine konvexe Teilmenge von ℜ, d.h. ein Intervall. (siehe Vortrag Nutzentheorie) Bei kooperativen 2-Personen-Spielen wählt man zwei Nutzenfunktionen U und V , eine für jeden Spieler. Die Menge der möglichen Nutzenkombinationen bildet eine Teilmenge des ℜ2 , die ebenfalls konvex ist (denn bei gegebenem Nutzen des einen Spielers ist die Wertemenge der Nutzenfunktion des anderen ein Intervall). Sie heißt zulässige Menge S: (u, v) ∈ S ⇐⇒ Durch Kooperation ist es Spieler 1 möglich den Nutzen u, Spieler 2 den Nutzen v zu erzielen. Innerhalb dieser Menge kann man - analog zum Fall der Nullsummenspiele - den maximalen Nutzen für Spieler I und Spieler II bestimmen, den sie durch unilaterales Handeln erreichen können, d.h. unabhängig vom Verhalten des anderen Spielers. Diese nenne ich u∗ und v ∗ . Nun sind allerdings zwei Matrizen A und B, die (wie beim Nullsummenspiel) jeweils die Auszahlung von Spieler I bzw. II gemessen als Nutzen 1 angeben, notwendig, um diese Werte zu bestimmen, da der Gewinn des einen nicht mehr zwangsläufig den Verlust des anderen Spielers nach sich zieht. Demnach lassen sich die Maximin-Werte u∗ und v ∗ berechnen durch • u∗ = maxx miny xAy T • v ∗ = maxy minx xBy T wobei x und y für gemischte Strategien von Spieler I bzw. II stehen. Wenn nun ein Tripel (S, u∗ , v ∗ ) aus zulässiger Menge und den beiden MaximinWerten gegeben ist, stellt sich die Frage, wie man eine Funktion aufstellen kann, die eine für beide akzeptable Verhandlungslösung ϕ(S, u∗ , v ∗ ) = (ū, v̄) ermittelt. Natürlich ist es unmöglich zu bestimmen, wie sich die Beteiligten in der jeweiligen Situation tatsächlich verhalten würden, das hängt von deren Persönlichkeit ab. Trotzdem gibt es einige vernünftig erscheinende Voraussetzungen für eine solche Verhandlungslösung. Diesbezüglich wurden die folgenden Axiome von John Nash entwickelt: • N1 Individuelle Rationalität: (ū, v̄) ≥ (u∗ , v ∗ ) • N2 Zulässigkeit: (ū, v̄) ∈ S • N3 Pareto-Optimalität: (u, v) ∈ S und (u, v) ≥ (ū, v̄) ⇒ (ū, v̄) = (u, v) • N4 Unabhängigkeit von irrelevanten Alternativen: (ū, v̄) ∈ T ⊆ S und (ū, v̄) = ϕ(S, u∗ , v ∗ ) ⇒ (ū, v̄) = ϕ(T, u∗ , v ∗ ) • N5 Unabhängigkeit von linearen Transformationen: T entstehe aus S durch die lineare Transformation ((u, v) ∈ S) u′ = a1 u + b1 , v ′ = a2 v + b2 und die Verhandlungslösung sei ϕ(S, u∗ , v ∗ ) = (ū, v̄). Dann ist ϕ(T, au∗ + b, cv ∗ + d) = (aū + b, cv̄ + d). • N6 Symmetrie: Falls ϕ(S, u∗ , v ∗ ) = (ū, v̄) mit u∗ = v ∗ und aus (u, v) ∈ S folgt (v, u) ∈ S (d.h. S ist symmetrisch), dann gilt auch ū = v̄. Die ersten 3 Axiome sind offensichtliche Bedingungen an solch eine Funktion ϕ. N4 besagt, dass, wenn (ū, v̄) die Lösung eines Verhandlungsproblem ist und die zulässige 2 Menge erweitert wird, die Lösung des neuen Problems entweder zu den hinzugekommenen Punkten zählt oder aber (u′ , v ′ ) bleibt. Dieses Axiom wurde schon öfters kritisiert. N5 ergibt Sinn, da eine Nutzenfunktion keinen absoluten Nutzen misst und nicht eindeutig ist, sondern nur die Alternativen miteinander vergleicht, und es somit keine gute und schlechte Nutzenfunktion gibt (siehe Vortrag Nutzentheorie). N6 ist verständlich, wenn zwischen gleichgestellten Spielern verhandelt wird, z.B. zwischen Personen, aber nicht mehr bei Verhandlungen zwischen nicht vergleichbaren Spielern, wie einem Staat und einer Einzelperson. Weitere Axiome wurden vorgeschlagen, widersprechen jedoch sogar teilweise den genannten sechs und wären wegen folgenden Satz sogar überflüssig: Satz 1.1 Es existiert genau eine für alle Verhandlungsprobleme (S, u∗ , v ∗ ) definierte Funktion ϕ, welche die Axiome N1 - N6 erfüllt. Um diesen Beweis vorzubereiten, folgende Lemmata: Lemma 1.2 Falls ein Punkt (u, v) ∈ S existiert mit u > u∗ und v > v ∗ , dann gibt es einen eindeutig bestimmten Punkt (ū, v̄), der die Funktion g(u, v) = (u − u∗ )(v − v ∗ ) (1) über der Teilmenge T := {(u, v) ∈ S | u ≥ u∗ } von S maximiert. Beweis: Nach Voraussetzung ist diese Teilmenge T von S kompakt. Da die Funktion g stetig ist, nimmt ihre Einschränkung auf T ihr Maximum an. Nach Voraussetzung (u − u∗ ≥ 0; ∃ (u, v) ∈ S mit u > u∗ und v > v ∗ ) ist dieses Maximum M positiv. Angenommen es gäbe zwei verschiedene Punkte (u′ , v ′ ) und (u′′ , v ′′ ), die g(u, v) maximieren. Dann ist u′ 6= u′′ , da wegen M > 0 ansonsten v ′ = v ′′ . Also o.B.d.A. u′ < u′′ , damit v ′ > v ′′ . Wegen der Konvexität von S, liegt (û, v̂) mit û = (u′ + u′′ )/2, v̂ = (v ′ + v ′′ )/2 in S: (u′ − u∗ ) + (u′′ − u∗ ) (v ′ − v ∗ ) + (v ′′ − v ∗ ) ∗ 2 2 ′ ′ ′ ∗ ∗ ′ ∗ ∗ 2(u v − u v − u v + u v ) + 2(u′′ v ′′ − u′′ v ∗ − u∗ v ′′ + u∗ v ∗ ) = 4 u′ v ′′ − u′′ v ′′ − u′′ v ′ + u′′ v ′′ + 4 (u′ − u∗ )(v ′ − v ∗ ) (u′′ − u∗ )(v ′′ − v ∗ ) (u′ − u′′ )(v ′′ − v ′ ) + + = 2 2 4 g(û, v̂) = (2) Die beiden ersten Terme sind gleich M/2, der dritte Term positiv und damit g(û, v̂) > M , was ein Widerspruch dazu darstellt, dass M maximal ist. Folglich ist der Punkt, der g maximiert, eindeutig bestimmt. 3 Lemma 1.3 Seien S, (u∗ , v ∗ ) und (ū, v̄) wie im letzten Lemma und h : ℜ2 −→ ℜ definiert durch h(u, v) = (v̄ − v ∗ )u + (ū − u∗ )v. (3) Dann gilt h(u, v) ≤ h(ū, v̄) für alle (u, v) ∈ S. Beweis: Angenommen es existiert (u, v) ∈ S mit h(u, v) > h(ū, v̄). Sei 0 < ε < 1, u′ = ū + ε(u − ū) und v ′ = v̄ + ε(v − v̄). Weil S konvex ist, liegt auch (u′ , v ′ ) in S, und wegen h(u − ū, v − v̄) = h(u, v) − h(ū, v̄) ist auch h(u − ū, v − v̄) größer null. Damit folgt g(u′ , v ′ ) = = + = (ū + ε(u − ū) − u∗ )(v̄ + ε(v − v̄) − v ∗ ) (ū − u∗ )(v̄ − v ∗ ) + ε(ū − u∗ )(v − v ∗ ) + ε(v̄ − v ∗ )(u − u∗ ) ε2 (u − ū)(v − v̄) g(ū, v̄) + εh(u − ū, v − v̄) + ε2 (u − ū)(v − v̄). (4) Für sehr kleine ε kann man den letzten Term vernachlässigen, weil er kleiner als der zweite wird. Daraus folgt dann g(u′ , v ′ ) > g(ū, v̄), was einen Widerspruch dazu bedeutet, dass g bei (ū, v̄) sein Maximum annimmt. Beweis des Satzes: Angenommen es existiert ein Punkt (u, v) ∈ S mit u > u∗ und v > v ∗ . Dann ist der Punkt, an dem g maximal ist eindeutig bestimmt. Nach Konstruktion erfüllt er die Axiome N1 und N2. Er erfüllt auch N3, da aus (u, v) ≥ (ū, v̄) und (u, v) 6= (ū, v̄) folgen würde, dass g(u, v) ≥ g(ū, v̄). N4 wird eingehalten, denn wenn (ū, v̄) ∈ T ⊆ S g über S maximiert, dann erst recht über T . Bei einer linearen Transformation u′ = a1 u + b1 , v ′ = a2 v + b2 ist N5 erüllt, da dann g ′ (u′ , v ′ ) = [u′ − (a1 u∗ + b1 )][v ′ − (a2 v ∗ + b2 ] = [a1 u + b1 − (a1 u∗ + b1 )][a2 v + b2 − (a2 v ∗ + b2 ] = a1 a2 g(u′ , v ′ ) (5) und (ū′ , v̄ ′ ) damit auch g ′ maximiert. Auch N6 wird eingehalten, denn falls S symmetrisch ist, liegt auch (v̄, ū) in S. Gilt zustzlich u∗ = v ∗ folgt g(ū, v̄) = g(v̄, ū). Da das Maximum von g eindeutig bestimmt ist, folgt ū = v̄. Somit bleibt noch zu zeigen, dass (ū, v̄) der einzige Punkt ist, der N1 - N6 erfüllt. Dazu betrachte ich die in Abbildung 1.1 dargestellte Menge U := {(u, v) | h(u, v) ≤ h(ū, v̄)}. Nach obigem Lemma liegt S in U . T enstehe aus U durch die lineare Transformation 4 u − u∗ ū − u∗ v − v∗ v′ = . v̄ − v ∗ u′ = (6) Damit ist T = {(u′ , v ′ ) | u′ + v ′ ≤ 2} und u′∗ = v ′∗ = 0. Da T symmetrisch ist (N6), muss die Lösung auf der Linie u′ = v ′ liegen und wegen N3 folgt, dass es der Punkt (1, 1) ist. Durch Umkehrung der Transformation folgt, dass (ū, v̄) die eindeutige Lösung von (U, u∗ , v ∗ ) ist - und wegen S ⊆ U muss (ū, v̄) auch die eindeutige Lösung von (S, u∗ , v ∗ ) sein. Nun sei angenommen, dass kein Punkt (u, v) ∈ S mit u > u∗ und v > v ∗ existiert. Falls ein (u, v) ∈ S mit u > u∗ und v = v ∗ existiert, dann kann es wegen der Konvexität von S keinen Punkt (u, v) ∈ S mit v > v ∗ geben. Sei nun (ū, v̄) der Punkt in S mit u maximal unter der Bedingung, dass v = v ∗ . Analog kann kein Punkt in S mit u > u∗ existieren, wenn es ein (u, v) ∈ S gibt mit u = u∗ und v > v ∗ . In diesem Fall sei (ū, v̄) der Punkt in S, der v unter der Bedingung u = u∗ maximiert. Analog zum ersten Fall kann nachgeprüft werden, dass (ū, v̄) jeweils N1 - N6 erfüllt und auch eindeutig bestimmt ist. Wenn also der Rand von S keinen Knick und damit eine Tangente hat, so gibt ihre Steigung das Verhältnis an, in dem der Nutzen von einem auf den anderen Spieler transferiert wird, wenn man auf dem Rand wandert. Im Punkt ū, v̄ ist diese Steigung durch die der Geraden h(u, v) = h(ū, v̄) gegeben. Da der Nutzen nicht linear übertragbar sein muss, könnte auch nur ein Punkt existieren, an dem der Nutzen in diesem bestimmten Verhltnis übertragen wird (siehe Abbildung 1.1). 5 Ist der Nutzen linear übertragbar wird das Problem wesentlich einfacher. Dann kann durch eine lineare Transformation der Nutzenfunktionen erreicht werden, dass dieses Verhältnis des Nutzentransfers zu 1 : 1 wird. Das heißt, dass Spieler I eine Einheit seines Nutzens auf Spieler II übertragen kann, indem er selbst eine Nutzeneiheit aufgibt. Somit enthält S alle Punkte auf oder unterhalb einer Linie u + v = k, wobei k der maximale Nutzen ist, den beide zusammen erreichen können. Dann lässt sich die zugehörige Nash-Lösung ϕ(S, u∗ , v ∗ ) durch Kurvendiskussion ermitteln als ū = (u∗ − v ∗ + k)/2 v̄ = (v ∗ − u∗ + k)/2. (7) Daraus folgt ū + v̄ = k und ū − v̄ = u∗ − v ∗ . Dementsprechend bleibt die Nutzendifferenz der Spieler bei der Verhandlungslösung gegenüber den Maximin-Werten erhalten, d.h. der Nutzengewinn wird gleich zwischen den beiden Spielern vertreilt. Diese Zusammenhänge werden auch in Abbildung 1.2 verdeutlicht. Beispiel 1.4 Die Freunde Jakob und Timo haben von Jakobs Oma eine Schachtel mit 10 Keksen geschenkt bekommen und dürfen sie jetzt aufteilen. Jakob isst sehr gerne Kekse deshalb lautet seine Nutzenfunktion U (x) = x, wobei x die Keksanzahl ist. Timo isst zwar auch gerne Kekse, aber nach ein paar Keksen hat er genug. Deshalb √ wird sein Nutzen von y Keksen durch V (y) = y berechnet. Die Minimax-Werte sind√u∗ = v ∗ = 0. Wenn also Jakob x Kekse bekommt, beläuft sich Timos Nutzen auf 10 − x und √ damit ist S die konvexe Hülle von (0, 0) und dem Bogen mit der Gleichung v = 10 − x. √ Jetzt suchen wir den Punkt, der g = (u − u∗ )(v − v ∗ ) = uv = x 10 − x maximiert. Z.B. durch Kurvendiskussion kann man berechen, dass Jakob 6 2/3 Kekse und Timo 3 1/3 Kekse gemäß den Nash-Axiomen erhalten sollte, was ihren unterschiedlichen Vorlieben Ausdruck verleiht (siehe auch Abbildung 1.3). 6 2 Drohstrategien Ein Schwachpunkt von Nashs Verhandlungsschema ist allerdings, dass es keine Drohstrategien berücksichtigt. Denn selbst wenn der Nutzen linear transferiert wird, wie bei obiger Überlegung, kann die Nash-Lösung wenig realistisch sein. Dazu folgendes Beispiel: Beispiel 2.1 Die Brüder Jakob und Ole bekommen von ihrer Oma bei jedem Besuch eine Schachtel Kekse geschenkt, die sie untereinander teilen sollen. Nun kann Jakob entscheiden, ob er freiwillig auf seine Kekse verzichtet oder aber ob Ole der Oma erzählt, dass Jakob den von der Oma gestrickten Pullover verloren hat. Dann würde Jakob zwar die Hälfte der Kekse bekommen, wahrscheinlich aber nie wieder einen Pullover gestrickt. Diesen Ereignissen ordne ich den Nutzen (0, 20) bzw. (-200, 10) zu. Weil Ole ja trotz seines Schweigens immer noch die Möglichkeit hat, seinem Bruder die Kekse anzubieten, ist die zulässige Menge im positiven Quadranten S = {(u, v) ∈ ℜ2 | u + v ≤ 20}. Da u∗ = v ∗ = 0 ergibt sich die Nash-Lösung nach Gleichung 7 als (10, 10). Dabei bleibt allerdings unberücksichtigt, dass Ole sich in einer weit besseren Lage befindet als Jakob, denn Jakob kann Thomas nur davon abhalten die gesamten Kekse zu bekommen, indem er einen größeren Nachteil als den Verlust der Kekse hinnimmt. Die Drohung selbst von dem Verlust des Pullovers zu erzählen, wäre daher wenig glaubhaft. Deshalb wird Jakob wahrscheinlich eher auf die Kekse verzichten, um weiterhin Pullover gestrickt zu bekommen. Um diese Schwachpunkte zu beheben folgen einige ebenfalls von Nash entwickelte Überlegungen bezüglich Drohstratigien. 7 Eine Drohung ist effektiv, wenn sie glaubwürdig ist und die Situation des Bedrohten drastisch verschlechtern würde. Mit diesem Gedanken hat Nash das folgende dreistufige Verhandlungsschema entwickelt: • Spieler I spricht die Drohung aus, Strategie x umzusetzen. • Spieler II droht Strategie y an, allerdings ohne die Drohung von Spieler I zu kennen. • Spieler I und II verhandeln. Können sie sich einigen, so wird das Ergebnis umgesetzt. Kommt keine Einigung zu stande, müssen beide ihre Drohungen umsetzen. Somit werden die Maximin-Werte u∗ und v ∗ durch die Droh-Werte xAy T und xBy T ersetzt. Nun ist gemäß den Axiomen N1 - N6 das Ergebnis der Verhandlung das Maximum (ū, v̄) der Funktion (u ≥ xAy T , v ≥ xBy T ) g(u, v) = (u − xAy T )(v − xBy T ). (8) Um dies zu illustrieren ist in Abbildung 2.1 eine typische Menge S abgebildet abgeschlossen, beschränkt und konvex. Die Kurve S0 stellt die Teilmenge von S dar, die N3 erfüllt und damit pareto-optimal ist. An jedem Punkt in S0 , an dem eine Tangente existiert, wird eine Linie mit der negativen Steigung dieser Tangente gezogen. Gibt es diese Tangente nicht (z. B. Punkt C), dann werden zwei Linien gezogen, jeweils eine mit der negativen Steigung der Punkte rechts und links dieses Punkts. Wegen der Konvexität von S schneiden diese Geraden sich höchstens außerhalb von S. Ergeben die Drohstrategien einen Droh-Wert P , der auf einer dieser Linien liegt, so ist die Nash-Lösung der Punkt, an dem diese Linie S0 schneidet. Folglich versucht Spieler I Drohstratigie zu wählen, die möglichst auf einer tiefen Linie liegt, Spieler II eine auf einer hohen. Damit sind ihre Interessen bei der Wahl der Drohstrategie genau entgegengesetzt. Nun kommt die Frage auf, ob es Gleichgewichtspaare von Drohstrategien gibt, d.h. ein Paar, so dass die Wahl einer anderen Drohstrategie für beide Spieler nachteilig wäre, wenn der andere seine Strategie beibehält. Diese Frage wird von den folgenden Sätzen beantwortet. Satz 2.2 Jedes Bimatrixspiel hat mindestens ein Gleichgewichtspaar von Drohstrategien. Satz 2.3 Wenn (x′ , y ′ ) und (x′′ , y ′′ ) Gleichgewichtspaare von Drohstrategien sind, so sind auch (x′ , y ′′ ) und (x′′ , y ′ ) Gleichgewichtspaare. Außerdem ist die nach Nash berechnete Verhandlungslösung des Spiels die gleiche für alle Gleichgewichtspaare. 8 Die Beweise sind leichte Abwandlungen von in vorherigen Vorträgen bewiesenen Sätzen. Wegen diesem letzten Satz kann man auch von optimalen Drohstrategien und nicht nur von Gleichgewichtspunkten sprechen. Die Berechnung einer solchen Strategie ist im Allgemeinen allerdings kompliziert, da das Ergebnis bei der Wahl von Drohstrategien x und y nicht nur von von den Zahlen xAy T und xBy T , sondern auch von der Form des pareto-optimalen Rands S0 der Menge S abhängt. In einigen Spezialfällen ist diese Berechnung aber mit relativ einfachen Mittlen möglich. Wenn beispielsweise der Nutzen linear zwischen den Spielern transferiert wird, kann man die Nutzenfunktion so wählen, dass dieses Verhältnis 1 : 1 beträgt. Mit den Überlegungen am Ende des letzten Abschnitts ergibt sich die Lösung xAy T − xBy T + k 2 xBy T − xAy T + k , v̄ = 2 ū = (9) (10) wobei k wieder der maximale Nutzen ist, den beide Spieler zusammen erzielen können. Folglich wird Spieler I versuchen x(A − B)y T zu maximieren, Spieler II x(B − A)y T . Somit sind die optimalen Drohstrategien des Bimatrixspiels (A, B) die gleichen wie die optimalen Strategien des Nullsummenspiels (A-B). Beispiel 2.4 Das Bimatrix-Spiel (A, B) sei gegeben durch (A, B) = µ ¶ (2, 6) (−2, −9) . (−5, −2) (5, 3) 9 (11) Die zulässige Menge S ist die konvexe Hülle von aij und bij . Man sieht sofort, dass der Nutzen auf dem pareto-optimalen Rand von S0 zwischen (2, 6) und (5, 3) linear im Verhältnis 1 : 1 übertragen werden kann. Die Maximin-Werte sind jeweils 0 für die beiden Spieler und können durch die gemischten Strategien (5/7, 2/7) bzw. (1/4, 3/4) erreicht werden, was sich z. B. durch das Lösen eines Linearen Programms berechnen lässt. Da der maximlale Nutzen, den beide Spieler zusammen erzielen können 8 beträgt, lautet die Nash-Lösung dieses Verhandlungsproblems (ū, v̄) = (4, 4), siehe Gleichung 7. Bei dieser Betrachtung bleibt allerdings die Drohöglichkeit von Spieler II unbeachtet. Entscheidet dieser sich seine erste reine Strategie zu spielen, so kann Spieler II nur einen sehr geringen Nutzen erzielen. Also betrachten wir das Spiel A−B = . µ ¶ −4 7 −3 2 (12) Dieses Spiel hat einen Sattelpunkt bei -3, d.h. Spieler I sollte seine zweite und Spieler II seine erste reine Strategie als Drohung wählen, so dass (u∗ , v ∗ ) = (−5, −2). Mit Gleichung 7 ergibt sich dadurch die Nash-Lösung (ū, v̄) = (2.5, 5.5), was die bessere Drohmöglichkeit von Spieler I berücksichtigt. 10