1 Das Verhandlungsproblem

Werbung
22. Juli 2006
Kooperative 2-Personen-Spiele - Ausarbeitung des Vortrags
im Rahmen des Proseminars Spieltheorie
Carolin Torchiani
1
Das Verhandlungsproblem
Im Folgenden werde ich 2-Personen-Spiele betrachten, bei denen der Gewinn des einen
nicht automatisch den Verlust des anderen Spielers bedeutet und bei denen es den
beiden Spielern erlaubt ist, zu kooperieren, um dadurch ihren Nutzen zu steigern. Der
Nutzen jedes Spielers wird durch eine Nutzenfunktion gemessen, die jeder Lotterie
der Ereignisse eine Zahl zuordnet. Dabei sind folgende Bedingungen erfüllt (A und
B beliebige Ereignisse, U die Nutzenfunktion):
• U (B) > U (A) ⇐⇒ BpA
• U (rA + (1 − r)B) = rU (A) + (1 − r)U (B) ∀ 0 ≤ r ≤ 1
Die Wertemenge von U ist eine konvexe Teilmenge von ℜ, d.h. ein Intervall. (siehe
Vortrag Nutzentheorie)
Bei kooperativen 2-Personen-Spielen wählt man zwei Nutzenfunktionen U und V ,
eine für jeden Spieler. Die Menge der möglichen Nutzenkombinationen bildet eine
Teilmenge des ℜ2 , die ebenfalls konvex ist (denn bei gegebenem Nutzen des einen
Spielers ist die Wertemenge der Nutzenfunktion des anderen ein Intervall). Sie heißt
zulässige Menge S:
(u, v) ∈ S ⇐⇒ Durch Kooperation ist es Spieler 1 möglich den Nutzen u, Spieler
2 den Nutzen v zu erzielen.
Innerhalb dieser Menge kann man - analog zum Fall der Nullsummenspiele - den
maximalen Nutzen für Spieler I und Spieler II bestimmen, den sie durch unilaterales
Handeln erreichen können, d.h. unabhängig vom Verhalten des anderen Spielers.
Diese nenne ich u∗ und v ∗ . Nun sind allerdings zwei Matrizen A und B, die (wie beim
Nullsummenspiel) jeweils die Auszahlung von Spieler I bzw. II gemessen als Nutzen
1
angeben, notwendig, um diese Werte zu bestimmen, da der Gewinn des einen nicht
mehr zwangsläufig den Verlust des anderen Spielers nach sich zieht. Demnach lassen
sich die Maximin-Werte u∗ und v ∗ berechnen durch
• u∗ = maxx miny xAy T
• v ∗ = maxy minx xBy T
wobei x und y für gemischte Strategien von Spieler I bzw. II stehen.
Wenn nun ein Tripel (S, u∗ , v ∗ ) aus zulässiger Menge und den beiden MaximinWerten gegeben ist, stellt sich die Frage, wie man eine Funktion aufstellen kann, die eine für beide akzeptable Verhandlungslösung ϕ(S, u∗ , v ∗ ) = (ū, v̄) ermittelt. Natürlich
ist es unmöglich zu bestimmen, wie sich die Beteiligten in der jeweiligen Situation
tatsächlich verhalten würden, das hängt von deren Persönlichkeit ab. Trotzdem gibt
es einige vernünftig erscheinende Voraussetzungen für eine solche Verhandlungslösung.
Diesbezüglich wurden die folgenden Axiome von John Nash entwickelt:
• N1 Individuelle Rationalität:
(ū, v̄) ≥ (u∗ , v ∗ )
• N2 Zulässigkeit:
(ū, v̄) ∈ S
• N3 Pareto-Optimalität:
(u, v) ∈ S und (u, v) ≥ (ū, v̄)
⇒ (ū, v̄) = (u, v)
• N4 Unabhängigkeit von irrelevanten Alternativen:
(ū, v̄) ∈ T ⊆ S und (ū, v̄) = ϕ(S, u∗ , v ∗ )
⇒ (ū, v̄) = ϕ(T, u∗ , v ∗ )
• N5 Unabhängigkeit von linearen Transformationen:
T entstehe aus S durch die lineare Transformation ((u, v) ∈ S)
u′ = a1 u + b1 , v ′ = a2 v + b2 und die Verhandlungslösung sei ϕ(S, u∗ , v ∗ ) = (ū, v̄).
Dann ist
ϕ(T, au∗ + b, cv ∗ + d) = (aū + b, cv̄ + d).
• N6 Symmetrie:
Falls ϕ(S, u∗ , v ∗ ) = (ū, v̄) mit u∗ = v ∗ und aus (u, v) ∈ S folgt (v, u) ∈ S (d.h.
S ist symmetrisch), dann gilt auch ū = v̄.
Die ersten 3 Axiome sind offensichtliche Bedingungen an solch eine Funktion ϕ. N4
besagt, dass, wenn (ū, v̄) die Lösung eines Verhandlungsproblem ist und die zulässige
2
Menge erweitert wird, die Lösung des neuen Problems entweder zu den hinzugekommenen Punkten zählt oder aber (u′ , v ′ ) bleibt. Dieses Axiom wurde schon öfters
kritisiert. N5 ergibt Sinn, da eine Nutzenfunktion keinen absoluten Nutzen misst und
nicht eindeutig ist, sondern nur die Alternativen miteinander vergleicht, und es somit
keine gute und schlechte Nutzenfunktion gibt (siehe Vortrag Nutzentheorie). N6 ist
verständlich, wenn zwischen gleichgestellten Spielern verhandelt wird, z.B. zwischen
Personen, aber nicht mehr bei Verhandlungen zwischen nicht vergleichbaren Spielern,
wie einem Staat und einer Einzelperson.
Weitere Axiome wurden vorgeschlagen, widersprechen jedoch sogar teilweise den
genannten sechs und wären wegen folgenden Satz sogar überflüssig:
Satz 1.1 Es existiert genau eine für alle Verhandlungsprobleme (S, u∗ , v ∗ ) definierte
Funktion ϕ, welche die Axiome N1 - N6 erfüllt.
Um diesen Beweis vorzubereiten, folgende Lemmata:
Lemma 1.2 Falls ein Punkt (u, v) ∈ S existiert mit u > u∗ und v > v ∗ , dann gibt
es einen eindeutig bestimmten Punkt (ū, v̄), der die Funktion
g(u, v) = (u − u∗ )(v − v ∗ )
(1)
über der Teilmenge T := {(u, v) ∈ S | u ≥ u∗ } von S maximiert.
Beweis: Nach Voraussetzung ist diese Teilmenge T von S kompakt. Da die
Funktion g stetig ist, nimmt ihre Einschränkung auf T ihr Maximum an. Nach Voraussetzung (u − u∗ ≥ 0; ∃ (u, v) ∈ S mit u > u∗ und v > v ∗ ) ist dieses Maximum M
positiv.
Angenommen es gäbe zwei verschiedene Punkte (u′ , v ′ ) und (u′′ , v ′′ ), die g(u, v) maximieren. Dann ist u′ 6= u′′ , da wegen M > 0 ansonsten v ′ = v ′′ . Also o.B.d.A. u′ < u′′ ,
damit v ′ > v ′′ .
Wegen der Konvexität von S, liegt (û, v̂) mit û = (u′ + u′′ )/2, v̂ = (v ′ + v ′′ )/2 in S:
(u′ − u∗ ) + (u′′ − u∗ ) (v ′ − v ∗ ) + (v ′′ − v ∗ )
∗
2
2
′ ′
′ ∗
∗ ′
∗ ∗
2(u v − u v − u v + u v ) + 2(u′′ v ′′ − u′′ v ∗ − u∗ v ′′ + u∗ v ∗ )
=
4
u′ v ′′ − u′′ v ′′ − u′′ v ′ + u′′ v ′′
+
4
(u′ − u∗ )(v ′ − v ∗ ) (u′′ − u∗ )(v ′′ − v ∗ ) (u′ − u′′ )(v ′′ − v ′ )
+
+
=
2
2
4
g(û, v̂) =
(2)
Die beiden ersten Terme sind gleich M/2, der dritte Term positiv und damit
g(û, v̂) > M , was ein Widerspruch dazu darstellt, dass M maximal ist. Folglich ist
der Punkt, der g maximiert, eindeutig bestimmt.
3
Lemma 1.3 Seien S, (u∗ , v ∗ ) und (ū, v̄) wie im letzten Lemma und h : ℜ2 −→ ℜ
definiert durch
h(u, v) = (v̄ − v ∗ )u + (ū − u∗ )v.
(3)
Dann gilt h(u, v) ≤ h(ū, v̄) für alle (u, v) ∈ S.
Beweis: Angenommen es existiert (u, v) ∈ S mit h(u, v) > h(ū, v̄). Sei 0 < ε < 1,
u′ = ū + ε(u − ū) und v ′ = v̄ + ε(v − v̄). Weil S konvex ist, liegt auch (u′ , v ′ ) in S, und
wegen h(u − ū, v − v̄) = h(u, v) − h(ū, v̄) ist auch h(u − ū, v − v̄) größer null. Damit
folgt
g(u′ , v ′ ) =
=
+
=
(ū + ε(u − ū) − u∗ )(v̄ + ε(v − v̄) − v ∗ )
(ū − u∗ )(v̄ − v ∗ ) + ε(ū − u∗ )(v − v ∗ ) + ε(v̄ − v ∗ )(u − u∗ )
ε2 (u − ū)(v − v̄)
g(ū, v̄) + εh(u − ū, v − v̄) + ε2 (u − ū)(v − v̄).
(4)
Für sehr kleine ε kann man den letzten Term vernachlässigen, weil er kleiner als
der zweite wird. Daraus folgt dann g(u′ , v ′ ) > g(ū, v̄), was einen Widerspruch dazu
bedeutet, dass g bei (ū, v̄) sein Maximum annimmt.
Beweis des Satzes: Angenommen es existiert ein Punkt (u, v) ∈ S mit u > u∗
und v > v ∗ . Dann ist der Punkt, an dem g maximal ist eindeutig bestimmt.
Nach Konstruktion erfüllt er die Axiome N1 und N2. Er erfüllt auch N3, da aus
(u, v) ≥ (ū, v̄) und (u, v) 6= (ū, v̄) folgen würde, dass g(u, v) ≥ g(ū, v̄). N4 wird
eingehalten, denn wenn (ū, v̄) ∈ T ⊆ S g über S maximiert, dann erst recht über T .
Bei einer linearen Transformation u′ = a1 u + b1 , v ′ = a2 v + b2 ist N5 erüllt, da dann
g ′ (u′ , v ′ ) = [u′ − (a1 u∗ + b1 )][v ′ − (a2 v ∗ + b2 ]
= [a1 u + b1 − (a1 u∗ + b1 )][a2 v + b2 − (a2 v ∗ + b2 ]
= a1 a2 g(u′ , v ′ )
(5)
und (ū′ , v̄ ′ ) damit auch g ′ maximiert. Auch N6 wird eingehalten, denn falls S
symmetrisch ist, liegt auch (v̄, ū) in S. Gilt zustzlich u∗ = v ∗ folgt g(ū, v̄) = g(v̄, ū).
Da das Maximum von g eindeutig bestimmt ist, folgt ū = v̄.
Somit bleibt noch zu zeigen, dass (ū, v̄) der einzige Punkt ist, der N1 - N6 erfüllt.
Dazu betrachte ich die in Abbildung 1.1 dargestellte Menge U := {(u, v) | h(u, v) ≤
h(ū, v̄)}. Nach obigem Lemma liegt S in U . T enstehe aus U durch die lineare
Transformation
4
u − u∗
ū − u∗
v − v∗
v′ =
.
v̄ − v ∗
u′ =
(6)
Damit ist T = {(u′ , v ′ ) | u′ + v ′ ≤ 2} und u′∗ = v ′∗ = 0. Da T symmetrisch ist
(N6), muss die Lösung auf der Linie u′ = v ′ liegen und wegen N3 folgt, dass es der
Punkt (1, 1) ist. Durch Umkehrung der Transformation folgt, dass (ū, v̄) die eindeutige Lösung von (U, u∗ , v ∗ ) ist - und wegen S ⊆ U muss (ū, v̄) auch die eindeutige
Lösung von (S, u∗ , v ∗ ) sein.
Nun sei angenommen, dass kein Punkt (u, v) ∈ S mit u > u∗ und v > v ∗ existiert.
Falls ein (u, v) ∈ S mit u > u∗ und v = v ∗ existiert, dann kann es wegen der Konvexität von S keinen Punkt (u, v) ∈ S mit v > v ∗ geben. Sei nun (ū, v̄) der Punkt in S
mit u maximal unter der Bedingung, dass v = v ∗ .
Analog kann kein Punkt in S mit u > u∗ existieren, wenn es ein (u, v) ∈ S gibt
mit u = u∗ und v > v ∗ . In diesem Fall sei (ū, v̄) der Punkt in S, der v unter der
Bedingung u = u∗ maximiert. Analog zum ersten Fall kann nachgeprüft werden, dass
(ū, v̄) jeweils N1 - N6 erfüllt und auch eindeutig bestimmt ist.
Wenn also der Rand von S keinen Knick und damit eine Tangente hat, so gibt ihre
Steigung das Verhältnis an, in dem der Nutzen von einem auf den anderen Spieler
transferiert wird, wenn man auf dem Rand wandert. Im Punkt ū, v̄ ist diese Steigung
durch die der Geraden h(u, v) = h(ū, v̄) gegeben. Da der Nutzen nicht linear übertragbar sein muss, könnte auch nur ein Punkt existieren, an dem der Nutzen in diesem
bestimmten Verhltnis übertragen wird (siehe Abbildung 1.1).
5
Ist der Nutzen linear übertragbar wird das Problem wesentlich einfacher. Dann
kann durch eine lineare Transformation der Nutzenfunktionen erreicht werden, dass
dieses Verhältnis des Nutzentransfers zu 1 : 1 wird. Das heißt, dass Spieler I eine Einheit seines Nutzens auf Spieler II übertragen kann, indem er selbst eine Nutzeneiheit
aufgibt. Somit enthält S alle Punkte auf oder unterhalb einer Linie u + v = k, wobei
k der maximale Nutzen ist, den beide zusammen erreichen können. Dann lässt sich
die zugehörige Nash-Lösung ϕ(S, u∗ , v ∗ ) durch Kurvendiskussion ermitteln als
ū = (u∗ − v ∗ + k)/2
v̄ = (v ∗ − u∗ + k)/2.
(7)
Daraus folgt ū + v̄ = k und ū − v̄ = u∗ − v ∗ . Dementsprechend bleibt die Nutzendifferenz der Spieler bei der Verhandlungslösung gegenüber den Maximin-Werten
erhalten, d.h. der Nutzengewinn wird gleich zwischen den beiden Spielern vertreilt.
Diese Zusammenhänge werden auch in Abbildung 1.2 verdeutlicht.
Beispiel 1.4 Die Freunde Jakob und Timo haben von Jakobs Oma eine Schachtel mit
10 Keksen geschenkt bekommen und dürfen sie jetzt aufteilen. Jakob isst sehr gerne
Kekse deshalb lautet seine Nutzenfunktion U (x) = x, wobei x die Keksanzahl ist.
Timo isst zwar auch gerne Kekse, aber nach ein paar Keksen hat er genug. Deshalb
√
wird sein Nutzen von y Keksen durch V (y) = y berechnet. Die Minimax-Werte
sind√u∗ = v ∗ = 0. Wenn also Jakob x Kekse bekommt, beläuft sich Timos Nutzen
auf 10 − x und
√ damit ist S die konvexe Hülle von (0, 0) und dem Bogen mit der
Gleichung v = 10 − x.
√
Jetzt suchen wir den Punkt, der g = (u − u∗ )(v − v ∗ ) = uv = x 10 − x maximiert.
Z.B. durch Kurvendiskussion kann man berechen, dass Jakob 6 2/3 Kekse und Timo
3 1/3 Kekse gemäß den Nash-Axiomen erhalten sollte, was ihren unterschiedlichen
Vorlieben Ausdruck verleiht (siehe auch Abbildung 1.3).
6
2
Drohstrategien
Ein Schwachpunkt von Nashs Verhandlungsschema ist allerdings, dass es keine Drohstrategien berücksichtigt. Denn selbst wenn der Nutzen linear transferiert wird, wie
bei obiger Überlegung, kann die Nash-Lösung wenig realistisch sein. Dazu folgendes
Beispiel:
Beispiel 2.1 Die Brüder Jakob und Ole bekommen von ihrer Oma bei jedem Besuch
eine Schachtel Kekse geschenkt, die sie untereinander teilen sollen. Nun kann Jakob
entscheiden, ob er freiwillig auf seine Kekse verzichtet oder aber ob Ole der Oma
erzählt, dass Jakob den von der Oma gestrickten Pullover verloren hat. Dann würde
Jakob zwar die Hälfte der Kekse bekommen, wahrscheinlich aber nie wieder einen
Pullover gestrickt. Diesen Ereignissen ordne ich den Nutzen (0, 20) bzw. (-200, 10)
zu.
Weil Ole ja trotz seines Schweigens immer noch die Möglichkeit hat, seinem Bruder
die Kekse anzubieten, ist die zulässige Menge im positiven Quadranten S = {(u, v) ∈
ℜ2 | u + v ≤ 20}. Da u∗ = v ∗ = 0 ergibt sich die Nash-Lösung nach Gleichung
7 als (10, 10). Dabei bleibt allerdings unberücksichtigt, dass Ole sich in einer weit
besseren Lage befindet als Jakob, denn Jakob kann Thomas nur davon abhalten die
gesamten Kekse zu bekommen, indem er einen größeren Nachteil als den Verlust der
Kekse hinnimmt.
Die Drohung selbst von dem Verlust des Pullovers zu erzählen, wäre daher wenig
glaubhaft. Deshalb wird Jakob wahrscheinlich eher auf die Kekse verzichten, um weiterhin Pullover gestrickt zu bekommen.
Um diese Schwachpunkte zu beheben folgen einige ebenfalls von Nash entwickelte
Überlegungen bezüglich Drohstratigien.
7
Eine Drohung ist effektiv, wenn sie glaubwürdig ist und die Situation des Bedrohten drastisch verschlechtern würde. Mit diesem Gedanken hat Nash das folgende
dreistufige Verhandlungsschema entwickelt:
• Spieler I spricht die Drohung aus, Strategie x umzusetzen.
• Spieler II droht Strategie y an, allerdings ohne die Drohung von Spieler I zu
kennen.
• Spieler I und II verhandeln. Können sie sich einigen, so wird das Ergebnis
umgesetzt. Kommt keine Einigung zu stande, müssen beide ihre Drohungen
umsetzen.
Somit werden die Maximin-Werte u∗ und v ∗ durch die Droh-Werte xAy T und
xBy T ersetzt. Nun ist gemäß den Axiomen N1 - N6 das Ergebnis der Verhandlung
das Maximum (ū, v̄) der Funktion (u ≥ xAy T , v ≥ xBy T )
g(u, v) = (u − xAy T )(v − xBy T ).
(8)
Um dies zu illustrieren ist in Abbildung 2.1 eine typische Menge S abgebildet abgeschlossen, beschränkt und konvex. Die Kurve S0 stellt die Teilmenge von S dar,
die N3 erfüllt und damit pareto-optimal ist. An jedem Punkt in S0 , an dem eine
Tangente existiert, wird eine Linie mit der negativen Steigung dieser Tangente gezogen. Gibt es diese Tangente nicht (z. B. Punkt C), dann werden zwei Linien gezogen,
jeweils eine mit der negativen Steigung der Punkte rechts und links dieses Punkts.
Wegen der Konvexität von S schneiden diese Geraden sich höchstens außerhalb von
S. Ergeben die Drohstrategien einen Droh-Wert P , der auf einer dieser Linien liegt,
so ist die Nash-Lösung der Punkt, an dem diese Linie S0 schneidet. Folglich versucht
Spieler I Drohstratigie zu wählen, die möglichst auf einer tiefen Linie liegt, Spieler
II eine auf einer hohen. Damit sind ihre Interessen bei der Wahl der Drohstrategie
genau entgegengesetzt.
Nun kommt die Frage auf, ob es Gleichgewichtspaare von Drohstrategien gibt, d.h.
ein Paar, so dass die Wahl einer anderen Drohstrategie für beide Spieler nachteilig
wäre, wenn der andere seine Strategie beibehält. Diese Frage wird von den folgenden
Sätzen beantwortet.
Satz 2.2 Jedes Bimatrixspiel hat mindestens ein Gleichgewichtspaar von Drohstrategien.
Satz 2.3 Wenn (x′ , y ′ ) und (x′′ , y ′′ ) Gleichgewichtspaare von Drohstrategien sind, so
sind auch (x′ , y ′′ ) und (x′′ , y ′ ) Gleichgewichtspaare. Außerdem ist die nach Nash berechnete Verhandlungslösung des Spiels die gleiche für alle Gleichgewichtspaare.
8
Die Beweise sind leichte Abwandlungen von in vorherigen Vorträgen bewiesenen
Sätzen.
Wegen diesem letzten Satz kann man auch von optimalen Drohstrategien und nicht
nur von Gleichgewichtspunkten sprechen. Die Berechnung einer solchen Strategie ist
im Allgemeinen allerdings kompliziert, da das Ergebnis bei der Wahl von Drohstrategien x und y nicht nur von von den Zahlen xAy T und xBy T , sondern auch von der
Form des pareto-optimalen Rands S0 der Menge S abhängt. In einigen Spezialfällen
ist diese Berechnung aber mit relativ einfachen Mittlen möglich.
Wenn beispielsweise der Nutzen linear zwischen den Spielern transferiert wird, kann
man die Nutzenfunktion so wählen, dass dieses Verhältnis 1 : 1 beträgt. Mit den
Überlegungen am Ende des letzten Abschnitts ergibt sich die Lösung
xAy T − xBy T + k
2
xBy T − xAy T + k
,
v̄ =
2
ū =
(9)
(10)
wobei k wieder der maximale Nutzen ist, den beide Spieler zusammen erzielen
können. Folglich wird Spieler I versuchen x(A − B)y T zu maximieren, Spieler II
x(B − A)y T . Somit sind die optimalen Drohstrategien des Bimatrixspiels (A, B) die
gleichen wie die optimalen Strategien des Nullsummenspiels (A-B).
Beispiel 2.4 Das Bimatrix-Spiel (A, B) sei gegeben durch
(A, B) =
µ
¶
(2, 6)
(−2, −9)
.
(−5, −2)
(5, 3)
9
(11)
Die zulässige Menge S ist die konvexe Hülle von aij und bij . Man sieht sofort, dass
der Nutzen auf dem pareto-optimalen Rand von S0 zwischen (2, 6) und (5, 3) linear
im Verhältnis 1 : 1 übertragen werden kann. Die Maximin-Werte sind jeweils 0 für
die beiden Spieler und können durch die gemischten Strategien (5/7, 2/7) bzw. (1/4,
3/4) erreicht werden, was sich z. B. durch das Lösen eines Linearen Programms berechnen lässt. Da der maximlale Nutzen, den beide Spieler zusammen erzielen können
8 beträgt, lautet die Nash-Lösung dieses Verhandlungsproblems (ū, v̄) = (4, 4), siehe
Gleichung 7.
Bei dieser Betrachtung bleibt allerdings die Drohöglichkeit von Spieler II unbeachtet.
Entscheidet dieser sich seine erste reine Strategie zu spielen, so kann Spieler II nur
einen sehr geringen Nutzen erzielen. Also betrachten wir das Spiel
A−B =
.
µ
¶
−4 7
−3 2
(12)
Dieses Spiel hat einen Sattelpunkt bei -3, d.h. Spieler I sollte seine zweite und
Spieler II seine erste reine Strategie als Drohung wählen, so dass (u∗ , v ∗ ) = (−5, −2).
Mit Gleichung 7 ergibt sich dadurch die Nash-Lösung (ū, v̄) = (2.5, 5.5), was die
bessere Drohmöglichkeit von Spieler I berücksichtigt.
10
Herunterladen