12. Vorlesung 4 Bayesian Games

Werbung
L ETZTE Ä NDERUNG : 6. JANUAR 2007
Vorlesung: Einführung in die Spieltheorie
WS 2006/2007
12. Vorlesung
19. Dezember 2006
4
Guido Schäfer
Bayesian Games
Wir haben bisher immer angenommen, dass jeder Spieler vollständige Information hat
und somit die Payoff-Funktionen seiner Mitspieler kennt und seine Entscheidungen auf
der Grundlage dieser Information treffen kann. Diese Annahme ist in vielen Situationen
nicht angemessen.
Ein Bayesian Game stellt eine natürliche Erweiterung eines Spiels in strategischer
Form, dar, die es erlaubt, unvollständige Informationen der Spieler zu modellieren. Spieler treffen ihre Entscheidungen auf der Basis ihrer “Vermutungen” bzgl. der Präferenzen
der anderen Spieler. Wir beschreiben die Modellierung zunächst anhand des folgenden
Beispiels.
Beispiel 4.1 (Bach oder Stravinsky mit unvollständiger Information). Wir betrachten
erneut das Beispiel Bach oder Stravinsky, das wir bereits in Beispiel 1.1 untersucht haben. Zur Erinnerung hier nochmal kurz das Setting: Zwei Freunde möchten zusammen in
ein Konzert gehen. Spieler 1 bevorzugt Bach, Spieler 2 Stravinsky. Beide möchten lieber
gemeinsam als getrennt ins Konzert gehen:
Bach
Stravinsky
Bach Stravinsky
(2, 1)
(0, 0)
(0, 0)
(1, 2)
Angenommen Spieler 1 ist sich nicht sicher, ob Spieler 2 mit ihm ausgehen möchte oder
nicht. Er stellt die Vermutung an (etwa aufgrund seiner Erfahrung in der Vergangenheit),
dass Spieler 2 mit Wahrscheinlichkeit 1/2 mit ihm ausgehen möchte und mit Wahrscheinlichkeit 1/2 nicht.
ω2 : Spieler 2 möchte nicht
ω1 : Spieler 2 möchte
Bach
Stravinsky
Bach Stravinsky
(2, 1)
(0, 0)
(0, 0)
(1, 2)
Bach
Stravinsky
Abbildung 19:
57
Bach Stravinsky
(2, 0)
(0, 2)
(0, 1)
(1, 0)
Wir können dies durch zwei Zustände ω1 und ω2 darstellen; siehe Abbildung 19. Jeder
Zustand charakterisiert das Spiel vollständig und repräsentiert das Spiel in strategischer
Form mit vollständiger Information.
Wir drücken die Vermutung von Spieler 1 durch eine Wahrscheinlichkeitsverteilung
P1 über Ω := {ω1 , ω2 } aus: P1 (ω1 ) = P1 (ω2 ) = 1/2. Spieler 2 weiß, ob er mit Spieler 1
ausgehen möchte oder nicht (er hat vollständige Information).
Aus der Sicht von Spieler 1 hat Spieler 2 zwei Typen: Spieler 2 möchte und Spieler
2 möchte nicht. Für einen gegebenen Typen von Spieler 2 und einer Aktion von diesem
Typen, kennt Spieler 1 seinen Payoff. Wählt Spieler 1 zum Beispiel die Aktion B (Bach)
und die Wahl von Typ 1 des Spielers 2 (Spieler 2 möchte) ist S (Stravinsky), so ist sein
Payoff 0.
Anhand der Wahrscheinlichkeitsverteilung P1 von Spieler 1 können wir damit den erwarteten Payoff von Spieler 1 für jede Kombination der Aktionen der Typen von Spieler 2
berechnen:
B
S
(B, B)
2
0
(B, S)
1
(S, B)
1
1
2
1
2
(S, S)
0
1
Wählt Typ 1 die Aktion S und Typ 2 die Aktion S, so ist der erwartete Payoff 0 wenn er B
wählt und 1 wenn er S wählt.
Das Lösungskonzept eines Nash-Gleichgewichtes lässt sich nun übertragen:
◦ Spieler 1 wählt eine bestmögliche Aktion bzgl. der Aktionen der Typen von Spieler
2 aus (im Erwartungswert).
◦ Spieler 2 wählt für jeden seiner Typen eine bestmögliche Aktion aus, gegeben die
Aktion von Spieler 1.
Wir verwenden hier wieder die Idee der Beste-Antwort Funktionen, um ein NashGleichgewicht zu bestimmen: die beste Antwort von Spieler 1 auf die Aktionen (B, B) der
beiden Typen von Spieler 2 ist B: b1 (B, B) = B. Es ergibt sich:
b1 (B, B) = B
b1 (B, S) = B
b1 (S, B) = B
b1 (S, S) = S.
Die besten Antworten sind in der obigen Abbildung als Boxen hervorgehoben. Analog
ergibt sich für die beiden Typen von Spieler 2 (siehe Abbildung 19):
b21 (B) = B
b21 (S) = S
b22 (B) = S
b22 (S) = B,
wobei zum Beispiel b21 (S) die beste Antwort von Typ 1 des Spielers 2 auf die Aktion B
von Spieler 1 angibt.
Wir wissen, dass für strategische Spiele mit vollständiger Information ein NashGleichgewicht ein Aktionsprofil ist, in dem jede Aktion eines Spielers eine beste Antwort
auf die Aktionen der anderen Spieler ist. Ganz ähnlich erhalten wir in diesem Beispiel,
dass (B, (B, S)) ein Nash-Gleichgewicht ist.
58
y1
ω1
B
S
B
S
(2, 1) (0, 0)
(0, 0) (1, 2)
P1 (ω1 | y1 ) =
n1
ω3
B
S
ω2
B
S
1
2
P1 (ω2 | y1 ) =
B
S
(0, 1) (2, 0)
(1, 0) (0, 2)
P1 (ω3 | n1 ) =
B
S
(2, 0) (0, 2)
(0, 1) (1, 0)
ω4
B
S
1
2
1
2
B
S
(0, 0) (2, 2)
(1, 1) (0, 0)
P1 (ω4 | n1 ) =
1
2
Abbildung 20:
4.1
Formale Definition
Sei N die (endliche) Menge aller Spieler. Jeder Spieler i ∈ N hat eine (endliche) Aktionsmenge Ai . Die (endliche) Menge aller Zustände bezeichnen wir mit Ω. Jedes ω ∈ Ω
spezifiziert alle relevanten Informationen für alle Spieler (ω repräsentiert ein strategisches
Spiel mit vollständiger Information).
Im weiteren Verlauf ist die folgende Sichtweise hilfreich: Zu Beginn des Spiels wird
ein Zustand ω ∈ Ω realisiert. Dieser Zustand wird den Spielern nicht mitgeteilt; stattdessen erhält jeder Spieler ein sog. Signal. Jeder Spieler hat eine Signalfunktion τi : Ω → Ti ,
die jedem Zustand ω ∈ Ω einen Typen in Ti zuweist; Ti ist die Menge aller Typen von
Spieler i. Wird der Zustand ω zu Beginn realisiert, empfängt Spieler i nur seinen Typen
τi (ω) ∈ Ti als Signal. Sei τi−1 die Umkehrfunktion von τi ; wir definieren τi−1 (ti ) als die
Menge aller Zustände ω ∈ Ω mit τi (ω) = ti . Gewissermaßen gibt die Anzahl der Zustände
in τi−1 (ti ) Aufschluss über die “Qualität” der Information von Typ ti des Spielers i. Gibt
es etwa für jeden Zustand genau einen Typen, kennt Spieler i den tatsächlich realisierten
Zustand; werden hingegen alle Zustände auf einen Typen abgebildet, weiß Spieler i gar
nichts über den realisierten Zustand.
Für jeden Typen ti ∈ Ti eines Spieler i ∈ N gibt es eine Wahrscheinlichkeitsverteilung
Pi (· | ti ) über Ω mit Pi (ω | ti ) = 0 für alle ω ∈
/ τi−1 (ti ). Pi (ω | ti ) gibt die Wahrscheinlichkeit
(oder Vemutung) von Spieler i an, dass ω eintritt.
Schliesslich definiert die Payoff-Funktion von Spieler i ∈ N für jedes Aktionsprofil
a ∈ A := × j∈N A j und jeden Zustand ω ∈ Ω einen Wert ui (a, ω) ∈ R.
Mittels dieser Notation können wir nun ein Bayesian Game wie folgt definieren.
Definition 4.1.
Ein Bayesian Game ist definiert durch (N, Ω, (Ai ), (Ti ), (τi ), (Pi ), (ui )).
Wir veranschaulichen die obigen Definitionen anhand des folgenden Beispiels:
59
y2
ω1
B
S
n2
B
S
(2, 1) (0, 0)
(0, 0) (1, 2)
2
3
P2 (ω1 | y2 ) =
ω3
B
S
ω2
B
S
P2 (ω2 | n2 ) =
B
S
(0, 1) (2, 0)
(1, 0) (0, 2)
ω4
B
S
1
3
P2 (ω3 | y2 ) =
B
S
(2, 0) (0, 2)
(0, 1) (1, 0)
2
3
B
S
(0, 0) (2, 2)
(1, 1) (0, 0)
P2 (ω4 | n2 ) =
1
3
Abbildung 21:
Beispiel 4.2. Wir betrachten wiederum das Beispiel von Bach oder Stravinsky, diesmal
sind sich jedoch beide Spieler nicht sicher, ob der andere ausgehen möchte oder nicht.
Es gibt vier Zustände, die wir mit ω1 := j j (beide wollen), ω2 := jn (Spieler 1 möchte,
Spieler 2 nicht), ω3 := n j (Spieler 1 möchte nicht, Spieler 2 möchte) und ω4 := nn (beide
möchten nicht) bezeichnen. Die Sichtweise von Spieler 1 ist in Abbildung 20 dargestellt,
die von Spieler 2 in Abbildung 21.
Spieler 1 hat zwei Typen T1 := {y1 , n1 }. Spieler 2 hat ebenfalls zwei Typen T2 :=
{y2 , n2 }. Die Signalfunktionen von Spieler 1 sind wie folgt definiert:
τ1 (ω1 ) = τ1 (ω2 ) = y1
und
τ1 (ω3 ) = τ1 (ω4 ) = n1 .
D.h. zum Beispiel, dass Spieler 1 nicht unterscheiden kann, ob ω1 oder ω2 realisiert wurde. Die Signalfunktionen von Spieler 2 sind:
τ2 (ω1 ) = τ2 (ω3 ) = y2
und
τ2 (ω2 ) = τ2 (ω4 ) = n2 .
Die Vermutungen von Spieler 1 für die entsprechenden Signale sind gegeben als:
P1 (ω1 | y1 ) = P1 (ω2 | y1 ) =
1
2
und
1
P1 (ω3 | n1 ) = P1 (ω4 | n1 ) = .
2
2
3
und
1
P2 (ω3 | y2 ) = P2 (ω4 | n2 ) = .
3
Die von Spieler 2 sind:
P2 (ω1 | y2 ) = P2 (ω2 | n2 ) =
Erhält Spieler 2 das Signal n2 (es wurde ω2 oder ω4 realisiert), so vermutet er, dass
mit Wahrscheinlichkeit 2/3 der Zustand ω2 und mit Wahrscheinlichkeit 1/3 der Zustand
ω4 realisiert wurde. Die Payoff-Funktionen können direkt aus den Tabellen abgelesen
werden.
60
4.2
Nash-Gleichgewicht
In einem Bayesian Game wählt jeder Spieler i ∈ N für jeden seiner Typen ti ∈ Ti eine
Aktion ai (ti ) ∈ Ai vor Spielbeginn aus. Nachdem ein Zustand ω ∈ Ω realisiert wurde,
spielt jeder Spieler i ∈ N seine zuvor festgelegte Aktion ai (τi (ω)). Informell ist in einem
Nash-Gleichgewicht die von Spieler i gewählte Aktion ai (ti ) für jeden Typen ti ∈ Ti eine
bestmögliche Aktion, gegeben die Aktionen von allen Typen der anderen Spieler und
seine Vermutung (sprich Wahrscheinlichkeitsverteilung Pi ).
Wir definieren ein strategisches Spiel G0 = (N 0 , (A0i ), (u0i )) mit (i,ti ) für alle i ∈ N
und für alle ti ∈ Ti als Spieler. Wir haben also einen Spieler für jeden Typen. Die Aktionsmenge A0i für Spieler (i,ti ) ist Ai . Somit ist ein Aktionsprofil definiert als a0 ∈ A0 :=
× j∈N (×t j ∈T j A j ). Für ein Aktionsprofil a0 ∈ A0 , bezeichne a0 (i,ti ) die Aktion von Spieler
(i,ti ) bzgl. a0 . Der erwartete Payoff von Spieler (i,ti ) bei gegebenem Aktionsprofil a0 ∈ A0
ist definiert als
u0i,ti (a0 ) :=
∑
ω∈Ω
P (ω | t )
| i {z i}
· ui ((a0 ( j, τ j (ω))) j∈N , ω).
=0 falls τi (ω)6=ti
Bemerke, dass der erwartete Payoff u0i,ti (a0 ) nicht von den gewählten Aktionen der anderen
Typen t j ∈ Ti , t j 6= ti , von Spieler i abhängt; wohl aber von den Aktionen der Typen der
anderen Spieler.
Definition 4.2. Ein Nash-Gleichgewicht eines Bayesian Game G :=
(N, Ω, (Ai ), (Ti ), (τi ), (Pi ), (ui )) ist definiert als ein Nash-Gleichgewicht des strategischen Spiels G0 := (N 0 , (A0i ), (u0i )) mit
◦ N 0 := {(i,ti ) : i ∈ N, ti ∈ Ti };
◦ A0i,ti := Ai für alle i ∈ N, ti ∈ Ti ;
◦ u0i,ti (a0 ) wie oben definiert.
Definition 4.2 ermöglicht es, die Nash-Gleichgewichte des Bayesian Game in Beispiel
4.2 zu berechnen.
Beispiel 4.2 (Fortsetzung). Wir bestimmen die Beste-Antwort Funktion für jeden Spieler
in G0 . Der erwartete Payoff von Spieler (1, y1 ) ist wie folgt (beste Antworten sind als
Boxen hervorgehoben):
B
S
(B, B)
2
0
(B, S)
1
(S, B)
1
1
2
1
2
Analog ergibt sich für Spieler (1, n1 ):
61
(S, S)
0
1
(B, B)
0
1
(B, S)
1
(S, B)
1
1
2
1
2
(S, S)
2
0
(B, B)
(B, S)
(S, B)
(S, S)
B
1
0
1
3
4
3
0
S
2
3
2
3
B
S
Für Spieler (2, y2 ):
2
(Bemerke, dass nun ein Aktionsprofil (B, S) bedeutet, dass Spieler 1 bei Typ y1 Aktion B
spielt und bei Typ n1 Aktion S spielt.)
Und für Spieler (2, n2 ):
(B, B)
(B, S)
(S, B)
(S, S)
B
0
1
2
3
2
3
1
S
1
3
4
3
0
Es ist nun relativ leicht zu verfizieren, dass die Aktionsprofile ((B, B), (B, S)) und
((S, B), (S, S)) Nash-Gleichgewichte sind (jede Aktion ist eine beste Antwort auf alle anderen Aktionen).
62
Herunterladen