Differentialspiele

Seminar:
Differentialspiele
1
Gliederung
A.) Pollution vs.Nature
► a differential game model
B.) Battle around natural gas
► a nonzero-sum game with variable
final time
2
Pollution vs. Nature
Gliederung
I.
II.
III.
IV.
Einführung
Das Modell
Lösungskonzept
Anwendung des Modells auf ein Beispiel

Interpretation

Schlussfolgerungen (Empfehlungen)
4
Das Modell
Variablen

siehe Zettel
5
Das Modell
• Populationsdynamik
x  G(x)  h(t)  F(y)
x(0)  x 0
• Verschmutzungsdynamik
y  H(v)  D(y)
y(0)  y 0
6
Das Modell
• Die Payoffs der Spieler sind dann
T
J1   (p1 (Ex)  c1 (x))Ex  exp( r1t)dt
0
T
J 2   (p 2 (v)  c 2 (.))v  exp( r2 t)dt
0
wobei
0 E  E  E
0 v  v  v
7
Das Modell
• Also erhalten wir folgende Hamiltonfunktionen
H1  (p1 (Ex)  c1 (x))Exe  r1t  11 (G(x)  h(t)  F(y))
 12 (H(v)  D(y))
H 2  (p 2 (v)  c 2 (.))ve  r2 t   21 (H(v)  D(y))
  22 (G(x)  h(t)  F(y))
8
Lösungskonzept
• Definition (Nash Gleichgewicht)
Das Paar (E*,v*) heißt Nash Gleichgewicht, wenn gilt
J1(E,v*) ≤
J1(E*,v*) , für alle zulässigen E
J2(E*,v) ≤
J2(E*,v*) , für alle zulässigen v
und
9
Lösungskonzept
• Notwendige Bedingungen:
(E*,v*) Nash Gleichgewicht, dann gilt:
1. Es existiert eine nicht triviale Lösung des Systems
Hi
 ii 
  ii
x
Hi
 ij 
  ij
y
(i  1, 2)
(i  1, 2; j  1, 2;i  j)
2. E* maximiert H1(t,x,y,E,v*) und
v* maximiert H2(t,x,y,E*,v).
3.Es muss die Transversilitätsbedingung erfüllt sein
λij(T) = 0
für alle i,j
10
Lösungskonzept
Damit müssen wir also das folgende System lösen:
x(t)  G(x)  h(t)  F(y)
y(t)  H(v)  D(y)
,
x(0)  x 0
,
y(0)  y 0
11 (t)  e  r1t ((c1  p1 )E  (c1  p1 )Ex)  11 (G (x)  E)
12 (t)  11F(y)  12 D(y)
,
11 (T)  0
12 (T)  0
 21 (t)  c2 (y)ve  r2 t   21D(y)   22 F(y)
 22 (t)  c2 (x)ve  r2 t   22 (G (x)  E)
unter
,
,
,
 21 (T)  0
 22 (T)  0
Berücksichtigung
0EEE
0vvv
H1E  (p1 (Ex)E  p1 (Ex)  c1 )xe  r1t  11x  0
H 2v  (p2 (v)v  p 2 (v)  c 2 )e  r2 t   21H (v)  0
11
Lösungskonzept
Gradientenverfahren (Algorithmus)
1.
2.
3.
4.
5.
6.
Schätze einige Werte für die Steuerungen E und v .
Bestimme die Werte für die Variablen x und y aus den
Zustands-Gleichungen.
Bestimme λij aus den „adjungierten“ Gleichungen.
Bestimme HE1 und Hv2 , i. A. sind diese ungleich Null.
HE1 und Hv2 als Steigungen auffassend, ändere die
Schätzungen von E und v durch
ΔE = W1 HE1 und Δv = W2 Hv2
mit geeigneten Gewichten Wi.
Berechne mit diesen Werten die Payoffs
if
|| J1n-1 – J1n || < ε und || J2n-1 – J2n || < ε  STOP
else
 GO TO 1.
12
Anwendung
• Für die Fischdynamik gelte
x(t)  a1x  a 2 x 2  Ex  a 3 y 2 (a1 , a 2a 3  0)
x(0)  x
0
• Für die Verschmutzungsdynamik gelte
y(t)  b1v  b 2 y (b1 , b 2  0)
y(0)  y
0
13
• Für die Preise und Kosten gelte:
p1  p1 (h)  p1 (Ex)  1   2 Ex, (1 ,  2  0)
p 2  p 2 (v)  1  2 v,
(1 , 2  0)
1
c1  c1 (x)  2 ,
x
(1 , 2  0)
c2  c2 (x)  1   2 x,
c2  c2 (y)   3 y,
( 1 ,  2 ,  3  0)
14
• Wir wählen folgende Parameter
a1  101
a2 
1  101
 2  301
a3 
1
40
1  2  2  101
1
25
b1  15
b 2  501
3  151 1  15 2 
 3  103
1  2 2 
1
25
1
2
Fall 1:
x0 = 3, y0 = 3,T= 3, E Є [0.5 , 1], v Є [0.5 , 2] und
E = v = 0, wenn x < 1
c2  c2 (x)  1   2 x,
linkes Bild
c2  c2 (y)   3 y,
( 1 ,  2 ,  3  0)
rechte Bild
15
Fall 1
16
• Damit erhalten wir mit den Konstanten
a1  101
a2 
1  101
 2  301
1
40
1  2  2  101
a3 
1
25
b1  15
b 2  501
3  151 1  15 2 
 3  103
1  2 2 
1
25
1
2
Fall 1:
x0 = 3, y0 = 3,T= 3, E Є [0.5 , 1], v Є [0.5 , 2] und
E = v = 0, wenn x < 1
Fall 2:
x0 =3, y0 = 1, T = 6, E Є [0.5 , 1], v Є [0.5 , 2] und
E = v = 0, wenn x < 1
17
Fall 2
18
Fall 3:
Alles wie im Fall 2 außer o.1 ≤ E ≤ 1 und 0.1 ≤ v ≤ 2
19
Fall 3
20
Fall 3:
Alles wie im Fall 2 außer o.1 ≤ E ≤ 1 und 0.1 ≤ v ≤ 2
Fall 4:
Wir haben jetzt wieder T = 3 und kein Minimum mehr
für x, alles andere wie zuvor.
21
Fall 4
22
Schlussfolgerungen
• Der Produzent verhält sich „anständiger“,
wenn die Produktionskosten direkt von dem
Ausmaß der Umweltverschmutzung
abhängen.
Empfehlung: Die „Produktion des
Verschmutzungsmaterials“
sollte direkt besteuert
werden.
23
Battle around natural gas
• A nonzero-sum game with variable final
time
24
Gliederung
1.
Einführung
Was ist ein Oligopol?
2.
3.
Das Problem
Lösungskonzepte (open loop)
- Einzelkämpfer
Definition (Nash Gleichgewicht)
Notwendige Bedingungen
Stabilität der Lösungen
- strategische Allianzen
Definition (Pareto-Optimum)
Berechnung
25
Oligopol
• Charakterisierung des Marktes im Hinblick auf die
Angebots- und Nachfragestrucktur des Marktes
Anbieter
viele
wenige
viele
atomistische
Konkurrenz
AngebotsOligopol
wenige
NachfrageOligopol
bilaterales
Oligopol
Nachfrager
26
Das Problem
Variablen
 Blatt
27
Das Problem
• Die Zustandsgleichung lautet
x(t)  f (t, x(t), u1 (t),..., u N (t)),
{
t [o, T]
x(0)  x 0  0
mit
f (t, x(t), u1 (t),..., u N (t))  U(t)
28
Das Problem
• Die Erlösfunktion lautet dann:
T
J i (u1 ,..., u N ) 
t
e
 Li (u1 (t),..., u N (t))dt,
0
wobei   0 und
Li (u1 ,..., u N )  u i  P(U)  Ci (u i )
mit
P(U)  a  bU
Ci (u i )  d i u i2
weiterhin
a, b  0
di  0
gilt
x(T)  0
i  1,..., N
29
Definition
• Sei μi(t) die Information-Strucktur des
Spielers Pi zur Zeit t.
Dann heißt μi(t)
(i) open loop, falls
μi(t) = {x(0) , t}
(ii) feedback, falls
μi(t) = {x(t) , t}, für 0 ≤ t ≤ T
30
Definition
• Nash Gleichgewicht:
Sei (γ1*,...,γN*) ein N-Tuppel von Strategien mit γi* aus
Γi. Dann heißt (γ1*,...,γN*) Nash Gleichgewicht, falls
Ji* = Ji (γ1*,...,γN*) ≤ Ji (γ1*,...,γi-1*,γi,γi+1*,γN*)
für alle γi aus Γi , i = 1,...,N
Γi = Menge aller zulässigen Strategien:
open loop Fall

i 
mi
feedback Fall

i 
mi

mit
und
u i (t)   i (x 0 , t)
u i (t)   i (x(t))
31
Notwendige Bedingungen
1.
2.
x  (t)  f (t, x  (t), u1 (t),..., u N (t)) , x(0)  x 0
u i (t)  arg max
ui 
mi
H i (t,  i (t), x  (t), u1 (t),..., u i 1 (t),
u i (t), u i 1 (t),..., u N (t))
4.

 i (t)   H i (t,  i (t), x  (t), u1 (t),..., u N (t))
x
x(T)  0
5.
H i (T,  i (T), x  (T), u1 (T),..., u N (T))  0
3.
mit
H i (t,  i , x  , u1 ,..., u N )  et  L i (u1 ,..., u N )   i  f (t, x, u 1,..., u N )
32
Open loop Nash Gleichgewicht
Mit den Parametern a = 2, b = 1, d1 = d2 = 1 erhalten wir
Beispiel:
x  (u1  u 2 ) , x 0  1
T
J i   et Li (u1 , u 2 )dt
0
mit Li  2u i  2u  u i u j , i, j  1, 2 i  j
2
i
Dann ist die Hamilton  Funktion
t
H i (t,  i , x, u1 , u 2 )  e Li (u1 , u 2 )  i  (u1  u 2 )
33
Lösung Steuerungen
A
B
C
D
u1 = 2/5 - 2/5et – T
u2 = 2/5 - 2/5et – T
u1 = 2/5 - 4/35et -T
u2 = 2/5 - 4/35et -T
u1 = 2/5 - 22/5et -T
u2 = 2/5 + 8/5et - T
u1 = 2/5 + 8/5et -T
u2 = 2/5 - 22/5et -T
Profits
Endzeit
J1 = 0.272
J2 = 0.272
J1 = 0255
J2 = 0.255
J1 = 0.001
J2 = 0.408
J1 = 0.408
J2 = 0.001
TA=2.131
TB=1.470
TC=4.719
TD=4.719
Erfüllen nicht die Bedingung ui(.) ≥ 0
34
Algorithmus
1.
Setze Iterationsindex i = 0 und j = 1
Wähle eine Startsteuerung u (j0)  0, Tu(0)  .
j
2.
Löse
max J 2 (u1(i ) , u2 , T )
für ein festes, aber
u2
s.t. x  u1(i )  u2 , x(0)  x0
beliebiges T  0, Tu(i ) 
*
(i )
*
Definiere T : arg max J 2 (u1 , u2 , T )
T 0,T 
1
(i )
u1
3.
Setze Tu(i ) : T *
2
.
J 2 (u1(i ) , u2 , T * )
und u2(i ) : max
u
2
35
4.
Löse
max J1 (u1 , u2(i ) , T )
u1
s.t. x  u1  u , x(0)  x0
(i )
2
für ein festes, aber
beliebiges T  0, Tu(i ) 
*
*
(i )
T
:

arg
max
J
(
u
,
u
Definiere
1 1
2 ,T )
2

T  0,Tu( i )
( i 1)
u1
: T
*
2

5.
Setze T
6.
Wenn || u (ji 1)  u (ji ) ||  
sonst
und
u1(i 1) : max J1 (u1 , u2(i ) , T * )
u1
STOP
 GOTO 2.
36
Definition (Stabilität der Lösung)
• Konvergieren die Startsteuerungen im
Algorithmus gegen eine andere mögliche Lösung
oder konvergieren diese überhaupt nicht, so heißen
die Strategien (Startsteuerungen) instabil.
• Andererseits, wenn die Startsteuerungen sich nicht
ändern, heißen sie stabil.
37
Iterationsprozess
38
Payoff - Funktion
REMARK
lim TA  
,
 0
lim J iA  x 0
 0
und
lim TB 
 0
7
4
,
lim J iB 
 0
7
4
x0
39
Strategische Allianzen
• Eine Strategische Allianzist die Zusammenarbeit
zwischen Unternehmen
1. ... die rechtlich und wirtschaftlich selbstständig sind,
2. ... die durch wechselseitige Abstimmung (Koordination)
und/ oder gemeinsame Erfüllung (Kooperation) von (Teil-)
Aufgaben gekennzeichnet ist,
3. ... die auf freiwilligem Entschluss aller
Kooperationspartner beruht,
4. ... die der Verfolgung von gemeinsamen Zielen und/
oder miteinander kompatiblen Zielen der
Kooperationspartner dient,
5. ... aus der sich die Partner im Vergleich zum alleinigen
Vorgehen eine höhere Zielerreichung versprechen.
40
Definiton:Pareto-Optimum
Ein zulässiges Strategiepaar (γ1* , γ2*)
heißt Pareo-Optimal, falls
Ji(γ1 , γ2) ≥ Ji (γ1* , γ2*)
für alle γ1 , γ2 und i = 1,2
41
Problemformulierung:
• Damit ergibt sich für die beiden Firmen das folgende Problem
max J  1 J1   2 J 2
u1 ,u 2  0
unter
x  (u1  u 2 ) ,
mit
1   2  1  i  0
x(0)  x0 ,
x(T )  0
T  max Ti
i{1, 2}

Ti
mit
J i   e  t Li (u1 , u 2 )dt
0
und
Li  (a  bU )ui  ki ui2
42
• Dann ist die Hamiltonfunktion gegeben
durch
H(t, , x, u1 , u 2 )  e t {1L1 (u1 , u 2 )   2L 2 (u1, u 2 )}   ' x
• Und die Lagrangefunktion ist
2
(t, , x, u1 , u 2 )  H(t, , x, u1, u 2 )   q iu i
i 1
43
• Die notwendigen Bedingungen für ein zulässiges Trippel
(x*(t),u1*(t),u2*(t)) sind
*

x* 

*

x
* H
0

 qi
u i u i
H(t, , x * , u1* , u *2 )  H(t, , x * , u1, u 2 ), u i  0 i  1, 2
H i
 0,
ui
ui  0
und
ui
H i
 0,
ui
da
qi ui  0
44
• Nehmen wir nun an k1=k2 und α1 > α2 , so
folgt aus den notwendogen
Bedingungen und der Nichtnegativität
der Lösung, dass
uPareto = uNash
45