11Dynamische Optimierung

Werbung
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
•
Übersicht
1. Einführung
2. Stufen-Zustand-Diagramm
3. Bellmann-Prinzip
4. Zeitplanung
Dynamische Optimierung
1
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Zustände
Stufen-Zustands-Diagramm
i
j
a
s
y
b
z
c
Stufen
n
Vorwärtsrechnung 1
k+1
k -1
k
k
k -1
k+1
Dynamische Optimierung
1 Rückwärtsrechnung
n
2
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Definition der Zielfunktion
f k ( y , xk )
ist der Zielfunktionswert im Zustand y ,
wenn dieser über den Übergang x k erreicht wird.
f k ( y ) = f k ( y, xk* )
*
ist der optimale Zielfunktionswert im Zustand y,
der vom günstigsten Übergang xk* aus erreicht wird.
f k ( y ) = opt
*
xi ∈ N ( y )
{d
y , xi
}
+ f k*−1 ( xi* )
Dynamische Optimierung
3
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Rückwärtsrechnung
Zustände
i
j
s
y
z
...
xk
l
Stufen
n
k +1
k
0
Rückwärtsrechnung
Dynamische Optimierung
4
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Vorwärtsrechnung
Zustände
i
y
s
xk
j
z
...
Stufen
0
k
k +1
n
Vorwärtsrechnung
Dynamische Optimierung
5
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Schritte der Dynamischen Optimierung (1)
1. Der Entscheidungsprozeß muss sich sequentiell in Stufen k und
Zustände i aufspalten lassen.
2. Auf den Übergängen, dargestellt durch Pfeile <i, j> sei eine
Übergangsfunktion di,j definiert.
3. Das Erreichen eines Zustandes wird durch eine Zustandsvariable y
beschrieben.
4. Sind mehrere Übergänge in einen Zustand möglich, so wird der dem
Zielkriterium nach beste gewählt, wobei der entsprechende
Übergang durch eine Entscheidungsvariable xi* beschrieben wird.
Dynamische Optimierung
6
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Schritte der Dynamischen Optimierung (2)
5. Eine Folge von Entscheidungen führt zu einer Politik, der ein
Zielfunktionswert fk (y, xk) zugeordnet werden kann.
6. Eine optimale Politik liegt vor, wenn über alle Übergänge der
Zielfunktionswert optimiert wird: f k* ( y ) = f k ( y , x k* )
7. Die optimale Politik wird rückwärts (vorwärts) rekursiv berechnet:
f k* ( y ) = opt {d y , xi + f k*−1 ( xi* )} → x k*
xi ∈N ( y )
8. Die Festlegung der Politik erfolgt vorwärts (rückwärts) ebenfalls
rekursiv durch Auflösen der Verkettung über die Nachfolger
(Vorgänger): x 0* → x1* → ... → x n*
Dynamische Optimierung
7
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Ein Beispiel: Wegnetz mit Entfernungen
Zustände
a
8
s
9
6
4
4 2
2
b 5
6
5 5
c
3
d
3
e
g
5
5
z
2
2
f
6
h
6
5
Stufen
4
3
2
Dynamische Optimierung
1
0
8
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Stufe 0:
Im Zielknoten ist der Restweg gleich Null; einen Nachfolger gibt es nicht.
Stufe
k
Zustand
y
Nachfolger
N(y)
Rekursion
Entscheidung
f k ( y ) = opt
*
xi ∈N ( y )
0
z
{d
-
y , xi
}
+ f k*−1 ( xi* )
→
xk*
0
Dynamische Optimierung
9
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Stufe 1:
Auf dieser Stufe gibt es zwei Zustände, beschrieben durch die Knoten g und h.
Von g aus gibt es einen Nachfolger (z) und einen Übergang in diesen Knoten
mit dem Zielfunktionswert 5.
Entsprechend gibt es in dem Zustand h einen Übergang nach z mit f = 6
Stufe
k
Zustand
y
Nachfolger
N(y)
Rekursion
Entscheidung
f k ( y ) = opt
*
xi ∈N ( y )
0
z
-
1
g
{z}
{d
y , xi
}
+ f k*−1 ( xi* )
→ xk*
0
f1 ( g ) = min {5 + 0} = 5 → x1* = z
*
z
h
{z}
f1 (h) = min {6 + 0} = 6 → x1* = z
*
z
Dynamische Optimierung
10
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Stufe 2:
Erst jetzt "beginnt" die dynamische Optimierung mit ihrer Wirkung:
Auf Stufe 2 gibt es die drei Zustände: d, e und f.
Der Zustand d besitzt zwei Nachfolger (g und h).
D.h. nach d kann man von g aus gelangen und den (bereits berechneten
optimalen Restweg berücksichtigen: 6 + 5 = 11
Oder von h aus und dessen optimalen Weg bis z: 3 + 6 = 9.
Damit hat der optimale Restweg von d aus bis z die Länge 9 und führt über h.
Analog sind für e zwei Nachfolger zu berücksichtigen: g und h
Und schließlich auch für f: g und h
Dynamische Optimierung
11
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Stufe 2:
Stufe
k
Zustand
y
Nachfolger
N(y)
Rekursion
Entscheidung
f k ( y ) = opt
*
xi ∈N ( y )
0
z
-
1
g
{z}
{d
y , xi
}
+ f k*−1 ( xi* )
→
xk*
0
f1 ( g ) = min {5 + 0} = 5 → x1* = z
*
z
h
{z}
f1 (h) = min {6 + 0} = 6 → x1* = z
*
z
2
d
{g,h}
f 2 (d ) = min {6 + 5;3 + 6} = 9 → x2* = h
*
g ,h
e
{g,h}
f 2 (e) = min {5 + 5; 2 + 6} = 8 → x2* = h
*
{ g , h}
f
{g,h}
f 2 ( f ) = min {2 + 5;5 + 6} = 7 → x2* = g
*
{ g , h}
Dynamische Optimierung
12
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Stufe 3:
Die Zustände der dritten Stufe (a, b und c) haben alle die drei Nachfolger d, e
und f, von denen aus die optimalen Politiken bis zum Endzustand (z) berechnet
sind: von d = 9, von e = 8 und von f = 7.
Zusammen mit den Übergangswerten ergeben sich jeweils die in der
nachfolgenden Tabelle den einzelnen Zuständen zugeordneten Minimierungen.
Das Ergebnis ist jeweils der Wert der optimalen Politik vom betrachteten
Zustand aus bis zum Ende (Zielfunktionswert) sowie der zugehörige
Nachfolgerknoten (Wert der zugehörigen Entscheidungsvariablen).
Dynamische Optimierung
13
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Stufe 3:
Stufe
k
Zustand
y
Nachfolger
N(y)
Rekursion
Entscheidung
f k ( y ) = opt
*
xi ∈N ( y )
3
{d
y , xi
}
+ f k*−1 ( xi* )
→ xk*
a
{d,e,f}
f3 (a) = min
{4 + 9; 2 + 8; 4 + 7} = 10 → x3* = e
b
{d,e,f}
f3 (b) = min
{2 + 9;5 + 8;6 + 7} = 11 → x3* = d
c
{d,e,f}
f3 (c) = min
{5 + 9;5 + 8;3 + 7} = 10 → x3* =
*
{d , e , f }
*
{d , e , f }
*
{d , e , f }
Dynamische Optimierung
f
14
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Stufe 4:
Die vierte (und letzte) Stufe hat nur noch einen – den Ausgangszustand s
mit drei Nachfolger: a, b und c.
Die Optimierung ergibt als Wert der optimalen Politik 16 und die Entscheidung,
den Nachfolger c zu wählen, will man die optimale Strategie verfolgen.
Stufe
k
Zustand
y
Nachfolger
N(y)
Rekursion
f k ( y ) = opt
Entscheidung
*
xi ∈N ( y )
4
s
{a,b,c}
f 4 ( s) = min
*
{ a ,b , c }
{d
y , xi
}
+ f k*−1 ( xi* )
→
xk*
{8 + 10;9 + 11;6 + 10} = 16 → x4* = c
Dynamische Optimierung
15
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Festlegen der optimalen Politik = Vorwärtrechnung
Nach Optimierung der Politik vom Startzustand aus, ist die Optimierung abgeschlossen.
Um den optimalen Weg durch das Stufen-Zustands-Diagramm festzulegen, werden nun
die getroffenen Entscheidungen in anderer Richtung gehend verfolgt. Dies ist in
diesem fall die Vorwärtrechnung.
Von s aus ist der optimale Nachfolger c.
Von dort aus hat man die optimale Politik bis zum Ende z einzuschlagen, die über den
Knoten f führt.
Der Zustand hat als optimalen Nachfolger den Konten g, von dem aus man den
Endzustand z erreicht.
Die optimale Politik ist also: s → c → f → g → z mit dem Wert 16.
Dynamische Optimierung
16
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Vorwärtsoptimierung
Es ist im Übrigen gleichgültig, ob man die Optimierung rückwärts oder vorwärts
durchführt. Die Festlegung der optimalen Strategie erfolgt dann stets in anderer
Richtung.
Bei umgekehrter Optimierung wird nicht der Restweg optimiert, sondern der
aus dem Ausgangszustand bis zum betrachteten Zustand zurückgelegte Weg.
Entsprechend werden die Zustände vom Vorgänger aus erreicht, für die die
optimale Strategie bereits bekannt ist.
Stufe
k
Zustand
y
Vorgänger
V(y)
Rekursion
Entscheidung
f k ( y ) = opt
*
xi ∈V ( y )
0
s
-
{f
*
(
x
i ) + d xi , y
k −1
*
}
→
xk*
0
Dynamische Optimierung
17
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Stufen 1:
Entsprechend werden die Zustände der nächsten beiden Stufen jeweils vom Vorgänger
aus optimiert:
Stufe
k
Zustand
y
Vorgänger
V(y)
Rekursion
Entscheidung
f k ( y ) = opt
*
xi ∈V ( y )
1
{f
*
(
x
i ) + d xi , y
k −1
*
}
→
xk*
a
{s}
f1 (a ) = min {0 + 8} = 8 →
x1* = s
b
{s}
f1 (b) = min {0 + 9} = 9 →
x1* = s
{s}
f1 (c) = min {0 + 6} = 6 →
x1* = s
c
*
{s}
*
{s}
*
{s}
Dynamische Optimierung
18
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Stufen 2
Stufe
k
2
Zustand
Y
Vorgänger Rekursion
*
V(y)
fk ( y) =
Entscheidung
opt
xi ∈V ( y )
{f
*
(
x
i ) + d xi , y
k −1
*
}
→
xk*
d
{a,b,c}
f 2 (d ) = min
{8 + 4;9 + 2;6 + 6} = 11 →
x2* = b, c
e
{a,b,c}
f 2 (e) = min
{8 + 2;9 + 5;6 + 5} = 10 →
x2* = a
f
{a,b,c}
f 2 ( f ) = min
{8 + 4;9 + 6;6 + 3} = 9
*
{a ,b ,c}
*
{a ,b ,c}
*
{a ,b ,c}
Dynamische Optimierung
→ x2* = c
19
Fachbereich Wirtschaftswissenschaften
BWL insb. Quant. Meth., Prof. Dr. D. Ohse
Stufen 3 und 4
Stufe
k
3
4
Zustand
Y
Vorgänger Rekursion
*
V(y)
f ( y) =
k
Entscheidung
opt
xi ∈V ( y )
{f
*
(
x
i ) + d xi , y
k −1
*
}
→
xk*
g
{d,e,f}
f3 ( g ) = min
{11 + 6;10 + 5;9 + 2} = 11 →
x3* = f
h
{d,e,f}
f3 (h) = min
{11 + 3;10 + 2;9 + 5} = 12 →
x3* = e
z
{g,h}
*
{d , e , f }
*
{d , e , f }
f 4 ( z ) = min {11 + 5;12 + 6} = 16 → x4* = g
*
{ g , h}
Optimale Politik: z ← g ← f ← c ← s mit dem minimalen Zielfunktionwert 16
Dynamische Optimierung
20
Herunterladen