Kapitel 8 Kontrolltheorie III (Systeme) 8.1 Problemstellung Es soll nun das Steuerungsproblem mit n Zustandsvariablen (x1 , . . . , xn ) = x und m Kontrollvariablen (u1 , . . . , um ) betrachtet werden. Gegeben ist also eine Momentanertragsfunktion f (t, x, u) und n Kontrollmechanismen g1 (t, x, u), . . . , gn (t, x, u) =: g(t, x, u), ein Kontrollbereich U ⊂ Rm sowie Anfangs- und Endbedingungen der unten spezifizierten Art. Außerdem kann eine Terminalwertfkt. S(T, x) = 0 vorliegen. Gesucht sind vektorwertige Funktionen u(t) = (u1 (t), . . . , um (t) und x(t) = (x1 (t), . . . , xn (t)) auf dem Intervall [0, T ] (T < ∞ ist zunächst fix, später auch frei), die (in jeder Komponente) stückweise stetig (u) bzw. stetig und stückweise stetig diff.bar (x) sind und das folgende Problem lösen: T f t, x(t), u(t) dt + S T, x(T ) , u ∈ U ⊂ Rm (1) max 0 wobei die Dynamik der Zustandsgrößen x beschrieben wird durch folgende Bewegungsgleichungen und Anfangsbedingungen ⎫ ẋ1 (t) = g1 t, x(t), u(t) , x1 (0) = x01 ⎬ ··· kurz: ẋ(t) = g t, x(t), u(t) , x(0) = x0 (2) ⎭ ẋn (t) = gn t, x(t), u(t) , xn (0) = x0n Außerdem liegen (potentiell) Endbedingungen für x der folgenden Art vor: (a) xi (T ) = x1i , i = 1, . . . , na (b) xi (T ) frei , i = na + 1, . . . , nb (c) xi (T ) ≥ x1i i = nb + 1, . . . , n (3) Das Maximumprinzip gilt bei dieser Problemklasse vollkommen analog. Für jede der Zustandsvariablen xi wird eine Ko-Zustandsvariable λi benötigt, die im Vektor λ = (λ1 , . . . , λn ) zusammengefasst werden. Die Hamilton-Funktion lautet im Normalfall n λi gi (t, x, u) H(t, x, u, λ) = f (t, x, u) + λ · g(t, x, u) := f (t, x, u) + i=1 Korrekterweise muss, aus Gründen der Allgemeingültigkeit, die Hamilton-Funktion mit einem weiteren Skalar λ0 ∈ {0, 1} gebildet werden: H(t, x, u, λ0 , λ) = λ0 f (t, x, u) + λ · g(t, x, u) wobei jedoch bei ‘wohlgestellten Problemen’ immer λ0 = 1 ist. Das Maximumprinzip zerlegt die Lösung i.w. in ein m-dimensionales statisches Optimierungsproblem von H über u mit x, λ als Parametern und ein 2n-dimensionalen DGL-System in x, λ mit u als Parameter, das unter n Anfangs- und n Transversalitätsbedingungen in t = T zu lösen ist. 137 138 Kontrolltheorie III (Systeme, potentiell restringiert) 8.2 Maximumprinzip als notwendige Bedingung Satz 8.1 (Pontryagin’sches Maximumprinzip) Die Fktnen. f (t, x, u), g(t, x, u), S(t, x) aus (1),(2) seien stetig und stetig diff.bar in x. Wenn (x∗ (t), u∗ (t)) =: (x(t), u(t)) ∈ Rn × Rm das Problem (1), (2), (3) mit x(t) als stetiger, stückweise stetig diff.barer Fkt. und u(t) als stückweise stetiger Fkt. auf [0, T ] lösen, dann existiert eine Konstante λ0 ∈ {0, 1} und stetige, stückweise stetig diff.bare Funktionen (λ1 (t), . . . λn (t)) =: λ(t) mit (λ0 , λ(t)) = (0, 0) ∀ t ∈ [0, T ], so dass für alle t ∈ [0, T ] gilt: (M) u = u(t) maximiert H t, x(t), u, λ(t) auf U (d.h. für u ∈ U) (A) λ̇i (t) = −Hx i t, x(t), u(t), λ(t) , i = 1, . . . , n (außerhalb Sprungstellen von u) Außerdem gelten die Transversalitätsbedingungen: (a) xi (T ) = x1i ⇒ λi (T ) frei (b) xi (T ) frei ⇒ λi (T ) = λ0 Sxi (T, x(T )) ≥ λ0 Sx i (T, x(T )) (c) xi (T ) ≥ x1i ⇒ λi (T ) = λ0 Sx i (T, x(T )) falls xi (T ) = x1i falls xi (T ) > x1i Anmerkungen: • Für jede Zustandsvariable xi muss eine zugehörige adjungierte Variable (Kozustandsvariable) λi vorgesehen werden. Wenn das Problem z.B. n = 2 Zustandsvariablen (x1 , x2 ) (und m ≥ 1 Kontrollvariablen u) umfasst, dann gibt es zwei adj. Variablen λ1 , λ2 und zwei adjungierte Gln. λ̇1 (t) = −Hx 1 t, x1 (t), x2 (t), u(t), λ1 (t), λ2 (t) λ̇2 (t) = −Hx 2 t, x1 (t), x2 (t), u(t), λ1 (t), λ2 (t) Kompakt schreibt sich das System der adjungierten Gln. als λ̇(t) = −Hx t, x(t), u(t), λ(t) , wobei Hx den Gradienten der Hamiltonfunktion bzgl. x bezeichnet. • Wenn der Kontrollbereich U ⊂ Rm sich beschreiben lässt durch s Ungleichungen der Art h1 (u) ≤ c1 , . . . , hs (u) ≤ cs , hat man in (M) ein Ungleichungs-restringiertes statisches Optimierungsproblem, bei dem die Zielfkt. u → H(t, x, u, λ) von den Parametern t, x und λ abhängt (→ Kuhn-Tucker). Bei m > 1 Kontrollvariablen kann bereits die Behandlung dieses Teilproblems kompliziert werden. Aber wenn es ein eindeutiges maximierendes u∗ (t, x, λ) in U gibt, dann lösen x und λ wieder das Hamilton-System (A) λ̇(t) = −Hx t, x(t), u∗ (t, x(t), λ(t)), λ(t) System von 2n Diff.gln in λ, x (Z) ẋ(t) = +Hλ t, x(t), u∗ (t, x(t), λ(t)), λ(t) Ein großes m macht die stat.Optim. in (M) komplex, ein großes n das DGL-System (A),(Z). Über den Satz hinausgehend kann man zeigen: • Die Hamilton-Funktion längs des optimalen Pfades t → H t, x∗ (t), u∗ (t), λ∗ (t) ist stetig (auch in Unstetigkeitspunkten von u) • In Stetigkeitspunkten von u∗ (t) ist t → H t, x∗ (t), u∗ (t), λ∗ (t) sogar diff.bar mit ∗ ∂ ∗ ∗ ∗ ∗ ∗ d dt H t, x (t), u (t), λ (t) = ∂t H t, x (t), u (t), λ (t) • Wenn U eine konvexe Menge ist (d.h. mit je zwei Punkten u0 , u1 ∈ U liegt auch die gesamte Verbindungsstrecke {u0 + s(u1 − u0 ) | s ∈ [0, 1]} in U) und H strikt konkav in u ist, dann ist u∗ (t) stetig (und stückweise stetig diff.bar) für alle t. Die Fktnen x∗ (t) und λ∗ (t) sind dann sogar stetig diff.bar (und zweimal stückweise stetig diff.bar). c K.H. Schild, Abt. Statistik, Fb. Wiwi, Uni Marburg 8.3 139 Maximumprinzip als hinreichende Bedingung Satz 8.2 (Max.Prinzip als hinreichende Bedingung nach Mangasarin) In der Situation von Satz 8.1 seien x∗ (t), u∗ (t), λ∗ (t) Funktionen auf [0, T ], die die notwendigen Bedingungen des Satzes mit λ0 = 1 erfüllen. Wenn dann – der Kontrollbereich U eine konvexe Menge in Rm ist und – die Hamilton-Fkt. H(t, x, u, λ∗ (t)) konkav in (x, u) für alle t ∈ [0, T ] ist und – die Terminalwert-Funktion S(T, x) konkav in x ist, dann ist (x∗ (t), u∗ (t)) eine Lösung des Problems (1),(2),(3). Wenn darüber hinaus H sogar streng konkav in (x, u) ist, dann ist (x∗ (t), u∗ (t)) die einzige optimale Lösung. Satz 8.3 (Max.Prinzip als hinreichende Bedingung nach Arrow) In der Situation von Satz 8.1 seien x∗ (t), u∗ (t), λ∗ (t) Funktionen auf [0, T ], die die notwendigen Bedingungen des Satzes mit λ0 = 1 erfüllen. (Außerdem sei S(t, x) = 0). Wenn dann die über u ∈ U maximierte Hamilton-Fkt. x → H ◦ (t, x, λ∗ (t)) := max H(t, x, u, λ∗ (t)) u∈U konkav in x ist für alle t ∈ [0, T ], dann löst (x∗ (t), u∗ (t)) das Optimierungsproblem (1),(2),(3). 8.4 Schattenpreis-Interpretation von λ∗ (T ) und H ∗ (T ) Ausgangspunkt ist ein Problem unter der Zweipunkt-Randbedingung (a) bzgl x(t) (ohne Terminalwert, d.h. S(t, x) = 0). Ist u∗ (t) eine Lösung des Problems mit zugehöriger Zustandstrajektorie x∗ (t), so stellt der Wert, der sich bei Einsetzen der Lösung in das Zielfunktional ergibt, also t1 ∗ V (t0 , x0 , t1 , x1 ) := f (t, x∗ (t), u∗ (t)) dt, t0 den Optimalwert dar, der unter den Randvorgaben (t0 , x0 ), (t1 , x1 ) realisiert werden kann. Der Effekt, den die ‘räumlichen’ Randvorgaben x0 , x1 auf den erreichbaren Wert haben, wird erfasst von der adjungierten Funktion λ(t) = λ∗ (t), derjenige der zeitlichen Vorgaben t0 , t1 auf V ∗ von der Hamilton-Fkt. H ∗ (t), die im zeitl. Verlauf entlang der Lösungstrajektorie entsteht: H ∗ (t) := H(t, x∗ (t), u∗ (t), λ∗ (t)) In Punkten, wo V ∗ (t0 , x0 , t1 , x1 ) diff.bar nach dem Parameter ist, gilt: ∂V ∗ ∂V ∗ ∂V ∗ ∗ ∗ (1a) = λ (t ), (1b) = −λ (t ); (2a) = −H ∗ (t0 ), 0 1 i i ∂t0 ∂x0i ∂x1i 8.5 (2b) ∂V ∗ = H ∗ (t1 ) ∂t1 Maximumprinzip bei freiem T Satz 8.4 (Maximumprinzip bei freiem T ) Die Fktnen f (t, x, u), g(t, x, u), S(t, x) seien für alle t ≥ 0 definiert und genügend oft diff.bar. Wenn x∗ (t), u∗ (t) und 0 < T ∗ < ∞ eine Lösung des Problems (1),(2),(3) mit freiem T > 0 ist (d.h. zusätzlich wird über T optimiert), dann sind alle Bedingungen des Maximumprinzips von Satz 8.1 auf [0, T ∗ ] erfüllt und zusätzlich gilt H T ∗ , x∗ (T ∗ ), u∗ (T ∗ ), λ∗ (T ∗ ) = −λ0 St T ∗ , x∗ (T ∗ ) 140 8.6 Kontrolltheorie III (Systeme, potentiell restringiert) Anwendung: Steuerung einer U-Bahn Ein Wagen der Masse m = 1, der sich zur Zeit 0 am Ort x0 befindet und sich momentan mit Geschwindigkeit v0 bewegt, soll zur Zeit T in den Punkt x1 = 0 mit Geschwindigkeit v1 = 0 (d.h. zum Stehen) gebracht werden. Der Wagen bewegt sich gemäß dem Newton’schen Trägheitsgesetz, d.h. eine an ihm angreifende Kraft F bewirkt eine Beschleunigung ẍ gemäß m ẍ = F . Die angreifende Kraft F kann gesteuert werden (F = u = Kontrollvariable), darf aber nur Werte zwischen −g ≤ u ≤ g annehmen (z.B. aus technischen Gründen oder weil die Wageninsassen keine höheren Beschleunigungen vertragen). Als konkretes Beispiel kann man sich eine U-Bahn vorstellen; als Insasse einer solchen spürt man die Kräfte bei Beschleunigungsund Abbremsvorgängen; x0 lässt sich als Abstand zwischen zwei U -Bahnstationen interpretieren und, im Fall v0 = 0, T als die fahrplanmäßige Dauer der Fahrt zwischen den beiden Stationen. v(T) = 0 T x=0 1 v0 (< 0) v(T) = 0 0 x0 T x=0 x mittlere Kraft 2 0 x0 v0 (> 0) 1 x Da bei dieser Anwendung die Bewegungsgleichung eine Differentialgl. zweiter Ordnung, ẍ = u, ist, benötigt man für die Formulierung mittels Differentialgleichungen erster Ordnung zwei Zustandsvariablen, die man sinnvollerweise als x1 = x = Ortskoordinate und x2 = ẋ = Geschwindigkeit wählt. Dann lauten die Bewegungsgln. (2) zusammen mit den Randbedingungen ẋ1 = x2 , ẋ2 = u x1 (0) = x0 , x2 (0) = v0 x1 (T ) = 0 x2 (T ) = 0 Wir haben also n = 2 Zustandsvariablen (x1 = x = Ort, x2 = v = Geschwindigkeit) und m = 1 Kontrollvariablen (die zu steuernde Variable u ist die Beschleunigung bzw. die Kraft) Wir wollen das Problem unter verschiedenen Zielsetzungen behandeln: (1) T ist vorgegeben, es soll das Quadrat der aufgewendeten Kraft (oder äquivalent der Beschleunigung) im zeitlichen Mittel über das Intervall [0, T ] minimiert werden, indem als Momentanertragsfunktion f = − 12 u2 gewählt wird (approximativ: Min. Energieverbrauch):1 T x1 (0) = x0 ẋ1 = x2 x1 (T ) = 0 u ∈ U = R , , max − 12 u2 (t) dt, , x2 (T ) = 0 (od. U = [−g, g]) ẋ2 = u x2 (0) = v0 u∈U 0 (2) Die Zeit T ist frei und soll minimiert werden. Dies wird erreicht durch Wahl der Momentanertragsfunktion f = −1. T x1 (0) = x0 ẋ1 = x2 x1 (T ) = 0 u ∈ U = [−g, g] max , , (−1) dt (= −T ), , x ẋ = u x (0) = v (T ) = 0 T frei u∈[−1,1] 0 2 2 0 2 Dieses Problem wurde bereits in der Originalarbeit von Pontryagin diskutiert. 1 Dies entspricht nicht (zumindest nicht exakt) der Minimierung der aufzuwendenden Energie im Sinne der physikalischen Arbeit. Dazu wäre als Momentanertragsfkt f = −u x2 (= −u v), nicht f = − 12 u2 , zu wählen, denn T x1 Kraft(x) × dx = m ẍ(t) ẋ(t) dt aufzuwendende Energie = 0 x0 m ẍ(t) =ẋ(t) dt u(t) =x2 (t) T d 1 mẋ2 (t) , wertet sich das Zielintegral hier immer aus zu 12 mẋ2 0 = − 12 mv02 , was unabhängig Da m ẍ(t) ẋ(t) = dt 2 von u(t) ist. Das ist der Energieerhaltungssatz, wonach die aufzuwendende Energie, um eine Masse m von Geschwindigkeit v0 auf Geschwindigkeit 0 zu bringen, nicht durch Steuerung zu beeinflussen ist – es ist stets die initiale kinetische Energie 12 mv02 . Dabei wird allerdings unterstellt, dass bei Bremsvorgängen die kinetische Energie zurückgewonnen wird. Geht diese Energie komplett ‘verloren’, so wäre bei Abwesenheit sonstiger Reibungsverluste f als −u v für u v > 0 und f = 0 für u v ≤ 0 anzusetzen, um Minimierung des ‘Energieverbrauchs’ zu erhalten. c K.H. Schild, Abt. Statistik, Fb. Wiwi, Uni Marburg 8.6.1 141 Minimierung des Energieverbrauchs (approximativ) Wir behandeln das Problem (1) zunächst ohne die Restriktion u ∈ [−g, g], d.h. U = R T ẋ1 = x2 x1 (0) = x0 x1 (T ) = 0 − 12 u2 (t) dt, , , , u∈U =R max x2 (T ) = 0 ẋ2 = u x2 (0) = v0 u∈U 0 Die Hamilton-Fkt. ist hier: H(x1 , x2 , u, λ1 , λ2 ) = − 12 u2 + λ1 x2 + λ2 u = −1 < 0): Maximierung von H über u ∈ R liefert (wegen Hu = −u + λ2 , Hu,u u = λ2 [λ2 fällt hier also mit der Beschleunigung zusammen] Adjungierte Gleichungen (Substitution von u hier nicht erforderlich): λ̇1 = −Hx 1 = 0 λ̇2 = −Hx 2 = −λ1 ⇒ λ1 = const =: c1 ⇒ λ2 = −c1 t + c2 Die Bewegungsgleichungen (mit Substitution von u und dem bereits Ermittelten): ⇒ x2 = − 12 c1 t2 + c2 t + c3 ⇒ x1 = − 16 c1 t3 + 12 c2 t2 + c3 t + c4 ẋ2 = +Hλ 2 = u = λ2 = −c1 t + c2 ẋ1 = +Hλ 1 = x2 = − 12 c1 t2 + c2 t + c3 x(t) = x1 (t) ist also ein kubisches Polynom. Die vier Randbedingungen x(0) = x0 , ẋ(0) = v0 und x(T ) = 0, ẋ(T ) = 0 legen dessen Koeffizienten eindeutig fest.2 Die optimale Steuerung zeichnet sich dadurch aus, dass die Beschleunig. u(t) = ẍ(t) eine lineare Fkt. der Zeit t darstellt: 6x0 + 2T v0 12x0 + 6v0 6x0 + 2T v0 t 6x0 + 4T v0 u(t) = − , u(T ) = 1− , u(0) = − 2 2 2 T T T T T2 Bei festgehaltener initialer Position x0 > 0 wird in den folgenden vier Abbildungen die initiale Geschwindigkeit v0 sukzessive abgesenkt (wodurch u(0) steigt und schließl. positiv wird, während u(T ) sinkt und schließlich negativ wird). Im zweiten Bild ist v0 = 0 (bei t = 0 steht die U-Bahn). Optimalerweise erfolgt dann zunächst negative Beschleunigung, d.h. Bewegung Richtung x = 0, die im Zeitverlauf abnimmt und bei t = T /2 Null wird. Ab dann erfolgt symmetr. zunehmend positive Beschleunigung, was hier ein Abbremsen bedeutet. Die Geschwindigk. |v| erhöht sich bis t = T /2 und sinkt dann auf 0, so dass die U-Bahn in t = T zum Stehen kommt. Bei positivem v0 (li. Bild) bewegt sich die U-Bahn zum Zeitpunkt 0 weg vom Ziel x = 0 und muss zunächst durch starke negative Beschleunig. abgebremst werden, bis sie zum Stehen kommt (v wird Null). Danach erfolgt die Bewegung in Richtung x = 0. Bei stark negativem v0 << 0 (re. Bild) braust die U-Bahn bei t = 0 durch den Pkt x0 in Richtung x = 0. Hier ist es optimal, sie gewissermaßen über das Ziel x = 0 hinausschießen zu lassen (x wird negativ) und anschließend zurückzufahren. v0 > 0 x v u x v u x v0 = 0 x v0 < 0 (v0 > vkrit) v u x u x u u v T t T t v x v x u T t v v0 << 0 T t v 2 Das Polynom darstellen als x(t) = c̃0 + c̃1 (T − t) + c̃2 (T − t)2 + c̃3 (T − t)3 und c̃0 = 0, c̃1 = 0 folgern, es bleibt das 2 × 2 System 2 −1 −3T 2 −T 3 T T3 c̃2 x0 c̃2 x0 T 2 c̃2 + T 3 c̃3 = x0 ⇐⇒ = ⇐⇒ = 4 2 2 2 −2T c̃2 − 3T c̃3 = v0 −2T −3T c̃3 v0 c̃3 2T T v0 T 6x0 +2T v0 12x0 +6v0 1 1 1− Tt Also c̃2 = T 2 (3x0 +T v0 ), c̃3 = − T 3 (2x0 +T v0 ) und somit u(t) = 2c̃2 +6c̃3 (T −t) = − T2 T2 142 Kontrolltheorie III (Systeme, potentiell restringiert) Behandlung des Problems unter der Restriktion −g ≤ u ≤ g, d.h. U = [−g, g]: T x1 (0) = x0 ẋ1 = x2 x1 (T ) = 0 , , u ∈ U = [−g, g] − 12 u2 (t) dt, , max x2 (T ) = 0 ẋ2 = u x2 (0) = v0 u∈U 0 Maximierung der (unveränderten) Hamilton-Funktion H(u, x1 , x2 , λ1 , λ2 ) = − 12 u2 + λ1 x2 + λ2 u ⎧ über u ∈ [−g, g] liefert: ⎪ ⎨−g, falls λ2 < −g u = λ2 falls − g ≤ λ2 ≤ g ⎪ ⎩ +g, falls λ2 > +g An den adjungierten Gleichungen ändert sich nichts, da sie u nicht enthalten: λ̇1 = −Hx 1 = 0 ⇒ λ1 = const =: c1 λ̇2 = −Hx 2 = −λ1 ⇒ λ2 = −c1 t + c2 D.h. λ2 bleibt eine lineare Funktion von t. Eine solche Funktion kann jeweils den Wert −g bzw. +g nur in einem Zeitpunkt t− bzw. t+ annehmen. Es gibt also maximal zwei Umschaltzeitpunkte t− , t+ in der optimalen Steuerung u(t) im Intervall [0, T ] (ein Umschaltzeitpunkt spielt nur dann eine Rolle, wenn er im Intervall [0, T ] liegt). Liegen beide Umschaltzeitpunkte im Intervall [0, T ], stellt die optimale Steuerung u(t) die bei ±g horizontal abgeknickte lineare Funktion λ2 (t) dar. Insbesondere ist u(t) eine stetige Funktion der Zeit t. Anders als bei den adjungierten Gleichungen, geht u in die Bewegungsgleichungen ein: ẋ2 = +Hλ 2 = u ẋ1 = +Hλ 1 = x2 D.h. x(t) = x1 (t) stellt ein quadratisches Polynom links vom kleineren der beiden Umschaltpunkte dar, eine kubisches Polynom zwischen ihnen und wieder ein quadratisches Polynom rechts davon. Der Anschluss von x(t) in den Umschaltpunkten erfolgt zweimal stetig diff.bar. Die Positionierung der Umschaltzeitpunkte selbst ist allerdings Teil des Optimierungsproblems, was die rechnerische Lösung unangenehm macht (da nicht-lineare Gln. entstehen). Wir betrachten exemplarisch den Spezialfall v0 = 0, wo Symmetrie um t = T /2, x = x0 /2 herrschen sollte: Bis zum Umschaltzeitpunkt ts wird mit dem maximal zulässigen u = −g Richtung x0 = 0 beschleunigt, dann nimmt (der Betrag der) Beschleunig. linear ab, wird bei t = T /2 Null und von dort an folgt symmetrisch zur Beschleunigungsphase der Abbremsvorgang. Also Ansatz: ⎧ g 2 v0 = 0 ⎪ t < ts x ⎨x0 − 2 t , 2 1 T T x(t) = 2 x0 + c1 t − 2 + c3 t − 2 , ts ≤ t ≤ T − ts v ⎪ x0/2 ⎩g 2 u x(t) t > T − ts 2 (T − t) wobei c1 , c3 und ts unbekannt sind. Stetigkeit von ẍ in ts g impliziert −g = 6c3 (ts − T /2), also c3 = −g/(6 (ts − T /2)). u(t) Mit Ersetzung von c3 führt Stetigkeit von ẋ, d.h. −g ts = T-ts T t ts T/2 c1 +3c3 (ts −T /2)2 , auf c1 = −(g/2)(ts +T /2). Stetigkeit von g 2 x impliziert: x0 − g2 t2s = x20 − g2 ts + T2 ts − T2 − g6 ts − T2 . v(t) 2 g T 2 g x0 Diese quadratische Gl. in ts vereinfacht sich zu 2 2 − 2 = 6 ts − T2 mit der Lösung g g x0 x0 0 ≤ ; ab ≤ ist t ∈ [0, T ] ts = t± = T2 · 1 ± 3 − 12x Die Wurzel exist. f. s 2 2 2 4 6 gT T T Interpretation: Für T 2 < 4x0 /g besitzt das Problem keine Lösung (da die verfügbare Zeit T relativ zum Abstand x0 und der max. erlaubten Beschleunigung |g| zu klein ist). Für Laufzeiten T mit 4x0 /g ≤ T 2 ≤ 6x0 /g bindet die Restriktion |u| ≤ g, und zwar für t ∈ [0, t− ] und t ∈ [t+ , T ]. Ab Laufzeiten T mit T 2 > 6x0 /g ist die Restriktion obsolet (die Punkte t± sind aus dem Intervall [0, T ] herausgewandert). Dies ist konsistent zur unrestringierten Lösung mit v0 = 0 (siehe vorne), 0 0 und uunrestr (T ) = 6x variiert. wo das optimale u zwischen uunrestr (0) = − 6x T2 T2 c K.H. Schild, Abt. Statistik, Fb. Wiwi, Uni Marburg 8.6.2 143 Minimalzeitproblem Wir betrachten nun das Problem, die Zeit T zu minimieren unter der Restriktion u ∈ [−1, 1]: T x1 (0) = x0 ẋ1 = x2 x1 (T ) = 0 u ∈ U = [−1, 1] , , (−1) dt (= −T ), , max x2 (T ) = 0 ẋ2 = u x2 (0) = v0 T frei u∈[−1,1] 0 Die Hamilton-Fkt. ist hier (unterstelle gleich λ0 = 1): H(u, x1 , x2 , λ1 , λ2 ) = −1 + λ1 x2 + λ2 u Maximierung von H über u ∈ [−1, 1] liefert hier ein Bang-Bang-Verhalten:3 −1, falls λ2 < 0 d.h. u = sgn(λ2 ) u = +1, falls λ2 > 0 Die adjungierten Gleichungen ergeben: λ̇1 = −Hx 1 = 0 λ̇2 = −Hx 2 = −λ1 ⇒ λ1 = const =: c1 ⇒ λ2 = −c1 t + c2 D.h. λ2 ist auch hier eine lineare Funktion von t. Eine solche Funktion kann höchstens einmal ihr Vorzeichen im Intervall [0, T ] wechseln. Da u(t) = sgn(λ2 (t)), kann auch das optimale u(t) höchstens einmal seinen Wert im Intervall [0, T ] ändern (von −1 zu +1 oder von +1 zu −1). Es sei ts der Zeitpunkt des Umschaltens von u(t) (wenn keine Umschaltung erfolgt, setzen wir ts = 0). Wir betrachten zunächst die Pfade, auf denen sich (x1 (t), x2 (t)) in der finalen Phase t ∈ [ts , T ] bewegen muss. Es ist entweder u(t) = 1 oder u(t) = −1 ∀ t ∈ [ts , T ] und die Bewegung von x1 (t), x2 (t) muss im Nullpunkt (x1 (T ), x2 (T )) = (0, 0) enden. Fall u(t) = 1 für alle t ∈ [ts , T ]: Dann liefern die Bewegungsgleichungen in der Zeit nach ts : ẋ2 = +Hλ 2 = u = 1 ẋ1 = +Hλ 1 = x2 = t + c3 ⇒ x2 = t + c3 ⇒ x1 = 12 t2 + c3 t + c4 Indem wir x2 = t + c3 als t = x2 − c3 in x1 einsetzen, ergibt sich x1 als Funktion von x2 : x1 = 12 (x2 − c3 )2 + c3 (x2 − c3 ) + c4 = 12 x22 − x2 c3 + 12 c23 + c3 x2 − c23 + c4 = 12 x22 − 12 c23 − c4 Das zeigt: Im (x1 , x2 )-Phasendiagramm liegen die Pfade (x1 (t), x2 (t)) für t ≥ ts auf parallel verschobenen Parabeln mit Scheitelpunkt auf der x1 -Achse und Öffnung in Richtung des positiven x1 . Mit wachsendem t = x2 − c3 werden sie in Richtung wachsenden x2 ’s durchlaufen: x2 (= v) u =1 x1 (= x) (xts,vts) Offensichlich gibt es nur eine Möglichkeit, den Pfad im Nullpunkt enden zu lassen: Auf dem südöstlichen Ast derjenigen Parabel, die durch den Nullpunkt verläuft. Mit der Steuerung u(t) = 1 ∀ t ∈ [ts , T ]“ gelangt man also nur bei Werten (xts , vts ), die auf diesem Parabelast ” liegen, in das Ziel x1 (T ) = 0, x2 (T ) = 0. 3 Für das folgende muss ausgeschlossen werden, dass λ2 (t) = 0 in mehr als einem t = ts ist. Aus 0 = H ∗ (T ) = −1 + λ2 (T )u(T ) folgt u(T ) = 0, λ2 (T ) = 1/u(T ) = 0. Da λ2 (t) = −c1 t + c2 , folgt λ2 (t) = (t − ts )/(T − ts )/u(T ) 144 Kontrolltheorie III (Systeme, potentiell restringiert) Fall u(t) = −1 für alle t ∈ [ts , T ]: Dann liefern die Bewegungsgleichungen in der Zeit nach ts : ẋ2 = +Hλ 2 = u = −1 ⇒ x2 = −t + c3 ẋ1 = +Hλ1 = x2 = −t + c3 ⇒ x1 = − 12 t2 + c3 t + c4 Nun ist t als Fkt. von x2 durch t = c3 − x2 gegeben. Ersetzung von t in x1 : x1 = − 12 (c3 − x2 )2 + c3 (c3 − x2 ) + c4 = − 12 x22 + 12 c23 + c4 zeigt, dass sich im (x1 , x2 )-Phasendiagramm wiederum Parabeln mit Scheitelpunkt auf der x1 Achse ergeben, nun allerdings mit Öffnung in Richtung der negativen x1 -Achse. Außerdem werden die Parabeln nun mit wachsendem t = c3 − x2 in Richtung fallender x2 -Werte durchlaufen: (xts,vts) x2 (= v) u = -1 (0,0) x1 (= x) Um hier die Endbedingungen x1 (T ) = 0, x2 (T ) = 0 zu erfüllen, muss man sich mit (xts , vts ) auf dem nordwestlichen Teil derjenigen Parabel befinden, die durch den Nullpunkt läuft. Welche Möglichkeiten bestehen nun, von einem gegebenen Startpunkt (x0 , v0 ) mit maximal einem Umschalten von u ins Ziel zu gelangen? Da in der Phase vor ts jeweils gerade das komplementäre Phasendiagramm anzuwenden ist, bleiben nur die im folgenden Bild dargestellten: x2 (= v) u = -1 u = -1 (xts,vts) (0,0) (x0,v0) u = +1 (x0,v0) x1 (= x) (xts,vts) u = +1 Zu jedem (x0 , v0 ) nordöstlich der aus den beiden Halbparabeln durch den Nullpunkt bestehenden ‘Trennkurve’ (fett gezeichnet) muss man zunächst mit u = −1 zum südöstlichen Ast dieser Kurve ‘fahren’, um dann mit u = +1 in das ‘Ziel’ x(T ) = 0, v(T ) = 0 gelangen zu können. Bei einem (x0 , v0 ) südwestlich der Trennkurve muss man sich zunächst mit u = +1 zum norwestlichen Ast der Trennkurve bewegen, um dann auf u = −1 umzuschalten; nur so gelangt man mit einem einzigen Umschaltvorgang zu x = 0, v = 0. Die Trennkurve ist gerade die Umschaltkurve. Nur wenn man sich mit (x0 , v0 ) bereits auf dieser Kurve befindet, kann man ohne Umschalten von u ins Ziel gelangen. Die graphische Lösung lässt sich recht leicht in eine rechnerische umsetzen. Anmerkung: Der entscheidende Punkt bei diesem Argument ist, dass ein optimales (d.h. die Zeit T minimierendes) u(t) zum einen nur die Werte ±1 annehmen kann und zum anderen maximal einen Umschaltvorgang erlaubt. Dabei geht scheinbar die bei freiem T geltende Transversalitätsbedingung H ∗ (T ) = 0“ gar nicht ein. In der Tat benötigt man diese Bedingung hier ” lediglich um λ2 (t) = 0 ∀t“ auszuschließen (was bereits die Beziehung u = sign(λ2 ) ungültig ma” chen würde). Beachte auch: Es liegt ein autonomes Problem vor, daher H ∗ (t; T ) = H ∗ (T ; T ) = 0. c K.H. Schild, Abt. Statistik, Fb. Wiwi, Uni Marburg 8.7 145 Anwendung: Verbrauch fossiler Ressourcen und Umweltschutz (Forster-Modell) Bezeichnungen: ← Zustandsvariable 1 x: Restbestand der fossilen Ressource (Erdöl, Erdgas, Kohle) y: Aggregierte Umweltverschmutzung (z.B. CO2 -Gehalt der Atmosph.) ← Zustandsvariable 2 u: Abbaurate der fossilen Ressource (soweit für den Konsum bestimmt) ← Kontrollvariable 1 v: Aufwand f. Umweltschutz (z.B. CO2 -Filter in Kohlekraftwerken) ← Kontrollvariable 2 Es wird angenommen, dass der Umweltschutz selbst fossile Ressourcen benötigt; v wird in den gleichen Einheiten wie u gemessen. D.h. v gibt an, wieviel der Ressource pro Z.E. für Umweltschutz verbraucht wird. Im Modell konkurrieren“ gewissermaßen u und v um die Ressource. ” C(u): Der durch den Abbau u der Ressource ermöglichte Konsum. Ann.: C (u) > 0, C (u) < 0 U (C, y): Der zu optimierende Nutzen ist eine Funktion des (vom Ressourcenabbau u abhängigen) Konsums C und des Umweltverschmutzunggrades y (hier als ‘Disnutzen’), indirekt also eine Fkt. der Kontrollvariable u (als Nutzen) und der Zustandsvariable y (als Disnutzen). Annahmen: UC > 0, UC < 0, Uy < 0, Uy ≤ 0 (rechenbares Beispiel: U (C, y) = ln(C) − y) Bewegungsgleichungen: ẏ = α u − β v − δ y ẋ = −u − γ v α: Effekt des (konsum-bestimmten) Ressourcenverbrauchs auf die Umweltverschmutzung T onnen C02 Wieviel eines konsumierten“ Barrels Erdöl landet als CO2 in der Atmossphäre? [ Barrel Erdoel ] ” β: Misst Effizienz der Umweltschutzmaßnahmen T onnen C02 Wieviel CO2 wird durch ein für Umweltschutz verwendetes Barrel Erdöl eingespart? [ Barrel Erdoel ] δ: Rate, mit der sich die Umwelt von selbst heilt“ (z.B. natürlicher CO2 -Abbau) ” γ: = 1, siehe oben. Berücksichtigt, dass Umweltschutz selbst Ressourcen verbraucht. Ziel: max u≥0, 0≤v≤vmax T U C(u(t)), y(t) dt, 0 u ≥ 0, 0 ≤ v ≤ vmax , x(T ) ≥ 0, y(T ) ≥ 0 Hamilton-Funktion (mit γ = 1): H(x, y, u, v, λx , λy ) = U C(u), y) + λy · (α u − β v − δ y) − λx · (u + v) λx : Effekt des Nicht-Verbrauchs einer Ressoureneinheit auf aggreg. Nutzen (sollte > 0 sein). λy : Effekt einer Erhöhung der Umweltverschmutzung auf aggreg. Nutzen (sollte ≤ 0 sein). Adjungierte Gleichungen: λ̇x = −Hx = 0 ⇒ λx (t) = const =: λ̄x (> 0) λ̇y = −Hy = −Uy C(u), y + δ λy Bei −Uy = const =: g: λ̇y − δλy = g ⇒ λy (t) = − gδ e−δt − e−δT Maximierung von H über u, v unter den Nebenbedingungen u ≥ 0, 0 ≤ v ≤ vmax : Da v linear in H eingeht, ist bzgl. v ein Bang-Bang-Verhalten optimal. Mit Hv = −β λy − λx : v=0 v = vmax ⇐⇒ ⇐⇒ Hv < 0 ⇐⇒ −β λy − λx < 0 ⇐⇒ λy > −λ̄x /β Hv > 0 ⇐⇒ −β λy − λx > 0 ⇐⇒ λy < −λ̄x /β Dagegen bestimmt sich u aus der Gl. Hu = 0 (sofern u > 0). Wegen Hu = UC ·C (u)+α λy −λx : Hu = 0 ⇐⇒ UC · C (u) = λ̄x − αλy 146 Kontrolltheorie III (Systeme, potentiell restringiert) Transversalitätsbedingungen: λx (T ) ≥ 0, x(T ) ≥ 0, λx (T ) · x(T ) = 0 λy (T ) ≥ 0, y(T ) ≥ 0, λy (T ) · y(T ) = 0 Bei den Transversalitätsbedingungen kann man vier Fälle unterscheiden: x(T ) = 0, y(T ) = 0, x(T ) = 0, y(T ) > 0, x(T ) > 0, y(T ) = 0 und x(T ) > 0, y(T ) > 0. Wir diskutieren nur den (realistischsten) Fall x(T ) = 0, y(T ) > 0, wo also die Ressource x komplett abgebaut wird, die dadurch verursachte Umweltverschmutzung y aber nicht komplett eliminiert wird (durch die Selbstheilung würde diese in der Zeit nach T von alleine verschwinden). Die folgenden Diagramme skizzieren das optimale Verhalten qualitativ. Grob gesagt ist der Umweltschutz v optimalerweise anfangs groß und sinkt im Zeitverlauf, während u (und damit der Konsum C(u)) anfangs niedrig ist und im Zeitverlauf steigt. Quintessenz ist, dass anfangs Konsumverzicht zugunsten des Umweltschutzes geübt werden sollte. (Auch: u und v sind gegenläufig, u + v variiert nur schwach.) Ȝy Ȝy (t) < -Ȝx /ȕ -Ȝx/ȕ u v Ȝy (t) > -Ȝx /ȕ ts Ȝy (t) Ȝy (t) < -Ȝx /ȕ Ȝy (t) > -Ȝx /ȕ u(t)+v(t) u(t) T t vmax x Ȝ (t) < -Ȝ /ȕ Ȝ (t) > -Ȝ /ȕ y x y x y y(t) x0 v(t) ts x(t) ts T t T t Herleitung (teilweise Plausibilitätsargumente): Die zum Restbestand x der Ressource adjungierte Variable λx (sie misst die Nützlichkeit des Nicht-Verbrauchs einer Ressourenceneinheit) ist konstant im Zeitverlauf, und zwar ist es eine positive Konstante λ̄x . Die zum Grad der Umweltverschmutzung y adjungierte Variable λy (sie misst die Nützlichkeit“ einer Vergrößerung ” der Umweltverschmutzung) ist negativ, steigt aber im Zeitverlauf an und endet in λy (T ) = 0, wenn y(T ) > 0 (wenn also zum Zeitpunkt T die Umwelt nicht vollkommen bereinigt ist). Dass λy (t) im Zeitverlauf wächst, ist aufgrund der adjung. Gl. λ̇y − δ λy = −Uy plausibel, da Uy < 0 (Selbst bei konst., nicht zunehmendem, Grenz-Disnutzen, −Uy = const = g, ergibt sich λ̇y = ge−δt > 0). Es erfolgt also genau ein Umschaltvorgang von vollem Umweltschutz“ (v = vmax ) zu Null ” ” Umweltschutz”(v = 0) zu einem Zeitpunkt ts , der dadurch ausgezeichnet ist, dass λy (t) auf den Wert −λ̄x /β angestiegen ist. D.h. in diesem Modell ist es optimal, zunächst, bis zu einem Zeitpunkt ts , den Umweltschutz auf höchstmöglichen Niveau vmax zu betreiben, um danach die Umweltschutzmaßnahmen ganz einzustellen. Bzgl. der Ressourcenmenge u, die pro Z.E. für Konsumzwecke abgebaut wird, lässt sich unter den Annahmen UC > 0, UC < 0, C > 0, C < 0 wie folgt zeigen, dass sie im Zeitverlauf wächst: Differentiation der Gl. Hu = 0 nach t d d 0 = dt Hu (t) = dt UC C (u) − λ̄x − αλy (t) = UC C 2 (u) + UC C (u) · u̇(t) − α λ̇y (t) <0 ≥0 >0 <0 zeigt, dass u̇(t) das gleiche Vorzeichen wie λ̇y (t), also ein positives (s.o), hat. In diesem Modell ist also ein im Zeitverlauf wachsender Ressourcenverbrauch zugunsten des Konsums optimal. Man kann dies auch so interpretieren, dass initial Konsumverzicht geübt wird, um einen größeren Anteil der Ressource für den Umweltschutz zur Verfügung zu stellen. Die Ressource x(t) selbst wird sich dann recht gleichmäßig im Zeitverlauf abbauen, mit der höchsten Gesamtabbaurate u+ v vor dem Umschaltzeitpunkt (da hier v noch groß und u relativ groß ist) und vor dem Zeitpunkt T der Ressourcenerschöpfung (da hier u groß ist). Bzgl. des Verlaufs der Umweltverschmutzung y(t) scheint mir nicht klar, dass in der initialen Phase generell eine Reduktion von y(t) erreicht wird. In der finalen Phase des ‘Nichts-Mehr-Tun’s wird dies sicher nicht erreicht, sofern die Rate δ, mit der die Umwelt sich selbst reinigt, klein ist in Relation zum Parameter α (der den Effekt der konsumierten Ressource auf die Umweltverschmutzung misst).