Robust Optimal On-Board Reentry Guidance of an European Space Shuttle Seminar Differentialspiele Stephan Schmidt Gliederung Der Wiedereintritt – – – – Zielsetzung Was macht einen Wiedereintritt aus? Die Probleme an eine Steuerung Das Differentialspiel als Lösung Das robuste Differentialspiel – – – – – – – Der Kontrollprozess (Kinematik Equation) Die Nebenbedingungen Robust-Optimalität Die Isaacs Gleichung (Main Equation II) Neue Lösungsverfahren „Open-Loop“-Verfahren Bessere Verfahren Gliederung Neuronales Netz – – – – – – – – – – – Was ist ein künstliches neuronales Netz? Das künstliche Neuron Ideen für Funktionen eines Neurons Approximierbarkeit Praktische Realisierung Gewichtselimination Sigmoide Aktivierungsfunktionen Praktische Approximation Approximationsfehler Gradient des Fehlers Der Backpropagationsalgorithmus Zusammenfassung Teil 1: Der Wiedereintritt Zielsetzung Finde eine automatische Steuerung, die einen Space Shuttle ähnlichen Gleiter trotz Auftretens von unvorhergesehen Ereignissen auf dem optimalen Weg sicher zurück zur Erde bringt. Die Steuerung muss mit den an Bord zur Verfügung stehenden Mitteln in Echtzeit berechenbar sein. Was macht einen Wiedereintritt aus? Ziele: – – – Kontrollierter Abbau von hoher Bewegungs- und Lageenergie Beibehalten der Flugstabilität und Steuerbarkeit Alleinige Umwandelbarkeit der überschüssigen Energie durch Reibung, kein Antrieb Randbedingungen: – – – – Hitze außen und innen Druck auf den Shuttlerahmen Tragflächenbelastung Fluglage bei hoher Geschwindigkeit Die Probleme an eine Steuerung „Robust-Optimalität“: – – Berechenbarkeit – Ionisierung der Luft verhindert Funkkontakt zur Bodenstation Echtzeit – Ungenauigkeiten bei der Modellierung Unvorhersehbare bzw. nicht-messbare Einflüsse Die Daten werden sofort benötigt Zufall – Alle Größen sind abhängig vom Luftdruck, welcher in sehr großer Höhe unvorhersehbar schwankt und nicht messbar ist Das Differentialspiel als Lösung Problem: Finde Wiedereintrittsflugbahn trotz stark schwankender Größe des Luftdrucks p(h) Idee: Betrachte „worst case“: Wenn selbst bei einem „planmäßig bösartig“ handelnden Luftdruck eine Steuerung zum Wiedereintritt gefunden werden kann, so sollte dies bei einem zufällig handelnden Luftdruck erst recht möglich sein Lösung: Betrachte Luftdruck und Shuttle als zwei Spieler in einem Differentialspiel Teil 2: Das robuste Differentialspiel Der Kontrollprozess Dem Differentialspiel soll folgende Mechanik zugrunde liegen: d z (t ) f ( z (t ), u (t ), w(t )) dt z IR n , u IR m , w IR p mit: z: Spielzustand, State Variable u: Kontrollvariable Spieler I, Control Variable w: Unbekannt, nicht messbar, Schwankung, Modellfehler oder Kontrollvariable Spieler II Die Nebenbedingungen Folgende Bedingungen sollen zusätzlich erfüllt werden: 1) u U ( z ) abgeschlos sen z IR n 2) w W ( z ) abgeschlos sen z IR n 3) Der Prozess endet nach endlicher Zeit t f t0 Eine Steuerung u(z) heißt genau dann zulässig, wenn z IR n , w W ( z ) : u(z) erfüllt 1) und 3) Eine Steuerung w(z) heißt genau dann zulässig, wenn z IR n , u U ( z ) : w(z) erfüllt 2) und 3) Robust-Optimalität Menge aller kontrollierbaren Zustände: S c {z IR n | u ( z ) zulässige Steuerung} Performance-Index zur Leistungsmessung des Spielers: ( z ) : IR n IR Eine zulässige Steuerung u*(z) heißt robust-optimal genau dann, wenn: * z Sc löst u : min max ( z (t f )) uU ( z ) wW ( z ) Für z aus Sc sei unter Benutzung eines robust-optimalen u* die Auszahlung (Value) definiert als: V ( z ) ( z (t f )) Die Isaacs Gleichung Optimalitätskriterium: An differenzierbaren Stellen des Values ergibt sich für u* die Optimalitätsbedingung: V f ( z, u * ( V , z ), w* ( V , z )) 0 z z z z S c Dies wird bei Isaacs als Main Equation II bezeichnet Herkömmliches Differentialspiel dadurch nach Betrachten der singulären Hyperebenen lösbar durch multiple Shooting und Rückwärtsdifferentieren Robustes Differentialspiel: w: Schwankung, Unbekannt oder Modellfehler Neue Lösungsverfahren Problem: w wird nicht optimal, sondern zufällig gewählt Ansatz: Diskretisiere die Zeit Lösung: Rückkopplungssteuerung 1. 2. 3. 4. Bestimme derzeitigen Spielzustand z Löse Isaacs-Gleichung für z und benutze so gewonnenes u als Steuerung Verbleibe bei u als Steuerung für selbst gewähltes Zeitintervall Gehe zu 1. „Open-Loop“-Verfahren Bessere Verfahren Problem: – In jedem Schritt muss das RWP der Isaacs-Gleichung neu gelöst werden – Bei realistischer Mechanik nicht in Echtzeit zu bewerkstelligen Idee: – Berechne so viel wie möglich im Voraus – Interpolation der Pfadfunktion Neuronales Netz Teil 3: Das Neuronale Netz Was ist ein künstliches neuronales Netz? Abbildung eines Eingabevektors x unter Berücksichtigung eines Gewichtsvektors (w,q) auf Ausgabevektor y f NN : ( x, w ,q ) y Gerichteter, gewichteter Graph Knoten: künstliche Neuronen, Funktionen Funktionskomposition Nicht-linear Das künstliche Neuron Gewichten und Aggregieren aller Eingaben: f con : IR 2 IR Eingabewert netj (t): f inp, j : IR k IR Grad der Aktivierung aj (t): f act , j : IR3 IR Ausgabe oj (t): f out, j : IR IR Ideen für Funktionen eines Neurons Eingabefunktion: k f inp, j f con wij oi i 1 Aktivierungsfunktion: f act , j 1, 0, Ausgabefunktion f out, j id f inp, j q j sonst Approximierbarkeit, Behauptung f C[a, b]d , f const , 0 w , q , neuronales Netz f maxd x[ a ,b ] f ( x) f NN ( x, w , q ) Jede stetige, nicht konstante Funktion f ist durch ein (mehrschichtiges) neuronales Netz beliebig genau approximierbar NN : Approximierbarkeit, Beweisskizze Stetige, nicht konstante Funktionen sind beliebig genau durch Treppenfunktionen approximierbar (WT1) Sei f : [a, b]d IR m , stetig , 0 f TR TR[a, b]d mit : maxd x[ a ,b ] Dann gilt : I : i IN f ( x) f TR ( x) f TR const auf [ai , bi ]d Setze für i I : const i : f TR [ ai ,bi ]d , iI Approximierbarkeit, Beweisskizze Definiere Neuronen der ersten Schicht als: ni1 ( x) (consti , x) , i I Definiere Neuronen der zweiten Schicht als: ni2 (consti , x) const i Ind[ a ,b ]d ( x) , i I i i Mit w 1-Matrix und q 0-Vektor gilt dann: f TR ( x) f NN ( x, w ,q ) x [a, b]d Damit gilt die Behauptung Praktische Realisierung Beweis liefert nur begrenzten Bezug zur Anwendbarkeit: – – – I im Allgemeinen sehr groß Bei Steigerung der Genauigkeit müssen Schichten neu gestaltet werden Gewichte werden kaum beachtet Für Anwendung in Praxis: – – Netzarchitektur vereinfachen Netz differenzierbar gestalten Gewichtselimination Gilt für die Aktivierungsfunktion: f act , j (net j ,q j ) f act , j (net j q j ,0) So können die Schwellwerte q als Gewichte w aufgefasst werden: q o1 o2 w2j w3j w1j nj o3 f NN ( x, w ,q ) f NN ( x, w ) o1 o2 o3 1 w1j w2j w3j q nj Sigmoide Aktivierungsfunktionen Problem: Indikatorfunktion macht das Netz nichtdifferenzierbar Substituiere Indikatorfunktion durch sigmoide Funktion fsig: 1 0,8 0,6 – – fsig ist streng monoton steigend Grenzwert ist +/- 1 Üblich: tanh oder 2/p arctan -5 – -4 -3 0,4 0,2 0 -2 -1 0 -0,2 -0,4 -0,6 -0,8 -1 1 2 3 4 5 Praktische Approximation Sei I Menge mit den zu approximierenden Punktepaaren I x1 , f ( x1 ) , x2 , f ( x2 ), ... , x2 k , f ( x2 k ) Zufälliges Aufteilen von I in Trainings- und Validierungsmenge IT x1 , f ( x1 ), x2 , f ( x2 ), ... , xk , f ( xk ) IV xk 1 , f ( xk 1 ) , xk 2 , f ( xk 2 ) , ... , x2k , f ( x2k ) Approximationsfehler Für beliebige differenzierbare Metrik definiere: T (w ) V (w ) f NN ( xk , w ) f ( xk ) f NN ( xk , w ) f ( xk ) kI T kIV Lernproblem mit Gradientenabstiegsverfahren: min T (w ) w unter V (w ) möglichst klein Gradient des Fehlers Bei Verwendung der 2-Norm ergibt sich: T (w ) w w 2 f kI T NN f kI T NN ( xk , w ) f ( x k ) ( xk , w ) f ( x k ) f w NN 2 ( xk , w ) : w Idee zur Berechnung der Ableitung des neuronalen Netzes: Der Backpropagationsalgorithmus 1. 2. 3. 4. 5. Initialisierung: Wähle wij zufällig Feedforward: wähle z aus IT zufällig, berechne Ausgabewerte yi schichtweise und speichere die Ableitung sj der Neuronen Backpropagation: Traversiere das Netz rückwärts mit der Eingabe zi-yi. Berechne rückwärtigen Fehler d in Ausgabeschicht und verdeckten Schichten: d i s i ( zi yi ) d j s j d i wij i Korrigiere Netzgewichte: wij di y j , 0 Gehe zu 2. Zusammenfassung physikalische und technische Gegebenheiten verlangen die Berücksichtigung zufälliger Luftdruckschwankungen. Dem Luftdruck wird planmäßiges Handeln zu Grunde gelegt und als Gegenspieler eines Differentialspieles aufgefasst Lösung als Open-Loop ist nicht echtzeitfähig. Das Neuronale Netz zur Approximation Anlernen des Netzes mit Backpropagation