Doctoral Thesis ETH Zürich No. 21099 Verification and synthesis of optimal decision strategies for complex systems A dissertation submitted to the ETH Zürich for the degree of Doctor of Sciences presented by Sean Joey Summers MSc in Mechanical Engineering, University of California born 19 February 1982 citizen of USA accepted on the recommendation of Prof. Dr. John Lygeros, examiner Prof. Dr. Mustafa Khammash, co-examiner Prof. Dr. Alessandro Abate, co-examiner 2013 Abstract Complex systems make a habit of disagreeing with the mathematical models strategically designed to capture their behavior. A recursive process ensues where data is used to gain insight into the disagreement. A simple model may give way to a model with hybrid dynamics. A deterministic model may give way to a model with stochastic dynamics. In many cases, the modeling framework that sufficiently characterises the system is both hybrid and stochastic; these systems are referred to as stochastic hybrid systems. This dissertation considers the stochastic hybrid system framework for modeling complex systems and provides mathematical methods for analysing, and synthesizing decision laws for, such systems. We first propose a stochastic reach-avoid problem for discrete time stochastic hybrid systems. In particular, we present a dynamic programming based solution to a probabilistic reach-avoid problem for a controlled discrete time stochastic hybrid system. We address two distinct interpretations of the reach-avoid problem via stochastic optimal control. In the first case, a sum-multiplicative cost function is introduced along with a corresponding dynamic recursion that quantifies the probability of hitting a target set at some point during a finite time horizon, while avoiding an unsafe set at all preceding time steps. In the second case, we introduce a multiplicative cost function and a dynamic recursion that quantifies the probability of hitting a target set at the terminal time, while avoiding an unsafe set at all preceding time steps. In each case, optimal reach-avoid control policies are derived as the solution to an optimal control problem via dynamic programming. We next introduce an extension of the reach-avoid problem where we consider the verification of discrete time stochastic hybrid systems when there exists uncertainty in the reachability specifications themselves. A summultiplicative cost function is introduced along with a corresponding dynamic recursion that quantifies the probability of hitting a target set at some point during a finite time horizon, while avoiding an obstacle set during each time step preceding the target hitting time. In contrast with the general reach-avoid formulation, which assumes that the target and obstacle sets are constant and deterministic, we allow these sets to be both time-varying and probabilistic. An optimal reach-avoid control policy is derived as the solution to an optimal control problem via dynamic programming. A framework for analyzing probabilistic safety and reachability problems i Abstract for discrete time stochastic hybrid systems in scenarios where system dynamics are affected by rational competing agents follows. We consider a zerosum game formulation of the probabilistic reach-avoid problem, in which the control objective is to maximize the probability of reaching a desired subset of the hybrid state space, while avoiding an unsafe set, subject to the worstcase behavior of a rational adversary. Theoretical results are provided on a dynamic programming algorithm for computing the maximal reach-avoid probability under the worst-case adversary strategy, as well as the existence of a maxmin control policy that achieves this probability. Probabilistic Computation Tree Logic (PCTL) is a well-known modal logic that has become a standard for expressing temporal properties of finitestate Markov chains in the context of automated model checking. Here we consider PCTL for noncountable-space Markov chains, and we show that there is a substantial affinity between certain of its operators and problems of dynamic programming. We prove some basic properties of the solutions to the latter. The dissertatation concludes with a collection of computational examples in the areas of ecology, robotics, aerospace, and finance. ii Zusammenfassung Bei der mathematischen Modellierung von komplexen Systeme tritt im Normalfall Modellungenauigkeit auf. Dies motiviert die Benutzung von auf Daten basierenden, rekursiven Prozessen, welche Einsicht in diese Ungenauigkeit bieten. Ein einfaches Modell mag sich als Modell mit hybrider Dynamik herausstellen, ein deterministisches Modell zu einem Modell mit stochastischer Dynamik. In vielen Fällen ist ein Modellierungsansatz, der zu einem befriedigenden Resultat führt, sowohl stochastisch als auch hybrid. Derart modellierte Systeme werden als stochastisch hybride Systeme bezeichnet. Diese Dissertation befasst sich mit der stochastisch hybriden Modellierung von komplexen Systemen und beschreibt mathematische Methoden zur Analyse und Synthese von Regelgesetzen für solche Systeme. Im ersten Teil der Dissertation wird ein stochastisches Reach-Avoid (engl. für Erreichen-Vermeiden) Problem für zeitdiskrete, stochastische, hybride Systeme vorgestellt. Insbesondere wird eine auf dynamischer Programmierung basierende Lösung des probabilistischen Reach-Avoid Problems für zeitdiskrete, stochastische, hybride System mit Stellgrössen vorgestellt. Zwei unterschiedliche Interpretationen dieses Reach-Avoid Problems, beide basierend auf optimaler Regelung im stochastischen Sinn, werden vorgestellt. In der ersten Interpretation wird eine sowohl additive als auch multiplikative Zielfunktion, zusammen mit einer dynamischen Rekursion, eingeführt. Dabei quantifiziert die Zielfunktion die Wahrscheinlichkeit, eine Zielmenge in finiter Zeit zu erreichen (Reach), während gleichzeitig eine unsichere Menge gemieden wird (Avoid). In der zweiten Interpretation wird eine rein multiplikative Zielfunktion, ebenfalls zusammen mit einer dynamischen Rekursion, vorgestellt. Dabei quantifiziert die Zielfunktion die Wahrscheinlichkeit, eine Zielmenge im letzten Schritt eines festen Zeithorizonts zu erreichen, während in allen vorhergehenden Schritten eine unsichere Menge gemieden wird. Für beide Interpretationen werden optimale Reach-Avoid Regelgesetze hergeleitet, welche auf der mittels dynamischer Programmierung gefundenen Lösung der zugehörigen optimalen Regelungsprobleme basieren. Im nächsten Teil der Dissertation wird eine Erweiterung des Reach-Avoid Problems vorgestellt, in welcher die Verifikation von zeitdiskreten, stochastischen, hybriden Systemen in der Gegenwart von Unsicherheit in den Erreichbarkeits-Spezifikationen im Vordergrund steht. Eine sowohl additive als auch multiplikative Zielfunktion, zusammen mit einer dynamischen Rekursion, iii Zusammenfassung wird vorgestellt. Dabei quantifiziert die Zielfunktion die Wahrscheinlichkeit, eine gegebene Zielmenge in finiter Zeit zu erreichen, während gleichzeitig eine ein Hindernis repräsentierende Menge gemieden wird. Im Gegensatz zur allgemeinen Reach-Avoid Formulierung, welche konstante und deterministische Ziel- und Hindernis-Mengen annimmt, sind in diesem Fall beide Mengen sowohl zeitvariabel als auch probabilistisch. Auch in diesem Fall wird ein optimales Reach-Avoid Regelgesetz hergeleitet, welches auf der mittels dynamischer Programmierung gefundenen Lösung des zugehörigen optimalen Regelungsproblems basiert. Im darauf folgenden Teil der Dissertation wird ein Ansatz zur Analyse probabilistischer Sicherheits- und Erreichbarkeits-Problemen für zeitdiskrete, stochastische, hybride Systeme vorgestellt. Dabei wird angenommen, dass die Dynamik der betrachteten Systeme von rational handelnden Gegenspielern beeinflusst wird. Das Reach-Avoid Problem wird als Nullsummen-Spiel formuliert, wobei die zu maximierende Zielfunktion die Wahrscheinlichkeit quantifiziert, eine erwünschte Untermenge des hybriden Zustandsraums zu erreichen, während gleichzeitig eine unsichere Menge gemieden wird und alle Gegenspieler auf die für das System ungünstigste Weise handeln. Sowohl für einen auf dynamischer Programmierung basierenden Ansatz zur Berechnung der entsprechenden Reach-Avoid Wahrscheinlichkeiten als auch für die Existenz eines entsprechenden MaxMin-Regelgesetzes werden theoretische Resultate präsentiert. Probabilistic Computation Tree Logic (PCTL) ist eine anerkannte modale Logik, welche, im Kontext der automatisierten Modellprüfung, Standard zur Beschreibung von temporalen Eigenschaften von Markov Ketten mit endlicher Zustandsmenge ist. In dieser Dissertation wird PCTL für Markov Ketten mit unendlicher Zustandsmenge berücksichtigt und es wird gezeigt, dass eine substantielle Affinität zwischen bestimmten PCTL-Operatoren und Dynamic Programming Problemen besteht. Dabei werden einige grundlegende Eigenschaften zur Lösung der letzteren beschrieben. Die Dissertation wird durch eine Vielzahl von Beispielen abgerundet, welche solch vielfältige Gebiete wie Ökologie, Robotik, Luftfahrt und Finanzmärkte abdecken. iv