Verification and synthesis of optimal decision - ETH E

Werbung
Doctoral Thesis ETH Zürich No. 21099
Verification and synthesis of optimal
decision strategies for complex systems
A dissertation submitted to the
ETH Zürich
for the degree of
Doctor of Sciences
presented by
Sean Joey Summers
MSc in Mechanical Engineering, University of California
born 19 February 1982
citizen of USA
accepted on the recommendation of
Prof. Dr. John Lygeros, examiner
Prof. Dr. Mustafa Khammash, co-examiner
Prof. Dr. Alessandro Abate, co-examiner
2013
Abstract
Complex systems make a habit of disagreeing with the mathematical models
strategically designed to capture their behavior. A recursive process ensues
where data is used to gain insight into the disagreement. A simple model
may give way to a model with hybrid dynamics. A deterministic model may
give way to a model with stochastic dynamics. In many cases, the modeling framework that sufficiently characterises the system is both hybrid and
stochastic; these systems are referred to as stochastic hybrid systems. This
dissertation considers the stochastic hybrid system framework for modeling
complex systems and provides mathematical methods for analysing, and
synthesizing decision laws for, such systems.
We first propose a stochastic reach-avoid problem for discrete time stochastic hybrid systems. In particular, we present a dynamic programming
based solution to a probabilistic reach-avoid problem for a controlled discrete time stochastic hybrid system. We address two distinct interpretations
of the reach-avoid problem via stochastic optimal control. In the first case,
a sum-multiplicative cost function is introduced along with a corresponding
dynamic recursion that quantifies the probability of hitting a target set at
some point during a finite time horizon, while avoiding an unsafe set at all
preceding time steps. In the second case, we introduce a multiplicative cost
function and a dynamic recursion that quantifies the probability of hitting a
target set at the terminal time, while avoiding an unsafe set at all preceding
time steps. In each case, optimal reach-avoid control policies are derived as
the solution to an optimal control problem via dynamic programming.
We next introduce an extension of the reach-avoid problem where we
consider the verification of discrete time stochastic hybrid systems when
there exists uncertainty in the reachability specifications themselves. A summultiplicative cost function is introduced along with a corresponding dynamic recursion that quantifies the probability of hitting a target set at some
point during a finite time horizon, while avoiding an obstacle set during
each time step preceding the target hitting time. In contrast with the general reach-avoid formulation, which assumes that the target and obstacle sets
are constant and deterministic, we allow these sets to be both time-varying
and probabilistic. An optimal reach-avoid control policy is derived as the
solution to an optimal control problem via dynamic programming.
A framework for analyzing probabilistic safety and reachability problems
i
Abstract
for discrete time stochastic hybrid systems in scenarios where system dynamics are affected by rational competing agents follows. We consider a zerosum game formulation of the probabilistic reach-avoid problem, in which the
control objective is to maximize the probability of reaching a desired subset
of the hybrid state space, while avoiding an unsafe set, subject to the worstcase behavior of a rational adversary. Theoretical results are provided on
a dynamic programming algorithm for computing the maximal reach-avoid
probability under the worst-case adversary strategy, as well as the existence
of a maxmin control policy that achieves this probability.
Probabilistic Computation Tree Logic (PCTL) is a well-known modal
logic that has become a standard for expressing temporal properties of finitestate Markov chains in the context of automated model checking. Here we
consider PCTL for noncountable-space Markov chains, and we show that
there is a substantial affinity between certain of its operators and problems
of dynamic programming. We prove some basic properties of the solutions
to the latter.
The dissertatation concludes with a collection of computational examples
in the areas of ecology, robotics, aerospace, and finance.
ii
Zusammenfassung
Bei der mathematischen Modellierung von komplexen Systeme tritt im Normalfall Modellungenauigkeit auf. Dies motiviert die Benutzung von auf Daten basierenden, rekursiven Prozessen, welche Einsicht in diese Ungenauigkeit bieten. Ein einfaches Modell mag sich als Modell mit hybrider Dynamik
herausstellen, ein deterministisches Modell zu einem Modell mit stochastischer Dynamik. In vielen Fällen ist ein Modellierungsansatz, der zu einem
befriedigenden Resultat führt, sowohl stochastisch als auch hybrid. Derart
modellierte Systeme werden als stochastisch hybride Systeme bezeichnet.
Diese Dissertation befasst sich mit der stochastisch hybriden Modellierung
von komplexen Systemen und beschreibt mathematische Methoden zur Analyse und Synthese von Regelgesetzen für solche Systeme.
Im ersten Teil der Dissertation wird ein stochastisches Reach-Avoid (engl.
für Erreichen-Vermeiden) Problem für zeitdiskrete, stochastische, hybride
Systeme vorgestellt. Insbesondere wird eine auf dynamischer Programmierung basierende Lösung des probabilistischen Reach-Avoid Problems für
zeitdiskrete, stochastische, hybride System mit Stellgrössen vorgestellt. Zwei
unterschiedliche Interpretationen dieses Reach-Avoid Problems, beide basierend auf optimaler Regelung im stochastischen Sinn, werden vorgestellt. In
der ersten Interpretation wird eine sowohl additive als auch multiplikative
Zielfunktion, zusammen mit einer dynamischen Rekursion, eingeführt. Dabei quantifiziert die Zielfunktion die Wahrscheinlichkeit, eine Zielmenge in
finiter Zeit zu erreichen (Reach), während gleichzeitig eine unsichere Menge
gemieden wird (Avoid). In der zweiten Interpretation wird eine rein multiplikative Zielfunktion, ebenfalls zusammen mit einer dynamischen Rekursion,
vorgestellt. Dabei quantifiziert die Zielfunktion die Wahrscheinlichkeit, eine
Zielmenge im letzten Schritt eines festen Zeithorizonts zu erreichen, während
in allen vorhergehenden Schritten eine unsichere Menge gemieden wird. Für
beide Interpretationen werden optimale Reach-Avoid Regelgesetze hergeleitet, welche auf der mittels dynamischer Programmierung gefundenen Lösung
der zugehörigen optimalen Regelungsprobleme basieren.
Im nächsten Teil der Dissertation wird eine Erweiterung des Reach-Avoid
Problems vorgestellt, in welcher die Verifikation von zeitdiskreten, stochastischen, hybriden Systemen in der Gegenwart von Unsicherheit in den Erreichbarkeits-Spezifikationen im Vordergrund steht. Eine sowohl additive als auch
multiplikative Zielfunktion, zusammen mit einer dynamischen Rekursion,
iii
Zusammenfassung
wird vorgestellt. Dabei quantifiziert die Zielfunktion die Wahrscheinlichkeit,
eine gegebene Zielmenge in finiter Zeit zu erreichen, während gleichzeitig eine ein Hindernis repräsentierende Menge gemieden wird. Im Gegensatz zur
allgemeinen Reach-Avoid Formulierung, welche konstante und deterministische Ziel- und Hindernis-Mengen annimmt, sind in diesem Fall beide Mengen sowohl zeitvariabel als auch probabilistisch. Auch in diesem Fall wird ein
optimales Reach-Avoid Regelgesetz hergeleitet, welches auf der mittels dynamischer Programmierung gefundenen Lösung des zugehörigen optimalen
Regelungsproblems basiert.
Im darauf folgenden Teil der Dissertation wird ein Ansatz zur Analyse probabilistischer Sicherheits- und Erreichbarkeits-Problemen für zeitdiskrete,
stochastische, hybride Systeme vorgestellt. Dabei wird angenommen, dass
die Dynamik der betrachteten Systeme von rational handelnden Gegenspielern beeinflusst wird. Das Reach-Avoid Problem wird als Nullsummen-Spiel
formuliert, wobei die zu maximierende Zielfunktion die Wahrscheinlichkeit
quantifiziert, eine erwünschte Untermenge des hybriden Zustandsraums zu
erreichen, während gleichzeitig eine unsichere Menge gemieden wird und alle Gegenspieler auf die für das System ungünstigste Weise handeln. Sowohl
für einen auf dynamischer Programmierung basierenden Ansatz zur Berechnung der entsprechenden Reach-Avoid Wahrscheinlichkeiten als auch für die
Existenz eines entsprechenden MaxMin-Regelgesetzes werden theoretische
Resultate präsentiert.
Probabilistic Computation Tree Logic (PCTL) ist eine anerkannte modale
Logik, welche, im Kontext der automatisierten Modellprüfung, Standard zur
Beschreibung von temporalen Eigenschaften von Markov Ketten mit endlicher Zustandsmenge ist. In dieser Dissertation wird PCTL für Markov Ketten mit unendlicher Zustandsmenge berücksichtigt und es wird gezeigt, dass
eine substantielle Affinität zwischen bestimmten PCTL-Operatoren und Dynamic Programming Problemen besteht. Dabei werden einige grundlegende
Eigenschaften zur Lösung der letzteren beschrieben.
Die Dissertation wird durch eine Vielzahl von Beispielen abgerundet, welche solch vielfältige Gebiete wie Ökologie, Robotik, Luftfahrt und Finanzmärkte abdecken.
iv
Herunterladen