diplomarbeit - Publikationsdatenbank der TU Wien

Werbung
DIPLOMARBEIT
Agentenbasierte Modellbildung und Simulation auf Basis der
Fokker-Planck-Gleichung
Ausgeführt am Institut für
Analysis & Scientific Computing
der Technischen Universität Wien
unter der Anleitung von
Ao.Univ.Prof. Dipl.-Ing. Dr.techn. Felix Breitenecker
durch
Martin Bicher BSc
Untere Weißgerberstraße 6/19-21
A-1030 Wien
Wien, am 21. Mai 2013
i
Erklärung zur Verfassung der Arbeit
Martin Bicher, Untere Weißgerberstraße 6/19-21 1030 Wien, Österreich
“Hiermit erkläre ich, dass ich diese Arbeit selbständig verfasst habe, dass ich die verwendeten Quellen und Hilfsmittel vollständig angegeben habe und dass ich die Stellen der Arbeit einschließlich Tabellen, Karten und Abbildungen -, die anderen Werken oder dem Internet im
Wortlaut oder dem Sinn nach entnommen sind, auf jeden Fall unter Angabe der Quelle als Entlehnung kenntlich gemacht habe.”
Ort, Datum
Unterschrift
ii
Danke
Im Zuge des Abschlusses meiner Diplomarbeit verbleibt, all jenen zu danken, die mich im Umfeld eben dieser unterstützt haben.
Herzlichen dank an. . .
. . . Prof. Felix Breitenecker und Niki Popper für die Möglichkeit mein Master-Studium
in der Arbeitsgemeinschaft Simulation abschließen zu können und oftmaliges schmieren
von bürokratischen Zahnrädern.
. . . meine Bürokollegen für ein durchwegs positives Arbeitsklima und lustige Büroabende
voller Krahu, Ironie und Galgenhumor.
. . . alle Freiwilligen für die aufopferungsvolle Unterstützung im Korrekturprozess der Arbeit.
. . . meine Freunde für das Zurückholen in die Realität nach langen Arbeitstagen.
. . . meine Pfadfindergruppe für das Übermitteln von viel innerer Kraft und Lebensfreude.
. . . meinen Tischtennis und Fußballverein für den für mich lebensnotwendigen sportlichen
Ausgleich.
Allen voran gilt mein Dank natürlich einerseits meiner Freundin, die es nicht nur trotz, sondern
oft auch genau wegen meiner Verrücktheiten mit mir aushält, und andererseits meinem Opa und
meinen Eltern, die mir während der gesamten Zeit des Studiums ein felsenfester Rückhalt waren
und mich in all meinen Entscheidungen stets unterstützten.
iii
Abstract Deutsch
Motivation
Bedingt durch immer größer werdende technische Ressourcen und exponentiell wachsende Rechnerleistungen ist man heutzutage in der Lage, immer komplexere, genauere und Speicher aufwändigere Simulationen zu berechnen. Die Mikrosimulation ist durch ihre Flexibilität und geringe Abstraktionstiefe zu einem festen Standbein der Modellbildung geworden und stellt in vielen
Anwendungsbereichen eine echte Alternative zu altbewährten Modellierungsansätzen wie Differentialgleichungen dar. Der Preis dafür ist, dass man mit einem Modell arbeitet, das eine auf
analytischer Ebene fast nicht in den Griff zu bekommende Komplexität besitzt.
Inhalt
Anfang der 80er Jahre des vergangenen Jahrhunderts veröffentlichte der niederländische theoretische Physiker N. G. van Kampen eine Arbeit, wie die stochastischen Größen Erwartungswert
und Dichte von Markov-Prozess basierte Mikrosimulationen durch Differentialgleichungen approximiert werden können. Obwohl diese Idee unter Teilchenphysikern unter dem Namen „Diffusionsapproximation“ durchaus bekannt ist, findet die Theorie, bis auf wenigen Ausnahmen
z.B. im Bereich der Wirtschaftswissenschaften, in anderen Bereichen der Modellbildung kaum
Anklang, da Van Kampen das Prinzip seinerzeit für zeitkontinuierliche stochastische agentenbasierte Modelle entwickelte, die nur selten Anwendung finden.
In dieser Arbeit ist erklärt, wie die Diffusionsapproximation unter Inkaufnahme und Abschätzung von Diskretisierungsfehlern auch auf zeitdiskrete stochastische agentenbasierte Modelle
erweiterbar ist und wie die Parameter des Agentenmodells und die Parameter der Differentialgleichung ineinander umzurechnen sind.
Grundidee dazu liefert die für Markov-Prozesse gültige Master Gleichung, eine gewöhnliche
Differentialgleichung, die den zeitlichen Verlauf der Wahrscheinlichkeitsfunktion eines MarkovProzesses festlegt.
X
dP
(x(t) = i) =
P (x(t) = j)ωj,i − P (x(t) = i)ωi,j
dt
j6=i
Wendet man diese Gleichung auf einen speziellen Zustandsvektor einer aus Markov-Prozessen
bestehenden Mikrosimulation mit N Agenten, der aus der Summe von Agenten im selben Zustand entsteht und für sich selbst wieder ein Markov-Prozess ist, an und entwickelt die Gleichung
auf spezielle Art in eine Taylorreihe, auch als Kramers-Moyal-Entwicklung bekannt, so erhält
1
man nach einen Substitution, bis auf einen Fehler der Ordnung N − 2 , eine gewöhnliche Differentialgleichung für den Erwartungswert. Die Wahrscheinlichkeitsdichte lässt sich dann über
Rücksubstitution als Lösung einer Fokker Planck Gleichung ermitteln.
Bemerkenswert ist, dass dafür lediglich der summierte Prozess ein klassischer Markov-Prozess
sein muss, womit die Übergangsraten der Agenten sogar vom gesamten Zustandsvektor abhängen dürfen und nicht nur von ihrem eigenen. Die Agenten, die durch diese „erweiterten“ Markovprozesse beschrieben werden, dürfen also interagieren. Über ein Diskretisierungsargument
iv
wird daraufhin gezeigt, dass ein zeitdiskret gerechnetes Agentenmodell mit richtig gewählten
Übergangswahrscheinlichkeiten das zeitkontinuierliche Modell mit einem Fehler, der von der
Größe der Übergangsraten abhängt, annähert, womit die Differentialgleichung auch für dieses
Modell als Approximation verwendet werden kann.
Conclusio
Mit der Berechnung von qualitativen und quantitativen Fehlerabschätzungen wird mit dieser
Theorie eine Brücke zwischen zwei grundverschiedenen Modellierungsansätzen gezogen, die in
vielen Belangen zur Optimierung von all jenen Modellen beitragen könnte, die bislang in ihrer
Modellierung an einen der beiden Typen gebunden waren.
v
Abstract english
Motivation
Due to exponentially increasing performance of computers, nowadays more and more complex
models can be simulated in shorter time with less efforts. Thus especially individual-based models, so called microscopic models, requiring lots of memory and fast computation, are getting
more and more popular. They pose a very well understandable modelling-concept especially to
non-experts and are additionally very flexible regarding change of parameters or model structures. Unfortunately modelling with these, often called agent-based models, is always subjected
to a risk, because the behaviour of the models is hardly predictable and insufficiently studied.
Therefore it is often necessary to use reliable, less flexible, methods like differential equations
instead, which have already been investigated for hundreds of years.
Content
At the end of the 20th century the Dutch physicist N.G. van Kampen published the basis of a theory, how the deterministic moments of stochastic agent-based models, in this case continuoustime Markov-process based micro-models, can asymptotically be described by ordinary and
partial differential equations. This method, sometimes known within physicists as “diffusion
approximation“, was formerly mainly used in quantum dynamics before its usage was extended
e.g. to economical models by M. Aoki in 2002.
Given N identical dynamic agents each described by a Markov-process with a finite number
of states, also the system-vector consisting of the numbers of agents within the same state is
described by a Markov-process. Thus the so called Master-equation,
X
dP
(x(t) = i) =
P (x(t) = j)ωj,i − P (x(t) = i)ωi,j ,
dt
j6=i
holds. Taylor-approximation, in this case called Kramers-Moyal-decomposition, and certain
substitutions on the one hand lead to an ordinary differential equation, solved by an approximation of the mean value, and on the other hand to a special partial differential equation (FokkerPlanck-equation), solved by an approximation of the density function. The resulting curves
1
describe, neglecting an error O(N − 2 ), the temporal behaviour of mean value and variance.
It is important to mention, that the theory does not depend on, whether the agents are independently described by Markov-processes or are allowed to interact in a memoryless way!
Especially the last idea motivates the thought, that the theory can be extended from timecontinuous interacting Markov-processes to time-discrete interacting stochastic agent-based models, which are much more commonly used. It shows that this assumption holds considering
certain errors depending from the size of the transition rates.
Conclusion
Summarizing, formulas were created, how the deterministic system-variables of stochastic agentbased models can asymptotically be described by a system of differential equations. Thus a cer-
vi
tain bijection between a small subspace of agent-based models and a subspace of the set of all
differential equations is found which could be used to extend the fields of application for both
modelling-types.
Inhaltsverzeichnis
Motivation .
Inhalt . . .
Conclusio .
Motivation .
Content . .
Conclusion
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Inhaltsverzeichnis
1
2
vii
Einleitung
1
1.1
1.2
2
2
Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Grundlagen
2.1
2.2
2.3
3
iii
iii
iv
v
v
v
Markov-Modell . . . . . . . . . . . . . . . . . .
2.1.1 Unterschiedliche Typen . . . . . . . . .
2.1.2 Homogenität . . . . . . . . . . . . . . .
2.1.3 Gleichung von Chapman-Kolmogorov . .
2.1.4 Regularität . . . . . . . . . . . . . . . .
2.1.5 Pfade und Verweildauer . . . . . . . . .
Modellbildung mit Differentialgleichungen . . . .
2.2.1 Gewöhnliche Differentialgleichungen . .
2.2.2 Partielle Differentiagleichungen . . . . .
2.2.3 Zusammenführen der Gedanken . . . .
Micro Modelling . . . . . . . . . . . . . . . . . .
2.3.1 Mikrosimulation mit CT Markov-Modellen
2.3.2 Agentenbasierte Modellierung . . . . . .
2.3.3 Zelluläre Automaten . . . . . . . . . . .
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Master Gleichung
3.1
3.2
Existenz von Übergangsraten . . . . . . . . . . . .
3.1.1 Stetigkeit von P . . . . . . . . . . . . . . . .
3.1.2 Rechtsseitige Differenzierbarkeit von P bei 0
Mastergleichung . . . . . . . . . . . . . . . . . . .
8
9
10
10
12
12
13
14
15
16
16
19
20
21
23
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
24
25
30
vii
viii
INHALTSVERZEICHNIS
3.3
.
.
.
.
.
.
.
.
.
.
.
32
32
34
35
35
36
38
39
39
42
45
Analyse
49
4.1
4.2
4.3
Analyse der Erwartungswertkurve . . . . . . . . . . . . . . . . . . . . . . .
Analyse der Dichte und der Varianz . . . . . . . . . . . . . . . . . . . . . .
Stochastische Aussagen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
52
54
3.4
3.5
4
5
6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Mehrdimensionale Probleme
59
59
60
Mehrdimensionale Mastergleichung . . . . . . . . . . . . . . . . . . . . . .
Mehrdimensionale Fokker-Planck-Gleichung . . . . . . . . . . . . . . . . .
Anwendung auf zeitdiskrete agentenbasierte Modelle
Motivation . . . . . . . . . . . . . . . . . . . . .
Voraussetzungen an das DT Agentenmodell . .
Tempora mutantur . . . . . . . . . . . . . . . .
Verweildauer . . . . . . . . . . . . . . . . . . .
Umrechnung auf den summierten Prozess . . .
Zusammenfassung und letzte Voraussetzungen
63
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
64
66
68
71
73
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
75
77
77
78
78
80
81
81
86
Fehleranalyse
89
8.1
8.2
Gegenüberstellung der Problemstellungen . . . . . . . . . . . . . . . . . .
Wahrscheinlichkeitsmodell für das DT Agentenmodell . . . . . . . . . . . .
8.2.1 Verteilung für einen Zeitschritt . . . . . . . . . . . . . . . . . . . . .
90
91
91
1. Bsp: Ehrenfestsches Urnenproblem
7.1
7.2
7.3
7.4
8
.
.
.
.
.
.
.
.
.
.
.
5.1
5.2
6.1
6.2
6.3
6.4
6.5
6.6
7
Kramers Moyal Entwicklung . . . . . . . . . . . . .
3.3.1 Voraussetzungen . . . . . . . . . . . . . . .
3.3.2 Taylorentwicklung . . . . . . . . . . . . . . .
Fokker-Planck-Gleichung . . . . . . . . . . . . . . .
3.4.1 Polynomdarstellung für die Übergangsraten
3.4.2 Substitution der Variable x . . . . . . . . . .
3.4.3 Resultierende Gleichungen . . . . . . . . .
Interpolation . . . . . . . . . . . . . . . . . . . . . .
3.5.1 Histogramm . . . . . . . . . . . . . . . . . .
3.5.2 Differenzierbare Approximation . . . . . . .
3.5.3 Zusammenfassung . . . . . . . . . . . . . .
Problemstellung . . . . . . . . . . . . . . .
Resultierende Differentialgleichungen . . .
7.2.1 Überprüfen der Bedingungen . . .
7.2.2 Erwartungswertkurve . . . . . . . .
7.2.3 Equilibrium des Erwartungswertes
7.2.4 Varianz . . . . . . . . . . . . . . .
7.2.5 Dichte . . . . . . . . . . . . . . . .
Resultate zum konkreten Beispiel . . . . .
Rück und Ausblick . . . . . . . . . . . . .
75
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INHALTSVERZEICHNIS
8.3
8.4
8.5
9
8.2.2 Erwartungswert nach einem Zeitschritt . . . .
8.2.3 Varianz nach einem Zeitschritt . . . . . . . . .
8.2.4 Zeitliche Entwicklung des Erwartungswertes .
8.2.5 Résumé für das DT Agentenmodell . . . . . .
Vergleich der Resultate mit dem DG Modell . . . . . .
8.3.1 Erwartungswertkurve an der Stelle t = 1 . . .
8.3.2 Abschätzungen für den Erwartungswertfehler
Varianzfehler . . . . . . . . . . . . . . . . . . . . . .
Interpretation . . . . . . . . . . . . . . . . . . . . . .
ix
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
92
92
94
95
96
96
98
101
101
Problemstellung . . . . . . . . . . . . . . . . . . . . . . . .
9.1.1 Reale Problemstellung . . . . . . . . . . . . . . . .
9.1.2 Problemstellung des Differentialgleichungssystems
9.1.3 Problemstellung des zellulären Automaten . . . . .
Umsetzung der Theorie . . . . . . . . . . . . . . . . . . . .
9.2.1 Übergangswahrscheinlichkeiten . . . . . . . . . . .
9.2.2 Die entstehenden Differentialgleichungen . . . . . .
Resultate zum konkreten Beispiel . . . . . . . . . . . . . .
Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
104
104
104
105
106
107
109
110
112
2. Bsp: SIR Modell
9.1
9.2
9.3
9.4
103
10 3. Bsp: Linearisiertes, ungedämpftes Pendel
10.1 Motivation und Problemstellung . . . . . . . . . . . . . . . . . . . . . . . .
10.2 Erarbeiten des Agentenmodells . . . . . . . . . . . . . . . . . . . . . . . .
10.3 Resultate zum konkreten Beispiel . . . . . . . . . . . . . . . . . . . . . . .
11 Conclusio
11.1 Rückblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.2 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
115
115
116
118
123
123
124
A Appendix
127
Abbildungsverzeichnis
129
Literaturverzeichnis
131
KAPITEL
Einleitung
Befindet man sich gemeinsam mit Experten aus aller Welt auf einer Konferenz für Modellbildung und Simulation, so fühlt man sich, ob der großen Dichte an Expertise und der enormen
Varietät der wissenschaftlichen Kompetenzen, als junger Mathematiker erst einmal leicht fehlpositioniert. Es wird mit Begriffen um sich geworfen, die man vielleicht davor einmal, möglicherweise in einer besuchten Vorlesung, gehört hatte und die allesamt dazu verwendet werden,
die Idee der eigenen Modelle akkurat, schnell und überblicksartig in einer technischen Sprache
zu beschreiben, sodass möglichst jede Fachrichtung damit umgehen kann.
Als gelernter Mathematiker lechzt man nach präzisen Definitionen für dieses Fachvokabular, im
Optimalfall sogar in Gestalt von Formeln und Gleichungen, da man es einerseits aus der Mathematik gewöhnt ist, dass alles zumindest sauber definierbar ist, und man andererseits gelernt hat,
dass Begriffe auch nur dann verwendet werden dürfen, wenn entweder bereits eine einheitliche
Definition existiert, oder man ebendiese selbst gemacht hat. Leider wird man diesbezüglich in
der Welt der Modellbildung und Simulation oftmals enttäuscht. Der Umfang des Fachgebiets
hat sich vor allem innerhalb der letzten Jahrzehnte, insbesondere beeinflusst durch die rasante
Weiterentwicklung der Technologie, insbesondere der exponentiell wachsenden Rechenleistungen, in so viele Fachrichtungen und auf so vielfältige Arten vergrößert, dass es fast unmöglich
geworden ist, schnell genug präzise Definitionen zu erstellen, die in allen Fachrichtungen (Informatik, Elektrotechnik, Mechanik, Mathematik,. . . ) einheitlich akzeptiert und verwendet werden.
Aus diesem Grund entstehen zwar „schwammige“ Begriffsdefinitionen, die von verschiedenen
Fachgebieten vielleicht sogar unterschiedlich interpretiert werden, aber sie erlauben immerhin
den interdisziplinären Diskurs.
Diesem Diskurs ist es heutzutage zu verdanken, dass Modelle immer genauer und komplexer
und damit die Anwendungsbereiche für Modelle immer vielfältiger werden und sich längst nicht
mehr ausschließlich auf Physik, Mechanik oder Elektrotechnik beschränken. U.a. durch Hybridisierung von unterschiedlichen Modelltypen entstehen regelmäßig neue theoretische Modellierungskonzepte, die ob ihrer Effizienz und Genauigkeit schlussendlich altbewährte Algorithmen
ersetzen, womit man jedoch in Kauf nimmt, dass der neue Algorithmus auf analytischer Ebene
1
1
2
KAPITEL 1. EINLEITUNG
wesentlich schlechter erforscht ist.
1.1
Motivation
Mittlerweile ist es 11 Jahre her, seit Steven Wolfram mit seinem Buch „A New Kind of Science“
die Welt der Modellbildung maßgeblich verändert hat, und das Prinzip des zellulären Automaten bzw. das Prinzip der agentenbasierten Modellierung erfreut sich wachsender Beliebtheit. War
die Tür zur Modellbildung bis zur Erfindung des Computers ausschließlich demjenigen geöffnet,
der ein Grundverständnis von der Differentialrechnung hatte, ist mithilfe von agentenbasierter
Modellierung das Konzept eines Modells sogar einem fachlichen Laien verständlich zu machen,
da er deutlich weniger abstrahieren muss, um sein reales Problem im Modell wiederzuerkennen.
Auf der theoretischen Ebene büßt man hingegen mit dieser Modellierungsmethode jahrhundertelange Forschung im Bereich der Differentialrechnung ein und sieht sich teilweise sogar mit
Problemen im Bereich der Chaostheorie konfrontiert. In diesem Fall gilt scheinbar:
Je leichter das Modell für Laien verständlich ist (d.h. je geringer das Abstraktionsniveau), umso
schwerer ist es analytisch in den Griff zu bekommen.
Will man nun Grundlagenforschung im Bereich der Modellbildung und Simulation betreiben,
muss man entweder versuchen, die komplexe Theorie mit neuen analytischen Methoden in den
Griff zu bekommen, oder versuchen, diese zu umgehen, indem man Verbindungen zu bereits gut
analysierten Modelltypen findet. In vielen Arealen der Modellbildung ist das bereits teilweise
gelungen. Sieht man die Welt der verschiedenen Simulationstypen als riesiges Venn-Diagramm
bezüglich ihrer analytischen Zusammenhänge erstellt, so findet man darin zwar heute immer
noch eine Vielzahl an disjunkten Mengen, d.h. nicht oder kaum theoretisch verbundene Modelltypen, doch die Anzahl und Größe der Überscheidungsbereiche steigt stetig an.
In dieser Arbeit wird versucht, einen Beitrag dazu zu leisten, zumindest einen dieser
Überscheidungsbereiche ein wenig zu vergrößern.
Konkret handelt es sich dabei um die Areale der Modelltypen: Differentialgleichungsmodell,
Markov-Modell, Mikrosimulation und agentenbasiertes Modell (zellulärer Automat).
1.2
Überblick
Aufbauend auf zwei Bücher des niederländischen Physikers N. G. van Kampen ( [Kam82]
und [Kam07]), veröffentlichte Masanao Aoki im Jahr 2002 das Buch „Modeling Aggregate
Behaviour and Fluctuations in Economics“ ( [Aok02]), in welchem er am Beispiel von Wirtschaftsmodellen ein Prinzip vorstellte, wie die stochastischen Größen einer zeitstetigen MarkovModell-basierten Mirkosimulation, d.h. einer stochastischen, zeitkontinuierlichen Simulation
mit einer großen Anzahl an individuellen Partikeln, mit einem System von gewöhnlichen bzw.
partiellen Differentialgleichungen auf analytischer Ebene zusammenhängen. Im Konkreten wird
1.2. ÜBERBLICK
3
damit gezeigt, dass die stochastischen Größen der Mikrosimulation bis auf einen asymptotischen Fehler den Lösungskurven gewisser Differentialgleichungen entsprechen. Obwohl dieses
Prinzip in der Fachwelt der Quantenphysik (Teilchenphysik) durchaus unter dem Begriff Diffusionsapproximation (diffusion approximation) bekannt ist, fand es bisher kaum Anwendung
im Bereich der Grundlagenforschung im Bereich der Modellbildung und Simulation, da vor allem zeitstetig gerechnete stochastische Mikrosimulationen eher selten verwendet werden (Vor
allem von diesem Gesichtspunkt aus wählte Aoki also einen sehr innovativen Zugang). Zu diesem Zweck wurde Van Kampens Prinzip im Verlauf dieser Arbeit gleich an mehreren Punkten
erweitert:
Unter Inkaufnahme von Diskretisierungsfehlern lässt es sich auch auf zeitdiskrete d.h.
zeitlich getaktete, Markov-Prozess basierte Mikrosimulationen anwenden.
Mit dieser Idee lässt es sich auf eine Vielzahl von stochastischen agentenbasierten Modellen und zelluläre Automaten anwenden.
Die Berechnungen wurden auch mehrdimensional durchgeführt.
Für die Erweiterung durch die Diskretisierung wurden neue qualitative, d.h. asymptotische, Fehlerabschätzungen getroffen und damit Konvergenzeigenschaften festgestellt.
Für die Erweiterung durch die Diskretisierung wurden teilweise auch quantitative Fehlerabschätzungen entwickelt.
Schlussendlich wurde die Theorie an einigen neuen Beispielen getestet und verifiziert.
KAPITEL
Grundlagen
In diesem Kapitel werden die Grundlagen sowie Definitionen der in dieser Arbeit verglichenen
Modellierungsmethoden zusammengefasst. Die in den Folgekapiteln verwendeten analytischen
Betrachtungen bauen auf diese auf, denn das im letzten Kapitel besprochene Ziel dieser Arbeit
ist gemäß der Übersichtstafel (Abbildung 2.1) nur über gewisse Umwege zu erreichen. Im Folgenden werden die Grundlagen zu 5 Modellierungsmethoden vorgestellt, die unterschiedlicher
kaum sein können, auf Grund dieser Diversität nicht einmal mathematisch zur Gänze auf einen
gleichen Nenner gebracht werden können, ja teilweise nicht einmal mehr auf mathematischer
Basis einheitlich definiert werden.
Da sich der Großteil der Theorie des in dieser Arbeit vorgestellten Prinzips zum Vergleich agen-
CT MarkovProzess basiertes
Agentenmodell
DT
Agentenmodell /
stoch. Zellulärer
Automat
Ziel
Differential
gleichungs
modell
CT MarkovProzess
Abbildung 2.1: Übersichtsabbildung - Umweg zum Ziel
5
2
6
KAPITEL 2. GRUNDLAGEN
tenbasierter und differentialgleichungsbasierter Modelle auf die Markov-Theorie stützt, sind deren Grundlagen von besonderer Wichtigkeit. Diese Theorie bildet genauso wie das Modellieren
mit Differentialgleichungen aber lediglich ein mathematisch zwar sauber definierbares Konzept,
liefert aber keinerlei Vorschriften, wie die Theorie in die Praxis umzusetzen ist. Für Differentialgleichungsmodelle lässt sich eine Lösung oft als geschlossene Formel anschreiben, die im
Optimalfall sogar mithilfe von Papier und Bleistift lösbar ist. Die Numerik und die sehr alte und
geschlossene Theorie über Differentialgleichungen liefern dann Aussagen über Stabilität und
Lösbarkeit (Eindeutigkeit). Man hat somit ein sogenanntes deterministisches Modell - d.h. bei
mehrmaligem Experimentieren unter den selben Bedingungen erhält man das selbe Ergebnis. Es
ist also aus der Anfangskonfiguration reproduzierbar. Zu dieser gehören neben dem Versuchsaufbau auch alle während des Experiments einwirkende Einflüsse und Bedingungen.
Definition 2.0.1 (Deterministisch).
Ein Modell wird deterministisch genannt, genau dann, wenn mehrmaliges Durchführen des Experiments unter den selben Bedingungen, das selbe Resultat hervorbringt.
Im Unterschied zum Differentialgleichungsmodell bezeichnet man z.B. ein Markov-Modell
mit dem Begriff stochastisch.
Definition 2.0.2 (Stochastisch).
Ein Modell, bei dem der Ausgang des Experiments nicht allein durch die Wahl der Anfangsparameter feststeht, bezeichnet man als stochastisch.
Die so gewählten Definitonen für stochastisch und determinischtisch sind disjunkt und deren
Vereinigung liefert die Menge aller Modelle. D.h. jedes mathematische Modell kann einer dieser
Klassen zugeordnet werden.
In diesem Zusammenhang kann man sich die Frage stellen, welche der beiden Typen denn die
Realität am besten abbildet? Einerseits ist spätestens seit der Entwicklung der Quantentheorie
bekannt, dass jedes Ereignis in der Welt, in der wir leben, mit einem gewissen Zufall verbunden ist bzw. zumindest mit einer Abweichung, die zumindest zum jetzigen Zeitpunkt noch von
keinem bekannten Naturgesetz beschrieben werden kann. Da ein Modell im Allgemeinen dazu
beitragen soll, die Realität zu imitieren, um zusätzliches Wissen über sie zu erlangen, macht von
diesem Standpunkt aus ein deterministisches Modell kaum Sinn. Es könnte sogar den falschen
Eindruck vermitteln, dass ein und die selbe Anfangskonfiguration zwangsläufig auch in der Realität immer zum selben Ergebnis führen muss. Andererseits ist dadurch, dass der Modellbildende
ohnedies gezwungen ist, Vereinfachungen zu treffen, möglicherweise die in der Theorie vereinfachte Form des Experiments auch, zumindest unter Berücksichtigung des vereinfachten Standpunktes, in der Realität deterministisch. Man kann sagen, es kommt in diesem Zusammenhang
primär auf die Fragestellung an, wie das folgende Beispiel zeigt:
7
Beispiel 2.0.3 (Gedankenexperiment:).
Beobachtung des Ausganges eines Münzwurfes.
Je nach Fragestellung wird sich ein anderer Modelltyp eignen:
Fragestellung
Welche Seite liegt
beim
Schnipsen
mit dem Finger
öfter oben?
Welche Seite liegt
bei bekannten Anfangsparametern
oben?
Welche
Seite
liegt bei hoher
Rotationszahl und
bekannten
Anfangsparametern
öfter oben?
deterministisch/stochastisch?
Unter diesen Voraussetzungen wird man stochastische Resultate erhalten, da die Anfangskonfiguration trotz alle mechanischen Bemühungen quasi nicht reproduzierbar ist und das Modell sehr sensitiv
darauf reagiert. Möglicherweise können Faktoren wie die Massebalance der Münze auf das Zufallsresultat einwirken. Mithilfe eines
stochastischen Modells könnte z.B. ein Erwartungswert bestimmt
werden, der gegebenenfalls für die Seitenwahl vor einem Fußballspiel interessant sein könnte.
Sind alle Umgebungsparameter bekannt, d.h. herrschen strenge Laborbedingungen, könnte mithilfe von physikalischen Gesetzen das
Ergebnis mit einer physikalischen Simulation vorhergesagt werden.
Diese Frage stellte sich am Beispiel eines von der Tischkante gestoßenen Marmeladebrotes und strahlt seit jeher eine gewisse Fasziantion aus.
Das Experiment „Münzwurf “ ist von so chaotischer Natur, dass
bei hohen und rotationsreichen Würfen sogar quantenmechanische
Effekte eine Rolle spielen, die nachweislich stochastische Resultate liefern. Während bei niedrigen Würfen die geringe Varianz der
Flugbahn keine Auswirkung auf die resultierende Münzenseite hat,
kann diese in diesem Fall sogar bei bekannten Anfangs und Umgebungsparametern variieren. Ein deterministisches Modell kann
demnach nur Anhaltspunkte geben und muss richtig interpretiert
werden. Ein stochastisches Modell könnte das deterministische unterstützen.
Je nach Fragestellung ist also einer der beiden Modelltypen sinnvoll und zulässig, manchmal
sogar beide. Die Welt ist also, je nach Blickwinkel, stochastisch und deterministisch.
Ganz abgesehen von diesem Gedankenexperiment wird aus diesen Fragestellungen, allgemein
für Modelle betrachtet, einiges deutlich:
⇒ Stochastische Modelle verwendet man bevorzugt (sofern man die Wahl hat) anstelle von
deterministischen, wenn man an den Auswirkungen von Zufallsereignissen interessiert ist.
⇒ Um verwertbare Resultate zu erhalten, muss man diese in der Regel öfter durchführen.
Ein einzelner Versuchsausgang ist in der Regel nicht aussagekräftig.
⇒ Die meisten verwertbaren Ergebnisse eines stochastischen Modells, betreffen weniger das
Resultat des einzelnen Versuchs, sondern eher die mit dem Modell verbundene Wahrscheinlichkeitsverteilung.
8
KAPITEL 2. GRUNDLAGEN
⇒ Die Wahrscheinlichkeitsverteilung ist eine deterministische Größe, die mit der Anfangskonfiguration des Modells definiert ist.
Vor allem der letzte Punkt ist Hauptziel dieser Arbeit. Die Wahrscheinlichkeitsverteilung eines
stochastischen Modells ist eine mögliche Brücke, die es erlaubt, deterministische und stochastische Modelle zu verknüpfen. Oft wird ein Markov-Modell als deterministisch bezeichnet, da
man über die sogenannten Übergangsmatritzen die Wahrscheinlichkeitsverteilung deterministisch berechnen kann. Das ändert aber nichts daran, dass das Resultat des Modells immer noch
stochastisch ist. Die Computersimulation, d.h. die Implementierung eines stochastischen Modells selbst, ist im Allgemeinen aber wieder deterministisch. Die Quelle, aus der herkömmliche
Simulatoren Zufallszahlen beziehen, hängt mit einem deterministischen Generator zusammen,
der bei bekannten Anfangsparametern nachgerechnet werden kann (Sieht man einmal davon ab,
dass es tatsächlich Organisationen gibt, die sich darauf spezialisiert haben, aus tatsächlich weitestgehend stochastischen Vorgängen aus der Natur Zufallszahlen zu gewinnen). Dieser Umstand
ist auch durchaus nützlich, bedenkt man, dass somit ein Durchlauf der Simulation am Computer
jederzeit wieder abrufbar ist. Die Abbildung 2.2 zeigt das gerade Erwähnte graphisch.
Abbildung 2.2: Vergleich stochastisch - deterministisch
2.1
Markov-Modell
Ein Markov-Modell bezeichnet man im Allgemeinen ein Modell, das durch einen sogenannten
Markov-Prozess beschrieben wird.
Definition 2.1.1 (Markov-Prozess).
Ein stochastischer Prozess
X(t) : T → Ω,
T ⊆ R+ , 0 ∈ T
mit Wahrscheinlichkeitsfunktion
P (t, k) = P (X(t) = k) : T × Ω → [0, 1]
2.1. MARKOV-MODELL
9
und Zustands (Mess-) Raum Ω wird als Markov-Prozess bezeichnet, dann und genau dann, wenn
seine bedingte Wahrscheinlichkeitsfunktion
P (X(t2 ) = k|X(t1 ) = j) := (P (X(t2 ) = k) unter der Bedingung dass X(t1 ) = j)
mit k, j ∈ Ω,
t1 < t2 ∈ R+ die sogenannte Markoveigenschaft erfüllt.
Definition 2.1.2 (Markoveigenschaft).
Seien t1 < · · · < tm ∈ T eine beliebige endliche, aufsteigende Folge von Zeitpunkten und
k1 , . . . , km ∈ Ω beliebig, so erfüllt X(t) die Markoveigenschaft, wenn
P (X(tm ) = km |X(tm−1 ) = km−1 , . . . , X(t1 ) = k1 ) = P (X(tm ) = km |X(tm−1 ) = km−1 )
2.1.1
Unterschiedliche Typen
Innerhalb der Klasse der Markov-Prozesse unterscheidet man die Prozesse zunächst anhand ihrer
Definitions und Bildräume:
Definition 2.1.3 (Klassifikation für Markov-Prozesse).
Sei tend ∈ R+ ∪ {∞}.
Ein Markov-Prozess heißt zeitstetig, wenn T = [0, tend ]. Man spricht von einem CT
Markov-Prozess (continous time).
Ein Markov-Prozess heißt zeitdiskret, wenn T = {0, t1 , . . . , tend }. Man spricht von
einem DT Markov-Prozess (discrete time).
Ein Markov-Prozess heißt ortsstetig oder allgemein, wenn Ω = (S, A) mit einem überabzählbaren Messraum S mit Sigma-Algebra A. Man spricht von einem CS Markov-Prozess
(continous space).
Ein Markov-Prozess heißt ortsdiskret, wenn Ω = ({k1 , k2 , . . . }, 2{k1 ,k2 ,... } ) mit der
Potenzmengen-Sigma-Algebra (Diese wird i.A. nicht extra angeschrieben). Man spricht
von einem DS Markov-Prozess (discrete space). In diesem Fall wird auch von sogenannten Markov-Ketten gesprochen.
10
KAPITEL 2. GRUNDLAGEN
Zusätzlich kann man noch zwischen diskret-endlichen und diskret-unendlichen (abzählbaren) Markov-Ketten sprechen, je nachdem, ob der Zustandsraum endlich oder abzählbar unendlich ist. In dieser Arbeit wird der Begriff diskret stets für endliche Räume Ω ∼
= {1, . . . , n}
verwendet. Die zum Raum gehörige Sigmaalgebra wird in Folge nicht mehr zum Raum dazu
angeschrieben, da es sich entweder um eine endliche Potenzmenge oder den Borelmengen auf
Rn handelt.
2.1.2
Homogenität
Eine weitere wichtige Eigenschaft eines Markovporzesses ist der Begriff der Homogenität.
Definition 2.1.4 (Homogenität eines Markov-Prozesses).
Ein Markov-Prozess heißt homogen, wenn für beliebige t1 , t2 , t2 − t1 ∈ T und für alle k, j ∈ Ω
gilt:
P (X(t2 ) = k|X(t1 ) = j) = P (X(t2 − t1 ) = k|X(0) = j)
Im weiteren Verlauf wird ausschließlich mit homogenen Markovketten gerechnet, denn nur
diese erfüllen die Gleichung von Chapman-Kolmogorov.
2.1.3
Gleichung von Chapman-Kolmogorov
Diese ist von fundamentaler Wichtigkeit für die Beweise in Kapitel 3. Sie stellt eine Art Pendant
zum Satz von der totalen Wahrscheinlichkeit auf der Ebene der stochastischen Prozesse dar.
Im weiteren Verlauf der Arbeit werden oft bedingte Wahrscheinlichkeiten in den Beweisen verwendet. Es sei also die folgende Kurzschreibweise eingeführt:
Definition 2.1.5 (Kurzschreibweise für bedingte Wahrscheinlichkeiten).
P ((t2 , k)|(t1 , j)) := P (X(t2 ) = k|X(t1 ) = k),
t1 < t2 ∈ T, k, j ∈ Ω
Die in der Literatur gebräuchliche, weil kürzere, schreibweise
Pj,k (t) := P ((t, k)|(0, j)) = P (X(t) = k|X(0) = j)
mit der, unter Ausnützung der Homogenität des Prozesses, ebenso jede bedingte Wahrscheinlichkeit beschrieben werden kann, versagt im Falle von komplizierteren Bedingungen, die aber
später noch benötigt werden. Z.B.:
P ((t2 , k)|(t1 , 6= k), (t1 , 6= j)) := P (X(t2 ) = k|X(t1 ) 6= k ∧ X(t1 ) 6= j)
2.1. MARKOV-MODELL
11
Satz 2.1.6 (Gleichung von Chapman-Kolmogorov).
Ist X(t) ein Markov-Prozess mit Werten in Ω so gilt ∀t1 < t2 ∈ T und ∀k, j ∈ Ω:
Z
P (X(t2 ) = k|X(0) = j) =
P (X(t2 ) = k|X(t1 ) = i)P (X(t1 ) = i|X(0) = j)di =
Ω
Z
P (X(t2 − t1 ) = k|X(0) = i)P (X(t1 ) = i|X(0) = j)di
=
∗
Ω
wobei ∗ genau dann gilt, wenn X homogen ist und t2 − t1 ∈ T .
Beweis:
1
Nach dem Satz für bedingte Wahrscheinlichkeiten folgt die Umformung:
P ((t2 , k)|(0, j)) =
P ((t2 , k), (0, j))
.
P (0, j)
Da der Prozess zum Zeitpunkt t2 < t1 ∈ T einen Zustand gehabt haben muss gilt weiters:
R
P ((t2 , k), (0, j), (t1 , i))di
P ((t2 , k), (0, j))
= Ω
.
P (0, j)
P (t1 , k1 )
Der Bruch lässt sich erweitern und man erhält:
Z
P ((t2 , k), (t1 , i), (0, j))P ((t1 , i), (0, j))
di =
P ((t2 , k)|(0, j)) =
P (0, j)P ((t1 , i), (0, j))
Ω
Z
P ((t2 , k)|(0, j), (t1 , i))P ((t1 , i), (0, j))
=
di =
P (0, j)
Ω
Z
=
P ((t2 , k)|(0, j), (t1 , i))P ((t1 , i)|(0, j))di =
Ω
Z
=
∗
P ((t2 , k)|(t1 , i))P ((t1 , i)|(0, j))di.
Ω
Die Gleichheit ∗ folgt nach der Markowbedingung, da t2 > t1 gilt. ist der Markov-Prozess nun
auch noch homogen und der Zeitpunkt t2 − t1 ∈ T folgt sogar noch die Gleichheit:
Z
P ((t2 − t1 , k)|(0, i))P ((t1 , i)|(0, j))di.
P ((t2 , k)|(0, j)) =
Ω
Insbesondere ist die Gleichung natürlich für homogene CT Markov-Prozesse erfüllt, da dort
ohnedies t2 − t1 ∈ T liegt. Für DS Markov-Prozesse erhält man ein Integral bzgl. dem Zählmaß
und damit eine endliche oder unendliche Summe:
1
Der Beweis ist dem Buch [Aok02] nachempfunden
12
KAPITEL 2. GRUNDLAGEN
Satz 2.1.7 (Gleichung von Chapman-Kolmogorov für DS Markov-Prozesse).
Sei
Ω := {k1 , k2 , . . . } und t2 > t1 , t2 − t1 ∈ T folgt:
X
P ((t2 , k)|(0, j)) =
P ((t2 − t1 , k)|(0, i))P ((t1 , i)|(0, j))
i∈Ω
Beweis: Man modifiziere den Beweis (vor allem den zweiten Schritt unter Verwendung des
Satzes für bedingte Wahrscheinlichkeiten) für die allgemeine Chapman-Kolmogorov Gleichung,
sodass er für diskrete Zustandsräume gilt.
2.1.4
Regularität
Des weiteren unterscheidet man homogene CT Markov-Prozesse in reguläre und nicht reguläre
Markov-Prozesse.
Definition 2.1.8 (Regularität eines CT Markov-Prozesses).
Ein homogener CT Markov-Prozess X heißt regulär, wenn für alle k, j ∈ Ω gilt
0, k 6= j
lim P ((h, k)|(0, j)) =
1, k = j
h→0
Diese Eigenschaft ist von sehr intuitiver Natur. Sie besagt, dass ein regulärer Markov-Prozess
zumindest eine gewisse Zeit in einem Zustand verbringen muss, bevor er zum nächsten übergeht,
da die Wahrscheinlichkeit, dass er den Zustand in dem Augenblick wieder verlässt, in dem er ihn
erreicht hat, gegen Null geht. Die Regularität wird im Kapitel 3 noch eine sehr wichtige Rolle
spielen denn der Begriff der Übergangsrate baut darauf auf. Man erhält für reguläre MarkovProzesse rechtsstetige Pfade.
2.1.5
Pfade und Verweildauer
Definition 2.1.9 (Pfad).
Als Pfad eines Markov-Prozesses bezeichnet man den Graph
Γ(X) := {(t, X(t)), t ∈ [0, T ]}
der Abbildung X(t).
2.2. MODELLBILDUNG MIT DIFFERENTIALGLEICHUNGEN
13
Der Pfad eines Markov-Prozesses bezeichnet den Verlauf des Prozesses auf graphischer Ebene.
Für reguläre CTDS Markov-Prozesse kann man das Intervall [0, tend ) stets in maximal anzählbar
viele halboffene Intervalle mit positiver Länge aufteilen, in denen sich der Zustand des Prozesses
nicht verändert hat bzw. der Graph konstant ist. Glaubt man an das Auswahlaxiom oder betrachtet eine endliche Endzeit tend < ∞ existiert von dieser Zerlegung eine mit der kleinsten Anzahl
an Elementen:
[
[
˙
˙
Sn .
[tn , tn + 1) =:
[0, tend ) =
n
n
Die Länge dieser Intervalle wird als Verweildauer bezeichnet, und die Intervallgrenzen bezeichnen die Zeitunkte der Zustandsänderung. Abbildung 2.3 zeigt einen möglichen Pfad eines CTDS
Markov-Prozesses und die zugehörigen Übergangszeitpunkte.
Um später Unklarheiten vorzubeugen seien noch kurz einige andere Modellierungsmethoden
Abbildung 2.3: Möglicher Pfad eines CTDS Markovporzesses
besprochen bzw. definiert.
2.2
Modellbildung mit Differentialgleichungen
Modellbildung mithilfe von Differentialgleichungen, auch kurz DG (Differentialgleichung) oder
DE (Differential Equation) genannt, ist wohl die Abstrakteste, aber vermutlich auch mathematisch am besten erforschte Form der deterministischen Modellbildung. Auf der einen Seite erhält
man den Vorteil, sich auf eine jahrhundertealte mathematische Theorie stützen zu können, die
einem im wesentlichen bereits alles Wissenswerte über das zu analysierende DG-Modell verrät.
Ob Physik, Elektrotechnik, Maschinenbau oder Chemie, stets wird mit Differentialgleichungen argumentiert und kalkuliert, und Millionen Lehrbücher stützen sich auf bereits untersuchte
Phänomäne, die sich mit ihnen beschreiben lassen (von denen wiederum Tausende das Thema
behandeln, was noch eine Formel in Form einer DG und was bereits als dynamisches Modell
14
KAPITEL 2. GRUNDLAGEN
gilt). Diese doch sehr flächendeckenden Theorie, vor allem im Bereich der Naturwissenschaften, wird in gängigen Simulatoren wie DYMOLA oder SIMULINK ausgenützt, in denen man
sein Modell aus einem großen Pool an bereits validierten Differentialgleichungsmodellen die für
einzelne Teilprobleme geeignet sind zusammensetzen kann.
Leider fallen in den Bereich der Modellbildung heuzutage nicht nur Problemstellungen aus den
Naturwissenschaften, sondern auch aus Bereichen wie Wirtschaft oder Soziologie, in denen man
sich nicht auf eine Axiomatik berufen kann, die aus Formeln besteht. Zunächst muss man die
Aufgabenstellung hinreichend abstrahieren, um sie überhaupt mit mathematischen Werkzeugen
in den Griff zu bekommen, insbesondere wenn man sie mit Differentialgleichungen beschreiben
will. Da Abstrahieren in diesen Bereichen stets auch Vereinfachungen mit sich bringt, kann es
passieren, dass man, um ein geschlossenes Differentialgleichungsmodell zu erhalten, wesentliche Parameter vernachlässigen muss und man dadurch das Modell komplett entwertet. Zusätzlich darf man nicht vergessen, dass derartige Abstraktionen für Aufgabensteller (Kunden) aus
den erwähnten Bereichen kaum nachzuvollziehen sind, und dadurch das Modell an Glaubwürdigkeit einbüßt - nicht umsonst nennt man diesen Bereich der Modellbildung auch „Black-BoxModelling“.
Ist der Abstraktionsvorgang abgeschlossen und hat man einmal eine geschlossene mathematische Formulierung des Problems in Form von Differentialgleichungen erlangt, kann man das
System im Wesentlichen zu einer von zwei unterschiedlichen Klassen zuordnen.
2.2.1
Gewöhnliche Differentialgleichungen
Auch kurz ODEs (Ordinary Differential Equations) genannt, bezeichnet man mit diesem Begriff
die einfachste Form der Differentialgleichung.
Definition 2.2.1 (ODE).
Sei ~x(t) : D ⊆ R → Rn , x ∈ C d , so nennt man eine Differentialgleichung der Form
f ~x(d) (t), ~x(d−1) (t), . . . , ~x0 (t), ~x(t), t = 0
gewöhnlich. Der Grad der höchsten Ableitung, die in der DG auch tatsächlich auftritt, nennt man
die Ordnung der DG.
Ohne zu sehr in die Theorie eingehen zu wollen, seien noch einige Begriffe erklärt:
Lässt sich die Differentialgleichung (gemäß dem Hauptsatz über implizite Funktionen) schreiben als
(d)
(d)
(d−1)
0
x1 (t) = g x2 (t), . . . , x(d)
(t),
~
x
(t),
.
.
.
,
~
x
(t),
~
x
(t),
t
,
n
so nennt man die ODE explizit, andernfalls implizit. Tritt in der Differentialgleichung die Funtion mit der höchsten Ableitung nur linear auf, so ist die DG insbesondere explizit. Man spricht
in diesem Fall von einer quasiliearen DG. Gilt dies nicht nur für den Term mit der höchsten
2.2. MODELLBILDUNG MIT DIFFERENTIALGLEICHUNGEN
15
Differentiationsordnung, sondern für alle, so nennt man die Differenzialgleichung sogar linear
(mit Störterm h(t)):
a~d · ~x(d) (t) + ad−1
~ · ~x(d−1) (t) + · · · + a~0 · ~x(t) = h(t)
Jede explizite gewöhnliche Differentialgleichung, insbesondere jede lineare, lässt sich über einfache Variablensubstitutionen in ein (dementsprechend großes) System erster Ordnung überführen, womit für lineare DG ausschließlich die Form
~x0 (t) = A(t)~x(t) + ~b(t)
untersucht werden muss.
Die Theorie über ODEs ist sehr weit fortgeschritten und liefert auf die meisten einfacheren Fragestellungen, insbesondere für lineare ODEs, sogar analytische Antworten für die unbekannte
Funktion x(t). Dieser Umstand wird natürlich ausgenützt, denn kaum etwas ist so leicht analysierbar und validierbar, wie eine explizite Lösungsformel für ein Modell. Ist andernfalls eine
analytische Lösung nicht bestimmbar, so lassen sich explizite Systeme auch leicht numerisch
behandeln. Besonders hervorgehoben seien an dieser Stelle die expliziten und impliziten Verfahren von Euler, Heun und Runge-Kutta, sogenante ODE-Solver, deren Konvergenzverhalten
und Stabilität bereits seit Jahrzehnten bekannt sind und auf fast alle, also insbesondere auch auf
nicht analytisch lösbare, explizite gewöhnliche Differentialgleichungen im Allgemeinen sehr
befriedigende Lösungsantworten geben.
2.2.2
Partielle Differentiagleichungen
Auch kurz PDEs (Partial Differential Equations) genannt, bezeichnet die wesentlich schwieriger
zu behandelnde Klasse der Differentialgleichungen.
Definition 2.2.2 (PDE).
Sei u ∈ C d (Rn , Rm ) so bezeichnet man eine Differerentialgleichung der Form
f L~di (~u), . . . , L~di (~u), L~d−1 (~u) . . . , L~d−1 (~u), . . . , L~1i (~u), . . . , L~1i (~u), ~u, ~x = 0
1d
nd
i1d−1
ind−1
11
n1
mit sogenannten Differentialoperatoren:
L~ki (~u) =
∂ k ~u
i =k−(i1 +i2 +···+in−1 )
∂xi11 , ∂xi22 , . . . , ∂xnn
als partiell, wenn Ableitungen nach mindestens zwei unterschiedlichen Variablen tatsächlich
auftreten (d.h. nichtverscheindende Koeffizientenfunktionen haben).
Mit ähnlichen Kriterien wie bei ODEs unterscheident man auch hier zwischen nicht-linearen,
quasilieraren und linearen PDEs. Auch wenn die analytische Betrachtung der Lösung sogar
16
KAPITEL 2. GRUNDLAGEN
schon bei linearen PDEs sehr schwer ist und kaum verallgemeinerte Lösungsmethoden bekannt sind, gibt es doch gut erforschte Mittel und Wege, solche Probleme zu analysieren. Einerseits lassen sich sehr viele, häufig auftretende Probleme, auf bereits gut erforschte Spezialfälle zurückführen (Transportgleichung, Wärmeleitungsgleichung, Schrödingergleichung, Maxwellgleichungen, . . . ). Andererseits gibt es auch auf diesem Gebiet gut erforschte numerische
Methoden, die es erlauben, auch Lösungen von analytisch nicht behandelbaren Problemen mit
gut abschätzbaren Fehlern zu approximieren. Zu den wichtigsten Vertretern aus dieser Familie
gehören das Verfahren der finiten Differenzen und die Methode der finiten Elemente (FEM).
2.2.3
Zusammenführen der Gedanken
Berücksichtigt man diese Überlegungen erhält man, grob gesprochen, die Conclusio:
Hat man das DG Modell einmal erstellt, d.h. die Realität sinnvoll abstrahiert, ist (zumindest
bei ODEs) die Simulation des Modells nicht mehr schwierig, da man sich auf gut erforschtem
Terrain befindet.
Dieser Umstand ist jener, der das DG Modell so wertvoll macht und den Gedanken anregt, nicht
so gut erforschte Gebiete der Modellbildung auf das DG Modell zurückführen zu wollen. Man
erhält den Konflikt:
DG Modell
Anderes Modell
Sehr abstrakt ⇔ Evt. realitätsnäher
Gut analysierbar
Schlecht analysierbar
Denkt man z.B. an Bevölkerungsmodelle, so kann man sich nach der Simulation des Modells
mittels Differentialgleichungen durchaus berechtigt fragen, warum 17.42 Personen zum Zeitpunkt t ein gültiges Resultat des Modells sein soll, und wie man dieses Ergebnis richtig deuten
soll? Die imaginäre 0.42-te Person existiert nicht und wird auch nie existieren, doch will man
von diesem Resultat Gebrauch machen, um z.B. eine Bugdetkalkulation zu erstellen, macht es
u.U. durchaus Sinn, mit ihr zu rechnen. Das Modell kann sich für diesen Zweck also sehr wohl
als das Richtige herausstellen.
Gerade in solchen Bereichen, wo in der Realität nur eine endliche Anzahl an Zuständen als
Lösung des Problems in Frage kommt, ist das Modellieren mit DG oftmals sehr umstritten, da
einfach missverstanden. Zu diesem Zweck bieten sich sogenannte Mikrosimulationen an.
2.3
Micro Modelling
Setzt sich ein zu simulierendes System S bzw. eine zu simulierende Zustandsvariable Z in der
Realität aus einer Anzahl an Subsystemen si mit eigenen Zustandsvariablen zi zusammen,
S=
[
˙ N
i=1
si ,
Z = f (z1 , . . . , zN )
so macht es oft Sinn, anstelle einer ganzheitlichen Simulation des Gesamtsystems S mit einem
Modell für Z, die einzelnen Bestandteile des Systems einzeln zu simulieren und schlussendlich
die Zustandsvariable Z mit dem Wissen über die Funktion f , d.h. mit dem Wissen darüber, wie
2.3. MICRO MODELLING
17
sich die Systeme zusammensetzten, aus den einzelnen Systemvariablen zi zu berechnen.
Einerseits ist dieses, hier sehr abstrakt beschriebene, Konzept ein sehr natürlicher Zugang zu
einer Problemstellung. Z.B. besagt das Konzept, dass in einem Bevölkerungsmodell jede Person einzeln simuliert werden kann, anstatt die gesamte Bevölkerung mit einer z.B. kontinuierlichen Größe zu beschreiben, was im Vergleich einen bedeutend weniger abstrakten Zugang zur
Problemstellung darstellt. Jedermann, auch ein modellbildungstheoretischer Laie, kann nachvollziehen, dass sich eine Bevölkerungszahl als Summe der Individuen ergibt, die agieren und
miteinander kommunizieren.
Andererseits ist gerade die Kommunikation zwischen den einzelnen Subsystemen si ein oft
schwer umzusetzender Stolperstein in der Modellierung und Implementierung. Überhaupt konnte dieser Zugang zur Modellbildung erst mit der (weiter-)Entwicklung des Computers entstehen,
da ob des großen Aufwands i.A. keine händischen Berchnungen mehr möglich sind. Während also Lotka und Volterra bereits 1925/26 mithilfe ihrer berühmten Differentialgleichungen RäuberBeute Modelle mit durchaus großem Erfolg und Nutzen für die Gesellschaft berechnen konnten,
wäre damals ein Individuen-basiertes Modell zu dieser Problemstellung (z.B. das Modell WaTor von Dewdney und Wiseman, 1984) noch gar nicht möglich gewesen. In der heutigen Zeit
erfreuen sich solche, Individuen-basierte, Modelle, klarerweise bedingt durch die immer größer
werdenden technologischen Ressourcen, immer größer werdender Beliebtheit. Diese Entwicklung geht so weit, dass oftmals sogar krampfhaft eine Zerlegung eines Systems S in Bestandteile
si gesucht wird, obwohl sie eigentlich in der Realität gar nicht da sind, weil auf diese Art das
Modell deutlich flexibler wird. Diese, ungerechtfertigt negativ behaftet ausgedrückte, Idee könnte man auch mit dem Begriff „Diskretisierung“ bezeichnen. (Unter diesem Gesichtspunkt kann
man z.B. die Methode der Finiten Elemente auch als Mikrosimulation bezeichnen.)
Definition 2.3.1 (Mikrosimulation / Makrosimulation 2 ).
SN
Wird, um ein System S zu simulieren, jedes einzelne Subsystem si mit S = ˙ i=1 si sowie die
Kommunikation zwischen diesen individuell Simuliert, und schlussendlich die Systemvariable
Z = f (z1 , . . . , zN ) aus den einzelnen Systemvariablen zi berechnet so bezeichnet man dieses
Modell, unabhängig von der Art der Simulation der Subsysteme, als mikroskopisch (Mikromodell, Mikrosimulation, Micro Model, Micro Simulation).
SN
Wird andererseits ein, sich aus Subsystemen zusammensetztendes System S = ˙ i=1 si , als
gesamtes, d.h. ohne Berücksichtigung der Submodelle, mithilfe eines Modells für die Zustandsvariable Z direkt simuliert, so nennt man das Modell makroskopisch (Makro Modell, Makrosimulation, Macro Model, Macro Simulation).
Meist kommt der Begriff der Makrosimulation nur im Kontext zusammen mit einer Mikrosimulation vor. Besteht das System also nicht aus Subsystemen, stellt sich die Frage nach dem
Typus i.A. nicht.
Es folgen, zusammenfassend und ergänzend, einige Eigenschaften von Mikrosimulationen im
Vergleich zu Makrosimulationen.
18
Simuliert wird. . .
Die Zustandsvariable. . .
Abstraktionsunterschied zwischen Realtität und
mathematischen
Modell ist . . .
Rechenaufwand ist
...
Parameter. . .
Parameteridentifikation
ist. . .
Validierung/ Bestimmung
der
Richtigen Parameter ist. . .
Modelländerungen
sind. . .
Dadurch bedingt
ist eine exakte
Definition
der
Modellierung. . .
KAPITEL 2. GRUNDLAGEN
Mikrosimulation
das Agieren und Interagieren
der Subsysteme.
wird aus den Zuständen der
Subsysteme berechnet.
i.A. niedriger.
Makrosimulation
das Gesamtsystem.
Vorteil?
-
ist das direkte Resultat des
Modells.
i.A. höher.
-
i.A. groß. Simulation ist
ausschließlich computerunterstützt möglich
sind direkt vom Subsystem
ableitbar.
i.A. leichter, wenn individuelle Daten vorhanden sind.
i.A. kleiner als bei Mikrosimulation.
makro
müssen das Gesamtsystem
beschreiben.
i.A. leichter, wenn statistische Daten vorhanden sind.
-
oft schwieriger, da meist
mehr Parameter vorhanden
und deren Einflüsse schwieriger zu untersuchen sind
(u.a. durch Rechenaufwand).
meist durch Modifikation
weniger Codezeilen schon
möglich.
meist schwieriger, da die
Modellierungsart mehr Freiheiten zulässt.
meist leichter da oft Einflüsse der Parameter aus der
Theorie bekannt sind (z.B.
Störungstheorie).
makro
oft nur durch komplett neue
Modellansätze möglich.
mikro
meist leichter, da es oft eine
präzise Definition und Klassifikation der Modelltypen
gibt.
makro
mikro
-
Beide strukturellen Modellansätze haben also ihre Vor- und Nachteile. Umso wichtiger wäre
also eine geschlossene Theorie, die beide Ansätze miteinander verknüpft und qualitative bzw.
quantitative Vergleiche auf einer analytischen Ebene ermöglicht.
Die Definition 2.3.1 der Mikrosimulation ist sehr allgemein und legt primär noch nicht fest, mit
welcher Methode die Subsysteme si simuliert werden. Prinzipiell wäre dies z.B. sogar mit (gekoppelten) Differentialgleichungen möglich. I.A. ist man aber daran interessiert eine möglichst
große Anzahl an Subsystemen zu simulieren, was in diesem Fall zu einem gewaltigen Rechenaufwand führen würde. Im weiteren Verlauf der Arbeit ist vor allem die Mikrosimulation mit CT
Markov-Prozessen und die zeitdiskrete agentenbasierte Modellierung von großer Bedeutung.
2.3. MICRO MODELLING
2.3.1
19
Mikrosimulation mit CT Markov-Modellen
Definition 2.3.2 (Microsimulation mit CT Markov-Modellen).
Gegeben sei ein dynamisches System S, d.h. ein System, bei dem die Zustandsvariable Z(t) ∈ Ω
als Funktion in der Zeit auftritt, bestehend aus N ∈ N Subsystemen si . Die Zustandsvariable
jedes Subsystems folgt einem CT Markov-Prozess
zi (t) : [0, tend ] → Ωi .
Die Zustandsvariable Z(t) ergibt sich über eine Funktion aus den Zuständen der Subsysteme:
N
Z(t) := f (z1 (t), . . . , zN (t)) :
×
N
Ωi → f (
i=1
×Ω ) ⊆ Ω
i
i=1
Im weiteren Verlauf der Arbeit werden für CTDS Markov-Prozesse Funktionen f der Form
Zj (t) = f (z1 (t), . . . , zN (t)) :=
N
X
Ij (z(t))
i=1
mit der Indikatorfunktion I als Zustandsvariablen benutzt. Damit ergibt sich als Zustandsvektor
des Systems zeilenweise die Anzahl aller Agenten im selben Zustand.
Es sei an dieser Stelle bemerkt und auch bewiesen, dass Z ebenfalls einem Markov-Prozess folgt.
Satz 2.3.3 (Kombination von Markov-Prozessen).
Werden xi (t), i ∈ I mit |I| maximal abzählbar unendlich, von CT/DT CS/DS Markov-Prozessen
beschrieben, so folgt auch für jede Funktion f mit
N
Z(t) := f (z1 (t), . . . , zN (t)) :
×Ω
N
i
→ f(
i=1
× Ω ),
i
i=1
dass der Prozess Z(t) ebenso einem CT/DT CS/DS Markov-Prozess folgt.
Beweis: Zunächst folgt Z(t) auf jeden Fall einem zeitabhängiger stochastischer Prozess (Ist die
Funktion Konstant, so hat er einfach Varianz 0).
Seien nun tend ≥ ti > ti−1 > · · · > t0 ≥ 0 Zeitschritte so gilt durch die Markoveigenschaft
P (zk (ti ) = ai |(zk (tj ) = aj )j∈{0,...,i−1} ) = P (zk (ti ) = ai |zk (ti−1 ) = ai−1 ),
die Gedächtnislosigkeit des Prozesses für jedes Subsystem. Da nun aber
Z(t) := f (z1 (t), . . . , zN (t))
∀k ∈ {1, . . . , N }
20
KAPITEL 2. GRUNDLAGEN
gilt, gibt es eine messbare Funktion G (im Falle der einfachen Summe wäre das z.B. die Faltung
der Wahrscheinlichkeitsfunktionen), sodass sich die Wahrscheinlichkeitsfunktion
!!
N
P (Z(t) = Z) = G
× × P (z (t) = k)
i
i=1
k∈Ωi
und natürlich auch die bedingte Wahrscheinlichkeitsfunktion
P Z(ti ) = Zi | (Z(tj ) = Zj )j∈{0,...,i−1} =
N
= G̃
×
u=1
×
P zu (ti ) = ki | (zu (tj ) = kj )j∈{0,...,i}
!!
=
k1,...,i ∈Ωu
N
= G̃
×
u=1
×
!!
P (zu (ti ) = ki |zu (ti−1 ) = ki−1 )
ki−1,i ∈Ωu
als Funktion in den einzelnen Wahrscheinlichkeitsfunktionen schreiben lässt, und sich somit
auch der Prozess Z(t) als gedächtnislos herausstellt.
Satz 2.3.4 (Interagierende Agenten).
Der eben geführte Beweis bleibt gültig, wenn die bedingten Wahrscheinlichkeiten der einzelnen Agenten nicht nur vom Zustand des einzelnen Agenten abhängen, wie es bei klassischen
Markov-Prozessen üblich ist, sondern auch noch vom Zustandsvektor des aktuellen Zeitpunktes
abhängen dürfen. D.h. die Agenten dürfen auf gewisse Weise mit ihrer Umgebung kommunizieren. Diese Beobachtung ist eine der wichtigsten der ganzen Arbeit.
Manchmal wird eine zeitkontinuierliche Simulation dieser Art auch Agentensimulation genannt. Historisch gesehen, bzw. auch vom informatischen Standpunkt aus, soll in Folge aber
unter Agentenmodellierung etwas anderes verstanden sein.
2.3.2
Agentenbasierte Modellierung
Ein spezieller Subtypus unter den Mikromodellen wird als agentenbasierte Modellierung (oder
Agent-Based Modelling) bezeichnet. In Kapitel 1 wurde angesprochen, dass oftmals Fachvokabular im Bereich der Modellbildung und Simulation nicht einheitlich definiert und demnach
von Fachrichtung zu Fachrichtung unterschiedlich interpretiert wird. Der Begriff der agentenbasierten Modellierung ist genau ein solcher und ist dadurch bedingt unter Modellbildungsexperten heiß diskutiert. Während der implementations-fokussierte Informatiker unter diesem Begriff
stets einen Raster oder ein rechteckiges Gebiet mit sich darauf bewegenden und interagierenden Individuen im Kopf hat, definieren sich Mathematiker den Begriff teilweise auch ohne eine
räumliche Geometrie bzw. Topologie.
Auf Grund dieser Diversität wird an dieser Stelle auch keine präzise Definition dafür angegeben,
2.3. MICRO MODELLING
21
was ein agentenbasiertes Modell ist, oder was keines ist, sondern lediglich beschrieben, welche
Eigenschaften ein, für die Anwendung der Theorie in den Folgekapiteln taugliches Agentenmodell mindestens zu erfüllen hat (genauere Restriktionen folgen in den Theoriekapiteln). Diese
Grundeigenschaften sind sinngemäß aus der Definition eines Agenten aus [Mik12, 5-14] motiviert.
Definition 2.3.5 (Eigenschaften eines agentenbasierten Modells).
Hat eine Mikrosimulation die folgenden Eigenschaften, so wird sie im Verlauf der Arbeit als
agentenbasiertes Modell bezeichnet:
Die endlich vielen Subsysteme werden Agenten genannt
Jeder Agent ist eindeutig identifizierbar und handelt eigenständig.
Jeder Agent hat einen Zustand (Eigenschaft) in einem gemeinsamen endlichen Zustandsraum, der sich ändern kann.
Handelt nach Regeln, die es ihm erlauben, auch mit seiner Umgebung zu kommunizieren.
Da es im Laufe der weiteren Arbeit notwendig ist, wird die zeitliche Änderung hier präzisiert:
Das Modell wird zeit-diskret, d.h. in endlich vielen Zeitschritten, gerechnet.
Jeder Agent ist gedächtnislos. D.h. die Entscheidung über die Änderung des Zustands
wird ausschließlich anhand des aktuellen Zustandes bzw. der Zustände der anderen Agenten getroffen.
Vor allem die letzte Eigenschaft stellt eine enorme Restriktion dar, ist aber für die Modellvergleiche notwendig.
Das so definierte Modell ist ansonsten sehr frei definiert und umfasst fast alle gängigen Definitionen eines agentenbasierten Modells. Ein wenig präziser und auch einheitlicher lässt sich ein
zellulärer Automat definieren.
2.3.3
Zelluläre Automaten
Was im Fall des agentenbasierten Modells noch untergeordnete Rolle hatte, steht bei diesem
Modellierungstyp im Vordergrund : Der Raum selbst. Der Zwischenschritt des Agenten, der den
Raum besetzt und den Zustand mit sich trägt, fällt nun weg und dem Raum selbst wird im zellulären Automaten (englisch cellular Automata oder kurz CA genannt) der Zustand zugeordnet.
Obwohl es auch in diesem Bereich der Simulation unterschiedliche Definitionen gibt, differieren diese nicht so extrem, wie im Falle des Agentenmodells. Die Grundprinzipien der meisten
Definitionen sind hier sinngemäß wiedergegeben (siehe [PK12]).
22
KAPITEL 2. GRUNDLAGEN
Definition 2.3.6 (zellulärer Automat).
Sei Ω ein ein, in endlich viele vernetzte Parzellen ωi,j geteiltes, Gebiet so wird ein Modell
zellulärer Automat genannt, wenn gilt:
Das Modell wird zeitdiskret gerechnet.
Jeder Parzelle sei zu jedem Zeitpunkt ein Zustand ωi,j (t) ∈ {0, . . . , d} =: I zugeordnet
Jede Zelle besitzt ob der Vernetzung des Raumes eine gewisse Anzahl an Nachbarzellen.
Formal: es existiert eine Nachbarschaftsfunktion n(ωi,j ) mit
n : Ω → Ik : ωi,j 7→ ωi1 ,j1 (t) . . . ωik ,jk ,
die die sogenannte Nachbarschaft der Zelle definiert und als Rückgabewert die Zustände
der Nachbarzellen hat.
Der Zustand der Zelle ωi,j im Folgezeitschritt wird durch eine deterministische Überführungsfunktion U beschrieben, die von der Werten der Nachbarschaftsfunktion abhängt:
U : Ω → I : ωi,j 7→ U (n(ωi,j )) =: ωi,j (t + 1)
Für viele Bereiche der Modellbildung ist sogar diese sehr offene Definition zu streng und
wird oft erweitert. Z.B. lässt man oft auch stochastische Übergangsfunktionen, die von Zufallsvariablen abhängen, zu. Das ändert schlussendlich auch den Modelltyp von deterministisch auf
stochastisch und der Automat wird für die Theorie in den späteren Kapiteln interessant und verwendbar.
Da zelluläre Automaten jedoch nicht zum eigentlichen Kerngebiet der Arbeit gehören, wird hier
nicht näher darauf eingegangen.
KAPITEL
Master Gleichung
In diesem Kapitel wird der Kern jener Theorie erklärt, mit der im Anschluss agentenbasierte Modelle und Differentialgleichungsmodelle approximativ ineinander übergeführt werden. Als Basis
dient dazu die Theorie über CT Markov-Prozesse und Mikrosimulationen, insbesondere die im
Kapitel 2.1 besprochene Chapman-Kolmogorov Gleichung, auf der in Folge alles konstruktiv
aufbaut. Das wichtigste Werkzeug dazu wird die Taylorentwicklung sein, die es gestattet, eine
beliebige, hinreichend oft differenzierbare Funktion in ein Polynom bzw. in eine konvergente
Reihe zu entwickeln. Um Abschätzungen zu vereinfachen, bedient man sich der sogenannten
Landau Symbole:
Definition 3.0.7 (Landau Symbole).
f (h)
≤C
h
f (h)
f (h) = o(h) ⇔ lim
=0
h→0 h
f (h) = O(h) ⇔ ∃C :
Bevor man jedoch mit den Umformungen der Chapman-Kolmogorov Gleichung beginnen
kann fehlt noch der Begriff der Übergangsrate. Dieser ist eine zeitunabhängige Größe für die
Wechselwahrscheinlichkeit eines CTDS Markov-Prozesses von einem Zustand in einen anderen.
3.1
Existenz von Übergangsraten
Als Basis für die Umformungen werden für das Kapitel 3 zunächst feste Variablennamen und
Voraussetzungen definiert. Diese Liste wird im weiteren Verlauf der Arbeit verändert und erweitert und dient der Übersicht.
23
3
24
KAPITEL 3. MASTER GLEICHUNG
Bedingung 3.1.1.
(Voraussetzungen für Kapitel 3.1 und 3.2.)
Bezeichnung
X(t)
t, t1 , t2 , h ∈ [0, tend ]
i, j, k ∈ Ω = {0, 1, . . . , n}
P ((t2 , k)|(t1 , j))
k0 ∈ Ω
P ((t, k)|(0, k0 )) =: P (t, k)
Definition
CTDS Markov-Prozess (regulär, homogen)
Endliches Zeitintervall
Endlicher Zustandsraum des Markov-Prozesses
Wahrscheinlichkeit für X(t2 ) = k bedingt durch j bei t1 .
Anfangszustand des Markov-Prozesses
Kurzschreibweise
Die grundelegende Idee zur Einführung der sogenannten Übergangsrate ist, dass die, ohnehin stets zumindest durch dessen Anfangswert bedingte, Wahrscheinlichkeitsfunktion P eines
homogenen Markov-Prozesses nicht von der Zeit selbst abhängt, sondern lediglich von der Zeitdifferenz zwischen dem Zeitpunkt der Bedingung und dem aktuellen Zeitpunkt.
P ((t2 , k)|(t1 , j)) = P ((t2 − t1 , k)|(0, j))
Es liegt also Nahe die Wahrscheinlichkeitsfunktion bzgl. der Zeitdifferenz nach Taylor entwickeln zu wollen:
P ((t, k)|(0, j)) = P̃ ((0, k), (0, j)) + tP̃ 0 ((0, k)|(0, j)) + . . .
Man überlegt sich zunächst die Stetigkeit bzgl. der Zeit.
3.1.1
Stetigkeit von P
Satz 3.1.2.
Die bedingte Wahrscheinlichkeit P eines Markov-Prozesses, der die Bedingungen 3.1.1 erfüllt,
ist bzgl der Zeitdifferenz t zwischen Bedingung und aktuellem Zeitpunkt stetig.
Beweis: Einerseits ist der Prozess gemäß Vorraussetzung regulär. Damit gilt schon
lim P ((t, k)|(0, j)) = δk,j ,
t→0
und es folgt schon die Stetigkeit von P bzgl. der Zeitdifferenz bei t = 0. Diese würde zum
taylorentwickeln 0-ter Ordnung bereits genügen. Man kann jedoch auch einen Schritt weiter
gehen:
Sei > 0 beliebig, so folgt:
lim |P ((t, k)|(0, j)) − P ((t + , k)|(0, j))| =
→0
∗
3.1. EXISTENZ VON ÜBERGANGSRATEN
25
X
= lim P ((t, k)|(0, j)) −
P ((, k)|(0, i))P ((t, i)|(0, j)) ≤
∗ →0 i∈Ω
≤ lim
→0
X
i6=k
|P ((, k)|(0, i))| + |P ((, k)|(0, k))| · | P ((t, k)|(0, j)) − P ((t, k)|(0, j)) | = 0.
|
{z
}
=0
Die Gleichheit ∗ gilt durch die Chapman-Kolmogorov Gleichung. Damit ist die Funktion sogar
überall rechtsseitig stetig. Die linksseitige Stetigkeit folgt ganz analog.
3.1.2
Rechtsseitige Differenzierbarkeit von P bei 0
Um die Entwicklung fortzusetzen werden die Ausdrücke
lim
h→0+
P ((h, k)|(0, j)) − δj,k
P ((h, k)|(0, j)) − P ((0, k)|(0, j))
= lim
h→0+
h
h
untersucht.
Was ad hoc nicht klar ist, existieren diese Ausdrücke und werden gemeinhin Übergangsraten
genannt. Es gilt der folgende Satz:
Satz 3.1.3 (Existenz von Übergangsraten).
Ist X(t) ein homogener, regulärer CTDS Markov-Prozess, insbesondere also wenn er die Bedingungen 3.1.1 erfüllt, so gilt:
Die Limiten
P ((h, j)|(0, i))
ωi,j := lim
h→0+
h
und
P ((h, i)|(0, i)) − 1
h→0+
h
ωi,i := lim
existieren und werden als Übergangsraten bezeichnet.
Damit gilt
P ((h, j), (0, i)) = hωi,j + O(h2 ) und
P ((h, i), (0, i)) = 1 − hωi,i + O(h2 ).
Die Übergangsraten erfüllen überdies
X
ωi,j = 0.
j
Beweis: Der Beweis dazu (Großteils entnommen aus [Sch05]) ist sehr technischer Natur und
wird zu Übersichtszwecken in mehreren Schritten geführt.
S 1 Sei zunächst i 6= j betrachtet:
26
KAPITEL 3. MASTER GLEICHUNG
S 1.1 Bevor der Beweis geführt wird wollen (nur für diesen Beweis) einige Abkürzungen getroffen werden:
pi,j (t) := P ((t, j)|(0, i)) = P (X(t) = j|X(0) = i)
pki,j (v, h) := P (X(vh) = j, X(uh) 6= k∀1 ≤ k < j|X(0) = i)
Letztere ist für v ∈ N definiert.
Um gerade diesen Audruck ein wenig besser zu verstehen, kann man sich den Prozess mit
h zeitgetaktet in einer Art „Slot“-Notation vorstellen:
pi,j (vh) := P (X(kh)k∈{1,...,v} = [j, ·, ·, . . . , ·|i])
Wobei die zentralen Punkte illustrieren, dass diese Slots frei wählbar sind.
pki,j (vh) := P (X(kh)k∈{1,...,v} = [j, ¬k, ¬k, . . . , ¬k|i])
Ziel ist es nun, eine Formel zu finden, um pi,j (nh) alternativ auszudrücken. Klarerweise
ist
n−2
X
pi,j (nh) = P ([j, ·, . . . , ·|i]) =
P ([j, ·, . . . , ·, k, ¬k, ¬k, . . . , ¬k |i])+
|
{z
}
u=0
u
+P ([j, ¬k, . . . , ¬k|i]).
Die einzelnen Summanden lassen sich über den Satz für bedingte Wahrscheinlichkeit ausdrücken:
P (X(nh) = j|X(uh) = k, X((u − 1)h) 6= k, . . . , X(h) 6= k, X(0) = i) =
=
P (X(nh) = j, X(uh) = k, X((u − 1)h) 6= k, . . . , X(h) 6= k|X(0) = i)
.
P (X((u + 1)h) = k, X(uh) 6= k, . . . , X(h) 6= k|X(0) = i)
Die linke Seite der eben beschriebenen Gleichung wird nach der Markov-Eigenschaft nur
noch vom letzten Zustand bedingt. Umformung liefert:
P ([j, ·, . . . , ·, k, ¬k, ¬k, . . . , ¬k |i]) = pk,j ((n − u − 1)h)pki,k (u + 1, h)
|
{z
}
u
Man kann somit ersetzen:
pi,j (nh) =
n−2
X
pk,j ((n − u − 1)h)pki,k (u + 1, h) + pki,j (n, h)
(3.1)
u=0
Diese Formel gilt nun für beliebiges k ∈ Ω. Für k = j lässt sich der letzte Summand
durch pj,j (0) = 1 in die Summe ziehen:
pi,j (nh) =
n−1
X
u=0
pj,j ((n − u − 1)h)pji,j (u + 1, h).
3.1. EXISTENZ VON ÜBERGANGSRATEN
27
Für den letzten Term lässt sich eine ähnliche Aussage treffen wie der Satz von ChapmanKolmogorov, was hier, sehr ähnlich zum Beweis des Originalsatzes mit Integralen, in
„Slot“ Notation gezeigt ist. Es gilt
P ([j, ¬j, . . . , ¬j, i])
=
P ([i])
pji,j (n, h) = P ([j, ¬j, . . . , ¬j|i]) =
|
{z
}
n
n−1
}|
{
z
X P ([j, k, ¬j, . . . , ¬j, i]) X P ([k, ¬j, . . . , ¬j, i])P ([j|k])
=
=
,
P ([i])
P ([i])
k6=j
k6=j
nach dem Satz für bedingte Wahrscheinlichkeiten. Somit folgt
X j
pji,j (n, h) =
pi,k ((n − 1)h)pk,j (h).
k6=j
Setzt man dieses Resultat ein erhält man
pi,j (nh) =
n−1
X
pj,j ((n − u − 1)h)
u=0
≥ pi,j (h)
n−1
X
X
pji,k (u, h)pk,j (h) ≥
(3.2)
k6=j
pj,j ((n − u − 1)h)pji,i (u, h).
(3.3)
u=0
Aus (3.1) folgt außerdem
pi,i (uh) =
u
X
pj,i ((u − v)h)pji,j (v, h) + pji,i (u, h).
(3.4)
v=1
Diese Resultate (3.3) und (3.4) waren das Ziel des ersten Unterpunkts.
S 1.2 Aus der Regularitätseigenschaft der Wahrscheinlichkeiten kann man nun für ein beliebiges > 0 ein h0 finden, dass die Eigenschaften:
pi,j (h) < ,
1 − pi,i (h) < ,
1 − pj,j (h) < für alle h < h0 gelten. Kombiniert man nun die Endaussagen aus Punkt [1.1] und wählt
nh < h0 , erhält man
pi,j (nh) ≥ pi,j (h)
n−1
X
pj,j ((n − u − 1)h)pji,i (u, h) ≥
u=0
≥ pi,j (h)
n−1
X
u=0
(1 − )pji,i (u, h).
(3.5)
28
KAPITEL 3. MASTER GLEICHUNG
Aus Aussage (3.4) folgt
pji,i (u, h)
= pi,i (uh) −
u
X
pi,j ((u − v)h)pji,i (v, h) ≥
v=1
≥ pi,i (uh) −
≥1−−
max (pj,i ((u − v)h))
v∈{1,...,u}
u
X
u
X
pji,j (v, h) ≥
v=1
pji,j (v, h) ≥ 1 − 2.
v=1
Die letzte Summe ist stets kleiner gleich 1 da sogar
X j
pi,j (v, h) = P (Zustand j wird irgendwann angenommen|i)
v∈N
stets kleiner gleich eins ist. Setzt man diese Abschätzung nun in (3.5) ein, so erhält man
pi,j (nh) ≥ pi,j (h)
n−1
X
(1 − )(1 − 2) ≥ pi,j (h)n(1 − 3).
u=1
Damit ist man bereits fast am Ziel. Division durch nh liefert die Aussage:
Für alle > 0 existiert ein h0 sodass ∀h < h0 und alle n ∈ N gilt
pi,j (h)
pi,j (nh)
≥
(1 − 3)
nh
h
S 1.3 Sei nun und, ohnehin davon abhängig, h0 fest und angenommen, dass limh→0 pi,j (h)/h =
∞ so kann pi,j (h)/h durch Variation von h beliebig groß gemacht werden. Somit wird
nach der gezeigten Abschätzung auch pi,j (nh)/(nh) beliebig groß, unabhängig von der
Wahl von n. Sei nun n so gewählt, dass h0 /2 ≤ nh < h0 so folgt
pi,j (hn)/(hn) < /(hn) < 2/h0 .
Man erhält durch Widerspruch somit Beschränktheit und die Existenz von lim inf h→0 und
lim suph→0 des Ausdrucks, definiert nun als ai,j und bi,j . Gemäß Definition von lim sup
und lim inf erhält man sie als Limes zweier Teilfolgen
ai,j := lim pi,j (hak )/hak ,
k→∞
bi,j := lim pi,j (hbk )/hbk
k→∞
mit Nullfolgen hak und hbk . Gemäß Annahme gilt für den Quotienten
ai,j
pi,j (hak )hbk
= lim
.
k→∞ pi,j (hbk )hak
bi,j
Klarerweise kann man sich die beiden Folgen streng monoton fallend und hbk < hak
definieren. Genauso sei der Quotient hak /hbk = O(1) definiert (z.B. über Teilfolgen).
Man kann nun Chapman-Kolmogorov benutzen und erhält:
X pi,m (hb )pm,j (ha − hb )hb
ai,j
k
k
k
k
= lim
=
k→∞
bi,j
p
(h
)h
i,j
a
b
k
k
m
3.1. EXISTENZ VON ÜBERGANGSRATEN
29


hbk  X pi,m (hbk )pm,j (hak − hbk )
= lim
+ pj,j (hak − hbk )
k→∞ hak
pi,j (hbk )
m6=j
Da alle Limiten existieren müssen, kann man den Ausdruck zerlegen und getrennt zum
Limes übergehen.


X
−
h
)
p
(h
)p
(h
ai,j
h
i,m bk m,j ak
bk 
b
= lim  k
+1=
k→∞
bi,j
hak
pi,j (hbk )
m6=j
X pi,m (hb )pm,j (ha − hb )
k
k
k
+1≥1
k→∞
pi,j (hbk )
= lim
m6=j
Man erhält somit ai,j /bi,j ≥ 1. Da aber stets lim inf ≤ lim sup gilt folgt hier ai,j =
bi,j . Somit muss lim sup = lim inf = lim gelten und damit ist die Existenz des Limes
bewiesen. Da er als Quotient zweier positiver Zahlen entsteht, muss er auch positiv sein.
Man erhält die Existenz einer positiven Übergangsrate ωi,j .
S 2 Ausgehend von der Existenz der Übergangsraten ωi,j mit i 6= j ist nun die Existenz der
Rate ωi,i zu zeigen.
P
X pi,j (h)
1 − j6=i pi,j (h) − 1
pi,i (h) − 1
=
=−
h
h
h
j6=1
Da die Limiten aller Summanden existieren, folgt einerseits die Existenz des Limes
p (h)−1
limh→0+ i,i h
und andererseits sofort die Formel
X
ωi,i = −
ωi,j < 0.
(3.6)
j6=i
Die Aussage (3.6) ist wichtig und wird in den Folgekapiteln noch des öfteren verwendet.
Mithilfe von
pi,j (h) − pi,j (0) − hωi,j
lim
=0
h→0
h
folgt schon pi,j (h) = δi,j + hωi,j + o(h). Für die Folgerung
pi,j (h) = δi,j + hωi,j + O(h2 )
sei auf die Literatur ( [Sch05]) verwiesen.
Bemerkung 3.1.4.
Anzumerken ist, dass hier ob des Definitionsbereiches der Funktion nur ein einseitiger Grenzwert gefordert ist. Die Eigenschaft, die zu zeigen war, ist somit nicht äquivalent zur stetigen
Differenzierbarkeit der bedingten Wahrscheinlichkeit bei 0 und schon gar nicht zur Differenzierbarkeit der Funktion P selbst. Sie ist aber dennoch nicht trivial (vgl. Wurzelfunktion).
30
KAPITEL 3. MASTER GLEICHUNG
Ist eine Übergangsrate ωj,k von einem Zustand in einen anderen groß, so bedeutet das, dass
der Prozess stark tendiert, in diesen Zustand zu wechseln. Ist sie klein, ist wohl eher ein anderer
Zustand bevorzugt, oder der Prozess wird länger in seinem Zustand bleiben. Ist die Übergangsrate ω·,k = 0 so wird der Prozess fast sicher nicht in den Zustand k übergehen. Ist andererseits
ωk,k = 0 so wird der Prozess diesen Zustand fast sicher nicht mehr verlassen. Ist im Gegenteil
dazu ωk,k << 0 stark negativ, wird der Zustand k mit hoher Wahrscheinlichkeit bereits nach
sehr kurzer Zeit wieder verlassen.
Bemerkung 3.1.5.
Der Begriff der Übergangsrate lässt sich auch auf CS Markov-Prozesse erweitern. Man bezeichnet die resultierende stetige Funktion ω(i, j) in diesem Fall Übergangskern.
Man kann schon erkennen, dass die Übergangsraten allein bereits den Verlauf des MarkovProzesses bestimmen. Mehr noch wird das in der sogenannten Mastergleichung deutlich.
3.2
Mastergleichung
Mit den Voraussetzungen 3.1.1 und dem Wissen über die Existenz von Übergangsraten ωi,j
lässt sich nun die Chapman-Kolmogorov Gleichung umformen. Es folgt daraus die sogenannte
Mastergleichung.
Satz 3.2.1 (Mastergleichung/ Master Equation).
Die Wahrscheinlichkeitsfunktion P (t, j) eines homogenen, regulären, CT Markov-Prozesses ist
stetig nach der Zeit differenzierbar.
Die Ableitung erfüllt im ortskontinuierlichen Fall
Z
dP (t, j)
=
P (t, k)ωk,j − P (t, j)ωj,k dk, j ∈ Ω, t > 0,
dt
Ω
wobei die Übergangsraten hier als Übergangskerne verstanden sein mögen, oder im ortsdiskreten
Fall
n
dP (t, j) X
=
P (t, k)ωk,j − P (t, j)ωj,k , j ∈ Ω = {0, . . . , n}, t > 0
dt
k=0
die sogenannte Mastergleichung.
Beweis: In diesem Abschnitt ist nur der ortsdiskrete Fall bewiesen da in Folge nur noch dieser
benötigt wird. 1 Den ortskontinuierlichen Fall kann man analog zeigen.
1
Der Beweis ist dem Buch [Aok02] nachempfunden
3.2. MASTERGLEICHUNG
31
Nach der Gleichung von Chapman-Kolmogorov und dem Satz der totalen Wahrscheinlichkeit
gilt
X
P (t + h, j) =
P ((h, j)|(0, k))P (t, k) =
k∈Ω
=
X
P ((h, j)|(0, k))P (t, k) + P ((h, j)|(0, j))P (t, j) =
k6=j

=
X
P ((h, j)|(0, k))P (t, k) + 1 −
k6=j
= P (t, j) +

X
P ((h, k)|(0, j)) P (t, j) =
k6=j
X
P (t, k)P ((h, j)|(0, k)) − P (t, j)P ((h, k)|(0, j)).
k6=j
Geht man zur Schreibweise mit Übergangsraten über, so erhält man
X
P (t + h, j) − P (t, j) =
P (t, k)hωk,j − P (t, j)hωj,k + O(h2 ).
k6=j
Division durch h und der Limes h → 0 liefert den rechtsseitigen Differenzialquotienten. Da
P (t, k)ωk,k − P (t, k)ωk,k = 0 gilt, kann man den ausgeklammerten Summanden optional noch
dazunehmen, da es die Schreibweise vereinheitlicht.
Geht man von P (t, j) aus und führt die Chapman-Kolmogorov Gleichung für P (t − h, ·) aus,
erhält man, unter Ausnutzung der Stetigkeit von P , den linksseitigen Differenzialquotienten, der
mit dem rechtsseitigen übereinstimmt.
Bemerkung 3.2.2.
Im ortsdiskreten Fall lässt sich diese Differentialgleichung auch wie folgt in Matrixform schreiben.
P 0 (t) = QP (t)
Dabei gilt P := [P (t, 0), P (t, 1), . . . , P (t, n)]T und
ωi−1,j−1 , i 6= j
P
Q := (qi,j ) :=
− k6=i−1 ωi−1,k = ωi−1,i−1 ,
i=j
.
(Kolmogorov’sche Rückwärtsgleichung)
Lösungen dieser erfüllen überdies
P 0 (t) = P (t)Q.
(Kolmogorov’sche Vorwärtsgleichung)
Die Matrix Q wird klassisch als Übergangsmatrix bezeichnet.
Man erhält die vermutete Aussage, dass Markov-Prozesse von ihren Übergangsraten eindeutig bestimmt sind. Ausgehend von einer Anfangsdichte kann man also für jeden Zustand und
jede Zeit durch das DG-System die Wahrscheinlichkeitsdichte berechnen und benötigt lediglich
Wissen über die Anfangskonfiguration und die Übergangsraten. Man befindet sich an dem in
32
KAPITEL 3. MASTER GLEICHUNG
Kapitel 2 erwähnten Punkt, dass mit rein analytischen Mitteln die Verteilung des stochastischen
Modells errechnet werden könnte.
Leider ist im allgemeinen die Anzahl der Zustände sehr groß und die Differentialgleichung stark
gekoppelt, womit sie kaum lösbar wird. Nachdem das Prinzip im Anschluss auf agentenbasierte
Modellierungen angewendet werden soll, kann man aber die Gleichung sowie die Bedingungen
3.1.1 weiterentwickeln.
3.3
3.3.1
Kramers Moyal Entwicklung
Voraussetzungen
Man betrachtet nun ein mikroskopisches Modell bestehend aus N Agenten A1 , . . . , AN mit
gemeinsamen endlichen Zustandsraum {0, 1, . . . , d}, wobei der Zustand jedes dieser Agenten
einem CTDS Markov-Prozess m1 (t), . . . , mN (t) folgt.
mi (t) : [0, tend ] → {0, 1, . . . , d}
Nachdem als Ergebnis der stochastischen Mikrosimulation kaum der Pfad eines einzelnen MarkovProzesses von Interesse ist, sei die Zustandsvariable Xk (t) definiert als die Summe aller Agenten
im selben Zustand zum Zeitpunkt t.
Xk (t) :=
N
X
δmi (t),k
i=1
Wie bewiesen, ist auch dieser Prozess markovsch, und gemäß Satz 2.3.4 dürften die Übergangsraten dieser Agenten auch vom Zustandsvektor abhängen. Es sind also Markov-Prozesse mit
bedingten Wahrscheinlichkeiten der Form
~
P (mi (t + h) = j) = P (mi (t + h) = j|mi (t), X(t))
zulässig. D.h. insbesondere dürfen auch die Übergangsraten vom Zustandsvektor abhängen.
Es gilt nun
Xk : [0, tend ] → {0, . . . , N }.
Des weiteren wird in Folge bevorzugt der zugehörige normierte Markov-Prozess betrachtet
xk (t) =
Xk (t)
: [0, tend ] → {0, N −1 , . . . , 1},
N
dessen Wahrscheinlichkeitsfunktion bzw. Dichte pk nun „fast“ schon stetig auf [0, 1] ist.
In Folge wird die eben erwähnte Dichte pk des normierten Prozesses nach allen Regeln der Kunst
auf vielerlei Arten Taylor-entwickelt und umgeformt, ohne das tatsächlich tun zu dürfen. Die
Dichte (Wahrscheinlichkeitsfunktion) ist für endliches, wenn auch großes, N immer noch lediglich auf einer diskreten Menge definiert und dementsprechend natürlich nirgends bzgl. der
Ortsvariablen differenzierbar. Diese Probleme lassen sich zwar mit Interpolationsargumenten
unter Inkaufnahme von gewissen Fehlern außer Kraft setzen, doch verwirren diese an dieser
3.3. KRAMERS MOYAL ENTWICKLUNG
33
Stelle nur. Dafür sei auf das Kapitel 3.5 verwiesen. Man setzt also zum jetzigen Zeitpunkt
einfach hinreichende Regularität der Dichte vorraus, womit die Interpolationsbedingungen
hinterher auf natürliche Weise entstehen und nachvollziehbarer sind.
Zusätzlich wird der Beweis bzw. die Entwicklung dem Buch [Aok02] nachempfunden, zunächst
für ein eindimensionales Problem geführt - d.h. mk (t) = 0 oder 1 D.h. es existieren genau zwei
Zustände, wobei der Zustandsvektoreintrag des zweiten Zustandes aus jenem des Ersten folgt.
Der mehrdimensionale Fall ist unübersichtlich, funktioniert aber analog. Diese Resultate werden
im Kapitel 5 behandelt.
Bedingung 3.3.1.
(Voraussetzungen für Kapitel 3.3.)
Bezeichnung
N
A1 , . . . , A N
m1 (t), . . . , mN (t)
mk (t) : [0, tend ] → {0, 1}
P
X(t) = N
i=1 δmi (t),1
P (k, t) : {0, 1, . . . , N } × [0, tend ] → [0, 1]
x(t) := X(t)
N
−1
p(kN , t) ∈ C ∞ ([0, 1] × [0, tend ], [0, 1])
i, j, k ∈ {0, 1, . . . , N }
x, y, z ∈ [0, 1]
ωk,j
ωk,j = ω(k, j) : {1, . . . , N }2 → R
X(0) = k0 , x(0) = kN0 = x0
Definition
Anzahl der Agenten/Markov-Prozesse
Agenten
Markov-Prozesse
Raum der Prozesse
Anzahl der Agenten im Zustand 1
Wahrscheinlichkeitsfunktion von X(t)
normierter Prozess
Dichte des normierten Prozesses
unter Vorraussetzung von Regularität
und Anfangswert
Variablen aus dem Zustandsraum
Variablen aus dem erweiterten,
normierten Raum
Übergangsraten der Zustandvariable X(t)
Definitions/Zielbereich der Raten
Anfangswert der Prozesse
Nutzt man nun die Eigenschaft, dass p, wie in 3.5 definiert 2 , immer noch Wahrscheinlichkeitsfunktion eines DS Markov-Prozesses ist, gilt für diese genauso die Mastergleichung
X
p0 (t, x) =
p(t, y)ω̃y,x − p(t, x)ω̃x,y , ∀x ∈ {0, N −1 , . . . , 1}.
(3.7)
y6=x,y∈{0,N −1 ,...,1}
Hierbei steht ω̃ für die Übergangsraten des normierten Prozesses.
Bemerkung 3.3.2.
Überdies ist hier, sowie auch in Folge, die Variable x nicht mit dem Prozess selbst zu verwechseln. Die Wahl der Variable führt darauf zurück, dass x am besten den Raum-Unterschied
verdeutlicht, da es nun im Gegensatz zu k für eine kontinuierliche Größe steht.
2
N
−1
d.h. die Werte der interpolierten Dichte und der diskreten Wahrscheinlichkeitsfunktion stimmen bei allen
k bis auf einen sich kürzenden Faktor N überein
34
KAPITEL 3. MASTER GLEICHUNG
Überlegt man sich nun, dass
X(t)
k X(0)
k0
P (X(t) = k|X(0) = k0 ) = P
= |
=
= x0 = p x(t) = N −1 k|x(0) = x0
N
N N
N
gilt, lassen sich die Übergangsraten des normierten und des ursprünglichen Markov-Prozesses
trivial ineinander überführen.
ω̃x,y = ωN x,N y
Es gilt somit
p0 (t, x) =
X
p(t, y)ωN y,N x − p(t, x)ωN x,N y ,
∀x ∈ {0, N −1 , . . . , 1}.
y6=x,y∈{0,N −1 ,...,1}
3.3.2
Taylorentwicklung
Gegen Mitte des 19.Jahrhunderts entwickelten der niederländische Physiker Hendrik Kramers
und der in Jerusalem geborene Australier José Enrique Moyal die Idee, die Dichtefunktion in
ihrer Mastergleichung (dort in Integralform), die bei deren Arbeit durch Aufenthaltswahrscheinlichkeiten von „Random-Walk“-Teilchen entstand, bzgl. der Sprungweite in eine Taylorreihe zu
entwickeln.
Definition 3.3.3 (Sprungweite).
Die Sprungweite R für einen CTDS Markov-Prozess, der in einem Zeitpunkt die Möglichkeit
hat, vom Zustand k in den Zustand j überzugehen, ist definiert als
R := k − j
Damit erhält man für N x − N y = R die Taylorreihenentwicklung:
p(t, y)ωN y,N y+R =
−R ∂p(t, x)ωN x,N x+R (−R)2 ∂ 2 p(t, x)ωN x,N x+R
+
+ ...
N
∂x
2N 2
∂x2
Die Taylorreihenentwicklung kann man im Fall von Kramers und Moyal auch sinngemäß rechtfertigen, da nicht anzunehmen ist, dass sich Teilchen innerhalb eines kleinen Zeitintervalls sehr
weit von ihrem Ausgangspunkt entfernen. Auch hier ist diese Rechtfertigung durchaus zutreffend, wenn man annimmt, dass sich die Zustandsvariable der Mikrosimulation weitestgehend
stabil verhält. Später wird dieser Gedanke sogar noch erweitert.
Setzt man die Taylorentwicklung in die Mastergleichung ein, so erhält man


X X (−R)m ∂ m p(t, x)ωN x,N x+R
 − p(t, x)ωN x,N x−R =

p0 (t, x) =
m!N m
∂xm
= p(t, x)ωN x,N x+R +
R6=0
m≥0
3.4. FOKKER-PLANCK-GLEICHUNG
= p(t, x)
X
35
(ωN x,N x+R − ωN x,N x−R ) +
R6=0
|
{z
}
I
X X (−R)m ∂ m p(t, x)ωN x−R,N x
.
m!N m
∂xm
R6=0 m>0
|
{z
}
II
I Da über alle R 6= 0 Summiert wird vereinfacht sich Ausdruck I zu
X
X
X
(ωN x,N x+R − ωN x,N x−R ) =
ωN x,N x+R −
ωN x,N x+R = 0.
R6=0
R6=0
R6=0
II Der einzig übrige Teil der Gleichung ist dann
X X (−R)m ∂ m p(t, x)ωN x,N x+R
=
m!N m
∂xm
R6=0 m>0
=
X
m>0
m
1 ∂ p(t, x)
m!N m
P
m
R6=0 (−R) ωN x,N x+R
.
∂xm
Die Gleichung
0
p (x, t) =
X
m>0
m
1 ∂ p(t, x)
m!N m
P
R6=0 (−R)
∂xm
mω
N x,N x+R
,
∀x ∈ {0, N −1 , . . . , 1}
(3.8)
war das Ziel dieser Entwicklung. Man beachte hier for allem, wie das N in negativer Potenz
vorkommt, und geschlossene Momentenfunktionen mit den Übergangsraten entstehen.
Ähnlich wie für die Dichte selbst, muss ab sofort auch von den Übergangsraten stetige Differenzierbarkeit bzgl. x verlangt werden. D.h.:
ωN x,N x+R = ω(x, R) : [0, 1] × {R1 , R2 , . . . , RN } → R, ω ∈ C ∞ ([0, 1], R).
Sinngemäß seien die Voraussetzungen 3.3.1 erweitert. Rechtfertigung für die Differenzierbarkeit
liefert ein Interpolationsargument, welches in Kapitel 3.5 zu finden ist.
3.4
3.4.1
Fokker-Planck-Gleichung
Polynomdarstellung für die Übergangsraten
Ziel dieses Unterkapitels ist es nun, die komplette Abhängigkeit von N aus den Übergangsraten
herauszuziehen. Hierzu verlangt man von den mittlerweile als stetig differenzierbar vorausgesetzten Übergangsraten die folgende Darstellungsform:
Bedingung 3.4.1.
ωN x,N x+R = f (N )(Φ1 (x, R) + N −1 Φ2 (x, R) + N −2 Φ3 (x, R) + . . . )
mit f (N ) > 0 und Φi (x, R) mindestens zweimal stetig differenzierbar, beschränkt und unabhängig von N . In den meisten Fällen gilt f (N ) = N oder f (N ) = 1.
36
KAPITEL 3. MASTER GLEICHUNG
Diese Bedingung ist nicht besonders scharf. Meistens treten die Raten ohnehin als Polynome
in N auf und lassen sich dementsprechend nach N −1 Taylor-entwickeln.
Einsetzen in die umgeformte Mastergleichung 3.8 liefert:
X f (N ) ∂ m p(t, x)
p0 (x, t) =
m!N m
m
R6=0 (−R) (Φ1 (x, R)
∂xm
P
m>0
+ N −1 Φ2 (x, R) + . . . )
.
Mittlerweile wird der Grundgedanke, mit dem diese Umformungen verbunden sind, klar. Einerseits sind für große Agentenzahlen N die Ausdrücke N −k , k ∈ N klein, und durch die beschränkten und von N unabhängigen Funktionen kann man Abschätzungen mit O(N −k ) durchführen. Andererseits entwickelt man auf diese Art und Weise Gleichungen, die nur noch direkt
von der Agentenzahl abhängen, sodass deren Lösungen für unterschiedliche Agentenzahlen vergleichbar werden.
Den gegebenenfalls störenden Term f (N ) eliminiert man mit der Zeittransformation:
τ=
f (N )
t.
N
(3.9)
Da die entstehende Ableitung nur auf der linken Seite durch die innere Ableitung einen neuen
Term hervorbringt, der sich mit einem Term auf der rechten Seite kürzt, erhält man:
X
∂ m p(τ, x)
1
∂p(x, τ )
=
∂τ
m!N m−1
P
R6=0 (−R)
m (Φ
1 (x, R)
∂xm
m>0
+ N −1 Φ2 (x, R) + . . . )
(3.10)
Selbst, wenn man nun Terme mit negativer Potenz in N vernachlässigte, erhielte man „ nur “
eine partielle Differenzialgleichung. Um das in den Griff zu bekommen, bedient man sich eines
Tricks.
3.4.2
Substitution der Variable x
Man definiere eine Funktion (Zufallsvariable) ξ(τ ) und eine Hilfsfunktion φ(τ ), beide mindestens einmal stetig differenzierbar, durch
1
x = φ(τ ) + N − 2 ξ
Die bislang unabhänige Variable wird damit auf einmal zeitabhängig. Um die Zerlegung eindeutig zu definieren, müssen zunächst die Startwerte φ(0), ξ(0) bestimmt werden. Da zum Zeitpunkt
1
0 der Markov-Prozess den Wert x0 fast sicher annimmt gilt auf jeden Fall x0 = φ(0)+N − 2 ξ(0).
Es macht also Sinn
φ(0) = x0 , und ξ(0) = 0 fast sicher
zu definieren. Die Dichte p(τ, x) wird nun unter
1
Π(τ, ξ) := p(τ, φ(τ ) + N − 2 ξ(τ ))
3.4. FOKKER-PLANCK-GLEICHUNG
37
weitergeführt. Zusätzlich gilt die Gleichung:
0=
1 ∂ξ(τ )
∂φ(τ )
+ N−2
.
∂τ
∂τ
Vor den allerletzten Umformungen werden noch einmal die gesammelten Voraussetzungen und
Bedingungen zusammengefasst.
Bedingung 3.4.2.
(Voraussetzungen für Kapitel 3.4.2.)
Bezeichnung
N
A1 , . . . , AN
m1 (t), . . . , mN (t)
mk (t) : [0, tend ] → {0, 1}
P
X(t) = N
i=1 δmi (t),1
P (k, t) : {0, 1, . . . , N } × [0, tend ] → [0, 1]
x(t) := X(t)
N
−1
p(kN , t) ∈ C ∞ ([0, 1] × [0, tend ], [0, 1])
i, j, k ∈ {0, 1, . . . , N }
x, y, z ∈ [0, 1]
R := k − j = N y − N x
ωk,j
ωk,j = f (N )(Φ1 (x, R) + N −1 Φ2 (x, R) + . . . )
Φi (x, R) : [0, 1] × {R1 , . . . } → [−c, c]
Φi ∈ C ∞ ([0, 1], [−c, c])
X(0) = k0 , x(0) = kN0 = x0
τ = N −1 f (N )t
1
x = φ(τ ) + N − 2 ξ(τ )
Π(τ, ξ) := p(τ, x)
φ(0) = x(0), ξ(0) = 0
Definition
Anzahl der Agenten/Markov-Prozesse
Agenten
Markov-Prozesse
Raum der Prozesse
Anzahl der Agenten im Zustand 1
Wahrscheinlichkeitsfunktion von X(t)
normierter Prozess
Dichte des normierten Prozesses
unter Vorraussetzung von Regularität
und Anfangswert
Variablen aus dem Zustandsraum
Variablen aus dem erweiterten,
normierten Raum
Sprungweite
Übergangsraten der Zustandvariable X(t)
Polynomdarstellung der Raten
beschränkt und
stetig differenzierbar
Anfangswert der Prozesse
Zeittransformation
Substitution
neue Dichte
Anfangswert
Nach der Kettenregel lassen sich die Ableitungen nun neu bestimmen
1
∂p(φ(τ ) + N − 2 ξ(τ ), τ )
∂Π(ξ, τ ) ∂ξ(τ ) ∂Π(ξ, τ )
=
+
=
∂τ
∂ξ
∂τ
∂τ
√ ∂Π(ξ, τ ) ∂φ(τ ) ∂Π(ξ, τ )
=− N
+
.
∂ξ
∂τ
∂τ
38
KAPITEL 3. MASTER GLEICHUNG
Die letzte Gleichheit ist der Schlüssel dazu, eine gewöhnliche Differentialgleichung von der
partiellen DG 3.10 abzuspalten. Desweiteren gilt
!m
√
1
∂ m p(φ(τ ) + N − 2 ξ(τ ), τ )
∂ m Π(ξ, τ ) ∂ N (x − φ)
=
=
∂xm
∂ξ m
∂x
=
∂ m Π(ξ, τ ) m
N2.
∂ξ m
Einsetzen in 3.10 liefert
m
=
X
m>0
N2
m!N m−1
√ ∂Π(ξ, τ ) ∂φ(τ ) ∂Π(ξ, τ )
+
=
− N
∂ξ
∂τ
∂τ
P
∂ m Π(τ, ξ) R6=0 (−R)m (Φ1 (x, R) + N −1 Φ2 (x, R) + . . . )
X N − m2 +1 ∂ m Π(τ, ξ)
=
m!
m>0
∂ξ m
m
R6=0 (−R) (Φ1 (x, R)
∂ξ m
P
+ N −1 Φ2 (x, R) + . . . )
=
.
Man erkennt leider immer noch störende x Terme innerhalb der Übergangsraten. Diese werden
ebenfalls mittels Taylorentwicklung von x bei φ(τ ) eliminiert:
1
Φi (x, R) = Φi (φ(τ ), R) + N − 2 ξ(τ )(Φi )x (φ(τ ), R) + O(N −1 )
Ab dieser Stelle kann man die Gleichung auf Grund ihres Umfanges nicht mehr in ihrer Gesamtheit betrachten. Man erkennt innerhalb der unendlichen √
Summen genau einen Term, sowohl
links, als auch rechts, der eine postive Potenz in N , genauer N , als Faktor hat, und einen Term
1
links sowie zwei Terme rechts der Ordnung N 0 . Alle weiteren Terme sind zu einem O(N − 2 )
zusammengefasst:


X
√ ∂Π ∂φ ∂Π √
∂Π
− N
+
= N
Φ1 (φ, R)(−R) +
∂ξ ∂τ
∂τ
ξ
R6=0


2
X
X
1
∂Π
∂ Πξ
+
(Φ1 )x (φ, R)(−R) +
Φ1 (φ, R)(−R)2  + O(N − 2 )
∂ξ
∂ξ 2
R6=0
3.4.3
R6=0
Resultierende Gleichungen
Die wichtigste Aussage dieser Gleichung ist nun, dass bei einem Koeffizientenvergleich bzgl. N
der Terme höchster Ordnung die partielle Ortsableitung der Dichte Π wegfällt und nur noch der
Term
X
∂φ
=
Φ1 (φ, R)R
(3.11)
∂τ
R6=0
3.5. INTERPOLATION
39
übrig bleibt. Die Lösung dieser ODE erster Ordnung liefert nun den zeitlichen Verlauf der Kurve
φ mit Anfangswert φ(0) = x0 bei bekannten Übergangsraten für X. Die Bedeutung und Wichtigkeit dieser Kurve wird im Kapitel 4 besprochen.
Hat man die Lösung der Gleichung 3.11 gefunden, so dominieren in der partiellen DG nur noch
die Terme 0-ter Ordnung. Man erhält
∂Π
∂Π X
∂ 2 Πξ X
=
(Φ1 )x (φ, R)(−R) +
Φ1 (φ, R)(−R)2 .
(3.12)
∂τ
∂ξ
∂ξ 2
R6=0
R6=0
Diese partielle Differentialgleichung erlaubt es nun, sofern sie lösbar ist, eine mit Ordnung
1
N − 2 approximative Lösung der Dichte p(t, x) zu ermitteln, indem man hinterher die Argumente rücksubstituert. Gleichungen dieser, bzw. erweitert definiert sogar der Form
∂u(x, t)
∂u(x, t)a(x, t) ∂ 2 u(x, t)b(x, t)
=
+
∂t
∂x
∂x2
werden klassischerweise Fokker-Planck-Gleichung genannt. Es seien aus diesem Anlass die
Größen:
X
α(φ) :=
Φ1 (φ, R)R ⇒ φτ = α(φ)
R6=0
und
αx (φ) := −
X
(Φ1 )x (φ, R)R, β(φ) :=
R6=0
1X
Φ1 (φ, R)R2
2
R6=0
definiert.
⇒ Πτ = (Πξ)ξξ β(φ) + Πξ αx (φ)
Es ist nun an der Zeit, die durchgeführten Umformungen, respektive die Bedingungen 3.3.1 und
3.4.2 zu rechtfertigen.
3.5
3.5.1
Interpolation
Histogramm
Geht man lediglich von den Bedingungen 3.1.1 aus, sind sämtliche Umformungen der Mastergleichung, die im Anschluss vorgenommen wurden, schlichtweg falsch. Einerseits wurde die
gemäß 3.1.1 als diskrete Wahrscheinlichkeitsfunktion definierte Dichte p(t, x) als beliebig oft
stetig bzgl. der Ortsvariable differenzierbar angenommen. Andererseits wurde selbiges in 3.4.2
auch von den Raten gefordert. Es wird nun gezeigt, dass die Mastergleichung nicht zwingend
auf die diskrete Dichte p angewandt werden muss, damit das Resultat schlussendlich für alle
diskreten Werte aus dem Zustandsraum von x(t) korrekt ist und trotzdem Aussagen über die
diskrete Wahrscheinlichkeitsfunktion zulässig sind. Es wird in Folge das Zeitargument, da nicht
von Bedeutung, in diesem Kapitel meist weggelassen.
Im Allgemeinen führt der Weg von der diskreten Wahrscheinlichkeitsfunktion zu einer kontinuierlichen Dichte nicht an der Diracverteilung bzw. dem Begriff der Deltadistibution vorbei.
Ist
−1
p : 2{0,N ,...,1} → [0, 1] : A 7→ p(A)
40
KAPITEL 3. MASTER GLEICHUNG
eine diskrete Wahrscheinlichkeitsfunktion, so ist
pd : [0, 1] → [0, 1] :
X
x 7→ pd (x) :=
p(k)δ0 (x − k)
k∈{0,N −1 ,...,1}
die zugehörige Dichtefunktion auf dem erweiterten kontinuierlichen Bereich [0, 1], denn es gilt
Z
X
pd (x)dx =
p(x) = p(A).
A⊆{0,N −1 ,...,1}
x∈A
In diesem Fall wählt man jedoch einen anderen Zugang. Man definiere:
pcont : [−
1
1
,1 +
] → [0, 1] :
2N
2N
X
1[k−
x 7→ pcont (x) :=
k∈{0,N −1 ,...,1}
1
2N
1 (x)N p(x)
,k+ 2N
]
Die so definierte, kontinuierliche (wenn auch noch lange nicht differenzierbare) Funktion erfüllt
Z
1
kN −1 + 2N
1
kN −1 − 2N
pcont (x)dx = p(kN −1 )
sowie
Z
1
1+ 2N
1
− 2N
pcont (x)dx = 1 =
N
X
p(kN −1 ) = p(Ω).
k=0
Sie ist also eine Wahrscheinlichkeitsdichte. Am leichtesten stellt man sich dieses Konstrukt in
Form eines Histogrammes dar. Eine Skizze dazu findet sich in Abbildung 3.1.
Um die weitere Vorgehensweise rechtzufertigen sei noch einmal daran erinnert, dass das Ziel
des Verfahrens ist, ein besseres Verständnis der Verteilung zu gewinnen. Insbesondere also sind
die Größen Erwartungswert und Varianz von Bedeutung.
Definition 3.5.1 (Erwartungswert einer Zufallsvariable).
Sei X eine Zufallsvariable auf Ω verteilt mit Dichte (Wahrscheinlichkeitsfunktion) P so bezeichnet man die deterministische Größe
Z
E(X) := P (X)XdX
Ω
als Erwartungswert der Zufallsvariable. Ist Ω diskret, so geht das Integral bzgl. dem Zählmaß in
eine Summe über.
3.5. INTERPOLATION
41
Definition 3.5.2 (Varianz einer Zufallsvariable).
Sei X eine Zufallsvariable auf Ω verteilt mit Dichte(Wahrscheinlichkeitsfunktion) P so bezeichnet man die deterministische Größe
Z
V(X) := P (X)(X − E(X))2 dX
Ω
als Varianz der Zufallsvariable. Ist Ω diskret, so geht das Integral bzgl. dem Zählmaß in eine
Summe über.
Das Besondere an der Wahl der, auf diese Art kontinuierlich definierten, Dichte ist nun, dass
Erwartungswert und Varianz mit nur kleinen Fehlern (N sei weiterhin als „groß“ angenommen)
erhalten bleibt: Sei xcont eine mit der Dichte pcont Verteilte, kontinuierliche Zufallsvariable mit
1
1
Werten in [− 2N
, 1 + 2N
] so gilt:
E(xcont ) =
=
N
X
Z
1
1+ 2N
1
− 2N
p(kN
−1
pcont (x)xdx =
N Z
X
k=0
Z
)N
1
kN −1 + 2N
xdx =
1
kN −1 − 2N
k=0
1
kN −1 + 2N
xN p(kN −1 )dx =
1
kN −1 − 2N
N
X
p(kN −1 )kN −1 = E(x).
k=0
Um Ähnliches für die Varianz zu erhalten, wird der Verschiebungssatz von Steiner definiert und
bewiesen.
Satz 3.5.3 (Verschiebungssatz von Steiner).
Sei X eine Zufallsvariable so gilt
V(X) = E(X 2 ) − E(X)2
sofern beide Ausdrücke existieren.
Beweis:
V(X) = E((X − E(X))2 ) = E(X 2 − 2E(X)X + E(X)2 ) =
= E(X 2 ) − 2E(E(X)X) + E(E(X)2 ) = E(X 2 ) − 2E(X)E(X) + E(X)2 E(1) =
= E(X 2 ) − 2E(X)2 + E(X)2 = E(X 2 ) − E(X)2
42
KAPITEL 3. MASTER GLEICHUNG
Gemäß dem Verschiebungssatz von Steiner 3.5.3 gilt für die Varianz:
E(x2cont )
=
N
X
p(kN
−1
Z
)N
=
∗
x2 dx =
∗
1
kN −1 − 2N
k=0
N
X
1
kN −1 + 2N
p(kN −1 )(kN −1 )2 + O(N −2 ) = E(x2 ) + O(N −1 )
k=0
⇒ V(xcont ) = V(x)+O(N −1 )
Die Gleichheit ∗ rechnet sich leicht nach:
Z kN −1 + 1
2N
(kN −1 +
N
x2 dx = N
1
kN −1 − 2N
=N
N −1 (kN −1 +
(kN −1 )2 +
1 2
2N )
+ (kN −1 +
1 3
2N )
− (kN −1 −
3
1
−1
2N )(kN
−
1
2N )
1 3
2N )
=
+ (kN −1 −
3
+ (kN −1 )2 +
1 2
2N )
=
1
+ (kN −1 )2 − 4N1 2
1
4N 2
= (kN −1 )2 +
3
12N 2
Man sieht, dass die wesentlichen Größen, die zum Arbeiten mit einer Verteilung von Nöten sind,
bis auf ein O(N −1 ) erhalten bleiben. Kennt man also Erwartungwert und Varianz von xcont , so
auch approximativ von x.
Die definierte Funktion pcont ist also eine kontinuierliche Dichte, die die wichtigsten Parameter
der diskreten Verteilung approximiert.
=
3.5.2
1
4N 2
Differenzierbare Approximation
Ausgehend von der Histogramm-artigen, stückweise konstanten Dichte, kann man versuchen,
diese mit einer hinreichend oft differenzierbaren Funktion zu approximieren. Man überlegt zunächst, welche Bedingungen an die Approximationsfunktion pi gestellt werden müssen:
Bedingung 3.5.4.
(Interpolationsbedingungen).
pi sei hinreichend (beliebig) oft differenzierbar.
Die Bedingung wird für die Kramers-Moyal Entwicklung benötigt.
1
pi : [− 2N
,1 +
1
2N ]
→ [0, 1]
pi (x) = N p(x), ∀x ∈ {0, N −1 , . . . , N }
Da die Dichte pi (noch nicht einmal die Dichte pcont ) keinen Markov-Prozess beschreiben muss, gilt auch nicht zwingend die Mastergleichung. Die hier geforderte Relation zwischen pi und p erlaubt das Einsetzen immerhin für gewisse diskrete Punkte ({0, N −1 , . . . , 1}).
1
R kN −1 + 2N
1
kN −1 − 2N
pi (x)dx = p(kN −1 )
Mit dieser Bedingung ist die Funktion pi erst eine Dichte.
3.5. INTERPOLATION
1
R kN −1 + 2N
1
kN −1 − 2N
43
xpi (x)dx = kN −1 p(kN −1 )
Mit dieser Bedingung bleibt der Erwartungswert erhalten.
1
R kN −1 + 2N
1
kN −1 − 2N
x2 pi (x)dx = (kN −1 )2 p(kN −1 )
Mit dieser Bedingung bleibt sogar die Varianz erhalten.
1
1
1
1
pi (− 2N
) = pi (1 + 2N
) = p0i (− 2N
) = p0i (1 + 2N
)=0
Diese Bedingung wird in Kapitel 4 noch benötigt.
Die nachstehende Abbildung 3.1 zeigt die Bedingungen auf graphischem Weg zusammengefasst. Nachdem Polynome beliebig oft stetig differenzierbar sind, würde ein solches die erste
Np(2/N)
Np(1/N)
Np(0)
Np(1)
0
1/N
2/N
1/N
1
Abbildung 3.1: Approximation von p mit pcont bzw. pi
Bedingung natürlich erfüllen. Bevor das Polynom pi (x) aber nun durch Interpolation gefunden
werden kann, muss noch der Grad des Interpolationspolynoms bestimmt werden und zusätzlich
festgestellt werden, ob die gestellten Bedingungen 3.5.4 überhaupt erfüllt werden können, d.h.
linear unabhängig und nicht widersprüchlich sind.
Zählt man alle geforderten Bedingungen zusammen erhält man:
44
KAPITEL 3. MASTER GLEICHUNG
Anzahl Bedingungen
N
N
N
N
4
4N + 4
Typ der Bedingung
klassische Interpolationspunkte
Bedingungen an die Stammfunktion von pi (x)
Bedingungen an die mit x multiplizierte SF von pi (x)
Bedingungen an die mit x2 multiplizierte SF von pi (x)
Bedingungen an den Rand
Polynomgrad des Interpolationspolynoms
Damit folgt formal angeschrieben
pi (x) =
4N
+4
X
an xn .
n=0
Es werden nun für alle Typen von Bedingungen die resultierenden Gleichungen aufgestellt, um
sicherzustellen, dass die Forderungen konform sind.
Für die Interpolationspunkte gilt die Gleichung
4N
+4
X
xn an = N p(x), ∀x ∈ {0, N −1 , . . . , 1}.
n=0
Die erste Integralbedingung führt zu:
"4N +4
X y n+1
n=0
⇒
4N
+4
X
(x +
n
1
#y=x+ 2N
1
y=x− 2N
1 n+1
2N )
n=0
= xp(x), ∀x ∈ {0, N −1 , . . . , 1}.
an
− (x −
n
1 n+1
2N )
an = x2 p(x), ∀x ∈ {0, N −1 , . . . , 1}
Die weiteren Intergralbedingungen führen auf
4N
+4
X
(x +
1 n+2
2N )
1 n+2
2N )
(x +
1 n+3
2N )
1 n+3
2N )
− (x −
n+1
n=0
an = p(x), ∀x ∈ {0, N −1 , . . . , 1},
sowie
4N
+4
X
− (x −
n+2
n=0
an = p(x), ∀x ∈ {0, N −1 , . . . , 1}.
Die letzten vier Bedingungen liefern
4N
+4
X
(−
n=0
4N
+4
X
1 n
1 n
) an =
(1 +
) an = 0
2N
2N
n=0
3.5. INTERPOLATION
45
4N
+4
X
n=1
4N
+4
X
1 n−1
1 n−1
n(−
)
an =
)
an = 0.
n(1 +
2N
2N
n=1
Unschwer zu erkennen, erzeugen die Divisionen durch n, n+1 und n+2 sowie die Multiplikation mit n stets linear unabhängige Gleichungen, womit die linke Seite des 4N + 4 dimensionalen
Gleichungssystems vollen Rang hat und damit invertierbar ist. Das LGS ist demnach lösbar und
liefert die Existenz eines (sogar eindeutigen) Interpolationspolynoms vom Grad 4N +4, welches
die Bedingungen 3.5.4 erfüllt.
Es verbleibt die Differenzierbarkeitsvorraussetzung an die Übergangsraten zu rechtfertigen. Dieses ist aber, verglichen mit der Differenzierbarkeit der Dichte selbst, ein Leichtes. Man definiere
ωi (y, R) := IN (ω(x, R) := ωN x,N x+R )(y, R), R 6= 0,
mit dem in dieser Kurzschreibweise angedeuteten Interpolationsoperator N -ten Grades. Nachdem nicht mehr, als die Differenzierbarkeit an den x-Werten gefordert wird, ist dieser durch die
N verschiedenen Punkte wohldefiniert (Dort wo N x+R 6∈ {0, 1, . . . , N } gilt, sei ωN x,N x+R :=
0).
Durch die Forderung 3.4.1, dass die Übergangsraten bzgl. N −1 in eine Reihe entwickelbar sind,
sind diese meist ohnehin auch bzgl. x differenzierbar und die Interpolation ist meist gar nicht
mehr notwendig.
Bemerkung 3.5.5.
Da ωi,i < 0 obwohl ωi,j > 0 ist nicht zu erwarten, dass der Interpolant im Grenzfall N → ∞ bei
R = 0 stetig sein wird. Da innerhalb der Mastergleichung aber ohnehin nur die Übergangsraten
mit von 0 unterschiedlicher Sprungweite betrachtet werden, spielt das keine Rolle.
3.5.3
Zusammenfassung
Zusammenfassend gibt es also eine für jedes t beliebig oft differenzierbare Dichte pi (t, x) (eines
1
1
zeitabhängigen Prozesses xi (t)) auf [− 2N
, 1 + 2N
] sodass die Bedingungen 3.5.4 erfüllt sind
und demnach
Z 1+ 1
N
X
2N
E(xi ) =
p(x)xdx =
p(kN −1 )kN −1 = E(x)
1
− 2N
k=0
E(x2i ) = E(x2 ) ⇒ V(xi ) = V(x)
für jedes t ≥ 0 gilt. Für jeden Wert x aus der diskreten Menge {0, N −1 , . . . , 1} ist der Funktionswert pi (t, x) mit dem N -fachen des Funktionswertes der diskreten Wahrscheinlichkeitsfunktion
p(t, x) identisch und kann damit in die Mastergleichung 3.7 eingesetzt werden.
X
p0 (t, x) =
p(t, y)ωN y,N x − p(t, x)ω(N x, N y)
y6=x
⇔
p0i (t, x) X pi (t, y)
pi (t, x)
=
ωN y,N x −
ωN x,N y
N
N
N
y6=x
46
KAPITEL 3. MASTER GLEICHUNG
⇔ p0i (t, x) =
X
pi (t, y)ωN y,N x − pi (t, x)ωN x,N y
y6=x
Die diskreten Übergangsraten können, falls nicht ohnedies bereits stetig bzgl. x differenzierbar,
getrost durch deren Interpolanten ersetzt werden:
X
p0i (t, x) =
pi (t, y)ωi (x, R) − pi (t, x)ωi (x, R)
R6=0
Damit sind die Bedingungen 3.3.1 bzw. 3.4.2 durch ein Interpolationsargument mit einer Funk1
1
tion pi erfüllt (die Einschränkung des Definitionsbereiches von [− 2N
, 1 + 2N
] auf [0, 1] spielt
keine Rolle), die immerhin die wichtigsten Eigenschaften der diskreten Dichte p erhält.
Mit einem Fehler mit negativem Exponenten in N ergeben sich die beiden Gleichungen 3.11
und 3.12.
Die Gleichung 3.12 ist eine partielle DG zweiter Ordnung. Zur eindeutigen Lösung dieser sind
Rand/Anfangsbedingungen notwendig, die nun nach den Überlegungen in diesem Unterkapitel
bestimmt werden können.
Gemäß der Definition des Anfangswertes des stochastischen Prozesses ist
0, ∀x0 6= x ∈ {0, N −1 , . . . , 1}
,
p(0, x) =
1, ∀x0 = x
und gemäß der Definition der kontinuierlichen Dichte gilt
0, ∀x0 6= x ∈ {0, N −1 , . . . , 1}
pcont (0, x) =
.
N, ∀x0 = x
Definiert man nun die Funktionenfolge (pcont (0, x))N , so ist diese Folge eine sogenannte Diracfolge. D.h. sie erfüllt
lim (pcont )N = δx0 (x).
N →∞
Als stetige Approximation der Diracfolge ist auch
lim (pi )N = δx0 (x)
N →∞
und damit ebenfalls eine Diracfolge.
Satz 3.5.6 (Anfangswert der Fokker-Planck-Gleichung 3.12).
Für großes N kann also die Dirac’sche Deltadistribution δx0 als approximative Näherung für
den Anfangswert pi (0, x) herangezogen werden. Sie erhält (schwach) die L1 Norm, den Erwartungswert E(xi ) = x0 und die Varianz V(xi ) = 0. Somit gilt
Π(0, ξ) := δ0 (ξ).
3.5. INTERPOLATION
47
Beweis:
Z
||δx0 ||L1 =
1
1+ 2N
1
− 2N
E(pi (0, x)) =
V(pi (0, x)) =
Z
1
1+ 2N
1
− 2N
Z
∞
δx0 (x) · 1dx = 1(0) = 1
δx0 (x) · 1dx =
−∞
Z
1
1+ 2N
1
− 2N
Z
δ0 (x)x0 dx = x0
−∞
2
Z
∞
δx0 (x)(x − x0 ) dx =
Π(0, ξ) = pi (0, x0 + N
∞
δx0 (x)xdx =
δ0 (x)(x − x0 )2 dx = (x0 − x0 )2 = 0
−∞
− 21
1
1
ξ) ⇒ Π(0, ξ) = δx0 (x0 + N − 2 ξ) = δ0 (N − 2 ξ) = δ0 (ξ)
KAPITEL
Analyse
In Kapitel 2 wurde bereits erwähnt, dass vor allem die zwei Parameter Erwartungswert und Varianz die Gestalt einer Verteilung maßgeblich bestimmen. (Überhaupt ist eine Verteilung genau
dann bekannt, wenn ihre momenterzeugende Funktion bekannt ist, was äquivalent zur Tatsache
ist, dass tatsächlich alle Momente bekannt sind). Es wird in diesem Kapitel gezeigt, dass aus den
resultierenden Gleichungen aus Kapitel 3 genau diese beiden Größen mit einer Fehlergenauig1
keit von O(N − 2 ) abgeleitet werden können. Diese Fehlerbreite wird zunächst vernachlässigt,
und es wird davon ausgegangen, dass p(x, t), gewonnen aus 3.12, bereits die zu betrachtende
Dichte des Prozesses ist. Im weiteren Verlauf der Analyse wird natürlich auch auf den Fehler
zur tatsächlichen, agentenabhängigen, ortsdiskreten Dichte p̂(x, t) mit tatsächlicher Mittelwertkurve φ̂(t) und Varianzkurve σˆ2 (t) eingegangen (siehe 6 und 8).
Zunächst sei ein wenig auf die Theorie der Fokker-Planck-Gleichungen eingegangen.
Die Lösung einer Fokker-Planck-Gleichung der Gestalt
∂u(x, t)
∂u(x, t)a(x, t) ∂ 2 u(x, t)b(x, t)
=
+
∂t
∂x
∂x2
wird für sinnvolle Anfangsbedingungen (z.B. wie in diesem Fall δ0 (x)) im Allgemeinen durch
die zwei zeitabhängigen Größen Drift und Diffusion bestimmt.
Erstere gibt jene Funktion an, mit der sich der Anfangspeak in der Zeit verschiebt bzw. driftet. Als Beispiel dazu kann als Spezialfall für eine diffusionslose Fokker-Planck-Gleichung die
sogenannte Transportgleichung betrachtet werden:
∂u(x, t)
∂u(x, t)a(x, t) ∂ 2 u(x, t)b(x, t)
∂u(x, t)
=
+
:= c
∂t
∂x
∂x2
∂x
Deren Lösung sind sogenannte stehende Wellen (siehe Abbildung 4.1).
Unter dem Begriff Diffusion bezeichnet man die qualitative Veränderung des Peaks selbst (höher, flacher, breiter, schmäler). Ein Beispiel für eine Fokker-Planck-Gleichung ohne Drift wäre
die sogenannte Diffusionsgleichung:
∂u(x, t)a(x, t) ∂ 2 u(x, t)b(x, t)
∂u(x, t)
∂ 2 u(x, t)
=
+
:=
−c
∂t
∂x
∂x2
∂x2
49
4
50
KAPITEL 4. ANALYSE
Abbildung 4.1: Beispiel für die Lösungskurven einer Transportgleichung
Die Lösungen dieser diffundieren, bei deltadistributioneller Anfangsbedingung, mit fortlaufender Zeit auseinander (Siehe Abbildung 4.2).
Der Nutzen des Wissens über Diffusion und Drift liegt in diesem Fall klar auf der Hand. Ist die
Abbildung 4.2: Beispiel für die Lösungskurven einer Diffusionsgleichung
Lösungskurve der Fokker-Planck-Gleichung Dichtefunktion eines zeitabhängigen Prozesses, so
ist der Driftparameter hauptverantwortlich für die zeitliche Entwicklung des Mittelwertes, und
die Diffusion beschreibt großteils die Entwicklung der Varianz.
Im Beispiel der Transportgleichung mit dem Setting aus Abbildung 4.1, verläuft der Erwartungswert der Verteilung entlang einer linearen Funktion. Die Varianz hingegen, bliebe gleich.
Im Beispiel der Diffusionsgleichung bleibt der Erwartungswert konstant (= 0) und die Varianz
vergrößert sich (im einfachsten Fall sogar linear).
Des weiteren soll nun für die Lösung der Fokker-Planck-Gleichung, die aus den Differentialgleichungen (3.11,3.12) ermittelt werden kann, zunächst der Driftparameter/Erwartungswert
bestimmt werden.
4.1. ANALYSE DER ERWARTUNGSWERTKURVE
4.1
51
Analyse der Erwartungswertkurve
1
Die heuristische Überlegung, dass durch x = N − 2 ξ + φ(τ ) und N → ∞, x → φ(τ ) konvergiert, würde φ(τ ) als Erwartungswert des Prozesses mit verschwindender Varianz im Limesfall
kennzeichnen. Man kann sich nun die berechtigte Frage stellen, warum die Anzahl der Agenten
den Erwartungswert des normierten Prozesses mit endlichem N überhaupt beeinflussen soll?
Satz 4.1.1 (Erwartungswert der Dichte p).
Ist φ Lösung von 3.11 und Π Lösung von 3.12 mit deltadistributioneller Anfangsdichte δ0 so gilt
E(ξ, τ ) = 0.
1
Mit p(x(τ )) := Π(N 2 (x(τ ) − φ(τ ))) gilt damit
E(x, τ ) = φ(τ ).
Beweis: Mit Ω := [−∞, ∞] gilt nach Definition des Erwartungswertes
Z
E(ξ, τ ) = Π(ξ, τ )ξdξ.
Ω
Desweiteren verwendet man den Taylorschen Lehrsatz und erhält Π(τ ) = Π(0) +
Durch Π(0) = δ0 und ξ(0) = 0 gilt
Z
Z
Z τ
∂Π
Π(ξ, τ )ξdξ =
δ0 ξ +
(s)ξdsdξ =
Ω
Ω
0 ∂t
τ
Rτ
∂Π
0 ∂t (s)ds.
∂ 2 Π(ξ, s)αx (s)
∂Π(ξ, s)ξβ(s)
ξ+
ξdξds =
∂x
∂x2
0
Ω
Z τ
Z
Z
2
=
β(s) Π(ξ, s)ξ ξ + Π(ξ, s)ξdξ +αx (s) Π(ξ, s)ξξ ξdξ ds.
| {z }
0
| Ω {z
}
|Ω
{z
}
Ib
Z
Z
=0+
Ia
II
Term II wird mit partieller Integration zu
Z
Z
Π(ξ, s)ξξ ξdξ = − Π(ξ, s)ξ dξ = [−Π(ξ, s)]∂Ω = 0,
Ω
Ω
da Gemäß der Randbedingungen die Randterme wegfallen. Term I ist ein wenig unhandlicher.
Der Ausdruck Ib ist gemäß Definition
Z
Π(ξ, s)ξdξ = E(ξ, s).
Ω
52
KAPITEL 4. ANALYSE
Ähnlich lässt sich Term Ia umformen.
Z
Z
2
Π(ξ, s)ξ ξ dξ = − Π(ξ, s)2ξdξ = −2E(ξ, s)
Ω
Ω
Somit gilt
E(ξ, τ ) =
Z
τ
−β(s)E(s)ds.
0
Der Erwartungswert von ξ löst also die lineare DG
E(ξ, τ )0 = −β(τ )E(ξ, τ ),
E(ξ, 0) = 0,
da ξ(0) = 0 fast sicher. Klar ersichtlich ist er auch Ruhelage der DG, womit
E(ξ, τ ) = 0
folgt.
Ist nun
1
p(x(τ )) := Π(N 2 (x(τ ) − φ(τ ))),
so gilt nach der Linearität für Erwartungswerte
1
E(x, τ ) = E(φ(τ ) + N − 2 ξ, τ ) =
1
1
= E(φ(τ ), τ ) + N − 2 E(ξ, τ ) = φ(τ ) + N − 2 · 0 = φ(τ ),
was zu zeigen war.
Man erhält damit eine sehr starke Aussage. Unabhängig von N beschreibt die Funktion φ(t)
den Drift der Verteilung aus Gleichung 3.12. Außerdem approximiert die in Gleichung 3.11 erhaltene Funktion φ den Erwartungswert des stochastischen Modells, das die Bedingungen 3.4.2
1
erfüllt, bis auf ein O(N − 2 ).
Bemerkung 4.1.2.
Darauf, wie die Lösung der i.A. recht komplizierten gewöhnlichen Differentialgleichung 3.11
gefunden werden kann, wird hier nicht eingegangen. Ist sie nicht ohnehin analytisch lösbar, so
lässt sich eine Approximation der Lösung recht genau z.B. mit einem Runge-Kutta-Verfahren
finden, da sie bereits in expliziter Form vorliegt.
4.2
Analyse der Dichte und der Varianz
Es verbleibt die partielle Fokker-Planck-Gleichung 3.12 zu lösen, um hinterher die Varianz zu
ermitteln. Man wählt dazu einen sehr heuristische Zugang, der eigentlich genau die umgekehrte
4.2. ANALYSE DER DICHTE UND DER VARIANZ
53
Richtung einschlägt. Da die Größe X(t) als Summe von Zufallszahlen entsteht, liegt die Vermutung nahe, X bzw. x sei in jedem Zeitschritt näherungsweise um den Erwartungswert φ(t)
normalverteilt. Somit wäre auch ξ um 0 mit einer Varianzfunktion σ 2 (τ ) normalverteilt.
Ansatz: ξ(τ ) ∼ Π(ξ, τ ) := p
1
−
2πσ 2 (τ )
e
ξ2
2σ 2 (τ )
So einfach und naheliegend der Ansatz mit der noch zu ermittelnden Funktion σ 2 (t) erscheinen
mag, führt er zum Ziel. Einsetzen in die Fokker-Planck-Gleichung
∂Π
∂Π
∂ 2 Πξ
=
αx (φ(τ )) +
β(φ(τ ))
∂τ
∂ξ
∂ξ 2
mit
X
αx (φ(τ )) =
(Φ1 )x (φ(τ ), R)(−R),
β(φ(τ )) =
R6=0
X
Φ1 (φ(τ ), R)(−R)2
R6=0
liefert für σ 2 6= 0 die gewöhnliche, sogar lineare DG
∂σ 2 (τ )
= −2αx (φ(τ ))σ 2 (τ ) + 2β(φ(τ )).
∂τ
(4.1)
Diese ist in manchen Fällen sogar analytisch lösbar:
2
−2
σ (τ ) = 2e
Rτ
0
αx (φ(s))ds
Z
τ
β(φ(u))e2
Ru
0
αx (φ(s))ds
du
0
Gemäß der Variablensubstitution gilt nun für die Dichte p(x, τ ) nach dem Transformationssatz
für Dichten (Integrale)
√
N (x−φ(τ ))2
N
−
σ 2 (τ )
p(x, τ ) = p
e
,
2πσ 2 (τ )
bzw. mitsamt der Zeittransformation
N
f (N ) t
√
=τ
2
N t
N x−φ
f (N )
−
N t
σ2
f (N )
N
p(x, t) = r
e
N
2
2πσ f (N ) t
.
Man erhält also eine um den Erwartungswert φ(t) verschobene Normalverteilung mit zeitabhängiger Varianz
σ 2 (τ )
V(x, τ ) =
,
N
die somit durch die Funktion σ 2 (τ ) beschrieben wird.
54
KAPITEL 4. ANALYSE
4.3
Stochastische Aussagen
Die im letzten Kapitel (3) hergeleiteten Gleichungen liefern jeweils Aussagen, die unter Vor1
raussetzung der Bedingungen 3.4.2 mit einer Genauigkeit von mindestens O(N − 2 ) zutreffen.
Folgende Aussagen können also zusammenfassend gemacht werden:
Für N → ∞ konvergiert die normierte Zustandsvariable des CT Markov-Prozess basierten Mikromodells gegen die Mittelwertkurve φ(t), die durch die Gleichung 3.11 beschrieben wird und aus den Übergangsraten des Mikromodells ermittelt werden kann.
Für N → ∞ geht die Varianz σˆ2 des CT Markov-Prozess basierten Mikromodells, wobei
1
σ̂ 2 mit einem Fehler der Ordnung N − 2 durch die Gleichung 4.1 und deren Lösung N −1 σ 2
ermittelt werden kann, gegen 01 .
1
Bis auf einen Fehler der Ordnung O(N − 2 ) beschreibt die Kurve φ(t) den zeitlichen Verlauf des Mittelwerts der Zustandsvariable des Mikromodells.
1
|φ(t) − φ̂(t)| = O(N − 2 )
Bevor Aussagen für das wiederholte Durchführen des Experiments gemacht werden, seien stochastische Grundlagen ergänzt.
Satz 4.3.1 (Starkes Gesetz der Großen Zahlen).
Es sei (Xi )i∈I eine beliebig verteilte aber unabhängige Folge von Zufallszahlen mit Erwartungswert µ und beschränkter Varianz, so gilt
!
!
M
M
1 X
1 X
P stark
lim
Xi → µ ⇔ lim P
Xi − µ = 0 = 1.
M →∞ M
M →∞
M
i=1
i=1
Für den Beweis sei auf Grundlagenliteratur für Wahrscheinlichkeitstheorie verwiesen.
Führt man nun das Mikromodell M -mal wiederholt, unabhängig voneinander aus, sind die Voraussetzungen erfüllt und es gilt:
1
Nach dem Starken Gesetz der Großen Zahlen konvergiert der Mittelwert der Ergebnisse
der wiederholten Hintereinanderausführung des CT Markov-Prozess basierten Mikromodells stark in der Wahrscheinlichkeit gegen eine Mittelwertkurve, die mit einem Fehler der
1
Ordnung O(N − 2 ), wobei N die Agentenzahl beschreibt, durch die Kurve φ(t) approximiert werden kann.
Da σ 2 Lösung einer von N unabhängigen DG ist, hat die Funktion keine Auswirkung auf die Konvergenz.
4.3. STOCHASTISCHE AUSSAGEN
55
Nach direkter Folgerung aus dem Starken Gesetz der Großen Zahlen konvergiert die Varianz des empirischen Mittelwerts2 der Ergebnisse der M -maligen Hintereinanderausführung des CT Markov-Prozess basierten Mikromodells für M → ∞ gegen 0.
Diese beiden Aussagen sind theoretisch sinnvoll, doch numerisch schlecht verwertbar. Man benötigt noch eine weitere stochastische Aussage, um die Konvergenzgeschwindigkeit unter Kontrolle zu bekommen.
Satz 4.3.2 (von Hartman-Wintner).
Sei Xi eine identisch verteilte aber unabhängige Folge von Zufallszahlen mit Mittelwert 0 und
Varianz 1 so gilt:
PM
i=1 Xi
lim sup p
= 1, fast sicher
2M ln(ln(M ))
M →∞
PM
i=1 Xi
lim inf p
= −1, fast sicher
M →∞
2M ln(ln(M ))
Für den Beweis wird auf die Literatur verwiesen ( [Sto70, 2158-2160]).
Nun folgt daraus direkt, dass für alle Xi , die den Satz erfüllen gilt:
M
1 X
Xi = O
M
r
i=1
ln(ln(M ))
M
!
Ist nun Xi verteilt mit Mittelwert µ und endlicher Varianz σ 2 , so ist X̃i :=
dass der Satz anwendbar ist. Es folgt:
M
1 X
Xi − µ = σO
M
i=1
r
ln(ln(M ))
M
(Xi −µ)
σ
so verteilt,
!
Ganz im Unterschied zum Mittelwert ist die Konvergenzgeschwindigkeit der Varianz des Mittelwerts der wiederholten Durchführung gegen 0 deutlich einfacher zu berechnen:
M
M
X
1 X
1
M
σ2
V(
Xi ) = 2 V(
Xi ) = 2 V(X1 ) =
= O(M −1 )
M
M
M
M
i=1
i=1
Somit ergeben sich zwei weitere Aussagen:
2
Man sollte im Hinterkopf behalten, dass der empirische Mittelwert der Ergebnisse der einzelnen Durchläufe als das eigentliche Simulationsergebnis betrachtet werden muss, was die Betrachtung dessen Varianz
rechtfertigt.
56
KAPITEL 4. ANALYSE
1 PM
Der Fehler | M
i=1 Xi (t) − φ̂(t)| der empirischen Mittelwertkurve gegen die tatsächlichen Mittelwertkurve des Experiments φ̂(t) (damit ist nicht die
in 3.11 beschriebene
q
ln(ln(M ))
Kurve gemeint) ist bei M -fach wiederholter Durchführung ein O
bzw. geM
nauer
!
r
M
1 X
ln(ln(M ))
||
||Xi (t) − φ(t)||∞ .
Xi (t) − φ̂(t)|| ≤ O
M
M
i=1
1 2
M σ̂ (t)
Die Varianz der Mittelwertkurve ist nach M unabhängigen Experimenten genau
der tatsächlichen Varianzkurve σ̂ 2 bei einmaligem Durchlauf.
Für die Konvergenzgeschwindigkeit der Varianz gegen 0 liefert das Verdoppeln der Agentenzahl sowie das zweifache Hintereinanderausführen und Mitteln des Experimentes dasselbe Resultat. Es hängt also vom Rechenaufwand bzw. den Ergebnissen des Experiments
ab, welches der zwei bevorzugt eingesetzt wird um die Varianz zu verringern. Sie konvergiert in beiden Fällen linear.
Wie man aus den letzten drei Punkten bereits herauslesen konnte, ist die Aussage, dass M -faches
Hintereinanderausführen des Experiments mit N -Agenten dieselben Resultate liefert wie einmaliges Ausführen mit N · M Agenten, nicht korrekt. Die Konvergenz des empirischen Mittelwertes gegen den tatsächlichen Mittelwert hängt i.A. nicht mit der Konvergenz des tatsächlichen
Mittelwertes der Mikrosimulation gegen die in 3.11 hergeleitete Kurve zusammen.
Bemerkung 4.3.3.
Die Ausnahmen in dieser Regel bilden agentenbasierte Markov-Modelle, in denen die Übergangsraten der Agenten nicht von den Zuständen des Systems abhängen. In diesem Fall ist ja
das Durchführen der Mikrosimulation und das Normieren äquivalent zum Mitteln über mehrere
Durchläufe, da die Agenten nicht voneinander abhängen, d.h. nicht miteinander „kommunizieren“.
Zusätzlich sind die Aussagen wichtig, denn:
Zusammenfassend gilt für die aus Gleichung 3.11 bestimmbare Kurve bei N Agenten einer CT Markov-Prozess basierten Mikrosimulation und M -fachen Mitteln des erhaltenen
Ergebnisses
|
M
M
1 X
1 X
Xi − φ(t)| ≤ |
Xi − φ̂(t)| + |φ̂(t) − φ(t)| =
M
M
i=1
r
=O
ln(ln(M )) − 1
N 2
M
i=1
!
+ O(N
− 12
)=O N
− 21
r
1+
Die Varianz des Ergebnisses geht mit Ordnung O( N 1·M ) gegen 0.
ln(ln(M ))
M
!!
.
4.3. STOCHASTISCHE AUSSAGEN
57
Mehrmaliges Durchführen des Versuches reicht also i.A. allein nicht aus, um Konvergenz gegen
die berechnete Kurve zu erhalten. Jedoch ist es notwendig, um schlussendlich die Erwartungswertkurven, die meist das Ziel einer stochastischen Simulation sind, überhaupt bestimmen zu
können. Will man andererseits die Lösung der Differentialgleichung mit einem adäquat zu Kapitel 3 gewählten Agentenmodell approximieren, macht einerseits die mehrfache Ausführung
des Experiments in Anbetracht des reinen Fehlers kaum Sinn, andererseits jedoch glättet es bekanntermaßen die Lösungskurve.
Alle in diesem Kapitel gebrachten Analysen, sowie die Entwicklung der Differentialgleichungen, lassen sich auch für mehrdimensionale Probleme durchführen. Da die weiteren ernstzunehmenderen Fehlerbetrachtungen auch für vektorwertige Zustandsvariablen ihre Gültigkeit behalten sollen, wird nun diese Lücke gefüllt, und die mehrdimensionale Diffusionsapproximation
vorgestellt.
KAPITEL
5
Mehrdimensionale Probleme
Um Problemstellungen mit mehr als nur zwei Zuständen analysieren zu können, wie z.B. das
SIR-Modell im Kapitel 9, ist es notwendig, die Mastergleichung und die Kramers-Moyal-Entwicklung
mehrdimensional durchzuführen und die entstehenden Differentialgleichungen für Erwartungswert und Dichte herzuleiten. Fast alle Berechnungen, die eindimensional durchgeführt werden
können, lassen sich analog auf den mehrdimensionalen Fall erweitern.
5.1
Mehrdimensionale Mastergleichung
Wie im Kapitel 3.2 nutzt man ein Interpolationsargument und verwendet die mittlerweile mehrdimensionale Dichte, als wäre sie beliebig of stetig differenzierbar.
~ ein Vektor aus Markov-Prozessen auf dem Raum
Es sei X : R+ → {0 . . . N }d , t 7→ K
{0, . . . , N }.
Der Vektor X ist verteilt mit der diskreten Dichte
~ × t 7→ P (X(t) = K|X(0)
~
~ 0 ).
P : ({0 . . . N })d × R+ → [0, 1], K
=K
Der normierte Prozess x := XN −1 ist demnach verteilt mit
~ −1 =: ~k × t 7→ P (x(t) = ~k|x(0) = ~k0 ).
p : ({0, N −1 . . . 1})d × R+ → [0, 1], KN
Die Übergangsraten sind ebenfalls definiert als
~ ~ −1
~
~ := lim P (x(h) = k + RN |x(0) = k)
ω(~k, R)
h→0
h
und
P (x(h) = ~k|x(0) = ~k)
ω(~k, ~0) := 1 − lim
.
h→0
h
59
60
KAPITEL 5. MEHRDIMENSIONALE PROBLEME
Die Definitions- und Zielbereiche der als differenzierbar vorausgesetzten Dichte und Raten haben die Form
p : [−
1
1 d
,1 +
] × R+ → [0, 1] : ~k × t 7→ I(2N +4)d (p)(~k, t)
2N
2N
1
1 d
~ 1, R
~2 . . . R
~ l } → R : ~k × R
~ 7→ IN d (ω)(~k, R)
~
,1 +
] × {R
2N
2N
mit dem Interpolationsoperator I.
ω : [−
Da die Zeit immer noch ein eindimensionaler Parameter ist, lässt sich wie auch im eindimensionalen Fall, die Chapman-Kolmogorov Gleichung herleiten, und der Ansatz
p(~j, t + h) − p(~j, t)
h
liefert, da die Mehrdimensionalität des Problems hier noch nicht zu tragen kommt, durch Limesbildung analog die Mastergleichung:
X
p(~k, t)ω~k,~j − p(~j, t)ω~j,~k
p(~j, t)0 =
~k6=~j
5.2
Mehrdimensionale Fokker-Planck-Gleichung
Da in Folge die Kettenregel verwendet wird, entstehen Ableitungen nach der Ortsvariablen und
dadurch, statt einfach Ableitungen nach x, vektorwertige Nabla-Operatoren. Vor allem bei der
mehrdimensionalen Dichte liefert das unangenehm zu behandelnde Terme.
Weil die Dichte, gemäß Voraussetzung, beliebig oft stetig differenzierbar ist, lässt sich die
~ durchführen, hier darKramers-Moyal-Entwicklung (Taylorentwicklung nach dem Sprung R)
gestellt bis zum quadratischen Term.
X
~ 1+
p(~j, t)0 =
p(~j, t)ω~k,~j + ∇ p(~j, t)ω~k,~j · R
N
~k6=~j
1 ~T ~
−3
~
R
H
p(
j,
t)ω
) − p(~j, t)ω~j,~k =
~k,~j R + O(N
2N 2
X ~ 1 + 1 R
~ T H p(~j, t)ω~ ~ R
~ + O(N −3 )
=
∇ p(~j, t)ω~k,~j · R
k,j
N
2N 2
+
~k6=~j
Dabei wurden Kürzel für Hessematrix (H), Nablaoperator (∇) und das Skalarprodukt (·) verwendet.
~ + N −1/2 ξ~ und die Zwangsbedingung φ
~ 0 = −N −1/2 ξ~0 liefert mit der
Die Substitution ~k = φ
Kettenregel
~0
~ t)0 + ∇ξ Π · ξ~0 = Π(ξ, t)0 + N 1/2 ∇Π · φ
p(~k, t)0 = Π(ξ,
und
∇p =
√
N ∇ξ Π,
H(p) = N Hξ (Π).
5.2. MEHRDIMENSIONALE FOKKER-PLANCK-GLEICHUNG
61
Gemäß Voraussetzung sind die Raten als Polynom in N −1 schreibbar.
ω(~k, R) = f (N )(Φ1 (~k, R) + N −1 Φ2 (~k, R) + . . . )
~ + N −1/2 ξ,
~ R)
~ liefert
~ um φ
Die Entwicklung von Φ1 (φ
~ + N −1/2 ξ,
~ R)
~ R)
~ R)
~ = Φ1 (φ
~ = Φ1 (φ,
~ + N −1/2 ξ~ · ∇Φ1 (φ,
~ + O(N −1 ).
Φ1 (~k, R)
Aus der Substitution der Zeit von t nach τ = tf (N )/N folgt schlussendlich die Gleichung
~τ =
Π(ξ, t)τ + N 1/2 ∇ξ Π · φ
X
~ R)
~ · R+
~
N 1/2 ∇ξ Π(~j, t)Φ1 (φ,
=
~ =0
R6
+
X
~ t)(ξ~ · ∇Φ1 (φ,
~ R))
~
~
∇ξ Π(ξ,
· R+
~ =0
R6
1 ~T
~
~
~
~ =
+ R Hξ Π(ξ, t)Φ1 (φ, R) R
2
X
~ R)
~ R+
~
Φ1 (φ,
= N 1/2 ∇ξ Π ·
~ =0
R6
+∇ξ Π ·
X
~ R))
~ R
~ +Π
(ξ · ∇Φ1 (φ,
~ =0
R6
X
~ R)
~ · R+
~
∇Φ1 (φ,
~ =0
R6
+
1 X ~T
~ R).
~ 1 (φ,
~
R Hξ (Π)RΦ
2
~ =0
R6
Vergleiche der jeweiligen Potenzen von N liefern schlussendlich die gewünschten Gleichungen.
Satz 5.2.1 (Mehrdimensionale Lösungsgleichungen der Kramers Moyal Entwicklung).
Auch für d > 2 gilt nun
~τ =
φ
X
~ R)
~ R
~
Φ1 (φ,
~ =0
R6
~ φ)
~ + ∇ξ Π · F~ (φ)
~ + g(Hξ (Π), φ)
~
Π(ξ, t)τ = Πf (ξ,
mit skalaren Funktionen f und g sowie einer vektorwertigen Funktion F~ , die wie folgt definiert
sind.
X
~ φ)
~ :=
~ R)
~ ·R
~
f (ξ,
∇Φ1 (φ,
~ =0
R6
X
~ := 1
~ R)
~ T Hξ (Π)RΦ
~ 1 (φ,
~
g(Hξ (Π), φ)
R
2
~ =0
R6
~ :=
F~ (φ)
X
~ R))
~ R
~
(ξ · ∇Φ1 (φ,
~ =0
R6
62
KAPITEL 5. MEHRDIMENSIONALE PROBLEME
Das Finden von Lösungen ist für die partielle Differentialgleichung der Dichte im Mehrdimensionalen jedoch bedeutend schwieriger als im eindimensionalen Fall.
KAPITEL
Anwendung auf zeitdiskrete
agentenbasierte Modelle
In den Kapiteln 3,5 und 4 wurde ein theoretisches Konzept erarbeitet, wie näherungsweise Varianz, Dichte und Mittelwert eines agentenbasierten CTDS Markov-Modells mittels Differenzialgleichungen bestimmt werden können. Der diskrete Zustandsraum der Agenten konnte also
bereits in einen kontinuierlichen übergeführt werden. Um schlussendlich den Bogen zu klassischen, zeitdiskreten Agentenmodellen spannen zu können, fehlt nicht mehr viel.
6.1
Motivation
Eine zeitdiskrete Herangehensweise an mathematische Probleme ist spätestens seit der Erfindung des Computers bzw. dessen Anwendung in mathematischen Forschungsbereichen unumgänglich geworden. Große Bereiche der Numerik beschäftigen sich ausschließlich mit Problemen, auf welche Weise die, klassischerweise im Alltag als kontinuierlich angenommene, Zeit
optimal diskretisiert werden kann, um den sogenannten Diskretisierungsfehler, d.h. den Fehler
der im Zuge der Vereinfachung durch die getaktete Zeit entstanden ist, möglichst gering zu halten. Was in der abstrakten Theorie als selbstverständlich genommen wird, nämlich das Perfekte,
Kontinuierliche (evt. sogar Stetige, Glatte,. . . ) mit dem Diskreten zu approximieren, verliert seit
einigen Jahren immer mehr an Generalität, wenn man die Situation nicht (nur) mehr mit den Augen des theoretischen Mathematikers, sondern mit den Augen eines Modellbildners betrachtet.
In diesem Zusammenhang kann man nämlich, im Unterschied zur theoretischen Mathematik,
die Begriffe
zeitdiskret ↔ zeitdiskretisiert
klar unterscheiden. Auf der einen Seite muss man ein Modell zeitdiskretisiert rechnen, wenn ein
kontinuierliches (analytisches) Rechnen des Modells nicht mehr möglich ist (oder es Vorteile
anderer Art mit sich bringt). Auf der anderen Seite tauchen im Alltag sehr wohl Prozesse auf,
63
6
64
KAPITEL 6. ANWENDUNG AUF ZEITDISKRETE AGENTENBASIERTE MODELLE
die zu simulieren keine Diskretisierung mehr bedürfen, da sie selbst bereits diskret sind. Klarerweise rechnet man diese Modelle dann zeitdiskret, ohne sie diskretisiert zu haben. Ein Beispiel
dazu könnte ein Raumbelegungsmodell einer Universität sein, wenn man davon ausgeht, dass
Vorlesungen oder Übungen nur im Viertelstunden-Takt beginnen oder enden können.
In diesem Kapitel wird davon ausgegangen, dass die in Kapitel 3 erarbeitete Theorie auf ein
zeitdiskretes Modell angewandt werden soll, ohne darauf Rücksicht zu nehmen, ob es ein diskretisiertes Modell ist, oder nicht. Da all die erarbeitete Theorie auf zeitkontinuierliche agentenbasierte Markov-Modellen basiert, muss das Prinzip der Diskretisierung diesmal in die entgegengesetzte Richtung erfolgen. 1
6.2
Voraussetzungen an das DT Agentenmodell
Untersucht man die Voraussetzungen 3.3.1, unter welchen das Kapitel 3.3 gültig ist, so erhält
man weitestgehend natürlich und ohne Umschweife bereits Voraussetzungen, unter welchen
ein zeitdiskretes Agentenmodell überhaupt in ein zeitkontinuierliches agentenbasiertes MarkovModell überführt werden kann.
Gegeben ist ein agentenbasiertes Modell bestehend aus N Agenten A1 , . . . , AN mit einem gemeinsamen endlichen Zustandsraum {0, 1, . . . , d}. Der Zustand jedes Agenten ist zu einem der
festen Zeitpunkte t ∈ {0, 1, . . . , T }, T ∈ N+ genau ein Element des Zustandsraumes.
Die wichtigste Voraussetzung unter welcher die Überführung überhaupt erst möglich ist, ist
klarerweise die Voraussetzung der Gedächtnislosigkeit. D.h. die Wahrscheinlichkeit, dass der
Agent seinen Zustand ändert bzw. ihn beibehält, darf nicht von den Zuständen des Systems in
den bereits vergangenen Zeitschritten abhängen:
P ((t + 1, k)|(t, jt ), (t − 1, tj−1 ), . . . , (0, j0 )) = P ((t + 1, k)|(t, jt ))
mit jn ∈ {0, 1, . . . , d}, ∀n und t ∈ {0, 1, . . . , T }. Anders gesagt bedeutet diese Definition
gleichsam, dass zu jedem Zeitpunkt jeder Agent eine gewisse Wahrscheinlichkeit (ggf. auch 0)
haben muss, in einen anderen Zustand überzugehen, der nicht von den Zuständen des Agenten in
der Vergangenheit abhängt. Sehr wohl aber darf diese Wahrscheinlichkeit gem. Satz 2.3.4 vom
Zustandsvektor abhängen! Gleichsam muss natürlich auch die Homogenität gefordert werden.
P ((t, k)|(t − 1, j)) = P ((1, k)|(0, j))
Mit dieser Definition muss der Zustand xi jedes Agenten also einem homogenen (evt. um die
Abhängigkeit vom Zustandsvektor erweiterten) DTDS Markov-Prozess m̃i folgen.
Somit kann, in Analogie zu den letzten Kapiteln, auch eine Liste an Voraussetzungen erstellt
werden, die zumindest einmal notwendige Bedingungen für eine erfolgreiche Überführung eines
agentenbasierten DTDS Modells in ein, für die Theorie taugliches, CT Mikromodell sind.
Bedingung 6.2.1.
(Voraussetzungen für das Kapitel 6.1.)
1
Wie ungewöhnlich diese Idee ist, zeigt sich darin, dass es zumindest in deutscher Sprache nicht einmal
ein Wort dafür gibt.
6.2. VORAUSSETZUNGEN AN DAS DT AGENTENMODELL
Bezeichnung
N
A1 , . . . , A n
m̃ , . . . , m̃n
PN 1
X(t) = i=1 δmi (t),1 , t ∈ {0, . . . , T }
P : {0, . . . , N } × {0, . . . , T } → [0, 1]
i, j, k ∈ {0, 1, . . . , d}
m̃i (0) = ki , ki ∈ {0, . . . , d}
65
Definition
Anzahl der Agenten/DTDS Markov-Prozesse
Agenten
DTDS Markov-Prozesse
Anzahl der Agenten im Zustand 1
Wahrscheinlichkeitsfunktion von X(t)
Variablen aus dem Zustandsraum von mi , ∀i
Anfangswert der Prozesse
Die weiteren Beobachtungen sind auf einen dieser N (ohnedies äquivalenten) MarkovProzesse konzentriert.
Viele Tatsachen lassen sich natürlich aus dem kontinuierlichen Fall übernehmen:
Die Summe X(t) der DTDS Markov-Prozesse, die schlussendlich die Systemvariable ergibt, ist für sich selbst auch ein DTDS Markov-Prozess.
Jeder einzelne Markov-Prozess wird mit einer Übergangsmatrix Q beschrieben, die für
jeden Agenten gleich ist:


P ((1, 0)|(0, 0)) P ((1, 1)|(0, 0)) . . . P ((1, d)|(0, 0))
 P ((1, 0)|(0, 1)) P ((1, 1)|(0, 1)) . . . P ((1, d)|(0, 1)) 


Q := 

..
..
..
..


.
.
.
.
P ((1, 0)|(0, d)) P ((1, 1)|(0, d)) . . . P ((1, d)|(0, d))
bzw., wenn der Markov-Prozess auch von den Zustandsvektoren abhängen darf, muss man
diese erweitern:

~ k ) P ((1, 1)|(0, 0), X
~ k ) . . . P ((1, d)|(0, 0), X
~ k) 
P ((1, 0)|(0, 0), X
 P ((1, 0)|(0, 1), X
~ k ) P ((1, 1)|(0, 1), X
~ k ) . . . P ((1, d)|(0, 1), X
~ k) 


Q=

..
..
..
..


.
.
.
.
~ k ) P ((1, 1)|(0, d), X
~ k ) . . . P ((1, d)|(0, d), X
~ k)
P ((1, 0)|(0, d), X
k ∈ {1, . . . ,
(N − 1)d 2
}.
(d − 1)!
Die Zeilensummen der Übergangsmatrix sind immer 1 und ihre Einträge stets ∈ [0, 1].
Die Übergangsmatrix ist zwar nicht zeitabhängig, sehr wohl kann sie aber wie erwähnt
zustandsabhängig sein. Dennoch ist sie auf jedem ganzem Zeitintervall [t, t + 1), t ∈
{0, . . . , T −} konstant, da sich die Zustände des Systems nur zum Zeitschritt ändern.
Bemerkung 6.2.2.
Der hier verwendete Begriff der Übergangsmatrix ist nicht mit dem Begriff der Übergangsmatrix
im zeitkontinuierlichen Fall (siehe 3.2.2) äquivalent. Hier sind die Einträge stetsP
positiv und die
Zeilensummen konstant 1 - im kontinuierlichen Fall stets 0, da Qi,i = ωi,i = − j6=i ωi,j < 0.
2
Diese Zahl gibt die Menge aller möglichen Zustandsvektoren an. Sie entspricht der Anzahl der Möglichkeiten, d − 1-Grenzen zwischen N aneinandergereihten Agenten zu platzieren, dividiert durch die Anzahl ihrer
Permutationen.
66
KAPITEL 6. ANWENDUNG AUF ZEITDISKRETE AGENTENBASIERTE MODELLE
6.3
Tempora mutantur
Man definiere nun mittels
Definition 6.3.1 (Zeitkontinuierlicher Markov-Prozess zu gegebenen zeitdiskreten
Agentenmodell gem. 6.2.1).
ωi,j : = P ((1, j)|(0, i)), i 6= j
X
ωi,i : = −
ωi,j = P ((1, i)|(0, i)) − 1
j6=i
m(0) : = m̃(0)
einen zeitkontinuierlichen Markov-Prozess. Man darf nun nicht fälschlicherweise davon
ausgehen, dass auch hier die Übergangsraten dieses Prozesses auf jedem vollen Zeitintervall
[t, t + 1), t ∈ {0, . . . , T −} konstant sind, da sich der Zustand des Systems auch währenddessen
ändern kann. Es wird nun kurz die bereits in den vergangenen Kapiteln erwähnte, Vermutung
gezeigt, dass dieser durch den Anfangswert, die Übergangsraten und die Bedingung der Homogenität eindeutig bestimmt ist.
Satz 6.3.2 (Eindeutigkeit des CTDS Markov-Prozesses).
Ein regulärer, homogener CTDS Markov-Prozess ist eindeutig durch Übergangsraten und den
Anfangswert bestimmt
Beweis: Die Summenform der Mastergleichung 3.2.1 für CTDS Markov-Prozesse bzw. auch
die Kolmogorov’sche Rückwärtsgleichung 3.2.2 ist eine gewöhnliche Differentialgleichung erster Ordnung. Im Falle von konstanten Übergangsraten ist die Differentialgleichung sogar linear
und besitzt gemäß der Theorie über lineare Differentialgleichungen eine eindeutige Lösung. Ist
nun der Markov-Prozess regulär, können innerhalb eines infinitesimalen Zeitschrittes nur endlich viele Zustandswechsel stattfinden, womit es um jeden Punkt, der nicht gerade Zeitpunkt
des Zustandswechsels ist, eine offene Umgebung gibt, auf der die Raten konstant und damit die
Lösung eindeutig ist. Ändern sich die Raten auf Grund einer Zustandsänderung des Systems
zu einem gewissen Zeitpunkt, so war der Prozess bis zu diesem Punkt eindeutig bestimmt. Der
Wert des Prozesses an diesem Punkt liefert einen neuen Anfangswert für eine ebenfalls eindeutig
lösbare, durch die neuen Raten veränderte, Differentialgleichung.
Gemäß Definition der Übergangsraten erhält man
P (m(1) = j|m(0) = i) = 1 · ωi,j + O(12 ) = P (m̃(1) = j|m̃(0) = i) + O(1)
6.3. TEMPORA MUTANTUR
67
bzw.
P (m(1) = i|m(0) = i) = 1 · (1 + αi,i ) + O(12 ) = P (m̃(1) = i|m̃(0) = i) + O(1).
Diese Aussage mag auf den ersten Blick enttäuschend sein, doch verbirgt sich hinter dem O(1)
doch ein wenig mehr. Um das einzusehen kann man die Kolmogorov’sche Rückwärtsgleichung
3.2.2 verwenden:


I0 (m(0))
I1 (m(0))


0
P (t) = QP (t), P (0) = 

..


.
Id (m(0))
Da die Übergangsmatrix über einen gewissen Zeitraum konstant bleibt, lässt sie sich gemäß der
Theorie über Matrixexponentialfunktionen auf diesem Intervall lösen (ei bezeichne in Folge den
i-ten Einheitsvektor der Länge d).


0


P (m(t) = 0|m(0) = i)


..


.
P (m(t) = 1|m(0) = i)




Qt
Qt 

 = e 1 [i-te Stelle]
..
 =: e ei ⇒


.


..


.
P (m(t) = d|m(0) = i)
0


P (m(t) = 0|m(0) = i)
∞
P (m(t) = 1|m(0) = i)
X
1 n n


=
e
+
tQe
+
t Q ei =


..
i
i
n


.
n=2

P (m(t) = d|m(0) = i)



tαi,0
tP (m̃(1) = 0|m̃(0) = i)
 .. 


..
 .  Z t

 Z t
.




2 τQ



= ei +  tαi,i  +
Q e ei dτ =  tP (m̃(1) = i|m̃(0) = i) 
Q2 eτ Q ei dτ
+
0
 .. 

 |0
..
{z
}
 . 


.
I
tαi,d
tP (m̃(1) = d|m̃(0) = i)
Term I ist das Restglied in Integralform der Taylorentwicklung der beliebig oft differenzierbaren
Funktion eQt ei .
Teilt man nun das Intervall [0, 1] mit einer endlichen Zerlegung in diejenigen n Punkte ein, in
denen sich der Zustand des Systems respektive die Übergangsmatrix ändert, so lässt sich die
Wahrscheinlichkeitsfuntkion zum Zeitpunkt 1 schreiben als:


P (m(1) = 0|m(0) = i)
P (m(1) = 1|m(0) = i)



 = eQn tn eQn−1 tn−1 . . . eQt0 ei =:
..


.
P (m(1) = d|m(0) = i)
68
KAPITEL 6. ANWENDUNG AUF ZEITDISKRETE AGENTENBASIERTE MODELLE
=: e
(tn + · · · + t0 )(Q+R(Q0 ))
|
{z
}
1
0
ei = e(Q+R(Q )) ei
mit einer Fehlermatrix R(Q0 ), die von der Größe der Änderung der Übergangsmatrix in diesem Zeitschritt abhängt. Der gemachte Fehler pro Zeitschritt lässt sich, setzt man in die obige
Umformung t = 1, mit
||P (m(t) = ·|m(0) = i) − P (m̃(1) = ·|m̃(0) = i)||2 =
0
= ||eQ+R(Q ) ei − P (m̃(1) = ·|m̃(0) = i)||2 ≤
0
≤ ||eQ+R(Q ) − eQ ||2 ||ei ||2 + ||eQ ei − P (m̃(1) = ·|m̃(0) = i)||2 ≤
Z 1
0
||Q||2 ||R(Q0 )||2
≤ ||R(Q )||2 e
e
+ ||
Q2 etQ ei dt||2 ≤
0
0
||Q||2 ||R(Q0 )||2
≤ ||R(Q )||2 e
e
+
||Q||22
1
Z
||etQ ||2 dt ≤
0
0
≤ ||R(Q )||2 e
||Q||2 ||R(Q0 )||2
e
+
||Q||22
Z
1
et||Q||2 dt =
0
0
= ||R(Q0 )||2 e||Q||2 e||R(Q )||2 +||Q||22
e||Q||2 − 1
0
= ||R(Q0 )||2 e||Q||2 e||R(Q )||2 +||Q||2 (e||Q||2 −1)
||Q||2
abschätzen.
0
||P ((1, ·)|(0, i)) − P ((1|˜·)|(0, ĩ))||2 ≤ ||R(Q0 )||2 e||Q||2 e||R(Q )||2 + ||Q||2 (e||Q||2 − 1) (6.1)
Diese Fehleranalyse untermauert den Verdacht, dass der „Diskretisierungsfehler“, bzw. eigentlich der Fehler, der gemacht wird, wenn man das zeitdiskrete Modell mit einem Kontinuierlichen
approximiert, von der Größe der Übergangsraten sowie deren „Ableitungen“, d.h. deren maximalen Abweichungen innerhalb eines Zeitschrittes, abhängt. Je kleiner die Raten, umso geringer
sind natürlich auch die Eigenwerte der Übergangsmatrix und damit die Matrixnorm.
Der tatsächliche Fehler sowie das Erarbeiten handfester Fehlerschranken wird in Kapitel 8 behandelt.
6.4
Verweildauer
Als zusätzliche Motivation für die Wahl des CT Markov-Prozesses wird noch der folgende Satz
über homogene reguläre Markov-Prozesse bewiesen und hinterher angewendet.
Satz 6.4.1 (Verweildauer für CTDS Markov-Prozesse).
Die Verweildauer, d.h. die Zeit, die ein CT Markov-Prozess in einem bestimmten Zustand j
verweilt, ist stets lokal um einen gewissen Zeitpunkt exponentialverteilt mit Parameter αj,j . Zum
Übergangszeitpunkt geht der Markov-Prozess mit Wahrscheinlichkeit −αj,i /αj,j vom Zustand
j in den Zustand i über.
6.4. VERWEILDAUER
69
Beweis: Betrachtet man die Wahrscheinlichkeit, dass ein Markov-Prozess zum Zeitpunkt t0
seinen Zustand wechselt, so erhält man den Ausdruck
h
h
P (j →6= j bei t0 ) = lim P (t0 + , 6= j)|([0, t0 − ], j) =
h→0
2
2
h
h
= 1 − lim P (t0 + , j)|([0, t0 − ], j) .
h→0
2
2
Die Wahrscheinlichkeitsfunktion in der letzten Zeile beschreibt einen Markov-Prozess und erfüllt somit die Mastergleichung (hier mit der Rate αj,j geschrieben)
X ∂P (t + h2 , j)|([0, t0 − h2 ], j)
h
h
=
P (t + , k)|([0, t0 − ], j) αk,j .
∂t0
2
2
k
Da bekannt ist, dass sich der Zustand des Prozesses für t ∈ [0, t0 − h2 ] nicht ändert, gilt
P ((t +
h
h
, k)|([0, t0 − ], j)) = 0,
2
2
P ((t +
h
h
, j)|([0, t0 − ], j)) = 1,
2
2
für alle t ∈ [0, t0 − h]. Damit fallen alle Summanden weg, bis auf jenen mit Faktor αj,j . Es
bleibt
∂P (t + h2 , j)|([0, t0 − h2 ], j)
h
h
= P (t + , j)|([0, t0 − ], j) αj,j .
∂t0
2
2
Die Lösung der resultierenden Gleichung lässt sich ermitteln:
h
h
h
P (t + , j)|([0, t0 − ], j) = e(t+ 2 )αk,j
2
2
Insbesondere gilt damit die Gleichung
h
h
h
h
h
P (t0 − h + , j)|([0, t0 − ], j) = P (t0 − , j)|([0, t0 − ], j) = e(t0 − 2 )αk,j .
2
2
2
2
Man erhält
h
h
h
h
lim P (t0 + , j)|([0, t0 − ], j) = lim P (t0 − , j)|([0, t0 − ], j) = et0 αk,j
h→0
h→0
2
2
2
2
und damit
P (j →6= j bei t0 ) = 1 − et0 αj,j
Auf der rechten Seite erkennt man nun die Verteilungsfunktion der Exponentialverteilung mit
Parameter αj,j .
Ist dieser Zeitpunkt t0 erreicht, so gilt ∀h > 0, dass sich die Wahrscheinlichkeit, dass sich
der Prozess nach dem Zeitpunkt im Zustand i befindet, unter der Bedingung, dass er davor im
70
KAPITEL 6. ANWENDUNG AUF ZEITDISKRETE AGENTENBASIERTE MODELLE
Zustand j war und bekannt ist, dass er sich nachher nicht mehr in diesem Zustand befindet, auf
den folgenden Ausdruck beläuft:
h
h
h
, i)|(t0 + , 6= j), (t0 − , j)) =
2
2
2
P ((h, i), (h, 6= j)|(0, j))
hP ((h, i)|(0, j))
= P ((h, i)|(h, 6= j), (0, j)) =
= P
P ((h, 6= j)|(0, j))
h k6=j P ((h, k)|(0, j))
P (j → i|t0 ) = P ((t0 +
Da der Ausdruck für alle beliebig kleinen h gilt, gilt er auch für den Limes h → 0:
αj,i
αj,i
P (j → i|t0 ) = P
=−
αj,j
k6=j αj,k
Dieser Satz liefert nun u.a. eine Methode, wie ein zeitkontinuierlicher ortsdiskreter regulärer
Markov-Prozess bzw. eine Markov-Prozess basierte Mikrosimulation sogar ohne Diskretisierung simuliert werden kann, indem man exponentialverteilte Zufallszahlen erstellt.
Man untersucht nun die Verteilung der Verweildauer für einen DSDT Markov-Prozess, bzw.
für einen Agenten aus einem Agentenmodell, das die Bedingungen 6.2.1 erfüllt.
Satz 6.4.2 (Verweildauer für einen DTDS Markov-Prozess).
Die Verweildauer eines durch die Übergangsmatrix Q definierten Zustandes j eines MarkovProzesses ist geometrisch verteilt mit Parameter 1 − P ((1, j)|(0, j)). Die Wahrscheinlichkeit
dass der Prozess zum Zeitpunkt t ∈ {0, . . . T } den Zustand ändert, beläuft sich zu
t−1
P ((t, 6= j)|({0, . . . , t − 1}, j)) = Qt−1
(1 − P ((1, j)|(0, j))).
j,j (1 − Qj,j ) = P ((1, j)|(0, j))
Zum Zeitpunkt der Zustandsänderung geht der Prozess mit Wahrscheinlichkeit
P ((1, i)|(1, 6= j), (0, j)) =
P ((1, i)|(0, j))
1 − P ((1, j)|(0, j))
vom Zustand j in den Zustand i über.
Beweis: Beide Aussagen sind von sehr elementarer Natur. Erstere folgt, arbeitet man die Ereignisse der t Zeitschritte schrittweise ab:
P ((t, 6= j)|({0, . . . , t − 1}, j)) =
= P (Prozess bleibt in j) · · · · · (Prozess bleibt in j) P (Prozess bleibt nicht in j).
|
{z
}
t−1
Zweitere folgt direkt aus dem Satz über bedingte Wahrscheinlichkeiten:
P ((1, i)|(1, 6= j), (0, j)) =
P ((1, i) ∩ (1, 6= j)|(0, j))
P ((1, i)|(0, j))
=
.
P ((1, 6= j)|(0, j))
1 − P ((1, j)|(0, j))
6.5. UMRECHNUNG AUF DEN SUMMIERTEN PROZESS
71
Nun gilt dieser Satz natürlich nur für konstant bleibende Übergangsmatritzen und damit nur
für nicht-interagierende Agenten. Immerhin ist aber die Übergangsmatrix für einen Zeitschritt
konstant, womit die Verteilungsfunktion eines DT Agenten, der die Bedingungen 6.2.1 erfüllt,
immerhin für einen Zeitschritt eine geometrische ist.
Gemäß der Definition 6.3.1 folgt, dass der aus dem zeitdiskreten Agentenmodell definierte zeitkontinuierliche Markov-Prozess mit genau den selben Parametern exponentialverteilt ist, mit
denen der zeitdiskrete Agent, zumindest für einen Zeitschritt, geometrisch verteilt ist. Nun gilt
aber der Satz:
Satz 6.4.3 (Konvergenzeigenschaft der Geometrischen- gegen die Exponentialverteilung).
Ist Xn ∼ Geom(λ/n) folgt
Xn
∼ Exp(λ).
n→∞ n
lim
Für den Beweis sei auf Grundlagenliteratur für Wahrscheinlichkeitstheorie verwiesen.
Der Satz liefert nun die Aussage:
Zeitskalierung + inverse Parameterskalierung ⇒
Konvergenz des DT Agenten gegen
den CT Markov-Prozess
Bemerkung 6.4.4.
Tatsächlich gilt für die Lösungskurven der Differentialgleichungen 3.11 bzw. 4.1 mit s := Ct
ω
und νi,j := Ci,j mit C ∈ R
X
X
∂φ(s)
∂φ(t)
=
(Φ1 )ω (φ(t), R)R ⇒
C=
C(Φ1 )ν (φ(t), R)R
∂t
∂s
R6=0
R6=0
⇒ φω (t) = φν (s),
bzw. genauso
σω2 (t) = σν2 (s),
D.h. bleibt
6.5
ωi,j
t
pω (t, x) = pν (s, x).
konstant, ändert sich der Verlauf der Approximationskurven nicht.
Umrechnung auf den summierten Prozess
Nachdem im letzten Kapitel gezeigt wurde, wovon der Diskretisierungsfehler abhängt, der gemacht wird, wenn man den Zustand eines einzelnen Agenten gemäß Definition 6.3.1 approximiert, muss man sich nun die Frage stellen, wie man die für das Kapitel 3 erforderlichen Übergangsraten ω~x,~x+R~ des summierten und normierten Prozesses, ausgehend von den einzelnen
Übergangsraten des agentenbasierten Markov-Modells und in Konsequenz von den Übergangswahrscheinlichkeiten des Agentenmodells, findet.
72
KAPITEL 6. ANWENDUNG AUF ZEITDISKRETE AGENTENBASIERTE MODELLE
Von diesem Zeitpunkt an gelte wieder der Raum X ∈ {0, . . . , N }d als der Zustandsraum, da der
über die Indikatorfunktionen summierte Prozess beobachtet wird. Für den klassisch auftretenden
~ = ~ei − ~ej kann man geschlossen eine Umrechnungsformel angeben.
Fall R
Satz 6.5.1.
[Umrechnungsformel] Es gilt
ω(~x, ~ei − e~j ) = ωX,~
xj ωj,i := ~xj P ((1, i)|(0, j))
~ ei −e~j := ~
mit den kanonischen, d-dimensionalen Einheitsvektoren e~i und e~j .
~ := e~i − e~j so gilt gemäß Definition der Übergangsraten
Beweis: Sei R
~ + R)|(0,
~
~
P ((h, X
X))
.
h→0
h
Gemäß einfacher Kombinatorik lässt sich die Wechselwahrscheinlichkeit von genau einem der
~ j identischen Agenten berechnen:
X
ωX,~
~ ei −e~j = lim
~ + R),
~ (0, X))
~ =X
~ j P ((h, i)|(0, j))(1 − P ((h, i)|(0, j)))X~ j −1
P ((h, X
Ein einzelner Markov-Prozess geht nun mit Wahrscheinlichkeit ωj,i h + O(h2 ) vom Zustand j
in den Zustand i über.
~ + R),
~ (0, X))
~ =X
~ j ωj,i h(1 − hωj,i )X~ j −1 + O(h2 )
P ((h, X
Damit gilt für die Übergangsrate
~ j −1
X
~
~ j ωj,i .
ωX,~
+ O(h) = X
~ ei −e~j = lim Xj ωj,i (1 − hωj,i )
h→0
In diesem Sinne sind Übergangsraten also in gewissem Maße linear. Da
~ + R)|(0,
~
~ = P ((1, ~x + N −1 R)|(0,
~
P ((1, X
X)
~x))
gilt die Gleichheit
~ = ω~ ~.
ω(~x, R)
X,R
Bemerkung 6.5.2.
Da man das Zeitintervall h durch den Limes beliebig klein machen kann, muss man nicht berücksichtigen, dass innerhalb des beobachteten Zeitintervalls ggfs. noch zusätzliche Prozesse
den Zustand wechseln und damit die Übergangsraten beeinflussen. Alle den Zustand verlassende [betretende] Prozesse müssen tatsächlich gleichzeitig den Zustand wechseln. Somit ist e~i − e~j
meist die einzige mögliche Zustandsänderung, die man berücksichtigen muss.
~ 6= e~i − e~j erlauben, wäre ein PopulationsEin Beispiel, in dem es aber doch Zustände gibt, die R
modell, welches auf Eheschließungen abzielt. Den Zustand „verheiratet“ kann man ja schließlich
nicht alleine betreten oder verlassen.
6.6. ZUSAMMENFASSUNG UND LETZTE VORAUSSETZUNGEN
6.6
73
Zusammenfassung und letzte Voraussetzungen
Im letzten Kapitel wurde gezeigt, dass unter der Vorraussetzung von kleinen Übergangswahrscheinlichkeiten eines Agenten, diese direkt als Übergangsraten für ein CT Markov-Modell verwendet werden können und wie sich auf einfache Weise Übergangsraten für den Markov-Prozess
der Zustandsvariablen ergeben. Somit kann ein Agentenmodell gemäß Definition 6.3.1 mit einem CT Markov-Prozess basierten Mikromodell approximiert werden. Um das Agentenmodell
nun mit der Mastergleichung bzw. der Kramers-Moyal-Entwicklung behandeln zu können, muss
man die Voraussetzungen aus 6.2.1 noch gemäß 3.4.2 erweitern.
Bedingung 6.6.1.
(Voraussetzungen für ein für die Theorie aus Kapitel 3 taugliches DT Agentenmodell)
Bezeichnung
N
A1 , . . . , A n
m̃ , . . . , m̃n
P 1
Xa (t) = N
i=1 Ia m̃(t), t ∈ {0, . . . , T }
P : {0, . . . , N } × {0, . . . , T } → [0, 1]
a (t)
xa (t) := XN
~
~
X(0)
= ~k0 , ~x(0) = kN0 = x0
~k0 ∈ {0, . . . , N }d , ||k0 ||1 = N
P
−n Φ (x))
P (m̃(1) = a|b) = g(N )( ∞
n
n=0 N
Definition
Anzahl der Agenten/DTDS Markov-Prozesse
Agenten
(erweiterte) DTDS Markov-Prozesse
Anzahl der Agenten im Zustand a
Wahrscheinlichkeitsfunktion von X(t)
normierter Prozess
Vektorwertiger Anfangswert der Prozesse
mit Summe N über alle Elemente
Polynomdarstellungsmöglichkeit
Da die für die Umformung zu DG-System notwendigen Übergangsraten des zeitkontinuierlichen Prozesses x(t) auf lineare Weise aus den Übergangswahrscheinlichkeiten des Agentenmodells entstehen, ist, um die Polynomdarstellung der Übergangsraten zu sichern, auch eine
polynomielle Darstellung für die Übergangswahrscheinlichkeiten, die ja auch von Systemparametern abhängen können, gefordert.
Es folgt nach allem Gezeigten der Satz:
Satz 6.6.2.
Erfüllt ein agentenbasiertes Modell die Bedingungen 6.6.1, so approximiert der in 6.3.1 und in
6.5.1 definierte CT-Markov-Prozess das Agentenmodell (bzgl. des Zustandsvektors x) und kann
gemäß der Theorie aus Kapitel 3 bzw. 5 mit einem System aus Differentialgleichungen beschrieben werden.
Der Fehler der Dichten bzw. Wahrscheinlichkeitsfunktionen ist von den Größen der Übergangsraten, der Anzahl der Agenten und der Anzahl der Durchläufe des Experiments abhängig.
KAPITEL
1. Bsp: Ehrenfestsches
Urnenproblem
Zu Beginn des 20. Jhdt entwickelte der österreichische Quantenphysiker Paul Ehrenfest ein stochastisches Gedankenexperiment, welches hier, ob seiner Einfachheit, als Modellproblem dienen soll. Es handelt sich dabei um das berühmte Ehrenfest’sche Urnenmodell, nachzulesen im
Buch „The Encyclopaedia Britannica“ unter „Ehrenfest model of diffusion“ [Enc07], mit welchem Ehrenfest seinerzeit versuchte, das zweite Gesetz der Thermodynamik zu veranschaulichen.
7.1
Problemstellung
Definition 7.1.1 (Ehrenfestsches Urnen Problem).
Gegeben seien N unabhängige Partikel Pn mit Zustand 1 oder 0. Jedes Partikel folgt einem CT
Markov-Prozess. Die Übergangsraten, mit denen ein Partikel von Zustand i zu j wechselt seien
konstant und definiert mit:
ω(0, 1) = λ ω(1, 0) = µ.
Visualisieren lässt sich das Modell am besten mithilfe eines Raumes, der in der Mitte durch eine
Membran in zwei Teilbereiche getrennt ist. Auf die beiden Bereiche werden nun N Teilchen
verteilt, die ihrerseits während jedes Zeitintervalls eine gewisse Wahrscheinlichkeit haben, durch
die Membran in den anderen Bereich durchzudringen (siehe Abbildung 7.1). Während Ehrenfest
damals mit diesem Experiment das Prinzip der Entropie veranschaulichen wollte, dient es hier
als das Modellproblem für ein agentenbasiertes CT Markov-Modell. Ausgehend von diesem
kann man auch ein klassisches DT Agentenmodell definieren.
75
7
76
KAPITEL 7. 1. BSP: EHRENFESTSCHES URNENPROBLEM
1
0
µ
λ
µ
Abbildung 7.1: Skizze des Ehrenfest’schen Urnenproblems
Definition 7.1.2 (DT Urnen Problem).
Gegeben seien N unabhängige Partikel Pn im Zustand 1 oder 0. In jedem Zeitschritt geht ein
Agent im Zustand 0 mit Wahrscheinlichkeit
P ((1, 1)|(0, 0)) := λ ≤ 1
in den Zustand 1 über. Umgekehrt geht ein Agent im Zustand 1 mit
P ((1, 0)|(0, 1)) := µ ≤ 1
in den Zustand 0 über.
Die beiden Definitionen unterscheiden sich grundlegend vor allem anhand der Bedingung
λ(µ)≤ 1. Was im Falle von Wahrscheinlichkeiten eine notwendige Bedingung ist, spielt bei
Übergangsraten keine Rolle. Gemäß der Analyse des Diskretisierungsfehlers muss sogar
λ 1,
µ1
verlangt werden, damit das diskrete Urnenmodell ähnliche Ergebnisse liefert, wie das CT MarkovModell. Um also die Theorie aus Kapitel 3 auf das DT Agentenmodell anwenden zu können,
seien die Übergangswahrscheinlichkeiten ab sofort 1.
7.2. RESULTIERENDE DIFFERENTIALGLEICHUNGEN
7.2
7.2.1
77
Resultierende Differentialgleichungen
Überprüfen der Bedingungen
Um das Modell nun theoretisch zu analysieren, müssen zunächst die Übergangsraten des aufsummierten und normierten Markov-Prozesses
N
1 X
I1 (Pn (T ))
x(t) := x1 (t) :=
N
i=0
bestimmt werden.
Bemerkung 7.2.1.
Obwohl das Modell zwei Zustände 0 und 1 hat ist es eindimensional, da bei bekannter Anzahl
der Agenten X(t) im Zustand 1, die Anzahl der Agenten im zweiten Zustand 0 auf triviale Weise
direkt durch N − X(t) folgt. Selbiges folgt natürlich auch für den normierten Prozess, wo mit
1 − x(t) der Wert des normierten Prozesses für den Zustand 0 eindeutig aus dem Wert x(t) des
Prozesses für den Zustand 1 bestimmt ist.
Gemäß Gleichung 6.5.1 erhält man auf einfache Weise die für die Differentialgleichung
notwendigen Raten:
ωX,X+1 = (N − X)λ ⇒ ωx,1 = N (1 − x)λ (= ω~x,~e1 −e~2 )
ωX,X−1 = Xµ ⇒ ωx,−1 = N xµ (= ω~x,~e2 −e~1 )
Da in diesem Experiment Übergänge von mehreren Agenten fast sicher nicht gleichzeitig verlaufen können, verschwinden alle anderen Übergangsraten (vgl. Bemerkung 6.5.2).
ωx,x+R = 0,
∀|R| > 2
Die Übergangsrate ωx,x berechnet sich gemäß Definition der Übergangsraten zu
ωx,x = −ωx,x+1 − ωx,x−1 = −N xµ − N (1 − x)λ = N (x(λ − µ) − λ).
Leicht zu sehen sind alle Übergangsraten
ωx,y : {0, N −1 , . . . , 1}2 → R
auf triviale Weise nach
ωx,y : [0, 1]2 → R
erweiterbar und nach der Variable x differenzierbar. Die Darstellung als Polynom liefert
ωx,x+R = f (N )(Φ1 (x, R) + N −1 Φ2 (x, R) . . . ) ⇒
ωx,x+1 = N λ(1 − x) ⇒ f (N ) := N, Φ1 (x, 1) = λ(1 − x)
ωx,x = N (x(λ − µ) − λ) ⇒ f (N ) := N, Φ1 (x, 0) = x(λ − µ) − λ
ωx,x−1 = N µx ⇒ f (N ) := N, Φ1 (x, −1) = µx
ωx,x+R = 0,
∀|R| > 1.
78
7.2.2
KAPITEL 7. 1. BSP: EHRENFESTSCHES URNENPROBLEM
Erwartungswertkurve
Gemäß Gleichung 3.11 folgt der Erwartungswert des Modells näherungsweise der Kurve φ, die
durch die Differentialgleichung
X
∂φ(τ )
=
Φ1 (φ(τ ), R)R = 1 · λ(1 − φ(τ )) + (−1) · µφ(τ ) =
∂τ
R6=0
= −φ(τ )(λ + µ) + λ,
mit φ(0) = x0 = N
n=0 I1 Pn (0) als Anfangswert beschrieben wird. Die Zeitvariable τ
)
folgt der Substitution τ = f (N
N t = t (d.h. die Zeit muss nicht substituiert werden).
Die entstende Differentialgleichung ist linear und analytisch lösbar:
PN
−1
φ0 = −φ(τ )(λ + µ) + λ ⇒
φ(t) = φh (t) + φp (t) = Ce−t(λ+µ) +
λ
λ+µ
Durch φ(0) = x0 folgt
x0 = C +
φ(t) = x0 −
7.2.3
λ
λ+µ
λ
⇒
λ+µ
e−t(λ+µ) +
λ
.
λ+µ
(7.1)
Equilibrium des Erwartungswertes
Von großem Interesse ist an dieser Stelle auch das Langzeitverhalten der Lösung. Da λ und µ
als Wahrscheinlichkeiten stets positiv (≥ 0) sind, folgt
lim φ(t) =
t→∞
λ
.
λ+µ
(Sind µ und λ beide gleich 0 so ändert sich das Agentenmodell genauso wenig, wie die Differentialgleichung. Man erhielte die konstante Lösung x0 in beiden Modellen mit Varianz konstant 0;
d.h. eine entartete Dichtekurve.)
Betrachtet man im Gegenzug das Langzeitverhalten des Erwartungswertes für das aufsummierte
Agentenmodell x(t), t ∈ {0, 1, . . . }, so muss man den Ausdruck
lim E(x(t)|x(0) = x0 ) =: E(x(∞)|x(0) = x0 )
t→∞
betrachten, sofern der Limes existiert. Gemäß der Gleichung von Chapman-Kolmogorov (Satz
2.1.6), die hier ohne Einschränkung gilt, da die Agenten nicht interagieren, lässt sich der Erwartungswert mit endlicher Zeit t umschreiben.
X X
E(x(t + 1)|x(0) = x0 ) =
(x
P ((1, x)|(0, y))P ((t, y)|(0, x0 ))) =
x
y
7.2. RESULTIERENDE DIFFERENTIALGLEICHUNGEN
=
X
P ((t, y)|(0, x0 ))
X
y
xP ((1, x)|(0, y)) =
X
x
79
∗
P ((t, y)|(0, x0 ))E(x(1)|x(0) = y) =
y
Als Summe über sogenannte Bernoulli-Ereignisse sind sowohl die yN Agenten im Zustand 1,
also auch die N (1 − y) Agenten im Zustand 0 über einen Zeitschritt hinweg binomialverteilt:
X1 ∼ Binom(N y, (1 − µ))
X2 ∼ Binom(N (1 − y), λ),
mit (X(1)|X(0) = N y) ∼ X1 + X2 . Somit gilt für den normierten Erwartungswert über einen
Zeitschritt die Gleichung
E(x(1)|x(0) = y) =
E(X1 )
+
N
E(X2 )
N
= y(1 − µ) + (1 − y)λ = y(1 − µ − λ) + λ.
(7.2)
Setzt man also die Umformung für den Erwartungswert an der Stelle t + 1 fort, so gilt
∗
=
X
P ((t, y)|(0, x0 ))(y(1 − µ − λ) + λ) =
y
!
= (1 − µ − λ)
X
P ((t, y)|(0, x0 ))y
+λ
X
y
P ((t, y)|(0, x0 )) =
y
|
{z
=1
}
= (1 − µ − λ)E(x(t)|x(0) = x0 ) + λ.
Durch diese Umformung erhält man eine rekursive Darstellung für die explizite Folge
(E(x(t)|x(0) = x0 ))t . Als Grenzwert kann, gemäß dem Fixpunktsatz von Banach, ausschließlich der Ausdruck E(x(∞)|x(0) = x0 ) mit
E(x(∞)|x(0) = x0 ) = (1 − µ − λ)E(x(∞)|x(0) = x0 ) + λ
⇒ E(x(∞)|x(0) = x0 ) =
λ
λ+µ
in Frage kommen. Die Rekursion
at+1 = (1 − λ − µ)at + λ
λ
ist aber, wie man leicht nachrechnet, für jedes offene Intervall (al , ar ) ∈ [0, 1] das λ+µ
enthält
und für 0 < λ + µ < 1 sowie 0 < λ < 1, eine strikte Kontraktion, womit der im Fixpunktsatz
bestimmte Grenzwert angenommen wird. (Eine sehr ähnliche Rechnung wird später im Kapitel
8 für die analoge, verallgemeinerte Aussage durchgeführt.)
Der Grenzwert des Erwartungswertes im Agentenmodell entspricht also dem Equilibriumzustand der Lösung der Differentialgleichung 3.11.
80
7.2.4
KAPITEL 7. 1. BSP: EHRENFESTSCHES URNENPROBLEM
Varianz
Gemäß Gleichung 4.1 lässt sich auch eine Approximation an die Varianz des agentenbasierten
Modells ermitteln.
∂σ 2 (τ )
= −2αx (φ(τ ))σ 2 (τ ) + 2β(φ(τ )) =
∂τ
X
X
Φ1 (φ(τ ), R)(−R)2 =
(Φ1 )x (φ(τ ), R)(−R) + 2
= −2σ 2 (τ )
R6=0
R6=0
= −2σ 2 (τ )((−1) · (−λ) + 1 · µ) + 2(1 · λ(1 − φ(τ )) + 1 · µφ(τ )) =
= −2σ 2 (τ )(λ + µ) + 2(λ + φ(τ )(µ − λ)) =
λ
λ
2
−τ (λ+µ)
= −2σ (τ )(λ + µ) + 2(λ +
x0 −
e
+
(µ − λ))
λ+µ
λ+µ
Auch diese gewöhnliche, lineare Differentialgleichung mit Störfunktion ist, wenn auch nicht
trivial, analytisch lösbar. Der Vollständigkeit halber ist hier die Lösung mit t = τ angegeben:
2
2
2
µλ
2
−2(µ+λ)t −λ + x0 (λ − µ )
2t(λ+µ)
σ (t) = e
+
e
+
(7.3)
(λ + µ)2
(λ + µ)2
−2(µ+λ)t (λ − µ)(−x0 (µ + λ) + λ) t(λ+µ)
+2e
e
(λ + µ)2
2
Mittels V(x)(t) = σ N(t) lässt sich somit die Varianz des Agentenmodells approximieren.
Wie im Fall des Erwartungswertes ist auch hier das Langzeitverhalten der Funktion interessant.
Man erkennt, dass die Varianz zwar mit t monoton wachsend, aber sogar beschränkt ist. Der
µλ
Grenzwert beträgt N −1 (λ+µ)
2 , womit das Modell in diesem Sinne zeitlich stabil bleibt.
Bemerkung 7.2.2.
Dass diese Tatsache nicht trivial ersichtlich ist, sieht man, vergleicht man das Modell (mit der
Fokker-Planck-Gleichung 3.12) mit einer klassischen Diffusions- (Wärmeleitungs-) gleichung
Πt − Πξξ α = 0,
mit den Randbedingungen Π(0, ·) = δ0 (ξ) und
Π(·, −∞) = Π(·, ∞) = Πξ (·, −∞) = Πξ (·, ∞) = 0.
Eine Fundamentallösung ist mit
−ξ2
Π(ξ, t) = (4απt)−1/2 e 4αt
gegeben. Da diese ohnedies bereits Lösung zur Diffusionsgleichung mit Delta-distributioneller
Anfangsbedingung bei 0 ist, erfüllt sie die Zeit-RB und ebenso, wie sich zeigt, die Orts-RB.
Um die Analogie zum Agentenmodell deutlich zu machen, sei für diese Dichte die analoge
Substitution durchgeführt:
p̃(x̃, t) = (4απt)−1/2 e
−N (x̃−φ(t))2
4αt
c.
7.3. RESULTATE ZUM KONKRETEN BEISPIEL
81
D.h. man erhält eine zeitabhängige
Gauss Verteilung mit Mittelwert φ(t) und eine Normierungs√
konstante c, die sich zu c = N bestimmen lässt.
Somit gilt
r
N −N (x̃−Φ(t))2
4αt
.
p̃(x̃, t) =
e
4απt
Die von Zeit und N abhängige Varianz der Kurve beträgt 4αt
N . Sie wird mit t linear größer (und
geht mit N → ∞ gegen 0). Die Varianz bleibt somit für festes N mit der Zeit unbeschränkt.
7.2.5
Dichte
Der Ansatz zur Lösung der Differentialgleichung 3.12 liefert nach Bestimmung der Varianz eine
Dichtefunktion Π mit
Π : [0, tend ] × [−∞, ∞]
√
N (ξ)2
N
− 2
2σ
(t)
e
Π(t, ξ) = p
2πσ 2 (t)
und nach der Variablensubstitution ξ → x die Dichtefunktion
√
N (x−φ(t))2
N
−
σ 2 (t)
e
,
p(x, t) = p
2
2πσ (t)
die schlussendlich die Dichte des Agentenmodells annähert.
7.3
Resultate zum konkreten Beispiel
Es folgen nun einige Plots, die abschließend zu diesem Modellbeispiel die Theorie untermauern
sollen. Zu diesem Zweck gibt die folgende Tabelle zunächst einen Überblick über die für die
einzelnen Abbildungen verwendeten Parametersätze.
Abb.
7.2
7.3
7.4
7.5
7.6
7.7
Typ
DT Agent
Vergleich: Mittelwerte
Vergleich: Varianz
Vergleich: Dichte
Fehler für mehrere N · M
Fehler mit Skalierung
N
{200, 1000, 2000}
1000
1000
1000
10
10000
M
1
1000
1000
5000
1 + 10 · C
1
λ
0.05
0.05
0.05
0.05
0.05
µ
0.1
0.1
0.1
0.1
0.1
0.2
C
0.1
C
x0
0.1
0.1
0.1
0.1
0.1
0.1
Abbildung 7.2 zeigt die Graphen von mehreren Durchläufen des Agentenmodells mit unterschiedlichen Agentenzahlen. Man sieht sehr schön, dass für hohe Agentenzahlen die Abweichung zum Mittelwert stets kleiner wird.
Nach dem Mitteln über M Durchläufe erhält man stochastisch gute Approximationen an Erwartungswert durch
M
1 X
Xi (t)
E(X(t)) ≈ X(t) :=
M
i=1
82
KAPITEL 7. 1. BSP: EHRENFESTSCHES URNENPROBLEM
N=2000
0.4
0.3
0.2
0.1
0
0
5
10
15
20
25
30
35
40
25
30
35
40
25
30
35
40
N=1000
0.4
0.3
0.2
0.1
0
0
5
10
15
20
N=200
0.4
0.3
0.2
0.1
0
0
5
10
15
20
Abbildung 7.2: Unterschiedliche Werte für N
und Varianz mittels
M
V(X(t)) ≈ Xσ2 (t) :=
1 X
(Xi (t) − X(t))2 .
M −1
i=1
Bemerkung 7.3.1.
Der Normierungsterm M − 1 (statt M ) rührt von der Konsistenz des Varianzschätzers her.
Grafik 7.3 zeigt sowohl den durch den Schätzer ermittelten empirischen Erwartungswert
(oben), als auch die durch die Differentialgleichung 3.11 ermittelte Kurve φ(t) (unten). Die
beiden, den Mittelwert bzw. die Kurve φ in einem symmetrischen Intervall einschließenden,
Kurven φl und φr erhält man durch
q
q
φl := (X)(t) − Xσ2 (t), φr := (X)(t) + Xσ2 (t)
in der oberen der beiden Grafiken und
p
σ 2 (t)
φl := φ(t) − √
,
N
p
σ 2 (t)
φr := φ(t) + √
N
7.3. RESULTATE ZUM KONKRETEN BEISPIEL
83
in der unteren Grafik, wobei σ 2 (t) die aus Differentialgleichung 4.1 ermittelte Varianzkurve
ist. D.h. die Grafiken zeigen das, den Mittelwert einschließende symmetrische Intervall, dessen
Breite die Standardabweichung der Kurven ist. Man erkennt gut, dass beide Kurven nahezu ident
verlaufen. Der errechnete Equilibriumswert
lim E(X)(t) =
t→∞
λ
0.05
1
=
=
λ+µ
0.1 + 0.05
3
stellt für beide Erwartungswertkurven eine waagerechte Asymptote dar.
Die Dimension der Varianz (bzgl. N ) und dessen Konvergenz gegen
Empirischer Mittelwert und Standardabweichung
0.4
0,333
0,3
0,2
0,1
0
5
10
15
20
25
30
35
40
35
40
Errechneter Mittelwert und Standardabweichung
0,4
0.333
0,3
0,2
0,1
0
0
5
10
15
20
25
30
Abbildung 7.3: Erwartungswertkurve mit Standardabweichungskurve
lim V(X)(t) = N −1
t→∞
λµ
2
= N −1
(λ + µ)2
9
ist gut in Abbildung 7.4 ersichtlich.
Um schlussendlich Vergleiche zur errechneten Gaussverteilung zu ermöglichen, muss zunächst
84
KAPITEL 7. 1. BSP: EHRENFESTSCHES URNENPROBLEM
Empirischer Varianzschätzer
-4
x 10
Varianz der zeitabhängigen Gaussverteilung
-4
x 10
1000-1*2/9
2
2
1
1
0
5
10
15
20
25
30
35
0
40
0
5
10
15
20
25
30
35
40
Abbildung 7.4: Vergleich der Varianzen
eine Art empirische Dichtekurve aus einer möglichst großen Zahl an Durchläufen ermittelt werden. In Abbildung 7.5 (links) wurde dies anhand von M = 5000 Stichproben durchgeführt.
Dazu sei zunächst das Intervall [0, 1) in K, in diesem Fall, K = 300 Klassen eingeteilt:
[0, 1) =
K
K
X
X
h−1 h
[
Sh
, ) :=
K K
h=1
h=1
Danach wird für jeden Zeitschritt t der Wert
p(
M
h
1 X
, t) :=
ISh (Xj (t))
K
M
j=0
ermittelt, was zu einer Funktion
p:{
1 2
1
, , . . . , 1} × {0, . . . , T } → {0, , . . . , 1}
K K
M
führt. Dieser Vorgang führt zu relativ großem Rechenaufwand und macht eine große Anzahl
M K Durchläufe notwendig, um überhaupt verwertbare Plots zu erhalten. Die rechte Grafik in Abbildung 7.5 zeigt zum Vergleich dazu die errechnete zeitabhängige Gaussverteilung.
Gemäß Bemerkung 4.3.3 macht es in diesem Modell keinen Unterschied, ob N · M Agenten genau einmal berechnet, summmiert und normiert werden, oder ob N -mal das Modell mit
M Agenten berechnet und anschließend gemittelt wird, da die Übergangsraten der einzelnen
Agenten nicht vom Zustand des Systems abhängen. Das gilt natürlich nur dann, wenn mit
xN0 = xM0 der Anfangswert der Modelle gleich gewählt ist, bzw. überhaupt gleich gewählt
werden kann (Setzt man z.B. x0 = 0.1, so ist die kleinst mögliche Agentenanzahl, mit der das
7.3. RESULTATE ZUM KONKRETEN BEISPIEL
85
Empirische Dichtekurve M=5000, 300 Klassen
Errechnete zeitabhängige Gaussverteilung
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
5
10
15
20
25
30
35
40
5
10
15
20
25
30
35
40
Abbildung 7.5: Vergleich der Dichtekurven
Modell rechenbar ist offensichtlich N = 10). Abbildung 7.6 zeigt für unterschiedliche Werte
von N · M den Fehler, den das Agentenmodell, mit den Parametern M und N gerechnet zur
Funktion φ(t) macht, gemessen bezüglich der || · ||l2 Norm. Um die Abschätzungen aus Kapitel
4 zu untermauern, ist zusätzlich die Funktion
√
−1
f (N · M ) = C N · M
eingezeichnet.
Gemäß Bemerkung 6.4.4 wird die Differentialgleichungs-Approximation besser, wenn man eine
Skalierung vornimmt:
ωˆi,j :=
ωi,j
, ∀i, j,
C
s := Ct,
C∈R
Geht man von den Übergangsraten λ = 0.2 und µ = 0.2 und einem Endzeitpunkt T = tend von
20 aus, so zeigt die Abbildung 7.7 die Entwicklung des Fehlers zur Differentialgleichungskurve
φ(t), wenn man die Raten durch einen Faktor C ∈ {1, . . . , 30} dividiert und die Zeit mit ebendiesem Faktor multipliziert. Es ergeben sich dadurch im Maximalfall bis zu 600 Zeitschritte,
womit der Lösungsvektor des Agentenmodells für alle C unterschiedlich lang ist. Um die Norm
vergleichbar zu machen, werden stets nur die Fehler von den 20 Zeitpunkten quadriert und aufsummiert, die in allen Lösungsvektoren vorkommen. Die Modelle werden mit N = 10000 und
M = 1 gerechnet. Der Plot beinhaltet zusätzlich noch die Funktion k · C1 , mit der der Fehler, der
Theorie nach, kleiner werden soll.
86
KAPITEL 7. 1. BSP: EHRENFESTSCHES URNENPROBLEM
Fehlerentwicklung bzgl. N⋅ M
Fehler in der ||.||2 Norm
1
0.8
0.6
3N(-1/2)
||φ(t)-xN(t)||2
0.4
0.2
0
10
200
400
600
800
1.000
1.200
Agentenanzahl mal Durchlaufzahl: M⋅N
1.400
1.600
1.800
2.000
Abbildung 7.6: Fehler mit unterschiedlichen Werten von N · M
7.4
Rück und Ausblick
Zusammenfassend lässt sich durch die konstanten Übergangsraten des Modells die Theorie perfekt anwenden, und die resultierenden Differentialgleichungen sind sogar analytisch lösbar. Da
der tatsächliche Anwendungsbereich des Modells mit konstanten µ und λ aber sehr eingeschränkt ist, sollte das vorgestellte Beispiel primär vermitteln, wie die Theorie in der Praxis
anzuwenden ist und zeigen, dass die Überlegungen aus den Kapiteln 3, 4 und 6 nicht nur von
theoretischer Natur sind. Ziel des Modellvergleichs ist es jedoch, deutlich kompliziertere Modelle mit mehr als 2 Zuständen und Übergangsraten µ = µ(~x), wobei ~x der aktuelle Zustandsvektor
des summierten Markov-Prozesses ist, mithilfe der Theorie analysieren zu können. Bevor jedoch
Beispiele höheren Schwierigkeitsgrades untersucht werden, sei die Fehleranalyse präzisiert.
7.4. RÜCK UND AUSBLICK
1.5
x 10
87
Fehlerentwicklung beim Skalieren
-3
Fehler
1
0.5
0
1
5
10
15
20
25
Faktor C
Abbildung 7.7: Fehler mit Zeit- und Raten-Skalierung C
KAPITEL
Fehleranalyse
In den letzten Kapiteln wurden bereits einige Fehleranalysen durchgeführt, beziehungsweise die
Größenordnung von einigen Fehlern bestimmt. Was aber leider alle bis zu diesem Punkt durchgeführten Fehleranalysen gemeinsam haben ist, dass es sich lediglich um qualitative Analysen
des Fehlers in Form von Landau Symbolen handelt, aber nicht um handfeste, verwertbare Abschätzungen.
Zudem wurde der Fehler stets schrittweise, d.h. sich aufsummierend von Modelltyp zu Modelltyp (siehe Abbildung 8.1) ermittelt, anstatt direkt das agentenbasierte zeitdiskrete Modell mit
dem Differentialgleichungsmodell zu vergleichen.
Diese zwei Lücken zu füllen ist nun Ziel dieses Kapitels.
Ziel der Fehlerabschätzung
DT
Agentenmodell
Stoch. Größe
Diskretisierungs
fehler ||W||
Durchlaufzahl
M
Kramers
Moyal
Entwicklung N
Differential
gleichung
CT
Agentenmodell
Stoch. Größe
DT
Agenten
modell
Abbildung 8.1: Überblick über bisherige Abschätzungen
89
8
90
8.1
KAPITEL 8. FEHLERANALYSE
Gegenüberstellung der Problemstellungen
Wie in den vergangenen Kapiteln erwähnt, ist mit der Definition eines zeitdiskreten agentenbasierten Modells über Übergangswahrscheinlichkeiten, Anfangswert und Agentenzahl eine, die
stochastischen Größen des Zustandsvektors des Agentenmodells approximierende, Differentialgleichung (Differentialgleichungssystem) bereits eindeutig definiert. Gemäß 6.3.1 und 6.5.1
bzw. Kapitel 5 ergibt sich die Umrechnung, wie sie in der vereinfachten Skizze 8.2 zu sehen ist.
Da in einem zeitdiskreten Modell innerhalb eines Zeitschrittes maximal N Agenten ihren Zustand ändern können, kann man davon ausgehen, dass bei einem, das zeitdiskrete Modell approximierenden, CT Markov-Modell mit nicht-verschwindender Wahrscheinlichkeit nie mehr
als ein Agent gleichzeitig den Zustand ändert (Vergleich 6.5.2). Selbst wenn das DT Modell
rein theoretisch vorsähe, dass einige Zustandswechsel von mehreren Agenten gleichzeitig zu
erfolgen haben, kann man sich die Zustandswechsel im kontinuierlichen Modell innerhalb des
Zeitschrittes auch mit nicht verschwindendem Zeitabstand, hintereinander, vorstellen. Basierend
auf dieser Überlegung wird in Folge genau einer der d Zustände, nämlich oBdA der Zustand 1
~ 1 =: X, welcher als Beobachtungszustand bezeichnet wird, betrachtet, wobei dieser genau
mit X
zwei nicht-verschwindende Raten besitzt.
Definition 8.1.1 (Exit/Entry Rate für Zustand 1).
Der Beobachtungszustand 1 der CT Approximation des Agentenmodells besitzt nun genau eine
Exit Rate ωex
X
~ := ωX,X−1 = X
~
ωex := ωex (X, X)
P ((1, a)|(0, 1), X)
a6=1
und eine Entry Rate ωen
~ := ωX,X+1 =
ωen := ωen (X, X)
X
~
Xa P ((1, 1)|(0, a), X),
a6=1
~ sowie insbesondere vom Zustand X abhängen dürfen.
wobei beide Raten vom Zustandsvektor X
Die Entry Rate lässt sich umschreiben zu
~
ωen = (N − X)λ(X)
mit dem gewichteten Mittel
~ :=
λ(X)
N
X
a=2
Xa
~ ∈ [0, 1],
P ((1, 1)|(0, a), X)
N −X
welches als Entry Wahrscheinlichkeit bezeichnet wird. Analog dazu wird mit
~ :=
µ(X)
N
X
a=2
~
P ((1, a)|(0, 1), X)
8.2. WAHRSCHEINLICHKEITSMODELL FÜR DAS DT AGENTENMODELL
91
die sogenannte Exit Wahrscheinlichkeit definiert.
~
ωex = Xµ(X)
~
ωen = (N − X)λ(X)
...
...
....
Abbildung 8.2: Skizze für die Umrechnung - φ steht Beispielhaft für eine stochastische Größe
8.2
8.2.1
Wahrscheinlichkeitsmodell für das DT Agentenmodell
Verteilung für einen Zeitschritt
Gegeben sei nun ein Zeitpunkt t0 zu welchem sich X Agenten im Beobachtungszustand 1 befin~ Agenten im Zustand [1, . . . , d]T . Die Funktionen µ(X)
~ und λ(X)
~
den mögen bzw. insgesamt X
seien die Exit und Entry Wahrscheinlichkeit des Beobachtungszustandes. Es wird nun ausgehend davon ein Wahrscheinlichkeitsmodell für den nächstfolgenden Zeitpunkt t0 + 1 aufgestellt.
92
KAPITEL 8. FEHLERANALYSE
Für i ∈ {0, . . . , N }, i =: X + R ergibt sich
∗
~ = P ((t0 + 1, X + R)|(t0 , X))
~ =
P ((t0 + 1, i)|(t0 , X))
∗
min{X,N −X−R} N −X
R+m
X
=
m=0
X
µm (1 − µ)X−m λR+m (1 − λ)N −X−R−m
m
für R ≥ 0 und
∗
min{X+R,N −X} N −X
m
X
=
m=0
X
µm−R (1 − µ)X−m+R λm (1 − λ)N −X−m
m−R
für R < 0.
Diese sehr unansehnlichen Formeln lassen sich nachvollziehen, überlegt man folgendes:
Ist R = 0 bedeutet das, dass sich die Zustandsvariable innerhalb des Zeitschrittes nicht verändert hat, was aber noch nicht bedeutet, dass alle Agenten selbst ihren Zustand beibehalten haben.
Wichtig ist nur, dass für jeden Agenten, der seinen Zustand verändert hat, ein komplementärer
Agent ebenfalls seinen Zustand verändert haben muss. Die Summe über alle Möglichkeiten,
Agentenpaare auszuwählen, multipliziert mit der Wahrscheinlichkeit der paarweisen Zustandsänderung, ergibt nun die gewünschte Wahrscheinlichkeit für R = 0. Die anderen Wahrscheinlichkeiten ergeben sich analog dazu, indem man zusätzliche R Agenten ohne komplementären
Gegenpart den Zustand ändern lässt.
8.2.2
Erwartungswert nach einem Zeitschritt
Trotz dieses sehr komplizierten Wahrscheinlichkeitsmodells lässt sich ähnlich zur Rechnung 7.2
der Erwartungswert dieser Verteilung relativ leicht ermitteln, definiert man für jeden Agenten
mit Zufallsvariable m̃i die Schreibweise yi (t) := I1 (Pi (t)).
~ = E(
E(X(t0 + 1)|X)
N
X
~ =
yn (t0 + 1)|X)
n=0
=
X
0 · P (0|0) + 1 · P (1|0) +
n:yn (t0 )=0
N
X
~ =
E(yn (t0 + 1)|X)
n=0
X
0 · P (0|1) + 1 · P (1|1) =
n:yn (t0 )=1
= (N − X)λ + X(1 − µ) = X + ((N − X)λ − Xµ)
D.h. man erhält E(R) = (N − X)µ − Xλ (Vergleich Rechnung 7.2).
8.2.3
Varianz nach einem Zeitschritt
Die Varianz lässt sich auf ähnliche Weise über den Verschiebungssatz bestimmen:
~ = E(X 2 (t0 + 1)|X)
~ − E(X(t0 + 1)|X)
~ 2
V(X(t0 + 1)|X)
8.2. WAHRSCHEINLICHKEITSMODELL FÜR DAS DT AGENTENMODELL
~ = E((
E(X (t0 + 1)|X)
2
N
X
n=1
=
E(yi yn ) + 2
X
n,i:yn (t0 )=yi (t0 )=1
yn )(
N
X
~ = E(
yn )|X)
n=1
X
N X
n
X
93
~ =
yn−i yi |X)
n=1 i=1
E(yi yn ) +
n,i:yn (t0 )=0,yi (t0 )=1
X
E(yi yn ) =
n,i:yn (t0 )=yi (t0 )=0
= (X 2 − X)E(yi yj |1, 1) + 2X(N − X)E(yi yj |0, 1) + ((N − X)2 − (N − X))E(yi yj |0, 0)+
+X E(yi yi |1) + (N − X)E(yi yi |0)
Die Schreibweise (. . . |1, 1) bedeutet hier (. . . |yi (t0 ) = 1, yj (t0 ) = 1). Ebenso ist die Notation
in der folgenden Rechnungen gewählt. Man beachte, dass in der Summe die Produkte gleicher
Zufallsvariablen andere Erwartungswerte haben und deshalb gesondert betrachtet werden müssen.
E(yi yj |1, 1) = 1 · P (1, 1|1, 1) + 0 · P (1, 0|1, 1) + 0 · P (0, 1|1, 1) + 0 · P (0, 0|1, 1) = (1 − µ)2
E(yi yj |1, 0) = P (1, 1|1, 0) = (1 − µ)λ
E(yi yj |0, 0) = P (1, 1|0, 0) = λ2
E(yi yi |1) = P (1|1) = (1 − µ)
E(yi yi |0) = P (1|0) = λ
Man erhält somit zusammengefasst
~ =
E(X 2 |X)
= (X 2 −X)(1−µ)2 +2X(N −X)(1−µ)λ+((N −X)2 −(N −X))λ2 +X(1−µ)+(N −X)λ =
= (X(1 − µ) + (N − X)λ)2 − (X(1 − µ)2 + (N − X)λ2 ) + X(1 − µ) + (N − X)λ =
= (X(1 − µ) + (N − X)λ)2 + Xµ(1 − µ) + (N − X)(λ(1 − λ)).
Somit erhält man für die Varianz nach dem Verschiebungssatz
~ =
V(X|X)
= (X(1 − µ) + (N − X)λ)2 + Xµ(1 − µ) + (N − X)(λ(1 − λ)) − ((N − X)λ + X(1 − µ))2 =
= Xµ(1 − µ) + (N − X)λ(1 − λ).
Trotz des sehr unansehnlichen Wahrscheinlichkeitsmodells ergeben sich doch recht elegante
Werte für Erwartungswert und Varianz der Zufallsvariable X(t0 + 1) - d.h. des aufsummierten
zeitabhängigen agentenbasierten Prozesses nach Ablauf eines Zeitschrittes.
~ 0 )) = X)
~ = X(1 − µ) + (N − X)λ
E(X(t0 + 1)|X(t
~ 0 )) = X)
~ = X(1 − µ)µ + (N − X)(1 − λ)λ
V(X(t0 + 1)|X(t
Aus der Linearität des Erwartungswertes bzw. der Formel V(cX) = c2 V(X) erhält man für den
normierten Prozess
~ 0 ))) + (1 − x)λ(x(t
~ 0 ))
E(x(t0 + 1)|~x(t0 )) = ~x) = x(1 − µ(x(t
94
KAPITEL 8. FEHLERANALYSE
~ 0 )))µ(x(t
~ 0 )) + (1 − x)(1 − λ(x(t
~ 0 )))λ(x(t
~ 0 )) .
V(x(t0 +1)|~x(t0 )) = ~x) = N −1 x(1 − µ(x(t
Man beachte an dieser Stelle erneut, dass die Übergangswahrscheinlichkeiten µ und λ nur für
diesen Zeitschritt konstant sind, da sie allgemein von ~x, insbesondere nicht nur von x = x1 ,
abhängen. Selbst wenn sich x1 innerhalb des Zeitschrittes nicht geändert hat, so können sich die
Übergangswahrscheinlichkeiten ändern. Diese Tatsache ist für Berechnungen, die über einen
Zeitschritt hinaus gehen sehr hinderlich.
8.2.4
Zeitliche Entwicklung des Erwartungswertes
Man steht also vor dem Problem, dass man ohne das Wissen über die weiteren ZustandsvektorEinträge keine Voraussagen über die folgenden Zeitschritte machen kann. D.h. man muss sich
zwangsläufig mit dem Erwartungswert
E(~x(t)|~x(t0 ) = ~x)
auseinandersetzen; also die Berechnungen vektorwertig durchführen.
Aus den Tatsachen für einen Zeitschritt kann man den weiteren Verlauf des Erwartungswertes
zumindest als Rekursion darstellen. Man benutzt dazu die Tatsache, dass das Modell gedächtnislos ist und damit die (diskrete Form der) Gleichung von Chapman-Kolmogorov 2.1.6 gilt.
X
XX
E(~x(t)|(0, ~x)) =
P ((t, ~k)|(0, ~x))~k =
P ((t, ~k)|(t − 1,~i))P ((t − 1,~i)|(0, ~x))~k =
~k
=
X
~k
P ((t − 1,~i)|(0, ~x))
~i
X
~k
~i
P ((1, ~k)|(0,~i))~k =
X
P ((t − 1,~i)|(0, ~x))E(~x(1)|(0,~i)) =
~i
P

~
x))(i1 (1 − µ1 (~i)) + (1 − i1 )λ1 (~i))
~i P ((t − 1, i)|(0, ~
P
 ~ P ((t − 1,~i)|(0, ~x))(i2 (1 − µ2 (~i)) + (1 − i2 )λ2 (~i))


= i

..


.
P
~
~
~
x))(id (1 − µd (i)) + (1 − id )λd (i))
~ P ((t − 1, i)|(0, ~
i
Hierbei steht λk (µk ) für die Exit und Entry Rate des Zustands k. Man erhält also die Rekursionsformel:.


x1 (1 − µ1 (~x)) + (1 − x1 )λ1 (~x)


..
~
E(x(t)|(0,
x~0 )) = F
◦ · · · ◦ F}(x~0 ), F (~x) := 
 . (8.1)
.
| ◦ F {z
t×
xd (1 − µd (~x)) + (1 − xd )λd (~x)
Man kann an dieser Stelle anmerken, dass durch F , mit sinnvollen Parametern (Funktionen) µ
T
~
~ abgebildet wird. Es gilt
1, . . . , 1 − µ(1)]
und λ, das Intervall [0, 1]d auf das „Intervall“ [λ(0),
|F (~x)−F (~x0 )| = | xi (1 − µi (~x)) + (1 − xi )λi (~x) − x0i (1 − µi (~x0 )) − (1 − x0i )λi (~x0 ) i=1...d | =
= | xi − x0i + (µi (~x0 )x0i − µi (~x)xi ) + (x0i λi (~x0 ) − xi λi (~x)) + λi (~x) − λi (~x0 ) i=1...d | ≤
8.2. WAHRSCHEINLICHKEITSMODELL FÜR DAS DT AGENTENMODELL
95
|≤
≤ | xi − x0i + µ̃i (x0i − xi ) + λ̃i (x0i − xi ) + (λi (~x) − λi (~x0 ))
i=1...d
| + |(λ(x) − λ(x0 ))| ≤
≤ | (xi − x0i )(1 − λ̃i − µ̃i )
i=1...d
≤ (1 − µ̃ − λ̃ + L)|x − x0 |,
sofern λ(·) lipschitzstetig bzgl. ~x mit Konstante L ist. Zusätzlich seien µ̃i = min{µi (~x0 ), µi (~x)}
und λ̃i = min{λi (~x0 ), λi (~x)}, sowie µ̃ = mini=1...d {µ̃i } und λ̃ = mini=1...d {λ̃i } definiert. Für
Funktionen mit µ̃ + λ̃ − L > 0 ist der geklammerte Wert positiv und betragsmäßig kleiner
als 1. Damit läge eine Kontraktion vor. Gemäß dem Banachschen Fixpunktsatz konvergiert die
rekursive Folge und geht gegen einen Grenzwert (von möglicherweise mehreren), der die Fixpunktgleichung
~x = (xi (1 − µi (~x)) + (1 − xi )λi (~x))di=1 = (xi (1 − µi (~x) − λi (~x))di=1 + λ(~x) =
= Diag(1 − µi (~x) − λi (~x))di=1 ~x + λ(~x),
also
Diag(µi (~x) + λi (~x))di=1 ~x = λ(~x)
−1
⇒ ~x = Diag(µi (~x) + λi (~x))di=1
λ(~x)
⇒ ~x = Diag
⇒ ~x =
1
µi (~x) + λi (~x)
λ1 (~
x)
µ1 (~
x)+λ1 (~
x)
...
d
λ(~x)
i=1
λd (~
x)
µd (~
x)+λd (~
x)
T
,
erfüllt. Man erhält also unter der Vorraussetzung µ̃ + λ̃ > L eine Kontraktion und damit die
(garantierte) Existenz eines Fixpunktes.
8.2.5
Résumé für das DT Agentenmodell
Im folgenden Unterkapitel sollen ähnliche, vergleichbare Aussagen für das Zeit und Raumkontinuierliche Differentialgleichungsmodell gemacht werden. Zu diesem Zweck seien noch
einmal die wichtigen Aussagen des letzten Unterkapitels zusammengefasst:
Die Berechnung von Erwartungswert und Varianz über mehrere Zeitschritte hinweg ist
schwierig, da die Übergangswahrscheinlichkeiten λ(~x) und µ(~x) vom kompletten Zustandsvektor abhängen dürfen.
Nach einem Zeitschritt erhält man als Erwartungswert
E(~x(1)|x~0 ) = (xi (1 − µ(x~0 )) + (1 − xi )λ(x~0 ))di=1 .
(8.2)
Nach einem Zeitschritt erhält man als Varianz von xi
V(xi (1)|x~0 ) = N −1 (xi (1 − µ(x~0 ))µ(x~0 ) + (1 − xi )(1 − λ(x~0 ))λ(x~0 )).
(8.3)
96
KAPITEL 8. FEHLERANALYSE
Unter der Bedingung µ̃ + λ̃ > L mit
min {µi (~x)}
µ̃ := min
i=1...d
~
x
λ̃ := min
~
x
min {λi (~x)}
i=1...d
L := sup
~
x,~
x0
|λ(~x − ~x0 )|
|~x − ~x0 |
lässt sich der Banachsche Fixpunktsatz anwenden und man erhält als Grenzwert für den
Erwartungswert einen Fixpunkt von
~x =
λ1 (~
x)
µ1 (~
x)+λ1 (~
x)
...
λd (~
x)
µd (~
x)+λd (~
x)
T
.
(Vgl. dieses Resultat mit dem Langzeitverhalten des Erwartungswertes im Ehrenfestmodell)
8.3
Vergleich der Resultate mit dem DG Modell
Um die Resultate handfest vergleichen zu können, muss auch die Lösung des, dem Agentenmodell entsprechenden Differentialgleichungssystems zum Zeitpunkt 1 ausgewertet werden.
Bemerkung 8.3.1.
An dieser Stelle sei der enorme Raumunterschied der beiden Modelle angemerkt. Das (aufsummierte) Agentenmodell einerseits ist rein orts- und zeitdiskret, wohingegen das Differentialgleichungsmodell sogar auf beiden Skalen kontinuierlich ist.
8.3.1
Erwartungswertkurve an der Stelle t = 1
Als Start der Analyse bietet sich die Differentialgleichung 3.11 an:
X
~ 1 (φ(t), R)R, φ(0) = ~x0
φ(τ )0 = −
Φ
R6=0
Sofern die Lösung dieser Differentialgleichung überhaupt existiert, wovon in Folge ausgegangen wird, sei sie entweder (bezüglich der Zeit) zweimal differenzierbar oder mindestens durch
zweifach differenzierbare Funktionen approximierbar. Für den weiteren Verlauf wird angenommen, dass sie Ersteres ist - ansonsten kann man die Analyse analog mit konvergenten Folgen
durchführen, worauf hier nicht eingegangen wird.
Gemäß dieser Annahme lässt sich eine Taylorentwicklung der Lösungsfunktion φ(t) an der Stelle t = 1 (d.h. τ = f (N )N −1 ) durchführen.
~
~
~ 0 (0) + 1 φ
~ 00 (ξ) =
φ(1)
= φ(0)
+φ
2
8.3. VERGLEICH DER RESULTATE MIT DEM DG MODELL
97
Es gilt nun mit den am Anfang des Kapitels gebrachten Ideen
X
X
~
~
Φ1 (φ(0),
R)R =
Φ1 (φ(0),
ei − ej )(ei − ej ),
R6=0
1≤i6=j≤d
mit den Einheitsvektoren ei :=
0, . . . , |{z}
1 ,...,0
T
, da innerhalb eines infinitesimalen Zeit-
i
schrittes genau ein Agent seinen Zustand ändern kann (er verlässt j und wechselt zu i). Setzt
~ k als Beobachtungszustand, erhält man für die korrespondierende Zeile im DG
man nun φ := φ
System den Ausdruck
X
~ ), ej − ek ).
~ 0 (τ ) =
~ ), ek − ej ) − Φ1 (φ(τ
φ
Φ1 (φ(τ
k
j6=k
Gemäß der Definition der Reihenentwicklung der Übergangsraten,
ωx,R = f (N )(Φ1 (·) + N −1 Φ2 (·) + . . . ),
formt man um,
~ ek − ej ) =
Φ1 (φ,
1
ω~
− N −1 Kj,k ,
f (N ) φ,ek −ej
mit
~ ek − ej ) + N −1 Φ3 (·) + . . .
Kj,k := Φ2 (φ,
und erhält, eingesetzt
~ 0 (τ ) =
φ
k
N 1 X
−1
−1
~
~
ωφ,e
f (N )Kj,k − ωφ,e
f (N )Kk,j .
~ k −ej (φ) − N
~ j −ek (φ) + N
f (N ) N
j6=k
Mit der Zeittransformation τ → t fällt der Term
ten Umrechnung zwischen den Modellen
N
f (N )
weg und man erhält mitsamt der definier-
~ 0 (t) =
φ
k
 



X
X
X
f (N )
1
~ − 1
~  + N −1 
=
ωφ,e
ωφ,e
(Kk,j − Kj,k ) =
~ k −ej (φ)
~ j −ek (φ)
N
N
N
j6=k
j6=k
j6=k
|
{z
}

=:C


X
X
1
1
~ j (t)P ((1, k)|(0, j), φ)
~ −
~ k (t)P ((1, j)|(0, k), φ)
~  + N −1 C =
=
Nφ
Nφ
N
N


j6=k
j6=k

~k )
= (1 − φ

X
j6=k


X
~j
φ
~  − φ
~k
~  + N −1 C.
P ((1, k)|(0, j), φ)
P ((1, j)|(0, k), φ)
~
1 − φk
j6=k
98
KAPITEL 8. FEHLERANALYSE
Linker Hand erkennt man die Entry Wahrscheinlichkeit, rechter Hand, mit negativem Vorzeichen, die Exit Wahrscheinlichkeit des Zustands k.
~ k )λ(φ)
~ −φ
~ k µ(φ)
~ + N −1 C
= (1 − φ
Setzt man nun in die Taylorentwicklung ein, erhält man
~ k (1) = φ
~ k (0) − (1 − φ
~ k (0))λ(φ)
~ +φ
~ k (0)µ(φ)
~ − N −1 C + 1 φ
~ 00 (ξ) =
φ
2 k
1 ~ 00
~ k (0))λ(φ)
~ +φ
~ k (0)(1 − µ(φ))
~
= (1 − φ
− N −1 C + φ
(ξ).
2 k
Der geklammerte Ausdruck entspricht dem errechneten Erwartungswert im diskreten Modell die übrigen beiden Terme gilt es abzuschätzen.
1
1
||φ(1) − E(x, 1)|| = || − N −1 C + φ00 (ξ)|| ≤ N −1 ||C|| + ||φ00 (ξ)||
2
2
8.3.2
Abschätzungen für den Erwartungswertfehler
Zunächst wird der Ausdruck
||C|| =
f (N ) X
||
(Kk,j − Kj,k )|| ≤
N
j6=k
≤
f (N ) X
||Φ2 (·)j,k + N −1 Φ3 (·)j,k + · · · − Φ2 (·)k,j − N −1 Φ3 (·)k,j − . . . || =
N
j6=k
=
f (N ) X
||(Φ2 (·)j,k − Φ2 (·)k,j ) + N −1 (Φ3 (·)j,k − Φ3 (·)k,j ) + N −2 . . . ||
N
j6=k
~ ek − ej ) untersucht. Gemäß der Definition der Reihenentwicklung müssen
mit Φi (·)j,k := Φi (φ,
die Φn (·) unabhängig von N und stetig sein. Da die Übergangsraten kompakten Träger haben,
haben auch die einzelnen Φn kompakten Träger (womit alle Normen äquivalent sind). Es sei nun
αj,k := sup{||Φn (·)j,k − Φn (·)k,j ||} < ∞
n≥2
definiert. Damit konvergiert die geometrische Reihe innerhalb der Norm und es gilt die Abschätzung
||C|| =
f (N ) X
||(Φ2 (·)j,k − Φ2 (·)k,j ) + N −1 (Φ3 (·)j,k − Φ3 (·)k,j ) + N −2 . . . || ≤
N
j6=k
≤
2f (N ) X
(αj,k + N −1 αj,k + N −2 αj,k . . . ) =
N
j6=k
8.3. VERGLEICH DER RESULTATE MIT DEM DG MODELL
=
99
2f (N ) X
1
≤
αj,k
N
1 − N −1
j6=k
≤
2f (N )
1
(d − 1) sup(αj,k )
=
N
1 − N −1
j6=k
=
2f (N )
(d − 1) sup(αj,k ) =: C1 .
N −1
j6=k
Im klassischen Fall f (N ) = O(N ) erhält man eine von N unabhängige Konstante, die im
Fehler sogar mit N −1 multipliziert wird. Der durch N −1 C1 hervorgerufene Fehler ist also sogar
ein O(N −1 ).
Bemerkung 8.3.2.
Ist die Übergangsrate ωxk ,xk ±1 (Exit und Entry Rate) aus dem diskreten Agentenmodell durch
Umrechnung definiert, so hat sie stets die Form
ωxk ,ej −ek := N (1 − xk )λ,
ωx,ek −ej := N xk µ
mit Exit und Entry Wahrscheinlichkeiten λ bzw µ ≤ 1. Aus diesem Grunde kann die Funktion
f (N ) maximal Ordnung f (N ) = O(N ) haben.
Diese Tatsache ist im Rahmen der Kramers-Moyal-Entwicklung nicht notwendig gewesen, da
man zeitkontinuierliche, Markov-Prozess-basierte Mikrosimulationen mit Differentialgleichungen vergleichen wollte, wobei durchaus auch größere Übergangsraten entstehen konnten. Diese
müssen und können innerhalb dieser Fehlerabschätzung auf diese Weise aber auch nicht behandelt werden.
Es verbleibt den Fehler ||φ00 (ξ)|| abzuschätzen. Einsetzen in die Differentialgleichung liefert
zeilenweise

0
X
~ R)
~ 00 (ξ)|| = || 
~ R
~  || ≤
Φ1 (φ,
||φ
k
R6=0
~ k )λk (φ)
~ −φ
~ k µk (φ)
~
≤ || (1 − φ
0
+ N −1 C 0 (ξ)||.
Das für die Abschätzung unangenehme Problem ist, dass die 1. Ableitung nur zeilenweise angeschrieben werden kann, da jeder Zustand eigene Exit und Entry Raten hat. Definiert man mittels
~ 00 (ξ)|| ≤ λ(φ)
~ := max(λk (φ))
~
||φ
k
~ := min(µk (φ))
~
µ(φ)
k
skalare Funktionen, lässt sich der ganze Ausdruck auch vektorwertig abschätzen.
0
~ φ)
~ − φµ(
~ φ)
~ || + ||N −1 C 0 (ξ)||
≤ || (~1 − φ)λ(
100
KAPITEL 8. FEHLERANALYSE
Der rechte Term C 0 (ξ) lässt sich ganz analog mit den Ableitungen von Φn abschätzen und liefert
eine Konstante C2 . Den linken Term kann man mit Produkt und Kettenregel ableiten.
0
~ φ)
~ − φµ(
~ φ)
~
=
(~1 − φ)λ(
~ 0 λ + (~1 − φ)∇λ
~
~0 − φ
~ 0 µ − φ(∇µ · φ
~0) =
= −φ
·φ
~ 0 (−λ − µ) + (~1 − φ)(∇λ
~
~ 0 ) + φ(∇(µ)
~
~0)
=φ
·φ
·φ
Abschätzen liefert für die Norm davon
~ 0 || + ||(~1 − φ)(∇λ
~
~ 0 ) + φ(∇µ
~
~ 0 )|| ≤ ∗.
≤ |λ + µ|||φ
·φ
·φ
Der rechte Term ist nun zeilenweise eine Konvexkombination (da φ ≤ 1 elementweise) der
Ausdrücke ∇λ · φ~0 und ∇µ · φ~0 . Demnach kann man den Term mit dem Maximum der beiden
Ausdrücke abschätzen.
~ 0 || + max{||∇λ · φ0 ||, ||∇µ · φ0 ||} ≤
∗ ≤ |λ + µ|||φ
~ 0 || + max{||∇λ||, ||∇µ||}||φ
~ 0 || ≤
≤ |λ + µ|||φ
~ 0 || ≤ ∗
≤ (2 max{|λ|, |µ|} + max{||∇λ||, ||∇µ||}) ||φ
~ 0 liefert schlussendlich eine Abschätzung, die nur φ, λ und µ enthält.
Neuerliches Einsetzen für φ
~
Die Funktion φ wird erneut durch φ ≤ 1 für einen Konvexkombination benutzt.
~ + φµ||
~ + N −1 ||C(ξ)|| ≤
∗ ≤ (2 max{|λ|, |µ|} + max{||∇λ||, ||∇µ||}) ||(1 − φ)λ
≤ (2 max{|λ|, |µ|} + max{||∇λ||, ||∇µ||}) ||(max{|λ|, |µ|}) + N −1 C3 .
Das Resultat ist (berücksichtigt man die Zwischenstelle ξ) also die Fehlerabschätzung:
~
|φ(1)
− E(~x)| ≤
≤
2 max {|λ(~v )|, |µ(~v )|} + max {||∇λ(~v )||, ||∇µ(~v )||} max {|λ(~v )|, |µ(~v )|}+N −1 C4
~v ∈[0,1]d
~v ∈[0,1]d
~v ∈[0,1]d
mit den skalaren Funktionen
~ := max(λk (φ)),
~
λ(φ)
k
~ := min(µk (φ)).
~
µ(φ)
k
Die Normen der Übergangsraten und deren Ableitungen treten also sogar quadratisch auf.
Bemerkung 8.3.3.
Die Konstanten Ci treten natürlich nur dann in den Abschätzungen auf, wenn die Übergangsrate
auch Terme niederer Ordnung in N hat, als den führenden. Das ist z.B. dann der Fall, wenn man
gewisse Randwahrscheinlichkeiten (z.B. bei zellulären Automaten) berücksichtigen müsste, die
um eine Dimension in N geringere Auswirkung haben, als die Wahrscheinlichkeiten im Inneren
des Gebiets und dann in der DG-Modellierung nicht mehr auftreten.
8.4. VARIANZFEHLER
101
Bemerkung 8.3.4.
An dieser Stelle sei bemerkt, dass diese Fehlerabschätzung primär auf die Größe der Übergangsraten abzielt und der Fehler, der bei zu geringen Agentenzahlen N gemacht wird, bereits darin
absorbiert ist. Nichtsdestotrotz gilt immer noch die (nicht quantitative Aussage), dass der Fehler
1
der Erwartungswerte bei Vergrößerung der Agentenzahlen mit Ordnung N − 2 kleiner wird. D.h.
unter anderem, es gilt im Falle des Ehrenfestmodells (Ci = 0) die gezeigte Abschätzung für den
Fehler ||φ(1) − E(x(1))|| sogar bei N = 1.
Es verbleibt den Limes der Erwartungswertkurve zu analysieren und zu vergleichen. Gemäß
der Differentialgleichung erhält man als stationären Punkt,
~ − φk µk (φ)
~ + N −1 C,
0 = (1 − φk )λk (φ)
also
φk =
~
λk (φ)
+ N −1 C,
~ + µk (φ)
~
λk (φ)
für die Exit und Entry Rate des Zustandes k.
Im Grenzwert erfüllen die errechnete Erwartungswertkurve des DG Modells und der Grenzwert
der Fixpunktgleichung für das diskrete Modell (asymptotisch bzgl. N , aber unabhängig von den
Raten) die selbe Fixpunktgleichung. Für den selben Anfangswert müssen die beiden Kurven also
mit eine Fehler ≤ C1 N −1 zum selben Fixpunkt gehen.
8.4
Varianzfehler
Genauso, wie beim Erwartungswert ließe sich auch eine analoge, noch aufwändigere, Abschätzung für den Fehler in der Varianz eines einzelnen Zustandes nach einem Zeitschritt durchführen. Da aber die Differentialgleichung, aus der die Varianz folgten würde, für d > 2 kaum noch
lösbar ist (siehe Kapitel 5), wird hier nur das (sehr grob abgeschätzte) Resultat für das eindimensionale Problem (d = 2) angegeben.
|V(1) − σ 2 (1)| ≤
≤ N −1 4 max {|λ0 (~v )|, |µ0 (~v )|} + 6 max {|λ(~v )|, |µ(~v )|} max {|λ(~v )|, |µ(~v )|} + N −2 C
~v ∈[0,1]
8.5
~v ∈[0,1]
~v ∈[0,1]
Interpretation
Die im Kapitel vorgestellten Abschätzungen sind leider kaum verwertbar, da sie viel zu grob
sind und nur für einen Zeitschritt gelten. Man könnte z.B. über Multiplikation mit der Anzahl
der Zeitschritte, den Fehler linear wachsend für den Zeitschritt t abschätzen. Experimente zeigen jedoch, dass der Fehler einerseits deutlich kleiner ist, als die gewählte Abschätzung und
zusätzlich nicht einmal monoton wächst. Das Modell korrigiert sich also selbst, was man sogar
analytisch anhand der asymptotischen Äquivalenz der Ruhelagen der Erwartungswertkurven der
beiden Modelle erkennt.
102
KAPITEL 8. FEHLERANALYSE
In beiden Fällen, Erwartungswert sowie Varianz, kann man dennoch einige wichtige Schlüsse
ziehen:
Es existieren quantitative Abschätzungen für den Fehler. Die in diesem Kapitel Vorgestellten sind solche, jedoch mit Sicherheit nicht die Besten.
Es gilt die Folgerung limn→∞ ( ni,j , tn, N n) ⇒ ||φ(t) − E(x)|| → 0 sowie ||σ 2 (t) −
V(x)|| → 0. D.h. Skalieren von Zeit und Raten, sowie Vergrößern der Agentenzahlen
führt zu Konvergenz. Das erkennt man direkt aus den Abschätzungen, da die Raten in der
Formel quadratisch vorkommen, der Fehler aber nur linear in der Zeit wächst.
ω
Der Erwartungswertfehler Err(t) ist eine positive, beschränkte Funktion auf R+ mit mindestens einem Maximum und limt→∞,N →∞ Err(t) = 0.
KAPITEL
2. Bsp: SIR Modell
Das klassische SIR (Susceptible-Infected-Recovered) Modell ist ein, Anfang des 20. Jahrhunderts (Kermack und McKendrick, 1927, [KM27]) entwickeltes Modell zum einfachen mathematischen Beschreiben eines Krankheitsverlaufs. Zu dieser Zeit wurde das Modell als System
von Differentialgleichungen beschrieben, die heutzutage vorwiegend in Grundlagenvorlesungen
über Modellbildung und Simulation bzw. Epidemiologie Anwendung finden. Es handelt sich
dabei um ein gekoppeltes, nichtlineares Differentialgleichungssystem 1. Ordnung, welches trotz
der enormen Modellvereinfachung (das Modell kommt mit lediglich zwei Parametern aus), keine analytischen Lösungen mehr besitzt. Ende der 30er Jahre des vergangenen Jahrhunderts war
diese Tatsache enorm hinderlich, denn, obwohl Näherungsmethoden von Euler et al. längst bekannt waren, war die Umsetzung dieser ohne Computertechnologie äußerst zeitaufwändig und
ressourcenintensiv.
In der heutigen Computer-unterstützten Zeit schafft es beinahe sogar ein numerischer bzw. mathematischer Laie eine approximative Lösung der drei Gleichungen immerhin zeichnen zu lassen, sofern er/sie über die richtige Software verfügt. Die Forschung schreitet also voran. Während Anfang des 20. Jahrhunderts eine Epidemie offensichtlich noch mit zwei Parametern zu
beschreiben war, ist die Welt heutzutage scheinbar deutlich komplexer geworden. Auf jeden
Fall sind es die Anforderungen an das jeweilige Modell. Aus einem Projekt des Modellbildung und Simulations Unternehmen „dwh GmbH“ resultierte vor einiger Zeit ein InfluenzaInfektionsmodell (siehe [MZP+ 12]) mit mehr als 40 Parametern. Auf Grund der fehlenden Flexibilität des Modelltypus war es unmöglich, dieses Modell in Form von Differentialgleichungen
zu formulieren, also verwendete man agentenbasierte Modellierung (Es wäre 1927 noch deutlich
illusorischer gewesen, solch eine umzusetzen, als die numerische Lösung des Differentialgleichungssystems selbst).
Im Zuge von Arbeiten im Umfeld dieses Projekts entstand auch ein sehr vereinfachter stochastischer zellulärer Automat mit zwei bis vier Parametern (je nachdem, was man unter dem Begriff
Parameter verstehen will), der sehr ähnliche Ergebnisgraphen (Mittelwertkurven) lieferte, wie
das Differentialgleichungssystem aus dem Jahr 1927.
Ziel dieses Kapitels wird es sein, diesen zellulären Automaten zu analysieren, in interagierende
103
9
104
KAPITEL 9. 2. BSP: SIR MODELL
Markov-Prozesse zu zerlegen und mithilfe der hergeleiteten Theorie zu untersuchen. Es stellen
sich folgende Fragen:
Liefert die Theorie ähnliche Differentialgleichungen wie das klassische SIR-Modell?
Falls ja: Lassen sich die Parameter ineinander umrechnen?
9.1
Problemstellung
Um die Aufgabenstellung zu verdeutlichen, wird die Problemstellung in drei Unterkapitel zerlegt.
9.1.1
Reale Problemstellung
Gegeben ist eine Gesamtbevölkerung eines Gebiets (Staat, Stadt, Region, etc.), die über den
Verlauf der Krankheit als konstant angesehen wird (natürliche Geburten oder Todesfälle werden
also nicht berücksichtigt oder gleichen einander aus). Unter der Bevölkerung bricht schlagartig
eine Krankheit aus, sodass man jede Person genau einer der folgenden Klassen zuordnen kann:
Susceptible (S) - Die Person ist anfällig für die Krankheit.
Infected (I) - Die Person ist infiziert und stellt eine Ansteckungsgefahr dar.
Recovered (R) - Die Person ist genesen (verfügt also über Antikörper), von vorn herein
immun (geimpft) oder tot. Sie ist keine Ansteckungsgefahr mehr und kann (in diesem
Modell) auch nicht mehr infiziert werden.
9.1.2
Problemstellung des Differentialgleichungssystems
Im Bereich der Medizin bzw. Soziologie ist sogar der Mathematiker dazu gezwungen, sich von
seinem hohen Ross herab zu bewegen und sich auf Heuristiken einzulassen, um ein Modell
herzuleiten, da man sich im Bereich des sogenannten „Black Box Modelling“ befindet. Man
überlegt, beobachtet und kommt schlussendlich zu folgenden Ideen:
Je mehr Individuen infiziert (I) sind, umso mehr Individuen werden angesteckt.
Je weniger Individuen empfänglich (S) sind, umso weniger können angesteckt werden.
Die Ansteckungsgeschwindigkeit I 0 ist also proportional zu einer Funktion f , die positiv
von I und S abhängt. Man verwendet klassisch
I 0 = αIS.
Je mehr Individuen Infiziert sind, umso mehr Individuen genesen.
9.1. PROBLEMSTELLUNG
105
Die Genesungsgeschwindigkeit R0 ist also positiv von der Anzahl der Infizierten abhängig.
Im klassischen SIR Modell wird sie als direkt proportional angenommen.
R0 = βI
Der Fluss der Suszeptiblen zu den Infizierten muss in Summe 0 sein.
S 0 = −αIS
Mit der selben Überlegung erhält man
I 0 = αIS − βI.
Es folgt somit das DG System:
dS
= −αIS
dt
dI
= αIS − βI
dt
dR
= βI.
dt
9.1.3
Problemstellung des zellulären Automaten
Die Idee des zellulären Automaten beruht auf stochastischen Individuen-basierten Überlegungen. Dieses Konzept bietet neben einer deutlich größeren Flexibilität den Vorteil, dass es fachfremden Personen, wie bereits mehrfach erwähnt, deutlich leichter verständlich gemacht werden
kann. Da in diesem Modell die Anzahl aller Zellen, die mit dem Zustand S,I oder R belegt sind,
konstant bleibt, lässt sich die Idee des CAs besser mithilfe von, sich auf einem diskreten Gitter
bewegenden Agenten erklären. Es ist eine Philosophiefrage und eine Implementationsfrage, ob
man das Modell als stochastischen zellulären Automaten, oder als Agentenmodell betrachten
will.
Das als rechteckig angenommene Beobachtungsgebiet sei aufgeteilt in n · m benachbarte
Zellen. Jede dieser Zellen ist wiederum in 4 Unterzellen geteilt und bietet theoretisch Platz
für maximal 4 Agenten, wobei jeder Agent für ein Individuum steht, welches einen der
drei erwähnten Zustände (S,I,R) hat 1 .
Es sei N < 4mn die Anzahl der Individuen.
Das Modell wird Zeit getaktet (diskret) gerechnet.
1
Hier wird der enge Zusammenhang zwischen agentenbasierten Modellen und zellülären Automaten sichtbar. Zwar trägt die Zelle direkt den Zustand, doch lässt sich die Aufgabenstellung durch die Gleichgewichtsbedingung der Zellen (Summe ≡ N ) besser mithilfe von Agenten begreiflich machen.
106
KAPITEL 9. 2. BSP: SIR MODELL
Befindet sich innerhalb einer Parzelle zu einem Zeitpunkt ein Agent im suszeptiblen Zustand und einer im infizierten Zustand, so hat der suszeptible Agent eine gewisse Wahrscheinlichkeit sich am kranken „anzustecken“. Diese Wahrscheinlichkeit λ ≤ 1 wird als
Infektionswahrscheinlichkeit bezeichnet.
Jeder infizierte Agent hat während eines Zeitschrittes eine gewisse Wahrscheinlichkeit,
zu genesen (d.h. in den R Zustand überzugehen). Die Wahrscheinlichkeit µ ≤ 1 wird als
Genesungswahrscheinlichkeit bezeichnet.
Am Ende eines Zeitschrittes bewegen sich die Agenten nach gewissen Regeln am Gitter.
Die Anzahl der Agenten pro Zustand dient schlussendlich als Zustandsvariable, die mit
dem DG Modell verglichen werden soll.
So definiert ist das CA (bzw. Agenten) Modell noch lange nicht eindeutig.
An dieser Stelle wird einer der großen Unterschiede zwischen der Individuen-basierten Modellierung und dem Modellieren mit Differentialgleichungen am praktischen Beispiel deutlich:
Es ist kaum möglich das Modell zu definieren, ohne zumindest die Grundzüge der Implementierung des Modells vorzugeben. Allein um die Bewegungsregeln, die die Position des Agenten
zum nächsten Zeitpunkt bestimmen, zu beschreiben, muss man fast schon auf Indexschreibweise
von Matrizen zurückgreifen, bedenkt man z.B. das Verhalten der Agenten am Rand des Gebiets
oder das Problem des sequenziellen Bewegens der Agenten auf freie Felder. Die enorme Flexibilität in der Modellierung fordert so ihren Tribut, indem die Beschreibung des Modells auch
für einfache Probleme sehr detailliert sein muss, um insofern vollständig zu sein, als dass man
reproduzierbare Ergebnisse erhalten will. Die numerische Lösung der SIR Differentialgleichung
auf der anderen Seite sieht heute, trotz modernster numerischer Hilfsmittel, kaum anders aus,
als vor 80 Jahren.
Im weiteren Verlauf des Analyse wird nicht, und muss auch nicht näher auf die angesprochenen Bewegungsregeln eingegangen werden, sofern diese eine gewisse „Durchmischung“ der
Bevölkerung verursachen. Man verdankt das dem Umstand, dass bereits im ersten Schritt der
analytischen Analyse des zellulären Automaten das räumliche Konzept aufgelöst und in ein
Wahrscheinlichkeitsmodell übersetzt wird. Man erweitert damit sogar die Fragestellung von
Ist genau dieser zelluläre Automat ein diskretes Pendant zu den SIR Gleichungen?
auf
Sind alle diese zellulären Automaten, die gewisse Bewegungsregeln erfüllen, ein diskretes
Pendant zu den SIR Gleichungen?
9.2
Umsetzung der Theorie
Bevor man zu einer Schreibweise mit Übergangsraten übergehen kann, ist zunächst zu überprüfen, ob man die Bedingungen 6.6.1 mit dem so definierten Modell überhaupt erfüllen kann.
Zunächst kann ein Agent in diesem Fall genau einen von drei Zuständen annehmen (S, I oder R).
9.2. UMSETZUNG DER THEORIE
107
Das Problem ist also dreidimensional. Es ist also genau dann für eine Analyse tauglich, wenn es
3 × 3 = 9 verschiedene Übergangswahrscheinlichkeiten gibt, die nur von den Zustandsvektoren
(also nicht von der Zeit) abhängen, und in eine Reihe bzw. in ein Polynom (bzgl. der Agentenzahl) entwickelt werden können.
9.2.1
Übergangswahrscheinlichkeiten
Diese werden nun eine nach der anderen untersucht.
P ((1, R)|(0, S))
Diese Wahrscheinlichkeit ist 0, da ein suszeptibler Agent nicht sofort in den Zustand Immun übergehen kann.
P ((1, S)|(0, R)), P ((1, I)|(0, R)), P ((1, S)|(0, I))
Auch diese drei Wahrscheinlichkeiten belaufen sich auf 0, da ein immunes Individuum
weder suszeptibel noch krank wird. Genauso geht ein Agent im Zustand I nicht wieder
nach S zurück. Als direkte Folgerung erhält man
P ((1, R)|(0, R)) = 1.
P ((1, R)|(0, I))
Die Genesungswahrscheinlichkeit ist direkt aus dem Modell gegeben. Es gilt P ((1, R)|(0, I)) =
µ.
P ((1, I)|(0, S))
Um diese Wahrscheinlichkeit zu definieren, muss man sich einiger Tricks bedienen. Zunächst kann man die Wahrscheinlichkeit aufschlüsseln:
P ((1, I)|(0, S)) = P ((Agent trifft auf I) ∧ (Agent steckt sich dann an )|(0, S))
Eine Überlegung zeigt, dass diese beiden Wahrscheinlichkeiten unabhängig voneinander
sind und demnach als Multiplikation aufgelöst werden können. Mithilfe der Ansteckungswahrscheinlichkeit λ erhält man den Ausdruck
P ((1, I)|(0, S)) = P (( Agent trifft auf I )|(0, S)) · λ.
Um die erste Wahrscheinlichkeit zu bestimmen, wird zunächst der Begriff der Dichte ρ
als Anzahl der Agenten pro Feld definiert.
ρ :=
N
4nm
Diese ist, genauso wie die Agentenzahl, im Modell konstant.
Verweilt nun ein Agent mit suszeptiblem Zustand für einen Zeitschritt in einer Parzelle,
so kann er sich genau dann anstecken, wenn sich in zumindest einer der 3 Nachbarzellen
ein Agent mit infiziertem Zustand befindet. Würde man nun zufällig alle Infizierten auf
108
KAPITEL 9. 2. BSP: SIR MODELL
dem Gebiet verteilen, so wäre die Wahrscheinlichkeit, auf einem bestimmten Feld, einen
von ihnen anzutreffen genau
P ( I auf best. Feld) = Dichte × Anteil der Infizierten unter den Agenten = ρ
I
.
N
Für drei Nachbarfelder entspricht die Wahrscheinlichkeit also genau dem Dreifachen dieses Wertes.
I
P (( Agent trifft auf I )|(0, S)) = 3ρ
N
Natürlich fordert das eine gleichmäßige zufällige Vermischung der Agenten auf dem
Raum. Nachdem i.A. aber ein Regelwerk keine vollkommen wirren, zufälligen Bewegungen erlaubt, kann man folgende Bedingung formulieren.
Bedingung 9.2.1 (Zulässige Bewegungsregeln).
Für die weitere Theorie des Modells sind nur Bewegungsregeln zugelassen, die eine so
chaotische Vermischung der Agenten hervorrufen, dass
P (( Agent trifft auf I )|(0, S)) = 3ρ
I
+ O(N −1 )
N
I.A. ist diese Bedingung für vernünftige Regelwerke erfüllt. Der Ausdruck O(N −1 ) fängt
vereinzelte etwaige Cluster-Bildungen von ähnlichen Agenten oder ungewöhnliche Bewegungen von vereinzelten Agenten am Rand ab.
Insgesamt erhält man somit
P ((1, I)|(0, S)) = 3λρ
I
+ O(N −1 ).
N
P ((1, I)|(0, I)), P ((1, S)|(0, S))
Als Folgerung aus dem Satz für totale Wahrscheinlichkeit erhält man schlussendlich
P ((1, I)|(0, I)) = 1 − µ
und
P ((1, S)|(0, S)) = 1 − 3λρ
I
− O(N −1 ).
N
Aus der Definition der Übergangswahrscheinlichkeiten definiert man nun direkt die Raten für
die einzelnen Agenten ω.
ωA,B := P ((1, B)|(0, A))
Bevor nun die Raten des summierten Prozesses betrachtet werden, sei eine Vektorschreibweise
eingeführt (ai (t) bezeichne den Zustand des Agenten i zum Zeitpunkt t):
T
~ := PN I (a ), PN I (a (t)), PN I (a (t))
X(t)
i=1 S i
i=1 I i
i=1 R i
~ := N −1 X(t)
~
x(t)
9.2. UMSETZUNG DER THEORIE
109
Somit erhält man einen normierten Vektor (||x||1 = 1), wobei jeder Eintrag Aufschluss über die
Anzahl der gesunden, kranken und immunen Individuen zum Zeitpunkt t gibt. Es folgt nun analog zur Aufschlüsselung der Übergangswahrscheinlichkeiten P ((1, B)|(0, A)) die Berechnung
~ = ω(~x, ei − ej ). Gemäß der Analyse der Übergangswahrscheinder Übergangsraten ω(~x, R)
lichkeiten sind lediglich zwei dieser Übergangsraten nicht = 0, nämlich jene von den Vektoren
 
−1
 1  → ein Gesunder wird krank
0
und


0
−1
1
→ ein Kranker wird immun.
Gemäß der hergeleiteten Theorie belaufen sich diese auf
   
x1
−1
I
ω x2  ,  1  = X1 (3λρ + O(N −1 )) = N 3λρx1 x2 + O(N −1 )
N
x3
0
und
9.2.2
  
x1
0
ω x2  , −1 = X2 · µ = N (x2 µ).
1
x3

Die entstehenden Differentialgleichungen
Man erkennt sofort f (N ) = N und die Entwicklung der Raten nach der Agentenzahl:
Φ1 (~x, e2 − e1 ) = 3λρx1 x2 ,
Φ2 (~x, e2 − e1 ) = O(1)
Φ1 (~x, e3 − e2 ) = x2 µ
Es ergibt sich also keine Zeittransformation und die Differentialgleichung:
 
 
−1
0
X
~ 0 (t) =
~
φ
Φ1 (~x, R)R
= 3λρx1 x2  1  + µx2 −1 =
R6=0
0
1


−3λρx1 x2
= 3λρx1 x2 − µx2  .
µx2
Die wohlbekannten klassischen SIR Gleichungen entstehen auf ganz natürliche Art und Weise
und liefern die Antwort auf beide zu Anfang gestellten Fragen:
Ja, unter den Voraussetzungen der gut mischenden Bewegungsregeln erhält man die klassischen
SIR-Gleichungen.
110
KAPITEL 9. 2. BSP: SIR MODELL
α
3λρ
Unter diesen Voraussetzungen erhält man
=
für die Umrechnung der Parameter
β
µ
ineinander.
Als Dichtekurve erhält man
~ φ)
~ + ∇ξ Π · F~ (φ)
~ + g(Hξ (Π), φ)
~
Π(ξ, t)τ = Πf (ξ,
mit
~ φ)
~ :=
f (ξ,
X
~ R)
~ ·R
~ = 3λ(φ1 − φ2 ) − µ
∇Φ1 (φ,
~ =0
R6
X
~ := 1
~ R)
~ T Hξ (Π)RΦ
~ 1 (φ,
~ =
g(Hξ (Π), φ)
R
2
~ =0
R6
(Hξ1,1 − 2Hξ2,1 +Hξ2,2 )3ρλφ1 φ2 + (Hξ2,2 − 2Hξ3,2 + Hξ3,3 )µφ2


−3λρ(φ1 ξ2 + φ2 ξ1 )
X
~ :=
~ R))
~ R
~ = 3λρ(φ1 ξ2 + φ2 ξ1 ) − µξ2  .
F~ (φ)
(ξ · ∇Φ1 (φ,
µξ2
~ =0
R6
Obwohl das Problem also „nur“ dreidimensional ist, entsteht eine sehr komplexe partielle Differentialgleichung zweiter Ordnung, in welcher die Koeffizienten-Funktionen sehr ungleichmäßig
von den Variablen abhängen. Jeglicher Versuch über eine Parametrisierung zur Lösung zu gelangen ist somit zum Scheitern verurteilt.
9.3
Resultate zum konkreten Beispiel
Wie im Kapitel 7 folgen nun einige Grafiken, die die angewendeten Umformungen bestätigen
sollen. Es folgt aus Gründen der Übersicht eine Tabelle, die die verwendeten Parametersätze für
die Plots zusammenfasst. In diesem Kapitel werden die Parameter Ansteckungswahrscheinlichkeit (λ), Genesungswahrscheinlichkeit µ und die Dichte ρ verwendet.
Abb.
9.1
9.2
9.3
Typ
Vergleich: Mittelwerte
Vergleich: Mittelwerte
Vergleich: Mittelwerte
N
4000
4000
4000
M
300
300
300
9.4
Vergleich: Fehler
4000
300
λ
0.7
0.8
0.7


0.7
 0.7 
0.35
µ
0.2
0.1
0.05
0.5
ρ
0.5
0.5
0.5
30
45
60
x0
(0.9, 0.1, 0)T
(0.9, 0.1, 0)T
(0.9, 0.1, 0)T
(0.9, 0.1, 0)T
Die ersten 3 Abbildungen (9.1,9.2,9.3) zeigen linker Hand das Resultat des agentenbasierten
Modells (zellulären Automats)
gemittelt über 300 Durchläufe - also den empirischen Mittel1 PM
wertschätzer E(x) ≈ M i=1 xi . Gerechnet wurde ein Raster von 40 × 50 Zellen (d.h. 2000
Zellen, von denen jede wiederum in 4 weitere Parzellen unterteilt ist). Mit der Dichte ρ = 0.5
9.3. RESULTATE ZUM KONKRETEN BEISPIEL
111
erhält man somit 4000 Agenten. Rechter Hand sieht man die mit einem adaptiven Runge-KuttaVerfahren (Dormand & Prince) approximierten Lösungskurven der gemäß der Umrechnung aus
dem letzten Unterkapitel parametrisierten SIR Gleichungen. Diese drei Grafiken dienen weniger der quantitativen Fehleranalyse |φ(t) − E(x)(t)|, sondern mehr der Studie der qualitativen
Ähnlichkeiten der Modelle. Nicht immer steht bei einem Modell die Lösungskurve als Ganzes
im Vordergrund - in diesem Modell könnte z.B. auch der Zeitpunkt und die Höhe des ersten
Extremums der Infizierten-Kurve von Bedeutung sein.
Der angesprochene analytische Vergleich folgt in Abbildung 9.4. Dort sind für drei unterschied-
Abbildung 9.1: Parameter λ = 0.7, µ = 0.2
Abbildung 9.2: Parameter λ = 0.8, µ = 0.1
liche Parametersätze die Fehler der Kurven, jeweils aufgetrennt nach Zeile des Lösungsvektors,
112
KAPITEL 9. 2. BSP: SIR MODELL
Abbildung 9.3: Parameter λ = 0.7, µ = 0.05
aufgetragen. D.h. die oberste Grafik zeigt den Fehler, den die beiden Modelle zueinander machen, für die Anzahl der suszeptiblen Individuen. Man erkennt, z.B. mithilfe der punktierten
Linie, die in jede der drei Grafiken eingezeichnet ist, dass die Halbierung der Raten und die
Verdoppelung der Zeit, was für das ODE Modell lediglich eine Transformation in der Zeit bedeutet, den Fehler invers linear verringert. Der überraschende Effekt, dass der Fehler für die Rate
µ = 0.1 anstelle von µ = 0.2 (wobei λ unverändert) im Plot für die gesunden und kranken Individuen sogar größer ist, als der Fehler des Ausgangsmodells 0.7/0.2, lässt sich z.B. so erklären:
Die Exit Rate für den Zustand I wurde verkleinert. Demnach wächst der Zustand I schneller,
was die Entry Rate (die ja von I abhängt) des Zustandes I, sowie auch die Exit Rate des Zustandes S vergrößert. Demnach nimmt der Fehler, trotz Verringerung einer Rate, für diese beiden
Zustände, sogar zu. Diese Rate wirkt sich gem. der Gleichungen nicht mehr direkt auf die dritte
Komponente (R) aus. Dort nimmt der Fehler durch die Halbierung der Rate zwar ein wenig
langsamer als für den dritten Parametersatz, aber dennoch, ab.
9.4
Résumé
Das SIR-Modell reizt, im Gegensatz zum Ehrenfestmodell, die Theorie an zwei entscheidenden
Punkten aus:
Das Problem ist mehrdimensional.
Die Übergangsraten der Agenten, hängen von den Zustandsvektoren ab (hier dem Zustand
I).
Vor allem der zweite Punkt ist von besonderem Interesse, denn er bedeutet, dass die Agenten
miteinander interagieren dürfen. Die Fehlergrafiken zeigen, genauso wie die Fehlerabschätzun-
9.4. RÉSUMÉ
113
0.2
0.7/0.2
0.7/0.1
0.35/0.1
Fehler x1
0.15
0.1
0.05
0
0
0.2
5
10
15
Zeit
20
25
0.7/0.2
0.7/0.1
0.35/0.1
0.15
Fehler x2
30
0.1
0.05
0
0
0.2
5
10
15
Zeit
20
25
0.7/0.2
0.7/0.1
0.35/0.1
0.15
Fehler x3
30
0.1
0.05
0
0
5
10
15
Zeit
20
25
30
Abbildung 9.4: Fehlergraphen für S (oben), I (mittig) und R (unten) für drei Parametersätze
gen aus den Theorie-Kapiteln, dass die Idee der Kramers-Moyal Entwicklung auch auf solche
Modelle anwendbar ist.
KAPITEL
3. Bsp: Linearisiertes, ungedämpftes
Pendel
10.1
Motivation und Problemstellung
An diesem, letzten, Beispiel soll schlussendlich illustriert sein, dass die erarbeitete Theorie
durchaus auch in die umgekehrte Richtung, d.h das Erstellen eines agentenbasierten Modells
auf Basis einer Differentialgleichung, anwendbar ist. Ausgangspunkt dieses Beispiels ist die
wohlbekannte linearisierte Pendelgleichung
u00 = −ku,
u(0) = u0 , u0 (0) = u00
mit k > 0. Es sei für dieses Beispielkapitel sogar k < 1 gefordert. Die Lösung ist wohlbekannt
und leicht analytisch anzugeben:
√
√
u0
u(t) = √0 sin( kt) + u0 cos( kt)
k
Gemäß der Lösungstheorie über lineare Differentialgleichungen
kann die Differentialgleichung
u1
u
zweiter Ordnung mithilfe der Substitution
in ein System erster Ordnung ge:=
u2
u0
schrieben werden.
0 u1
u2
=
u2
−ku1
Sei also in Folge die Differentialgleichung
0
φ~0 =
0 1 ~
φ
−k 0 0
(10.1)
eine Approximation des Mittelwertes eines stochastischen agentenbasierten Modells, dessen Parameter und Übergangswahrscheinlichkeiten zu bestimmen sind.
115
10
116
10.2
KAPITEL 10. 3. BSP: LINEARISIERTES, UNGEDÄMPFTES PENDEL
Erarbeiten des Agentenmodells
Zunächst stellt man fest, dass als Output des in den Theoriekapiteln beschriebenen Verfahrens,
stets eine Differentialgleichung der Form
~0 =
φ
X
ωφ,
ei − e~j )
~ e~i −e~j (~
i,j
P ~0
resultiert. D.h. Differentialgleichungen die i φ
i = 0 und damit eine gewisse Erhaltungsgleichung erfüllen. Die beschriebene Modellgleichung 10.1 ist demnach in dieser Form noch nicht
verwendbar. Man löst das Problem z.B., indem man einen fiktiven dritten Zustand, der das Verhalten der ursprünglichen Differentialgleichung direkt noch nicht beeinflusst, in Form einer dritten Differentialgleichung dazu modelliert.
  
 
 0 
1
0
φ2
φ1
φ2  =  −kφ1  =  0  φ2 + −1 kφ1
−1
1
−φ2 + kφ1
φ3
~0 =
Mit der Taylorentwicklung ω~x,R = N Φ~x,R und der Formel φ
ω~x,e~1 −e~3 = N x2 ,
P
~ R
R Φφ,R
(10.2)
erhält man
ω~x,e~3 −e~2 = N kx1 .
Das größte Problem für die Anwendung der Theorie ist nun das Problem, dass die Werte der
Zustände auch negativ sein können, was negative Übergangsraten verursachen würde. Man ist
also gezwungen, Fallunterscheidungen zu machen:
ω~x,e~1 −e~3 := max(0, N x2 ),
ω~x,e~3 −e~2 := k max(0, N x1 ),
ω~x,e~3 −e~1 := max(0, −N x2 )
ω~x,e~2 −e~3 := k max(0, −N x1 )
Nun soll aber N xi einer Agentenzahl entsprechen, womit eben diese aber nicht negativ sein
kann. Um dieses Problem zu lösen, muss man noch einmal zum Anfang springen und die
Differentialgleichung umskalieren. Bekanntermaßen schwingt das Pendel
√ √ u1 auf dem Intervall
C[−1, 1] und die Ableitung des Pendels u2 auf dem Intervall C[− k, k], mit einer von den
Anfangswerten abhängigen Konstante C. Verwendet man stattdessen also die Differentialgleichung
 0 
  
φ1
φ2
C
φ2  =  −kφ1  + C  ,
φ3
−φ2 + kφ1
C
√
√
so schwingen die Lösungen für auf [0, 2C] bzw auf C[1 − k, 1 + k]. Um zu garantieren, dass
x1 + x2 + x3 = 1 bzw. überhaupt x1 + x2 < 1 kann man z.B.
C :=
1
4
10.2. ERARBEITEN DES AGENTENMODELLS
117
setzen. Damit erhält man die Differentialgleichung
 1
 0 
φ2
φ1
4
φ2  =  −kφ1  +  1  , (u0 − 1 )2 + 1 (u00 − 1 )2 = (≤) 1
4
4
k
4
4
1
−φ2 + kφ1
φ3
4
Die resultierenden Übergangsraten sind demnach
ω~x,e~1 −e~3 := max(0, N x2 −
N
),
4
ω~x,e~3 −e~1 := max(0, −N x2 +
N
)
4
ω~x,e~3 −e~2 := k max(0, N x1 −
N
),
4
ω~x,e~2 −e~3 := k max(0, −N x1 +
N
).
4
Die Umrechnungsformel
ω~x,e~j −e~i = N~xi ωi,j = Xi P ((1, j)|(0, i))
liefert schlussendlich die Übergangsmatrix

·


P ((1, j)|(0, i)) := cωi,j := c 
0
·
)
max(0,N x2 − N
4
N x3


= c

·
)
max(0,−N x1 + N
4
k
N x3
0
0
·
)
max(0,X2 − N
4
X3
max(0,−X1 + N
)
4
k
X3
)
max(0,−N x2 + N
4
N x1

)
max(0,N x1 − N
4 
k

N x2

0
=
·
)
max(0,−X2 + N
4
X1

)
max(0,X1 − N
4 .
k

X2

·
Da i.A. die definierten Wahrscheinlichkeiten nicht einmal kleiner als 1 sein müssen, bietet sich
hier die Skalierung mit einem kleinen c > 0 an, womit auch die Zeit skaliert werden muss.
Mithilfe dieser Matrix ist das agentenbasierte Modell bereits definiert und kann implementiert
werden. Mithilfe von Relationen zwischen den Zuständen könnte man zusätzlich noch versuchen, die Wahrscheinlichkeiten aus einem räumlichen Modell über Kontaktwahrscheinlichkeiten
zu erzeugen. In jedem Zeitschritt hängt die Veränderung der Zustandsvektors von der Positivität
der Ausdrücke X1 − N4 bzw. X2 − N4 ab. Je nach Vorzeichen haben entweder die Agenten im
(unbedeutenden) Zustand 3 die Möglichkeit, in den Zustand „Funktion“ (1) oder „Ableitung“ (2)
überzugehen und damit die jeweilige Zustandsvariable zu erhöhen, oder die Agenten aus dem
Zustand 1 oder 2 haben die Chance in den Zustand „Ruhe“ (3) überzugehen. Wie hier schon
herausgelesen werden kann, ist eine logische Deutung des definierten Agentenmodells fast nicht
möglich. Umso interessanter ist die Tatsache, dass das in dieser Form definierte Modell überhaupt entwickelt werden konnte.
So verrückt und abstrakt die Verwendung eines agentenbasierten Modells in diesem Fall auch
erscheinen mag, baut sie doch auf einem erst zunehmenden Hintergrund auf. So ausgereift die
Forschung auch im Bereich der Physik ist, liefert sie keinerlei Antworten darauf, wie die in der
Physik hergeleiteten Differentialgleichungen bzw. Differentialgleichungsmodelle gelöst werden
118
KAPITEL 10. 3. BSP: LINEARISIERTES, UNGEDÄMPFTES PENDEL
können. Z.B. allein um ein Fadenpendel mit Überschlag zu modellieren, benötigt man zwei unterschiedliche Modelle (schwingen und freier Fall), die über einen Event gekoppelt sind (Fliehkraft ↔ Winkelgeschwindigkeit). Das Eventhandling führt dabei über eine Zwangsbedingung,
die mit der Modellbeschreibung in vielen gängigen Simulatoren nicht konform geht und das
Modell unlösbar macht. Da agentenbasierte Modelle deutlich flexibler sind, könnte man solche
Probleme möglicherweise einfacher in den Griff bekommen.
10.3
Resultate zum konkreten Beispiel
In Folge wird stets das Modellproblem
u00 = −0.25u,
u(0) = 0, u0 (0) = 0.5
mit der Lösung
u(t) = sin(0.5t)
als Referenz verwendet und nur ein Durchlauf des Modells mit, im Gegenzug, sehr großen Agentenzahlen gerechnet und angegeben (M = 1). Wie auch in den vergangenen Kapiteln folgt
zunächst eine Übersichtstabelle über die verwendeten Parametersätze für die folgenden Abbildungen. Die Plots wurden mit dem im Appendix A zu findenden MATLAB Code erzeugt.


X1 (0)
X2 (0)
Abb.
Typ
N
c
X3 (0)


2500
3000
10.1
Vergleich mit DG
10000
0.01
4500
2500
3000
0.005 · (1, . . . , 15)
10.2 Vergleich Raten/Zeitskalierung
10000
 4500

25
10.3
Vergleich Agentenzahlen
100 · 100...2 30 100...2
0.001
45
Zunächst sei erwähnt, dass die Übergangsraten stark nichtlinear vom Zustandsvektor abhängen
und große Steigungen besitzen. Dadurch muss das Modell mit sehr kleinen Skalierungsfaktoren
c gerechnet werden, um sinnvolle Resultate zu erhalten. Einen Vergleich mit der analytischen
Lösung ist für c = 0.01 in Abbildung 10.1 zu sehen. Durch die notwendige Zeitskalierung
müssen 5000 Zeitschritte gerechnet werden, um es mit der analytischen Lösung auf dem Intervall [0, 50] vergleichen zu können. Verwendet man zu große Faktoren c, zeigen sich, ähnlich
zum Verhalten eines expliziten Euler-Verfahrens, Instabilitäten in den Lösungen. Dies wird in
der Vergleichsgrafik 10.2 ersichtlich. Hier sind für unterschiedliche Skalierungsfaktoren c die
Lösungen des Agentenmodells im selben Plot zu sehen und farblich gekennzeichnet. Ähnliche
Resultate erhält man, wenn man zu niedrige Agentenzahlen für die Simulation verwendet. Anhand von drei unterschiedlichen Agentenzahlen (100, 1000, 10000) ist für den Skalierungsfaktor
c = 0.001 das Ergebnis mit 10000 Zeitschritten in der Abbildung 10.3 zu sehen.
10.3. RESULTATE ZUM KONKRETEN BEISPIEL
119
Agentenmodell (10000 Agenten, c=0.01)
4000
3500
3000
2500
2000
1500
1000
0
500
1.00012571.500
2.000
2.500
3.000
3.500
4.000
4.500
5.000
30
35
40
45
50
Lösung DG
1
0.5
0
-0.5
-1
0
5
10 12.57 15
20
25
Abbildung 10.1: Graphen für u und u0 mit beiden Modellen berechnet
120
KAPITEL 10. 3. BSP: LINEARISIERTES, UNGEDÄMPFTES PENDEL
4500
u mit 0.005
u mit 0.075
4000
3500
3000
2500
2000
1500
1000
500
0
0
5000
5
10
15
20
25
30
35
40
45
50
20
25
30
35
40
45
50
u' mit 0.005
u' mit 0.075
4000
3000
2000
1000
0
0
5
10
15
Abbildung 10.2: Lösungen u (oben) und u0 für unterschiedliche Raten/Zeitskalierungsfaktoren
10.3. RESULTATE ZUM KONKRETEN BEISPIEL
121
N=100
50
40
30
20
10
0
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
N=1000
500
400
300
200
100
0
0
1000
2000
3000
4000
5000
N=10000
6000
7000
8000
9000
10000
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
5000
4000
3000
2000
1000
Abbildung 10.3: Agentensimulation für N = 100, 1000 und 10000
KAPITEL
Conclusio
11.1
Rückblick
In den vergangenen Kapiteln wurde gezeigt, wie mit rein mathematischen Mitteln auf analytischer Ebene, Modelltypen ineinander übergeführt werden können, und wie im Endeffekt sogar
Konvergenzresultate folgen. Vor allem bedingt durch die theoretische Komplexität einer Mikrosimulation waren viele Zwischenschritte notwendig, um vom DG Modell schlussendlich eine
Brücke zum zeitdiskreten - raumdiskreten Agentenmodell zu gelangen. Es seien nun ein letztes
Mal die wichtigsten Aussagen der Arbeit zusammengefasst:
Die Zustandsvektoren (Summe aller Agenten im selben Zustand) von stochastischen agentenbasierten Modellen, in denen die Übergangswahrscheinlichkeiten eines Agenten von
einem Zustand in den anderen maximal von dem Zustandsvektor selbst abhängen, haben
stochastische Größen, die approximativ mit Differentialgleichungen beschreibbar sind.
Die Kurve des Mittelwerts der agentenbasierten Modelle kann durch ein System von gewöhnlichen, evtl. nichtlinearen, Differentialgleichungen approximiert werden.
Die Varianz lässt sich im Fall von maximal zwei Zuständen ebenfalls durch eine gewöhnliche Differentialgleichung annähern. Sie ist nicht zwingend monoton wachsend. In diesem
Fall lässt sich damit sogar eine Approximation an die Wahrscheinlichkeitsdichte ermitteln.
Eine Approximation an die diskrete Wahrscheinlichkeitsverteilung erhält man mit einer
Dichtefunktion, die als Lösung einer Fokker-Planck-Gleichung auftritt.
Im eindimensionalen Fall entspricht diese Dichte einer zeitabhängigen Gauss-Verteilung
mit Mittelwert φ(t) und Varianz σ 2 (t).
Die Varianz ist auch für eine beliebige Anzahl an Zuständen stets ein O(N −1 ) und konvergiert gegen 0.
123
11
124
KAPITEL 11. CONCLUSIO
Im Vergleich der DG mit einem zeitkontinuierlichen agentenbasierten Markov-Modell
entsteht ein Orts-Diskretisierungs-Fehler, der von der Agentenzahl bzw. der Anzahl der
Durchläufe des Agentenmodells abhängt.
Im Vergleich des zeitkontinuierlichen Markov-Modells und des stochastischen zeitdiskreten agentenbasierten Modells entsteht ein Zeit-Diskretisierungs-Fehler der von der Größe
der Übergangsraten bzw. deren Ableitungen abhängt.
Die Konvergenz, zumindest der Erwartungswertkurven, erhält man mit dem Parametersetting
ω
lim (nTend , , N n)
n→∞
n
Die zu verwendenden Umrechnungen vom Agentenmodell zur Differentialgleichung lauten
ωj,i := P ((1, i)|(0, j)) = P (Agent wechselt von j zu i)
ω~x,e~i −e~j := N~xj ωi,j
f (N )(Φ1 (~x, e~i − e~j ) + N −1 Φ2 (~x, e~i − e~j ) + . . . ) := ω~x,e~i −e~j
X
~0 =
~ e~i − e~j )(~
φ
Φ1 (φ,
ei − e~j ),
i6=j
oder mithilfe der Exit und Entry Rate definiert
X
(ωex (~x))j := N~xj
ωj,i =: N~xj µj
i6=j
(ωen (~x))j := N
X
~xi ωi,j =: N (1 − ~xj )λj
i6=j
~ 0 := (Φ1 (φ))
~ j − (Φ1 (φ))
~ j.
φ
j
en
ex
Der Fehler, den beide Modelle zueinander machen, ist auch quantitativ abschätzbar.
Das Resultat ist ein fertiges, wenn auch noch nicht perfekt ausgereiftes Konzept zur Erstellung
von Differentialgleichungs bzw. agentenbasierten Modellen aus dem jeweils anderen.
11.2
Ausblick
Die vorgestellte Theorie könnte durchaus langfristig in Bereichen der Modellbildung in Simulation helfen, die Anwendungsbereiche von Modellen weiter zu vergrößern. Ist z.B. durch eine geringe Modelländerung ein Differentialgleichungsmodell unrechenbar geworden, z.B. durch eine
komplizierte Zwangsbedingung oder einen Event, könnte das Problem vielleicht im korrespondierende agentenbasierten Modell leicht zu lösen sein. Auf der anderen Seite könnten genauere
Analysen des Konzepts überdies dazu beitragen, mithilfe der ausgereiften Theorie über Differentialgleichungen das Verhalten von sich selbst korrigierenden mikroskopischen Systemen, die
11.2. AUSBLICK
125
ob ihres chaotischen Verhaltens stets schwer zu analysieren sind, besser zu verstehen und vorhersagen zu können. Die vorliegende Arbeit kratzt diesbezüglich gerade erst an der Wurzel, und
die Theorie bietet noch viel Potenzial (genauere Fehleranalysis, Untersuchen von Stabilität von
Lösungen, Rechenzeitanalysen, etc.).
Sowohl das Modellieren mit Differentialgleichungen, als auch die agentenbasierte Modellierung
leisten gerade in einer Zeit, in der es immer notwendiger wird, auf ihrem jeweiligen Anwendungsgebiet sehr gute Dienste. Wenn mithilfe von Ideen wie dieser die beiden Anwendungsgebiete immer weiter überlappen und man weniger an einen Modelltyp gefesselt ist, kann die
Modellbildung, denke ich, nur profitieren und mit ihr natürlich auch der Mensch.
ANHANG
Appendix
Matlab Code für das agentenbasierte Pendel Modell:
function [M] = pendel(N,x0,tt,k,c)
% Ausgangspunkt: x’’=-kx bzw (x_1,x_2)’=(x_2,-kx_1)
% N
- Anzahl an Agenten
% x0
- (X1(0),X2(0))
% tt
- Anzahl der Schritte
% k
- Frequenzkonstante
% c
- Skalierungsfaktor fuer die Wahrscheinlichkeiten
%
% ------Definition der Anfangskonfiguration------P(1:N)=0;
P(1:x0(1))=1;
P(x0(1)+1:x0(1)+x0(2))=2;
x(1)=x0(1);
xx(1)=x0(2);
% ------Schleife ueber die Zeit ------------------for t=2:tt
x(t)=x(t-1);
xx(t)=xx(t-1);
Q(1:N)=0;
W=WW(x(t-1),xx(t-1)); % Aufruf der Ratenfunktion
% ------Schleife ueber die Agenten ----------------for i=1:N
if P(i)==0
r=rand();
if r<W(3,1)
Q(i)=1;
x(t)=x(t)+1;
elseif r<W(3,1)+W(3,2)
Q(i)=2;
xx(t)=xx(t)+1;
else
Q(i)=0;
end;
127
A
128
ANHANG A. APPENDIX
elseif P(i)==1
r=rand();
if r<W(1,3)
Q(i)=0;
x(t)=x(t)-1;
elseif r<W(1,3)+W(1,2)
Q(i)=2;
x(t)=x(t)-1; xx(t)=xx(t)+1;
else
Q(i)=1;
end;
else
r=rand();
if r<W(2,3)
Q(i)=0;
xx(t)=xx(t)-1;
elseif r<W(2,3)+W(2,1)
Q(i)=1;
x(t)=x(t)+1; xx(t)=xx(t)-1;
else
Q(i)=2;
end;
end;
end;
M(t,1:N)=P(1:N);
P=Q; % Updateschritt
end;
% ------Plotbefehl------------------------------A=[x;xx];
plot(1:tt,A);
% ------Ratenfunktion---------------------------function omega = WW(x,xx)
omega=zeros(3);
omega(1,3)=c*max(0,-xx+N/4)/x;
omega(3,1)=c*max(0,xx-N/4)/(N-x-xx);
omega(2,3)=c*k*max(0,x-N/4)/xx;
omega(3,2)=c*k*max(0,-x+N/4)/(N-x-xx);
end;
end
Abbildungsverzeichnis
2.1
2.2
2.3
Übersichtsabbildung - Umweg zum Ziel . . . . . . . . . . . . . . . . . . . . . .
Vergleich stochastisch - deterministisch . . . . . . . . . . . . . . . . . . . . . .
Möglicher Pfad eines CTDS Markovporzesses . . . . . . . . . . . . . . . . . .
5
8
13
3.1
Approximation von p mit pcont bzw. pi . . . . . . . . . . . . . . . . . . . . . . .
43
4.1
4.2
Beispiel für die Lösungskurven einer Transportgleichung . . . . . . . . . . . . .
Beispiel für die Lösungskurven einer Diffusionsgleichung . . . . . . . . . . . .
50
50
7.1
7.2
7.3
7.4
7.5
7.6
7.7
Skizze des Ehrenfest’schen Urnenproblems . . . . .
Unterschiedliche Werte für N . . . . . . . . . . . . .
Erwartungswertkurve mit Standardabweichungskurve
Vergleich der Varianzen . . . . . . . . . . . . . . . .
Vergleich der Dichtekurven . . . . . . . . . . . . . . .
Fehler mit unterschiedlichen Werten von N · M . . .
Fehler mit Zeit- und Raten-Skalierung C . . . . . . .
.
.
.
.
.
.
.
76
82
83
84
85
86
87
8.1
8.2
Überblick über bisherige Abschätzungen . . . . . . . . . . . . . . . . . . . . .
Skizze für die Umrechnung - φ steht Beispielhaft für eine stochastische Größe .
89
91
9.1
9.2
9.3
9.4
Parameter λ = 0.7, µ = 0.2 . . . . . . . . . . . . . . . . . . . . . . . . . .
Parameter λ = 0.8, µ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . .
Parameter λ = 0.7, µ = 0.05 . . . . . . . . . . . . . . . . . . . . . . . . . .
Fehlergraphen für S (oben), I (mittig) und R (unten) für drei Parametersätze
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
111
111
112
113
10.1 Graphen für u und u0 mit beiden Modellen berechnet . . . . . . . . . . . . . . .
10.2 Lösungen u (oben) und u0 für unterschiedliche Raten/Zeitskalierungsfaktoren .
10.3 Agentensimulation für N = 100, 1000 und 10000 . . . . . . . . . . . . . . . . .
119
120
121
129
Literaturverzeichnis
[Aok02]
Masanao Aoki. Modeling Aggregate Behavior and Fluctuations in Economics: Stochastic Views of Interacting Agents. Cambridge University Press, New York, 2002.
[Enc07]
Encyclopaedia Britannica, inc. The New Encyclopaedia Britannica. Encyclopaedia
Britannica, Chicago, 15th edition, 2007.
[Kam82]
N. G. van Kampen. The Diffusion Approximation for Markov Processes. Thermodynamics and kinetics of biological processes. Walter de Gruyter and Co., 1982.
[Kam07]
N. G. van Kampen. Stochastic processes in physics and chemistry. North-Holland
personal library. Elsevier, Amsterdam ; Boston, 3rd ed edition, 2007.
[KM27]
W.O. Kermack and W.G. McKendrick. A contribution to the mathematical theory
of epidemics. 1927.
[Mik12]
F. Miksch. Mathematische Modelle für neue Erkenntnisse über Epidemien mittels
Herdenimmunität und Serotypenverschiebung. Dissertation, Inst. f. Analysis und
Scientific Computing, Vienna University of Technology, Vienna, 2012.
[MZP+ 12] Florian Miksch, Günther Zauner, Philipp Pichler, Christoph Urach, and Niki Popper.
Endbericht. Technical Report Endbericht des Influenza Projekts, Vienna, February
2012.
[PK12]
C. Pöll and A. Körner. A different kind of modelling: Cellular automata. In F. Breitenecker and I. Troch, editors, Preprints MATHMOD 2012 Vienna – Abstract Volume, volume 38 of ARGESIM Report, page 402, Vienna, Austria, 2012. ARGESIM /
ASIM.
[Sch05]
Volker Schmidt. Vorlesungsskript Wahrscheinlichkeitstheorie. Universität Ulm,
SS2005, Juli 2005. Vorlesung SS2005.
[Sto70]
William F. Stout. The hartman-wintner law of the iterated logaroithm for martingales. The Annals of Mathematical Statistics, 41(6), 1970.
131
Herunterladen
Explore flashcards