Markovprozesse und stochastische Differentialgleichungen

Markovprozesse und
stochastische Differentialgleichungen
Ehrhard Behrends
Fachbereich Mathematik und Informatik
Freie Universität Berlin
Sommersemester 2011
Version vom Ende des Sommersemesters 2011
i
“
”
Einleitung
In dieser Vorlesung sollen einige Themen aus der Stochastik behandelt werden, die auf dem Begriff des Markoffprozesses aufbauen. Dabei sind Markoffprozesse stochastische Prozesse, für welche die Prognose für das zufällige Verhalten
in der Zukunft nur von der gegenwärtigen Position abhängt. Der Aufbau ist wie
folgt:
• In Kapitel 1 beginnen wir mit einigen Vorbereitungen: An welche Sachverhalte aus der elementaren Stochastik sollte man sich erinnern? Was wird
von der Maßtheorie gebraucht? Was sind stochastische Prozesse, Filtrationen und Stoppzeiten? Besonders wichtig für das Folgende wird dann die
Definition der bedingten Erwartung sein.
• Erste Tatsachen zu Markovprozessen werden in Kapitel 2 eingeführt: Es
gibt eine Definition und einen Charakterisierungssatz ( Markovprozesse
”
sind Prozesse, bei denen die Zukunft von der Vergangenheit unter der
Bedingung der Gegenwart unabhängig ist.“ )
• In diesem Kapitel, in Kapitel 3 , geht es um einen Spezialfall, nämlich den
Fall, dass die auftretenden Prozesse nur endlich oder höchstens abzählbar
viele verschiedene Werte annehmen können. Man muss dann noch unterscheiden, ob die Zeit als diskret oder als kontinuierlich aufgefasst wird.
Im diskreten Fall lassen sich fast alle interessierenden Fragen beantworten
(wenigstens im Fall endlicher Zustandsräume), der kontinuierliche Fall ist
technisch weit aufwändiger.
• In Kapitel 4 beschäftigen wir uns dann mit einer Frage aus der Entscheidungstheorie. Es ist ein Zufallsspaziergang gegeben, der zu beliebigen Zeiten gestoppt werden kann, je nach Position wird ein Gewinn ausgezahlt.
Wie sollte man stoppen, um den Erwartungswert des Gewinns zu maximieren?
Obwohl es eine unübersehbare Fülle von Stoppmöglichkeiten gibt, kann
man trotzdem die optimale Variante explizit berechnen.
• Die Brownsche Bewegung wird in Kapitel 5 behandelt. Heute ist Konsens,
dass dieser Prozess eine fundamentale Rolle in verschiedenen Bereichen
der Stochastik spielt. Wir definieren diesen Prozess, zeigen die Existenz
und untersuchen einige fundamentale Eigenschaften.
• Um stochastische Integrale und stochastische Differentialgleichungen geht
es dann in Kapitel 6 . Wir beschreiben den Ito-Ansatz, bei dem diese
zufällige Störung deterministischer Prozesse“ durch eine topologische Kon”
struktion eingeführt wird.
• In der elementaren Analysis ist es ja auch so: Wenn man das Integral definiert hat, kann es immer noch sehr mühsam sein, Integrale konkret zu
berechnen. Abhilfe schafft der Hauptsatz der Differential- und Integralrechnung.
iii
Bei stochastischen Integralen ist es genau so: Erst mit Hilfe der Ito-Formel
(Kapitel 7 ) ist es halbwegs einfach, etwas explizit zu bestimmen.
• Eine der klassischen Anwendungen von stochastischen Differentialgleichungen sind Monte-Carlo-Verfahren zur Lösung von partiellen Differentialgleichungen. Dieser Zusammenhang soll in Kapitel 8 beschrieben werden.
• Stochastik ist aus der modernen Finanzmathematik nicht wegzudenken.
In Kapitel 9 werden einige der grundlegenden Begriffe eingeführt . . .
• . . . und in Kapitel 10 wird gezeigt, wie man Methoden der stochastischen
Differentialgleichungen erfolgreich einsetzen kann, um Optionen korrekt
zu bewerten (Black-Scholes-Formel ).
E. Behrends, im Frühjahr 2011.
Zur Vorbereitung der Vorlesung wurde die nachstehende Literatur verwendet:
Ash, Robert B. Probability and Measure Theory. Academic Press, 2000.
Ein Klassiker. Beim Charakterisierungstheorem für Markovprozesse folge ich
diesem Buch.
Behrends, Ehrhard. An Introduction to Markov Chains with Special Emphasis on Rapid Mixing. Vieweg 1998.
Hier findet man die Theorie der Markovketten in diskreter Zeit auf endlichen Zustandsräumen. Es werden auch ausführlich verschiedene Verfahren beschrieben,
um das Mischungsverhalten zu analysieren. Es gibt auch mehrere Anwendungen:
simulated annealing, approximatives Zählen, Ising-Modell.
Behrends, Ehrhard. Maß- und Integrationstheorie. Springer, 1983.
Alle Sätze, die aus der Maßtheorie gebraucht werden, sind hier dargestellt.
Billingsley, Patrick. Probability and Measure. Wiley, 1986.
Ein immer noch empfehlenswerter Klassiker zu Maßtheorie und Wahrscheinlichkeitsrechnung. Die Darstellung zum optimalen Stoppen folgt diesem Buch.
Brémaud, Pierre. Markov Chains, Gibbs Fields, Monte Carlo Simulation and
Queues. Springer, 1999.
Hier werden Markovprozesse auf endlichen Zustandsräumen in diskreter und
kontinuierlicher Zeit untersucht. Es gibt Anwendungen in der statistischen Mechanik und der Warteschlangentheorie.
iv
Chow, Pao-Li. Stochastic Partial Differential Equations. Chapman and Hall,
2007.
Wie kann man mit stochastischen Methoden partielle Differentialgleichungen
behandeln?
Cyganowsk, Sasha - Kloeden, Peter - Ombach, Jerzy. From Elementary
Probability to Stochastic Differential Equations with MAPLE. Springer, 2002.
Hier gibt es Anregungen, wie man die theoretischen Ergebnisse visualisieren
kann.
Doob, J.L. Stochastic Processes. Chapman and Hall, 1952.
Ein Klassiker, sehr kompakt“ geschrieben.
”
Dynkin, E.B. Markov Processes I, II. Springer, 1965.
Ein Klassiker. Es ist viel enthalten, die Darstellung ist oft sehr knapp.
Elliott, Robert - Aggoun, Lakhdar - Moore, John. Hidden Markov Models. Springer, 1995.
Was lässt sich über stochastische Prozesse sagen, die durch Markovprozesse
gesteuert werden, selbst aber keine Markovprozesse sind?
Klenke, Achim. Wahrscheinlichkeitstheorie. Springer 2005.
Hier findet man alle Vorbereitungen aus der Wahrscheinlichkeitstheorie, es gibt
auch erste Ergebnisse zu Markovprozessen und stochastischen Differentialgleichungen. Ich persönlich finde es recht technisch.
Liggett, Thomas. Continuous Time Markov Processes. AMS Graduate Studies, 2010.
Eine anspruchsvolle Einführung in die Theorie der stochastischen Differentialgleichungen.
Marcus, Michael – Rosen, Jay. Markov Processes, Gaussian Processes, and
Local Times. Cambridge Studies, 2006.
Hier wird das Schwergewicht af Gaußprozesse, insbesondere die Brownsche Bewegung, gelegt. Für Anfänger weniger zu empfehlen.
Meintrup, David - Schäffler, Stefan. Stochastik. Springer 2005.
Eine empfehlenswerte Gesamtdarstellung der Stochastik, die bis zum Ito-Integral
geht. Es gibt auch viele Anwendungen.
Oksendal, Bernt. Stochastic Differential Equations. Springer, 1982 (und mehrere weitere Auflagen).
Das war für lange Zeit das Standardwerk zu stochastischen Differentialgleichungen.
v
Stroock, Daniel. An Introduction to Markov Processes. Springer, 2005.
Markovketten mit besonderer Berücksichtigung der Ergodentheorie.
Winkler, Gerhard. Image Analysis, Random Fields and Markov Chain Monte
Carlo Methods. Springer, 1995.
Hier geht es um Markov-Methoden in der Bildverarbeitung.
Inhaltsverzeichnis
1 Vorbereitungen
1.1 Erinnerung an die elementare Stochastik
1.2 Maßtheorie . . . . . . . . . . . . . . . .
1.3 Stochastische Prozesse . . . . . . . . . .
1.4 Bedingte Erwartungen . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
3
5
8
2 Markovprozesse I
11
2.1 Was ist ein Markovprozess? . . . . . . . . . . . . . . . . . . . . . 11
2.2 Ein Charakterisierungssatz . . . . . . . . . . . . . . . . . . . . . 14
3 Markovketten
17
3.1 Die wichtigsten Definitionen . . . . . . . . . . . . . . . . . . . . . 17
3.2 Die Struktur von endlichen Markovketten . . . . . . . . . . . . . 24
3.3 Homogene Markovketten in kontinuierlicher Zeit . . . . . . . . . 24
4 Optimales Stoppen auf Markovketten
31
4.1 Die Präzisierung der Problemstellung . . . . . . . . . . . . . . . . 33
4.2 Superharmonische Funktionen . . . . . . . . . . . . . . . . . . . . 34
4.3 Die optimale Lösung . . . . . . . . . . . . . . . . . . . . . . . . . 37
5 Die Brownsche Bewegung
43
5.1 Brownsche Bewegung: Definition / Existenz . . . . . . . . . . . . 43
5.2 Brownsche Bewegung: Eigenschaften . . . . . . . . . . . . . . . . 46
6 Stochastische Integrale/Differentialgleichungen
57
6.1 Riemann-Stieltjes-Integrale . . . . . . . . . . . . . . . . . . . . . 57
6.2 Ito-Isometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.3 Stochastische Differentialgleichungen . . . . . . . . . . . . . . . . 68
7 Die
7.1
7.2
7.3
Ito-Formel
71
Neue stochastische Integrale . . . . . . . . . . . . . . . . . . . . . 71
Die Ito-Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Anwendungen der Ito-Formel . . . . . . . . . . . . . . . . . . . . 76
vii
0
INHALTSVERZEICHNIS
8 Monte-Carlo-Verfahren
8.1 Partielle Differentialgleichungen . . . . . . . . . . . . . . . .
8.2 n-dimensionale stochastische Differentialgleichungen . . . .
8.3 Stoppen von stochastischen Prozessen . . . . . . . . . . . .
8.4 Die Dynkin-Formel . . . . . . . . . . . . . . . . . . . . . . .
8.5 Monte-Carlo-Methoden für partielle Differentialgleichungen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
79
79
80
81
82
82
9 Finanzmathematik: einige grundlegende Begriffe
87
9.1 Die Bank, Optionen und Arbitrage . . . . . . . . . . . . . . . . . 87
9.2 Binomialmodelle, die Black-Scholes-Welt . . . . . . . . . . . . . . 90
10 Finanzmathematik: die Black-Scholes-Formel
93
10.1 Die Problemstellung: Bewertung von Optionen . . . . . . . . . . 93
10.2 Die Black-Scholes-Gleichung . . . . . . . . . . . . . . . . . . . . . 94
10.3 Die Black-Scholes-Formel . . . . . . . . . . . . . . . . . . . . . . 96
Kapitel 1
Vorbereitungen
In diesem Kapitel erinnern wir zunächst an einige Definitionen und Ergebnisse
aus der elementaren Stochastik. Alles findet sich – zum Beispiel – in meinem
Skript zu dieser Vorlesung. Danach gibt es einige Informationen zur Maßtheorie,
und im letzten Abschnitt geht es um den wichtigen Begriff bedingte Erwar”
tung“.
1.1
Erinnerung an die elementare Stochastik
Es wird in dieser Vorlesung vorausgesetzt, dass die folgenden Sachverhalte bekannt sind:
Wahrscheinlichkeitsräume
• Eine σ-Algebra E auf einer Menge Ω ist eine Teilmenge der Potenzmenge,
die unter allen Mengenoperationen stabil ist, bei denen höchstens abzählbar viele Elemente von E beteilgt sind.
• Sei E eine σ-Algebra auf Ω. Eine Abbildung P : E → [0, 1] heißt ein
Wahrscheinlichkeitsmaß , wenn P(Ω) = 1 ist und
[
X
P( En ) =
P(En )
n
n
für jede Folge (En ) von paarweise disjunkten Mengen in E gilt.
• Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, E, P); dabei ist Ω eine Menge, E eine σ-Algebra auf Ω und P ein Wahrscheinlichkeitsmaß auf (Ω, E).
• Die σ-Algebra der Borelmengen auf dem R n ist die kleinste σ-Algebra,
die alle offenen Teilmengen enthält. Faustregel: Jede Teilmenge, die in
den Anwendungen jemals vorkommen kann, ist eine Borelmenge.
Wichtige Beispiele für Wahrscheinlichkeitsräume
1
2
KAPITEL 1. VORBEREITUNGEN
• Ist Ω endlich oder höchstens abzählbar, so ist E in der Regel die Potenzmenge. Ein Wahrscheinlichkeitsmaß ist dann durch die Angabe der Zahlen
P({ω}) definiert. (Diese Zahlen müssen nichtnegativ sein und sich zu Eins
summieren.)
• Die wichtigsten Beispiele dazu sind
– Laplaceräume: Da ist Ω endlich, und alle Elementarereignisse haben
die gleiche Wahrscheinlichkeit.
– Bernoulliräume. Hier ist Ω = {0, 1}, und es reicht die Angabe der
Zahl p = P({1}) ( Wahrscheinlichkeit für Erfolg“), um das Wahr”
scheinlichkeitsmaß festzulegen.
– Abgeleitet von Bernoulliräumen sind die geometrische Verteilung (warten auf den ersten Erfolg), die Binomialverteilung (k Erfolge in n Versuchen), die hypergeometrische Verteilung (Ziehen ohne Zurücklegen)
und die Poissonverteilung (Grenzwert von Binomialverteilungen).
• Sei zunächst Ω eine einfache“ Teilmenge von R (etwa ein Intervall) und
”
f : Ω → R eine gutartige“ (etwa eine stetige) nichtnegative Funktion mit
”
Integral Eins. Dann kann damit ein Wahrscheinlichkeitsraum durch die
Festsetzung
Z
P(E) :=
f (x) dx
E
definiert werden. Dabei kann E eine beliebige Borelmenge sein, für die
Anwendungen reicht es aber so gut wie immer, sich für E ein Teilintervall
von Ω vorzustellen. f heißt dann die Dichtefunktion zu dem so definierten
Wahrscheinlichkeitsmaß.
• Die wichtigsten Beispiele sind
– Die Gleichverteilung auf [a, b]; da ist f (x) := 1/(b − a).
– Die Exponentialverteilung zum Parameter λ > 0; sie ist durch die
Dichtefunktion
f (x) := λ · e−λx
auf R + definiert. Durch die Exponentialverteilung kann gedächtnisloses Warten beschrieben werden.
– Die Normalverteilungen N (µ, σ 2 ) auf R. Sie haben – für µ ∈ R und
σ > 0 – die Dichtefunktion
f (x) := √
2
2
1
e−(x−µ) /2σ .
2πσ
Sie spielen für die Statistik eine ganz besonders wichtige Rolle.
• Die gleiche Idee kann in allen Situationen ausgenutzt werden, in denen ein
Integral zur Verfügung steht. Wer also auf R das Lebesgue-Integral kennen
gelernt hat, kann integrierbare Dichten zulassen, wer die Integration im
1.2. MASSTHEORIE
3
R n beherrscht, kann leicht Wahrscheinlichkeitsmaße auf den Borelmengen
dieses Raumes angeben usw. Für uns wird das später auch sehr wichtig werden, Eigenschaften mehrdimensionaler Normalverteilungen werden
eine wichtige Rolle spielen.
Wahrscheinlichkeitstheorie: Grundbegriffe
• Bedingte Wahrscheinlichkeit.
• Was bedeutet Unabhängigkeit“ für zwei, endlich viele bzw. beliebig viele
”
Ereignisse?
• Zufallsvariable.
• Erwartungswert und Streuung.
• Unabhängigkeit für Zufallsvariable.
Grenzwertsätze
Die Grenzwertsätze besagen, dass der Zufallseinfluss verschwindet“, wenn
”
sich viele“ Zufallseinflüsse unabhängig überlagern. Genauer:
”
• Was bedeuten Konvergenz in Wahrscheinlichkeit“, Konvergenz in Ver”
”
teilung“, Fast sichere Konvergenz“?
”
• Das Wurzel-n-Gesetz.
• Das Lemma von Borel-Cantelli
• Das schwache Gesetz der großen Zahlen.
• Das starke Gesetz der großen Zahlen.
• Der zentrale Grenzwertsatz.
1.2
Maßtheorie
In der elementaren Stochastik konnte man sich weitgehend auf diskrete Räume
und Räume mit Dichten beschränken. Die Räume in dieser Vorlesung sind komplizierter, es muss der allgemeine Maßbegriff bekannt sein. Insbesondere wird für
die Definition
R des Erwartungswerts einer Zufallsvariablen der allgemeine Integralbegriff X dP wichtig. Beweise zu den Ergebnissen dieses Abschnitts findet
man in jedem Buch zur Maßtheorie, z.B. in meinem.
Wichtige Definitionen
Es wird immer wieder um erzeugte σ-Algebren gehen;
• Ist B ein Mengensystem, so schreiben wir σ(B) für die erzeugte σ-Algebra.
4
KAPITEL 1. VORBEREITUNGEN
• Ist X eine skalarwertige Zufallsvariable, so bezeichnet σ(X) die kleinste
σ-Algbera, in der X messbar ist. (Es ist übrigens σ(X) das System der
X −1 (B), wenn B alle Borelmengen durchläuft.)
• Analog ist für eine Menge Y von Zufallsvariablen σ(Y) die kleinste σAlgebra, in der alle Y ∈ Y messbar sind. Den Spezialfall einer endlichen
Familie schreiben wir so: σ(Y1 , . . . , Yn ).
Wichtige Ergebnisse
1.2.1 Satz von Radon-Nikodym: Es sei (Ω, E, P) ein Wahrscheinlichkeitsraum. Ist dann ν : E → [ 0, 1 ] ein weiteres endliches Maß, für das stets
P(E) = 0 ⇒ ν(E) = 0
R
gilt, so gibt es eine Zufallsvariable Y : Ω → R + , so dass ν(E) = E Y dP für
alle E ist.
1.2.2 Satz von der dominierten Konvergenz (Lebesgue): Es sei (Ω, E, P)
ein Wahrscheinlichkeitsraum, und g, f, f1 , f2 , . . . : Ω → R seien intgegrierbare
Funktionen. g sei eine Majorante der fn , d.h. |fn (ω)| ≤ g(ω) für alle n, ω.
Ist dann g integrierbar und Rkonvergieren
R die fn punktweise gegen f , so ist
auch f integrierbar und es gilt fn dP →n f dP .
Beweistechniken
Es gibt in der Wahrscheinlichkeitstheorie einige Beweistechniken, die immer
und immer wieder eingesetzt werden. An einige soll hier erinnert werden.
Besonders wichtig ist der Dynkin-System-Trick“. (Ein Dynkinsystem ist
”
ein Mengensystem, das beinahe“ eine σ-Algebra ist: Man verlangt nur, dass
”
disjunkte abzählbare Vereinigungen wieder dazu gehören.) Er geht so:
1.2.3 Dynkin-System-Trick: Es sei D0 ein System von Teilmengen von Ω
und D das von D0 erzeugte Dynkin-System. Ist D0 durchschnittsstabil, so stimmt
D mit der von D0 erzeugten σ-Algebra überein.
In typischen Anwendungen möchte man etwa zeigen, dass E 0 = E für zwei
σ-Algebren ist. Man weiß:
• E 0 ⊂ E.
• E 0 ist ein Dynkinsystem.
• E 0 ⊃ E0 , und E ist die von E0 erzeugte σ-Algebra.
• E0 ist ∩-stabil.
Dann ist man nach dem Satz auch schon fertig!
So ist zum Beispiel schnell einzusehen, dass zwei Wahrscheinlichkeitsmaße
auf R (mit den Borelmengen als σ-Algebra) identisch sind, wenn sie für alle
1.3. STOCHASTISCHE PROZESSE
5
kompakten Intervalle den gleichen Wert liefern. (Wende die vorstehende Technik an mit E 0 = alle Borelmengen, für die die Maße übereinstimmen, E0 = die
kompakten Intervalle)1 .
1.3
Stochastische Prozesse
Ein stochastischer Prozess auf einem Maßraum (Ω, E, P) ist nichts weiter als eine
Familie von Zufallsvariablen. Das Prozess“-hafte drückt sich dadurch aus, dass
”
in quasi allen wichtigen Beispielen die Indexmenge als Zeit interpretiert werden
kann:
• Wie viele Fahrzeuge sind bis zur Zeit t unter der Brücke durchgefahren?
• Wie hoch ist der Gewinn im n-ten Spiel?
• Wo befindet sich die Rakete zur Zeit t?
• ...
Wir werden folglich voraussetzen, dass T ⊂ R, wobei praktisch nur die folgenden Fälle interessant sind:
T = R + , T = [ a, b ] , T = N 0 , T = {n, n + 1, . . . , m}.
Über allgemeine stochastische Prozesse lässt sich recht wenig aussagen, es
gibt wenige allgemeine nichttriviale Ergebnisse dazu. Wichtig ist insbesondere
der Satz von Kolmogoroff , der besagt, dass man stochastische Prozesse in allen
interessanten Fällen aus der Vorgabe der endlich-dimensionalen Randverteilungen konstruieren kann.
Es gibt eine Reihe von speziellen Familien von stochastischen Prozessen,
für die sich interessante und häufig anwendbare Theorien entwickeln lassen. In
dieser Vorlesung werden zwei dieser Familien eine Rolle spielen, nämlich
• Markovprozesse: da hängt die zukünftige Entwicklung nur von der Gegenwart ab. Exakte Definitionen folgen in Kapitel 2.
• Martingale: Die braucht man, um faire Spiele zu beschreiben. Die Martingalbedingung besagt, dass die Entwicklung, vom jetzigen Standpunkt aus
gesehen, ausgewogen ist. Martingale werden erst später in dieser Vorlesung
eine Rolle spielen.
Um die vagen Ideen präzisieren zu können, spielt der Begriff der bedingten
Erwartung eine fundamental wichtige Rolle. Der nächste Abschnitt wird dieser
Definition gewidmet sein.
1 Weitere
1/2
Beispiele finden sich in meinem Skript zur elementaren Stochastik auf Seite 96
6
KAPITEL 1. VORBEREITUNGEN
Es sollen vorher noch zwei Begriffe eingeführt werden, die im Folgenden
gebraucht werden.
Filtrationen
Es sei (Xt )t∈T ein stochastischer Prozess, wieder sei T ⊂ R, und die t ∈ T
werden als Zeiten interpretiert. Die Xt sollen alle auf einem Wahrscheinlichkeitsraum (Ω, E, P) definiert sein.
Ist dann eine Filtration (Ft )t∈T gegeben, so bedeutet das:
• Die Ft sind Teil-σ-Algebren von E.
• Für s < t gilt Fs ⊂ Ft .
Interessant sind Fälle, bei denen (Xt )t an (Ft )t adaptiert ist: Es soll jeweils Xt
Ft -messbar sein.
Bemerkung: Ist (Xt ) als stochastischer Prozess vorgegeben, so kann man stets
so eine Filtration finden: Man muss nur Ft als die von {Xs | s ≤ t} erzeugte
σ-Algebra definieren. (Das wird die natürliche Filtration genannt. Falls nichts
anderes gesagt ist, soll (Ft ) immer so erklärt sein.)
Die Interpretation ist die folgende. In der modernen Wahrscheinlichkeitsrechnung wird Information über (Ω, E, P)“ als Teil-σ-Algebra
”
von E verschlüsselt: Heißt diese Teil-σ-Algebra E0 , so hat man für
alle E0 ∈ E0 die Information, ob ω ∈ E0 gilt oder nicht.
Ft ist die bis zum Zeitpunkt t angesammelte Information“, die
”
Monotonie-Bedingung bedeutet dann gerade, dass Information im
Lauf der Zeit nicht verloren geht. Und Adaptiertheit eines Proesses
besagt, dass die Beobachtung dieses Prozesses bis zur Zeit t zu den
Informationen dazugehört2 .
Stoppzeiten
Es sei (Ft )t∈T eine Filtration auf (Ω, E, P). Unter einer Stoppzeit (für (Ft ))
verstehen wir eine Abbildung
τ : Ω → T ∪ {∞},
die der folgenden Bedingung genügt:
Für jedes t ∈ T gehört {ω | τ (ω) ≤ t} zu Ft .
2 Manchmal kann F echt größer sein. Als Beispiel werde ein Zufallsspaziergang durch einen
t
Würfel gesteuert: Man startet bei 0, und ist der k-te Wurf Yk gerade bzw. ungerade, so geht es
um einen Schritt nach rechts bzw. links; so wird (Xn ) erzeugt. Setzt man Fn := σ{Yk | k ≤ n},
so ist (Xn ) adaptiert, aber Fn enthält mehr Informationen als die Spaziergangsbeobachtung.
1.3. STOCHASTISCHE PROZESSE
7
Die Idee: Es soll möglich sein, aufgrund der in Ft enthaltenen Information
Stopp“ zu sagen. So würde etwa Stoppe, wenn der Spaziergänger zum ersten
”
”
Mal ins Negative kommt“ einer sinnvollen Stoppregel in Bezug auf die natürliche
Filtration entsprechen, Stoppe dann, wenn der Spaziergänger im übernächsten
”
Schritt zum ersten Mal die 100 betritt“ aber nicht.
Im täglichen Leben unterscheidet man ja auch sinnvolle und sinnlose Anleitungen: Vergleiche Am Kaufhaus links abbiegen“ mit Fünf Querstraßen vor
”
”
der Arnimallee rechts abbiegen“.
Die Definition Stoppzeit“ sieht recht technisch aus. Wirklich ist es gewöh”
nungsbedürftig, mit diesem Begriff exakt zu arbeiten. Er hat sich aber als maßgeschneidert herausgestellt, wenn man das Thema Entscheidungen treffen“ an”
gemessen modellieren möchte.
Hier noch einige
Bemerkungen:
1. Es ist sinnvoll, sich – zum Kennenlernen der Definition – von einigen Tatsachen zu überzeugen:
• Abzählbare Suprema und Infima von Stoppzeiten sind wieder Stoppzeiten.
• Mit τ ist auch τ + n Stoppzeit, τ − n aber – plausibler Weise – im allgemeinen nicht.
• Ist τ eine Stoppzeit, so ist
Fτ := {E ∈ E | E ∩ {τ ≤ t} ∈ Ft für alle t}
eine σ-Algebra: Die σ-Algebra der τ -Vergangenheit.
2. Es sind fast ausschließlich solche τ von Interesse, bei denen {τ = ∞} eine
Nullmenge ist.
3. Gibt es auch noch einen an (Ft ) adaptierten Prozess (Xt ), so wird der gestoppte Prozess (Xtτ )t so definiert: Xtτ (ω) ist gleich Xt (ω) für t ≤ τ (t) und
gleich Xτ (ω) (ω) sonst.
Ohne Zusatzbedingungen kann dann nicht gezeigt werden, dass die Xtτ wirklich Zufallsvariable sind. Hinreichend ist zum Beispiel, dass T = {tk | k ∈ N}
abzählbar ist. Dann ist nämlich {Xtτ ≤ a} schreibbar als
[
{τ = tk } ∩ {Xtk ≤ a} ∪ {t ≤ τ } ∪ {Xt ≤ a} .
tk <t
Ganz analog führt man die durch Stoppen gemäß τ entstehende Zufallsvariable X τ ein. Es ist
X τ (ω) := Xτ (ω) (ω),
falls τ (ω) < ∞. Auf {τ = ∞} ist X τ nicht definiert. Das macht aber nichts,
wenn das – wie in den meisten Fällen – nur eine Nullmenge ist. Wieder muss
man durch Zusatzbedingungen sicherstellen, dass die so definierte Abbildung
messbar ist.
8
KAPITEL 1. VORBEREITUNGEN
1.4
Bedingte Erwartungen
In der modernen Wahrscheinlichkeitstheorie wird – wie schon im vorigen Abschnitt gesagt – Information“ über einen Wahrscheinlichkeitsraum (Ω, E, P) als
”
Unter-σ-Algebra von E“ interpretiert.
”
Sei nun E0 eine Teil-σ-Algebra von E und Y : Ω → R eine integrierbare
Zufallsvariable.
Die bedingte Erwartung von Y |E0 für E0 ∈ E0 ist doch
R
Y
dP/P(E
),
und
das soll übersichtlich – gleichzeitig für alle E0 – codiert
0
E0
werden.
1.4.1 Definition Eine Funktion φ heißt bedingte Erwartung von Y unter der
Voraussetzung E0 , wenn gilt:
• φ ist E0 -messbar.
• Für alle E0 ∈ E0 ist
R
E0
Y dP =
R
E0
φ dP.
Fundamental wichtig ist dann der
1.4.2 Satz Zu Y existiert eine bedingte Erwartung, und diese Funktion ist –
bis auf mögliche Abänderung auf einer E0 -Nullmenge – eindeutig bestimmt. Wir
bezeichnen sie mit E(Y | E0 ).
Beweis: R Das folgt schnell aus dem Satz von Radon-Nikodym den wir auf
ν : E0 7→ E0 Y dP anwenden.
Man mache sich klar, wie E(Y | E0 ) in Spezialfällen aussieht, insbesondere,
wenn E0 von endlich vielen Atomen erzeugt wird.
Varianten: 1. Falls E0 durch eine oder mehrere Zufallsvariable erzeugt ist,
schreiben wir E(Y | X) oder E(Y | Y) oder E(Y | Y1 , . . . , Yn ).
2. Ist A ein Ereignis, so setzen wir P(A | E0 ) := E(χA | E0 ): das ist die natürliche
Verallgemeinerung der bedingten Erwartung.
Aus dem Satz ergibt sich noch eine wichtige Beweisstrategie: Wenn man
zeigen soll, dass eine vorgelegte Funktion ψ (fast sicher) gleich E(Y | E0 ) ist, so
reicht es, zwei Tatsachen nachzuprüfen:
1. ψ ist E0 -messbar.
2. Für alle E0 ∈ E0 ist
R
E0
ψ dP =
R
E0
Y dP.
Nach dem Satz muss dann ψ = E(Y | E0 ) sein.
Es ist mit dieser Strategie fast trivial zu zeigen, dass Y 7→ E(Y | E0 ) eine
lineare Abbildung ist. Es gibt noch andere wichtige Eigenschaften:
1.4.3 Satz
(i) Ist X E0 -messbar, so ist
E(XY | E0 ) = XE(Y | E0 ).
1.4. BEDINGTE ERWARTUNGEN
9
(ii) Es gelte E1 ⊂ E2 . Dann ist
E E(Y | E2 ) | E1 = E(Y | E1 ).
(iii) Ist Y unabhängig von E0 3 , so ist E(Y | E0 ) = E(Y ).
(iv) Es sei D0 ein schnittstabiles Mengensystem mit Ω ∈ D, so dass E0 die
von
σ-Algebra ist. Ist dann φ eine E0 -messbare Funktion und gilt
R D0 erzeugte
R
φ
dP
=
Y
dP für alle D0 ∈ D0 , so ist φ = E(Y | E0 ).
D0
D0
Beweis: (i) Es ist zu zeigen, dass XE(Y | E0 ) E0 -messbar ist und der Integralbedingung genügt. Der erste Teil ist klar, da Produkte messbarer Funktionen
messbar sind.
P
Für den zweiten Teil approximiere X durch eine Treppenfunktion i ai χAi
mit ai ∈ R und disjunkten Ai bis auf ε. Dann ist für E0 ∈ E0
Z
Z X
XY dP ≈
(
ai χAi )Y dP
E0
E0
=
X
i
Z
ai
χAi Y dPi
E0
i
=
X
Z
ai
Y dP
Ai ∩E0
i
=
X
Z
E(Y | E0 ) dP
ai
Ai ∩E0
i
=
X
Z
χAi E(Y | E0 ) dP
ai
E0
i
Z
=
E0
X
(
ai χAi )E(Y | E0 ) dP
i
Z
≈
XE(Y | E0 ) dP.
E0
(Hier war wichtig, dass Ai ∩E0 ∈ E0 .) Für ε → 0 wird die Approximation immer
besser, und das zeigt
Z
Z
XY dP =
XE(Y | E0 ) dP.
E0
E0
(ii) E(Y | E1 ) ist sicher E1 -messbar. Sei noch E1 ∈ E1 , wir müssen zeigen, dass
Z
Z
E(Y | E2 ) dP =
E(Y | E1 ) dP.
E1
E1
R
Das ist aber klar, denn beide Integrale stimmen mit E1 Y dP überein. (Hier
wird bei der Auswertung des linken Inttegrals ausgenutzt, dass E1 ∈ E2 )
3Y
ist also von allen χE0 mit E0 ∈ E0 unabhängig.
10
KAPITEL 1. VORBEREITUNGEN
(iii) Zunächst erinnern wir daran, dass E(W Z) = E(W )E(Z) für unabhängige
Zufallsvariable W, Z.
Nun zum Beweis. Die konstante Funktion E(Y ) ist sicher E0 -messbar. Sie
genügt auch der Integralbedingung:
Z
E(Y ) dP = E(χE0 )E(Y )
E0
= E(χE0 Y )
Z
=
χE0 Y dP
ZΩ
=
Y dP.
E0
(iv) Das System D aller D ∈ E0 mit
Z
Z
φ dP =
Y dP
D
D
ist offensichtlich ein Dynkinsystem. Es enthält D0 und muss deswegen nach 1.2.2
mit E0 übereinstimmen.
Kapitel 2
Markovprozesse I
In diesem Abschnitt werden Markovprozesse eingeführt und charakterisiert.
2.1
Was ist ein Markovprozess?
2.1.1 Definition (Xt ) heißt ein Markovprozess (genauer: Markovprozess in
Bezug auf (Ft )), wenn gilt: Ist t < t0 und B eine Borelmenge in R, so ist
P(Xt0 ∈ B | Ft ) = P(Xt0 ∈ B | Xt ).
Dabei ist für Ereignisse E die bedingte Wahrscheinlichkeit P(E | Ft ) als die
Funktion E(χE ) | Ft ) erklärt.
Anders ausgedrückt: Um Prognosen über Xt0 abzugeben, ist die Information
Ft (also insbesondere die Vorgeschichte des Prozesses bis t) genauso gut wie die
in Xt enthaltene Information.
Bemerkungen: 1. Ist (Ft ) die natürliche Filtration, so ist dazu äquivalent: Für
tn < tn−1 · · · t1 < t < t0 ist
P(Xt0 ∈ B | Xtn , . . . , Xt1 , Xt ) = P(Xt0 ∈ B | Xt ).
Dazu ist nur zu beachten, dass
[
σ(Xt1 , . . . , Xtn , Xt )
n∈N,tn <tn−1 ···t1 <t
ein schnittstabiler Erzeuger von σ({Xs | s ≤ t}) ist. Das Ergebnis folgt dann
aus Satz 1.4.3(iv).
2. Äquivalent ist auch: Für jede integrierbare Xt0 -messbare Funktion g, also für
jede Funktion der Form h(Xt0 ), gilt
E(g | Ft ) = E(g | Xt ).
11
12
KAPITEL 2. MARKOVPROZESSE I
Das liegt daran, dass messbare Funktionen durch Linearkombinationen von charakteristischen Funktionen zu Mengen des Typs {Xt0 ∈ B} approximiert werden
können.
Es gilt sogar viel mehr. Nicht nur für die Prognose von Xt0 , sondern für
die Prognose der ganzen t-Zukunft ist bei Markovprozessen die Xt -Information
gleichwertig zur Ft -Information. Genauer:
2.1.2 Satz Es sei (Xt ) ein Markovprozess.
(i) Ist t < t1 < · · · < tn und sind B1 , . . . , Bn Borelmengen, so gilt
P Xt1 ∈ B1 , . . . , Xtn ∈ Bn | Ft = P Xt1 ∈ B1 , . . . , Xtn ∈ Bn | Xt .
(ii) Es sei A ein Ereignis der t-Zukunft, also ein Element von σ{Xs | s ≥ t}
(diese σ-Algebra werden wir mit Zt bezeichnen). Dann gilt
P A | Ft = P A | Xt .
Beweis:
(i) Wir beginnen mit drei Vorbemerkungen:
• Ist X eine Zufallsvariable und ist eine weitere Zufallsvariable Y σ(X)messbar, so gibt es eine Borelfunktion g mit Y = g ◦ X. (Umgekehrt
stimmt das natürlich auch.)
• χ{X∈B} = χB ◦ X (klar).
• Es seien E1 ⊂ E2 σ-Algebren und Y eine Zufallsvariable. Ist dann E(Y | E2 )
E1 -messbar, so ist E(Y | E2 ) = E(Y | E1 ) (klar).
Seien nun die ti , Bi vorgegeben.
P(Xt1 ∈ B1 , . . . , Xtn ∈ Bn | Ft )
= E((χB1 ◦ Xt1 ) · · · (χBn ◦ Xtn ) | Ft )
= E E(χB1 ◦ Xt1 · · · χBn ◦ Xtn | Ftn−1 ) | Ft
Das gilt nach Satz 1.4.3.(ii).
Die Ftn−1 -messbaren Funktionen können nach vorn gezogen werden:
= E (χB1 ◦ Xt1 ) · · · (χBn−1 ◦ Xtn−1 ))E(χBn ◦ Xtn | Ftn−1 ) | Ft ,
und die innen stehende bedingte Erwartung ist wegen der Markov-Eigenschaft
gleich E(χBn ◦ Xtn | Xtn−1 ) , kann also als g(Xtn−1 ) geschrieben werden:
= E (χB1 ◦ Xt1 ) · · · (χBn−1 ◦ Xtn−1 )g(Xtn−1 ) | Ft .
Ganz ähnlich (auf Ftn−2 bedingen, Markoveigenschaft ausnutzen, als h(Xtn−2 )
schreiben) wird der Ausdruck zu
E (χB1 ◦ Xt1 ) · · · (χBn−2 ◦ Xtn−2 )h(Xtn−2 ) | Ft ,
2.1. WAS IST EIN MARKOVPROZESS?
13
und nach endlich vielen Schritten landen wir bei
= E g̃(Xt1 ) | Ft
für eine geeignete Borelfunktion g̃. Wegen der Markoveigenschaft ist das gleich
= E g̃(Xt1 ) | Xt ,
die Ausgangsfunktion ist also Xt -messbar und stimmt deswegen nach Vorbemerkung mit
P(Xt1 ∈ B1 , . . . , Xtn ∈ Bn | Xt )
überein.
(ii) Das ist relativ einfach. Sei nämlich D das System der A aus der Zukunftsσ-Algebra Zt , für die die Behauptung stimmt. Das ist ein Dynkin-System, das
nach (i) den ∩-stabilen Erzeuger
{Xt1 ∈ B1 , . . . , Xtn ∈ Bn }, t ≤ t1 < · · · < tn , Bi Borel
von Zt enthält. Damit ist D = Zt wie behauptet (vgl. 1.2.2).
Hier noch eine hinreichende Bedingung:
2.1.3 Satz Es sei (Xt )t≥0 ein reellwertiger stochastischer Prozess. Für 0 ≤ t <
t0 sei Xt0 − Xt von Ft := σ{Xs | s ≤ t} unabhängig1 .
Dann ist (Xt ) ein Markovprozess zu (Ft )t≥0 .
Beweis: Es ist zu zeigen, dass
P(Xt0 ∈ C | Ft ) = P(Xt0 ∈ C | Xt )
für 0 ≤ t < t0 und Borelmengen C ⊂ R.
Es sei 0 ≤ t < t0 . Als Vorbereitung betrachten wir Borelmengen A und B in
R. Dann ist, mit S := Xt0 − Xt ,
P(S ∈ A, Xt ∈ B | Ft )
=
=
=
=
=
E(χS∈A,Xt ∈B | Ft )
E(χS∈A χXt ∈B | Ft )
χXt ∈B E(χS∈A | Ft )
χXt ∈B E(χS∈A )
χXt ∈B P(S ∈ A).
Dabei haben Satz 1.4.3 ausgenutzt (Xt ist Ft -messbar, und χS∈A ist von Ft
unabhängig).
Ganz genauso zeigt man, dass auch die Gleichung P(S ∈ A, Xt ∈ B | Xt ) =
χXt ∈B P(S ∈ A) gilt.
Die Gleichheit von P((S, Xt ) ∈ ∆ | Ft ) und P((S, Xt ) ∈ ∆ | Xt ) gilt also
für alle Mengen ∆ der Form A × B. Die Gesamtheit aller dieser ∆ ist ein
1 Man
spricht von unabhängigen Zuwächsen.
14
KAPITEL 2. MARKOVPROZESSE I
Dynkinsystem, und die A × B bilden einen durchschnittsstabilen Erzeuger der
Borelmengen des R 2 : So folgt, dass
P((S, Xt ) ∈ ∆ | Ft ) = P((S, Xt ) ∈ ∆ | Xt )
für alle Borelmengen ∆ ⊂ R 2 gilt.
Nun sei C eine Borelmenge in R. Wir setzen ∆C := {(x, y) | x + y ∈ C}.
Dann ist
P(Xt0 ∈ C | Ft )
=
=
=
=
P(Xt + S ∈ C | Ft )
P((Xt , S) ∈ ∆C | Ft )
P((Xt , S) ∈ ∆C | Xt )
P(Xt0 ∈ C | Xt ).
Damit ist der Satz vollständig bewiesen.
2.2
Ein Charakterisierungssatz
Ein Prozess ist genau dann ein Markovprozess, wenn Zukunft und Vergangen”
heit unter der Bedingung der Gegenwart unabhängig voneinander sind“. Genauer:
2.2.1 Theorem: Es sei (Xt )t∈T ) ein stochastischer Prozess, der zu einer Filtration (Ft ) adaptiert ist. Dann gilt: (Xt ) ist genau dann ein Markovprozess (in
Bezug auf (Ft )), wenn für alle alle t ∈ T , alle A ∈ Ft und alle B ∈ Zt (das ist
die σ-Algebra σ{Xs | s ≥ t}) gilt:
P(A ∩ B | Xt ) = P(A | Xt )P(B | Xt ).
Beweis: (Hier folgen wir dem Aufbau aus dem Buch von Ash: “Probability”.)
Sei zunächst (Xt ) ein Markovprozess, A ∈ Ft und B ∈ Zt . Dann schließen wir
so (Begründungen finden sich unten):
P(A | Xt )P(B | Xt )
= E(χA | Xt )E(χB | Xt )
= E χA E(χB | Xt ) | Xt
= E χA E(χB | Ft ) | Xt
= E E(χA χB | Ft ) | Xt
= E(χA χB | Xt )
= P(A ∩ B | Xt ).
Wir haben ausgenutzt:
• Messbare Funktionen können in die bedingte Erwartung hineingezogen
werden (Satz 1.4.2).
2.2. EIN CHARAKTERISIERUNGSSATZ
15
• Die Markov-Eigenschaft.
• Das Bilden der bedingten Erwartung in zwei Stufen kann zu einem Schritt
zusammengezogen werden (Satz 1.4.3).
Nun sei umgekehrt die relative Unabhängigkeitsbedingung des Theorems
vorausgesetzt. Wir müssen die Markoveigenschaft zeigen, in Wirklichkeit beweisen wir ein bisschen mehr (vgl. Satz 2.1.2(ii)). Wir zeigen nämlich sogar: Für
A ∈ Zt ist P(A | Ft ) = P(A | Xt ). Dazu ist zu beweisen, dass für B ∈ Ft die
Gleichung
Z
Z
P(A ∩ B) =
χA dP =
P(A | Xt ) dP
B
B
gilt. Das kann mit den eben verwendeten Schlussweisen so gezeigt werden (im
dritten Schritt wird die Voraussetzung ausgenutzt):
Z
P(A ∩ B) =
χA∩B dP
Ω
Z
=
P(A ∩ B | Xt ) dP
ZΩ
=
P(A | Xt )P(B | Xt ) dP
ZΩ
=
E(χA | Xt )E(χB | Xt ) dP
Ω
Z
=
E χB E(χA | Xt ) | Xt dP
ZΩ
=
χB E(χA | Xt ) dP
ZΩ
=
E(χA | Xt ) dP
B
Z
=
P(A | Xt ) dP
B
Falls (Ft ) die natürliche Filtration ist, so hat das Theorem noch eine überraschende Konsequenz : Zukunft und Vergangenheit sind völlig symmetrisch! Falls
zum Beispiel T das Intervall [ 0, t0 ] ist, so ist der rückwärts durchlaufene Prozess
(also (Xt0 −t )t∈T ) ebenfalls ein Markovprozess.
16
KAPITEL 2. MARKOVPROZESSE I
Kapitel 3
Markovketten
Die Struktur von Markovprozessen kann recht kompliziert sein. Am weitesten
kann die Theorie entwickelt werden, wenn nur diskrete Zeitpunkte betrachtet
werden und die Werte des Prozesses in einer endlichen (oder abzählbaren) Menge
liegen. Man spricht dann von Markovketten, die wichtigsten Definitionen und
einige grundlegende Ergebnisse findet man in den Abschnitten 3.1 und 3.21 .
Die Theorie wird im Fall diskret-wertiger Zufallsvariablen wesentlich schwieriger, wenn man von diskreter zu kontinuierlicher Zeit übergeht. In Abschnitt 3.3
soll kurz skizziert werden, welchen Zusammenhang es zu Halbgruppen gibt und
wie man das globale Verhalten durch einen infinitesimalen Erzeuger beschreiben
kann.
3.1
Die wichtigsten Definitionen
Markovketten: Definition und Beispiele
Sei S eine endliche oder abzählbare Menge, die Elemente werden wir Zustände
nennen. Es wird bequem sein, sich S als {1, . . . , s} (falls die Anzahl der Elemente
von S gleich s ist) oder als N vorzustellen.
Zufallsspaziergänge sind Markovprozesse.
Man kann auf recht naive Weise einen Zufallsspaziergang definieren:
• Starte irgendwo auf S. Genauer: Es ist ein Wahrscheinlichkeitsmaß auf S
vorgegeben, und die Startposition wird entsprechend dieses Maßes ausgesucht. Beachte,
P dass man dazu nur (pi )i∈S angeben muss, für die pi ∈ [ 0, 1 ]
(alle i) und i pi = 1 gilt.
• Die jeweils nächste Position wird wie folgt gefunden. Befindet man sich
zum Zeitpunkt n in i ∈ S, so wähle die Position bei n + 1 gemäß den
1 Hier gibt es nur eine Kurzfassung, sie soll die Untersuchungen des nächsten Kapitels
vorbereiten. Alles steht ausführlicher in meinem Buch über Markovketten “Introduction to
Markov Chains”, wir kürzen es hier mit ItMC ab.
17
18
KAPITEL 3. MARKOVKETTEN
(n)
(n)
vorgegebenen Wahrscheinlichkeiten (pij )j∈S . (Es ist also pij ≥ 0 für alle
P (n)
j, und es gilt j pij = 1.)
Kurz: Durch die Vorgabe eines stochastischen Vektors (pi )i∈S und von stocha(n)
stischen Matrizen P (n) = (pij )i,j∈S wird auf naive Weise ein Zufallsspaziergang
definiert.
Das kann man auch mathematisch etwas präziser einführen:
• Man verschaffe sich Zufallsvariable X0 , Yi,n , i ∈ S, n = 1, 2, . . . auf einem
geeigneten Wahrscheinlichkeitsraum (Ω, E, P). Sie sollen unabhängig sein
und es soll gelten:
(n)
P(X0 = i) = pi ; P(Yi,n = j) = pij
für alle i, j, n.
• X0 ist schon definiert, und die X1 , X2 , . . . entstehen induktiv. Angenommen, Xn ist schon konstruiert. Dann wird Xn+1 dadurch erklärt, dass
diese Zufallsvariable auf Xn = i gleich Yi,n+1 ist.
Aufgrund der Konstruktion ist offensichtlich, dass der jeweils nächste Schritt nur
von der gegenwärtigen Position abhängt, und deswegen liegt ein Markovprozess
vor.
Umgekehrt geht das auch, jeder Markovprozess mit Werten in S in diskreter
Zeit entsteht auf diese Weise. Sei (Xn )n∈N 0 so ein Prozess. Wir definieren pi :=
(n)
P(X0 = i) und pij := P(Xn+1 = j | Xn = i). Dann ist (Xn ) gleichwertig zu
(n)
demjenigen Prozess, der naiv durch die (pi )i∈S und die (pij )i,j∈S definiert ist.
Hier sind einige technische Feinheiten weggelassen worden. Es kann zum Beispiel
vorkommen, dass ein Zustand i nie erreicht wird. Dann sind die pi,j gar nicht
definiert (ihre Definition spielt allerdings auch keine Rolle).
In vielen Fällen ist es so, dass die P (n) nicht von n abhängen: Alle P (n) sind
gleich einer stochastischen s × s-Matrix P . Man spricht dann von einer homogenen Markovkette, und auf solche Situationen werden wir uns beschränken2 .
Der ganze Prozess ist also durch einen s-dimensionalen stochastischen Vektor
und eine stochastische s × s-Matrix erklärt.
Um ein Gefühl für die Situation zu bekommen, ist es wichtig, dass man
trainiert, die folgenden beiden Übersetzungen umzusetzen:
2 Im Fall S = N sind unendliche stochastische Matrizen zu betrachten. Da alle auftretenden
0
Reihen absolut konvergent sind, gibt es bei den algebraischen Manipulationen keine Schwierigkeiten. Diese Bemerkung gilt auch im Folgenden: Wenn nicht ausdrücklich das Gegenteil
betont wird, ist auch der Fall S = N 0 zugelassen.
3.1. DIE WICHTIGSTEN DEFINITIONEN
19
(n)
• Gegeben seien die (pi )i∈S und die (pij )i,j∈S . Wie kann man sich dann
den typischen“ Zufallsspaziergang vorstellen?
”
• Man beobachte sehr häufig“ einen Markovprozess. Welche Rückschlüsse
”
(n)
auf die (pi )i∈S und die (pij )i,j∈S lässt das zu?
Es folgen einige typische Beispiele:
0. Auch die Einheitsmatrix ist stochastisch. Der zugehörige Zufallsspaziergang“
”
ist nicht wirklich spannend.
1. Der gleichverteilte Zufallsspaziergang auf {1, . . . , s}. Da sind alle Einträge der
Matrix gleich 1/s.
2. Der reflektierende Zufallsspaziergang auf {1, . . . , s}. Hier ist


0 1 0 ···
0
0
0
 a2 b2 c2 · · ·
0
0
0 


 0 a3 b3 · · ·
0
0
0 


P = .
..
..
..
..
..  ,
 ..
.
.
.
.
. 


 0 0 0 · · · as−1 bs−1 cs−1 
0 0 0 ···
0
1
0
wobei ai , bi , ci ≥ 0 für i = 2, . . . , s−1 und ai + bi + ci = 1.
2. Der absorbierende Zufallsspaziergang auf {1, . . . , s}.
Mit ai , bi , ci wie eben ist diesmal

1 0 0 ···
0
0
0
 a2 b2 c2 · · ·
0
0
0

 0 a3 b3 · · ·
0
0
0

P = .
.
.
.
.
..
..
..
..
..
 ..
.

 0 0 0 · · · as−1 bs−1 cs−1
0 0 0 ···
0
0
1





.



4. Der zyklische Zufallsspaziergang auf {1, . . . , s}.
Diesmal sind die ai , bi , ci für alle i gegeben, und P wird so erklärt:


b1 c1 0 · · ·
0
0
a1
 a2 b2 c2 · · ·
0
0
0 


 0 a3 b3 · · ·
0
0
0 


P = .
..
..
..
..
..  .
 ..
.
.
.
.
. 


 0 0 0 · · · as−1 bs−1 cs−1 
cs 0 0 · · ·
0
as
bs
5. Sei G ein endlicher Graph, jede Ecke soll mit mindestens einer anderen verbunden sein. Starte dann an einer Ecke, die gemäß einer Wahrscheinlichkeitsverteilung (pi )i∈G ausgewählt wird. Wähle im jeweils nächsten Schritt unter
20
KAPITEL 3. MARKOVKETTEN
denjenigen Ecken gleichverteilt eine aus, die von der aktuellen Position aus erreichbar sind.
6. Allgemeiner können Markovketten durch gerichtete und gewichtete Graphen
veranschaulicht werden. Nachstehend sehen wir einen absorbierenden und einen
zyklischen Zufallsspaziergang:
u
YH
H
H
*
HHHH
j u
H
u
1/2
1/2
1/2
u
u
u
u
u - u
6
6
1/2
1/2
1/2
1/2
1/2
1
1
6
6
?
?
u
u
Y
H
H HH
*
HH H j u H
alle eingezeichneten pij = 1/2
6. Auf S = N0 starte in 0. Dann geht es mit Wahrscheinlichkeit p um einen
Schritt nach rechts, mit Wahrscheinlichkeit 1−p wird die Position nicht verändert.
7. Der klassische Zufallsspaziergang betrifft S = Z. Mit gleicher Wahrscheinlichkeit geht es um einen Schritt nach rechts oder links. In naheliegender Weise
kann das auf Z d ausgedehnt werden. Analog dazu haben die Beispiele 1 bis 4
d-dimensionale Varianten.
8. Fasst man die Töne einer (vollständigen oder pentatonischen) Tonleiter als
Zustände auf, so kann man die Zufallsspaziergänge auch durch Kompositionen“
”
hörbar machen.
Grundlegende Definitionen
Wie in allen mathematischen Theorien stellt sich nach und nach heraus,
welche Begriffe fundamental sind. Bei den Markovketten sind es die folgenden:
Beschreibung mit linearer Algebra
Was beim Start passiert, ist klar: Die verschiedenen Zustände i werden mit
Wahrscheinlichkeit pi eingenommen. Was ist nach einem Schritt passiert, wie
groß sind die P(X1 = i)? Nach dem Satz von der totalen Wahrscheinlichkeit ist
das gleich
X
X
P(X1 = i | X0 = j)P(X0 = j) =
pji pj .
j
j
>
Man muss also nur den Zeilenvektor (p1 , . . . , ps ) von rechts (!) mit P multiplizieren3 , die Komponenten sind dann die P(X1 = i). (Das geht im Fall
abzählbarer S übrigens genau so.)
3 Der Vektor steht also links. Das ist gewöhnungsbedürftig, denn meist werden Vektoren
als Spaltenvektoren von rechts an eine Matrix multipliziert.
3.1. DIE WICHTIGSTEN DEFINITIONEN
21
Die gleiche Idee kann man auch mehrfach anwenden: Die Wahrscheinlichkeiten P(Xn = i) sind gerade die Einträge des Zeilenvektors (p1 , . . . , ps )> P n . Auf
diese Weise kommt die lineare Algebra ins Spiel
Invariante Teilmengen
Welche Bereiche in S kann der Prozess erreichen? Eine nichtleere Teilmenge
C von S heißt invariant, wenn gilt: einmal in C, immer in C. Formal wird das
so definiert: Für i ∈ C und j ∈
/ C soll stets pij = 0 gelten. In den Beispielen
sind die invarianten Teilmengen leicht zu identifizieren.
Der Prozess heißt irreduzibel , wenn es außer S keine invarianten Teilmengen
gibt.
Einige einfache Eigenschaften sind leicht zu verifizieren: Vereinigungen und
nichtleere Durchschnitte sind wieder invariant; im Fall endlicher S gibt es minimale invariante Teilmengen4 ; verschiedene minimale invariante Mengen sind
disjunkt usw.
Angenommen, C ist invariant in S = {1, . . . , s}. Ohne Einschränkung ist C
die Menge {1, . . . , s0 }, und P hat dann die Form


∗ ··· ∗ 0 ··· 0
 ..
.. ..
.. 
 .
. .
. 


 ∗ ··· ∗ 0 ··· 0 


 ∗ ··· ∗ ∗ ··· ∗ .


 .
.. ..
.. 
 ..
. .
. 
∗
···
Allgemeiner, wenn C1 , . . . , Cr die
P wie folgt geschrieben werden:

P1 0
 0 P2

 ..
..
 .
.

 0
0
∗
∗
∗
∗
···
∗
minimalen invarianten Teilmengen sind, kann
0 ···
0 ···
..
.
0
0
..
.
0 ···
∗ ···
0 Pr
∗ ∗
0
0
..
.
0
0
..
.




;

0 
∗
(3.1)
dabei sind die Pρ die stochastische Matrizen, die zu den Einschränkungen des
Prozesses auf Pρ gehören, und “0” bezeichnet hier eine Matrix, für die alle
Einträge Null sind. (Beachte: Im endlichen Fall gibt es immer gewisse C, die
∗-Matrizen können aber evtl. fehlen.
Erreichbarkeit
Für i, j ∈ S schreiben wir i → j, falls ein Weg von i nach j möglich ist,
wenn also für ein geeignetes n ≥ 0 der (i, j)-Eintrag in P n strikt positiv ist. (Da
n = 0 zugelassen ist, gilt stets i → i.) Falls i → j und j → i gilt, sagen wir, dass
i und j kommunizieren und schreiben dafür i ↔ j“.
”
4 Für unendliche S stimmt das nicht: Im obigen Beispiel 6 sind alle Mengen {k, k + 1, . . .}
invariant, es gibt aber keine kleinste.
22
KAPITEL 3. MARKOVKETTEN
Es folgt das erste nicht ganz triviale Ergebnis:
Satz 3.1.1 (i) “↔” ist eine Äquivalenzrelation.
(ii) Ist C ⊂ S minimal und invariant, so kommunizieren je zwei Zustände in
C.
(iii) Die Kette ist genau dann irreduzibel, wenn je zwei Zustände kommunizieren.
Beweis: (i) ist klar, für den Beweis von (ii) braucht man schon einen kleinen
Trick. Es ist doch zu zeigen, dass i → j für beliebige i, j ∈ C. Sei j ∈ C.
Definiere C 0 als die Menge der i ∈ C, die niemals nach j kommen. Man zeigt
leicht, dass C 0 invariant ist. Es ist eine echte Teilmenge von C (denn j ∈
/ C 0 ),
also die leere Menge. Der Rest ist klar.
Die Periode eines Zustands
Hier soll präzisiert werden, was es heißt, dass ein Zustand nur zu gewissen
”
Zeiten“ erreichbar ist. Als Beispiel betrachten wir einen zyklischen Zufallsspaziergang auf {1, . . . , 12}, der immer deterministisch um zwei Schritte weitergeht.
Wenn man dann irgendwo startet, so wird der gleiche Zustand nach 6, 12, . . .
Schritten wieder eingenomen.
Die präzise Definition ist recht schwerfällig. Sei i ∈ S, wir nehmen an, dass
es ein k > 0 gibt, so dass der (i, i)-Eintrag von P k strikt positiv ist: Es ist also
möglich, nach k Schritten von i nach i zu kommen. Wir betrachten die Menge
∆i aller k mit dieser Eigenschaft, nach Voraussetzung ist das eine nichtleere
Teilmenge von N. Die Periode von i ist dann der größte gemeinsame Teiler von
∆i also das Maximum derjenigen Zahlen, die alle k ∈ ∆ teilen. Die Kette heißt
aperiodisch, wenn ihre Periode gleich 1 ist.
Beliebige Perioden p für Zustände i sind möglich. Beachte, dass das nicht
bedeutet, dass man von i nach i in l · p Schritten für jedes l kommt. Recht
leicht ist zu sehen, dass i und j die gleiche Periode haben, wenn i ↔ j gilt.
Insbesondere haben alle Zustände in einer minimalen invarianten Teilmenge die
gleiche Periode.
Beweisidee: Es seien d bzw. d0 die Periode von i bzw. j, und wir kommen in k
Schritten von i nach j und in k0 Schritten von j nach i. Dann ist offensichtlich
k + k0 ∈ ∆i sowie k + k0 + l ∈ ∆i für jedes l ∈ ∆j . Also teilt d die Zahl k + k0 und
alle k + k0 + l. d teilt also alle l ∈ ∆j , und so folgt d|d0 . Aus Symmetriegründen
gilt auch d0 |d, und das zeigt d = d0 .
Rekurrenz und Transienz
(k)
Wir wollen den Begriff i → j etwas quantifizieren. Sei fij die Wahrscheinlichkeit, erstmals in genau k Schritten von i nach j zu kommen (k = 1, 2, . . .).
P∞ (k)
∗
Wir setzen fij
:= k=1 fij . Wenn diese Zahl positiv ist, gilt also i → j, und
für i 6= j gilt auch die Umkehrung.
Wir sagen, dass i rekurrent ist, wenn fii∗ = 1 gilt. Andernfalls heißt i transient. Ist S endlich, so sind alle i in minimalen invarianten Teilmengen rekurrent.
Umgekehrt gilt das in endlichen Ketten auch: Liegt i in keiner minimalen
invarianten Teilmenge, so ist i transient5 .
5 Beweis
in ItMC.
3.1. DIE WICHTIGSTEN DEFINITIONEN
23
Wir kommen nun zum Phänomen der Gedächtnislosigkeit. Zur Illustration
betrachten wir zunächst eine Kette, die zwischen den Zuständen 0 und 1 hin
und her springt. Die stochastische Matrix ist also
0 1
.
1 0
Auch nach 1000 Schritten lässt sich noch sagen, ob die Kette in 0 oder 1 gestartet
wurde. Meistens ist es jedoch anders. Betrachten wir etwa


0
1
0
0
 1/3 1/3 1/3
0 

P =
 0 1/3 1/3 1/3  .
0
0
1
0
Das ist eine Variante eines reflektierenden Zufallsspaziergangs: Der Spaziergänger
legt mit einer gewissen Wahrscheinlichkeit eine Pause ein. Hier sind einige Potenzen von P :


3 3 3 0
1 1 5 2 1 
,
P2 = 
9 1 2 5 1 
0 3 3 3


15 30 30 6

1 
 10 35 26 10  ,
P4 =

10 26 35 10 
81
6 30 30 15


861 2460 2460 780

1 
 820 2501 2420 820  .
P8 =
6561  820 2420 2501 820 
780 2460 2460 861
Schon bei P 8 sind die Zeilen fast gleich“, und das bedeutet, dass es (fast) völlig
”
egal ist, auf welchem Zustand gestartet wurde: Die Wahrscheinlichkeiten für die
Position nach 8 Schritten sind fast identisch. Man spricht vom Phänomen der
Gedächtnislosigkeit.
Es folgt einer der Hauptsätze der Theorie:
Satz 3.1.2 S sei endlich, und die Kette sei aperiodisch und irreduzibel6 .
(i) Die Matrizen P k konvergieren gegen eine stochastische Matrix W , in der alle
Zeilen identisch sind: Sie stimmen mit π > überein, wobei π ein stochastischer
Vektor ist.
(ii) π ist der eindeutig bestimmte stochastische Vektor, für den π > P = π > gilt.
π > ist also linker Eigenvektor zum Eigenwert Eins.
Beweis: Der Beweis ist schwierig, er macht wesentlich von einem grundlegenden
Ergebnis der Erneuerungstheorie Gebrauch.
6 Man
sagt dann auch, dass sie ergodisch ist.
24
KAPITEL 3. MARKOVKETTEN
Seien (p0 , p1 , . . .) und (f0 , f1 , . . .) nichtnegative Zahlen. Es sei p0 = 1 und f0 = 0,
und es gelten die folgenden Gleichungen:
pk = fk + p1 fk−1 + · · · + pk−1 f1 , k = 1, 2, . . . .
Weiter sei f1 + f2 + · · · = 1, und der größtePgemeinsame Teiler der k mit fk > 0
sei gleich Eins. Dann sind die pk gegen 1/ kfk konvergent7 .
(Einzelheiten in Kapitel 7 von ItMC.)
Bemerkung: Das π = (πi ) aus dem Satz heißt die Gleichgewichtsverteilung
der Kette. Sie hat die folgende Interpretation: Wird die Kette so gestartet, dass
die einzelnen Zustände mit Wahrscheinlichkeit πi ausgewählt werden, so ist die
Verteilung nach k Schritten (k beliebig) genau die gleiche. Das liegt an dem
weiter oben erläuterten Zusammenhang zur linearen Algebra und der Tatsache
π> P k = π> .
3.2
Die Struktur von endlichen Markovketten
Mit den vorstehenden Begriffen lässt sich die Struktur beliebiger endlicher Markovketten analysieren. Gegeben seien also S = {1, . . . , s} und eine stochastische
s × s-Matrix P .
• Schreibe S als disjunkte Vereinigung C1 ∪ · · · ∪ Cr ∪ T , wobei die Cρ
die minimalen invarianten Mengen sind. T (die Menge der transienten
Zustände) kann dabei die leere Menge sein.
• Die i ∈ T landen mit Wahrscheinlichkeit Eins in irgendeinem Cρ , dort
bleiben sie dann auch. Zu den ρ gehören Absorptionswahrscheinlichkeiten
pi,ρ , die sich mit Hilfe linearer Algebra bestimmen lassen. (Vgl. Kapitel 5
in ItMC.)
• Fixiere nun ein Cρ und betrachte die Einschränkung von P auf Cρ : Das ist
die Matrix Pρ := (pij )i,j∈Cρ . Alle i ∈ Cρ haben die gleiche Periode l unter
Pρ . Wir betrachten nun die Kette mit Zustandsraum Cρ und stochastischer
Matrix Pρl . Jetzt haben alle Zustände Periode Eins. Cρ zerfällt in (bzgl.
Pρl ) minimale invariante Teilmengen, darauf ist Pρl dann ergodisch
Kurz: Wenn man transiente Zustände und ergodische Ketten beherrscht, kann
man die Struktur beliebiger Markovketten vollständig beschreiben.
3.3
Homogene Markovketten in kontinuierlicher
Zeit
In diesem Abschnitt soll beschrieben werden, welche neuen Phänomene sich
ergeben, wenn statt t ∈ N 0 als Zeitpunkte“ alle t ∈ R + zugelassen sind. S =
”
7 Hier
wird 1/∞:=0 gesetzt.
3.3. HOMOGENE MARKOVKETTEN IN KONTINUIERLICHER ZEIT 25
{1, . . . , s0 } sei wieder ein endlicher Zustandsraum8 . Wir skizzieren hier, wie man
homogene Markovketten auf verschiedene Weisen beschreiben kann.
Eine naive Vorüberlegung
Es gibt eine naheliegende Möglichkeit, von diskreter Zeit zu kontinuierlicher
Zeit überzugehen. Dazu seien eine stochastische Matrix P und eine Startverteilung vorgegeben und (Xn )n∈N 0 sei der zugehörige S-wertige Markovprozess.
Warum kann man dann nicht einfach konstant ergänzen: Liegt t in [ n, n + 1 [,
so soll Xt := Xn sein. Die Kette springt“ also immer an den ganzzahligen
”
Zeitpunkten auf den neuen Zustand.
Dann ist (Xt )t≥0 offensichtlich ein Markovprozess. Es ist aber die Homogenität verloren gegangen. Im diskreten Fall war das stochastische Verhalten beim
Übergang von i nach j zum Zeitpunkt n ∈ N 0 (nach n + 1) bei der vorliegenden
Situation von n unabhängig. Für (Xt )t≥0 stimmt das offensichtlich nicht mehr:
Die Wahrscheinlichkeiten für den Übergang von i nach j zwischen den Zeitpunkten t und t + s können sehr unterschiedlich sein: Liegen t, t + s im gleichen
[ n, n + 1 [, ist alles deterministisch, andernfalls kann es stochastische Sprünge
geben. Da wir hier Homogenität erhalten wollen, müssen wir etwas sorgfältiger
argumentieren
Homogene Markovketten in kontinuierlicher Zeit
Wir betrachten einen S-wertigen Markovprozess (Xt )t≥0 . Die Xt sind an
eine Filtration (Ft )t≥0 adaptiert, und stets gilt für 0 ≤ s < s0 und j ∈ S:
P(Xs0 = j | Fs ) = P(Xs0 = j | Xs ).
Nun ist P(Xs0 = j | Xs ) auf den Mengen {Xs = i} konstant, der Wert dort ist
P(Xs0 = j | Xs = i). Wenn diese Zahl nur von i, j, s0 − s (und nicht von i, j, s, s0 )
abhängt, sprechen wir von einer homogenen Markovkette in kontinuierlicher
Zeit.
Um pathologisches Verhalten auszuschließen, soll noch vorausgesetzt werden,
dass die Pfade t 7→ Xt (ω) für alle ω von rechts stetig sind.
Von Ketten zu Wahrscheinlichkeitsfunktionen
Wenn so eine Kette vorliegt, kann man doch für i, j ∈ S und t > 0 definieren:
pt (i, j) := P(Xs+t = j | Xs = i);
dabei kann s nach Voraussetzung völlig beliebig gewählt werden. Dann gilt der
P
Satz 3.3.1 (i) j pt (i, j) = 1 für alle t und i.
8 Wir bezeichnen in diesem Unterabschnitt die Anzahl der Elemente von S mit s (statt mit
0
s), da wir den Buchstaben s“ als Zeitparameter verwenden werden. Große Teile der Theorie
”
sind übrigens auf abzählbares S übertragbar. Es gibt aber eine Reihe von neuen technischen
Schwierigkeiten, z.B., weil dann gewisse Summationsreihenfolgen im Allgemeinen nicht mehr
vertauschbar sind.
26
KAPITEL 3. MARKOVKETTEN
P
(ii) pt+s (i, j) = k pt (i, k)ps (k, j) für alle t, s, i, j
(Chapman-Kolmogoroff-Gleichung).
(iii) limt→0+ pt (i, i) = 1 für alle i.
Beweis: (i) ist nach der Definition klar und (ii) folgt aus dem Satz von der
totalen Wahrscheinlichkeit. Zum Beweis von (iii) fixiere ein i. Mit Ωin bezeichnen
wir die Menge der ω, für die der bei i startende Pfad t 7→ Xt (ω) auf [ 0, 1/n ]
den Wert i hat. Es ist dann nach Voraussetzung Ω die aufsteigende Vereinigung
der Ωin , also gilt P(Ωin ) → 1. Beachte noch, dass pt (i, i) ≥ P(Ωin ) für t ≤ 1/n. Markovhalbgruppen
Mit den vorstehenden Bezeichnungen ist Pt := (pt (i, j))i,j∈S eine stochastische s0 ×s0 -Matrix für jedes t, und die Chapman-Kolmogoroff-Gleichung besagt,
dass Pt+s = Pt Ps für s, t ≥ 0 gilt. Auch gilt P0 = Id, und t 7→ Pt ist stetig bei
0. Man spricht dann von einerMarkov-Halbgruppe.
Für das weitere Vorgehen erinnern wir an die elementare Analysis: Ist φ :
R + → R eine stetige Funktion mit der Eigenschaft φ(0) = 1 und φ(s + t) =
φ(s)φ(t) (alle s, t ≥ 0), so gibt es ein α mit φ(t) = eαt (alle t). Das α kann aus
φ durch α = log φ(1) oder durch α = φ0 (0) berechnet werden.
Ein analoges Ergebnis gilt für Markovhalbgruppen, und deswegen ist es nicht
sehr überraschend, dass die Ableitung von t 7→ Pt bei t = 0 von Interesse ist.
Dass die e-Funktion ins Spiel kommt, kann man wie folgt einsehen.
Mal angenommen, man weiß schon, dass t 7→ Pt bei 0 differenzierbar
mit Ableitung Q ist. Für beliebiges t > 0 und großes“ n ist dann
”
t/n so klein, dass Pt/n gut durch Id + (t/n)Q approximiert werden
kann, und folglich ist
n
Pt = Pt/n+···+t/n = Pt/n
≈ (Id +
tQ n
) ≈ etQ .
n
Wir wollen allgemein die Struktur von stetigen Operatorhalbgruppen beschreiben. Für unsere Zwecke reicht es, den folgenden Satz zu beweisen:
Satz 3.3.2 t 7→ Tt sei eine Abbildung, die jedem t ≥ 0 eine s0 × s0 -Matrix
zuordnet. Es gelte Tt+s = Tt Ts für alle s, t sowie limt→0 Tt = Id = T0 . Dann
existiert
Tt − Id
A := lim
t→0
t
(die rechtsseitige Ableitung bei Null), und es gilt Tt = eAt für alle t.
Beweis: Wegen der Stetigkeit bei Null gibt es ein ε > 0, so dass ||Tt0 || ≤ 2 für
t0 ∈ [ 0, ε ] (wir arbeiten mit der Operatornorm für Matrizen).
Sei nun t > 0 beliebig. Für t/ε ≤ n ≤ 1 + t/ε ist t/n ≤ ε und folglich
||Tt || ≤ ||Tt/n ||n ≤ 2n ≤ 2(21/ε )t .
Die Norm wächst also höchstens exponentiell, die Tt sind insbesondere auf jedem
Intervall [ 0, R ] beschränkt.
3.3. HOMOGENE MARKOVKETTEN IN KONTINUIERLICHER ZEIT 27
Ebenfalls schnell ergibt sich die lokal gleichmäßige Stetigkeit. Ist ε > 0 vorgegeben, wähle δ > 0 so, dass ||Id − Tt0 || ≤ ε für t0 ≤ δ. Sind dann s, t vorgelegt
mit 0 ≤ s ≤ t ≤ R und t − s ≤ δ, so ist
||Tt − Ts || = ||Ts (Tt−s − Id)|| ≤ ||Ts ||ε ≤ Cε,
wenn C eine Normschranke der Ts auf [ 0, R ] ist.
Wir kommen nun zur Differenzierbarkeit. Setze
Tt x − x
existiert}.
t→0
t
∆ := {x ∈ R s0 | lim
Das ist offensichtlich ein Unterraum des R s0 . Wir behaupten, dass er dicht ist.
Dann wäre ∆ = R s0 , die Operatoren (Tt − Id)/t wären damit punktweise und
folglich auch bezüglich der Norm gegen eine Matrix A konvergent.
Aufgrund der Halbgruppeneigenschaft würde sich allgemeiner Tt0 = ATt ergeben:
d
Tt+h − Tt
Th − Id
Tt = lim
= lim
Tt = ATt .
h→0
h→0
dt
h
h
Aus der Theorie der Systeme linearer Differentialgleichungen weiß man, dass
dieses System die eindeutig bestimmte Lösung Tt = eAt hat, wenn die Anfangsbedingung T0 = Id erfüllt sein soll. Der Satz wäre damit vollständig bewiesen.
s0
Zeige
R t also noch, dass ∆ dicht liegt. Sei dazu x ∈ R und t > 0. Definiere
xt := 0 Ts x ds/t. Dann gilt
• xt ∈ ∆. Für h > 0 ist nämlich
1
(Th xt − xt )
h
=
=
=
=
Z t
Z t
1
Th
Ts x ds −
Ts x ds
ht
0
0
Z t
Z t
1
Th+s x ds −
Ts x ds
ht 0
0
Z t+h
Z t
1
Ts x ds −
Ts x ds
ht h
0
Z t+h
Z h
1
Ts x ds −
Ts x ds .
ht t
0
(Dabei haben wir ausgenutzt, dass lineare stetige Operatoren unter des
Integral gezogen werden können.) Wenn nun h gegen Null geht, sind beide
Summanden konvergent:
Z
1
1 t+h
Ts x ds = Tt x,
lim
h→0 t t
t
Z
1 h
1
lim
Ts x ds = x.
h→0 t 0
t
Das zeigt xt ∈ ∆.
28
KAPITEL 3. MARKOVKETTEN
• Für t → 0 geht xt gegen x. Also liegt ∆ dicht im R n .
(Die Theorie der Operatorhalbgruppen auf beliebigen – nicht notwendig endlich dimensionalen – Räumen ist im Buch Funktionalanalysis“ von Dirk Werner
”
dargestellt.)
Hier noch ein alternativer, etwas direkterer Beweis nach einer ähnlichen Strategie
(von D. Werner).
• Zeige wie eben, dass limh→0
ist.
Rt
Ts ds /t.
Th Xt − Xt /h existiert und gleich (Tt − Id)/t
• Fixiere t > 0 und definiere Xt :=
0
• Ist t klein genug, so ist Xt nahe bei Id und deswegen invertierbar. Multipliziere die eben gefundene Gleichung von rechts mit Xt−1 . So folgt
lim
h→0
Th − Id
1
= (Tt − Id)Xt−1 .
h
t
Das zeigt – diesmal direkt – die Differenzierbarkeit der Halbgruppe bei
Null.
Der infinitesimale Erzeuger
Für unseren Spezialfall bedeutet der vorstehende Satz, dass
Q = lim
t→0+
Pt − Id
= (qij )i,j∈S
t
existiert. Man spricht von der Q-Matrix des Prozesses. Die Diagonale wird eine
wichtige Rolle spielen, man setzt ci := −qi,i .
Satz 3.3.3 (i) Die Einträge qij für i 6= j liegen in R + .
P
(ii) j qij = 0 für alle i.
Beweis: Für i 6= j sind die (i, j)-Einträge von Pt − Id in R + . Deswegen ist
auch der (i, j)-Eintrag des Limes der (Pt − Id)/t größer oder gleich Null.
Zum Beweis von (ii) beachte, dass alle Komponenten von Pt (1, . . . , 1)> gleich
1 für alle t sind. Deswegen müssen (nach Differentiation) alle Komponenten von
Q(1, . . . , 1)> verschwinden.
Zusammen heißt das also: Aus den Pt ergibt sich eine Q-Matrix (Zeilensumme Null, Komponenten außerhalb der Diagonalen in R + ).
Vom infinitesimalen Erzeuger zur Markovkette
Sei nun Q eine beliebige Q-Matrix. Wir definieren Pt := etQ und behaupten:
Satz 3.3.4 Die (Pt )t≥0 sind eine Markov-Halbgruppe.
Beweis: Die Gruppeneigenschaft und die Stetigkeit bei Null sind klar, es ist
noch zu zeigen, dass alle Pt stochastische Matrizen sind.
3.3. HOMOGENE MARKOVKETTEN IN KONTINUIERLICHER ZEIT 29
Es ist Q(1, . . . , 1)> nach Voraussetzung der Nullvektor, und deswegen ist
Pt (1, . . . , 1)> der Vektor (1, . . . , 1)> : Die Zeilensumme von Pt ist jeweils gleich
Eins.
Die Komponenten von Pt liegen auch in R + : Für festes t und große n sind alle
Komponenten von Id + tQ/n nichtnegativ, das gilt dann auch für (Id + tQ/n)n ,
und das approximiert besser und besser (mit n → ∞) etQ .
Aus Q kann man also die Pt = (pt (i, j))i,j∈S zurückgewinnen. Der Prozess
(Xt ) lässt sich wie folgt konstruieren:
• Starte in irgendeinem i ∈ S.
• Bleibe dort für eine exponentialverteilte Wartezeit zum Parameter ci =
−qii .
• Springe
P danach zu einem j 6= i, und zwar zu j0 mit Wahrscheinlichkeit
qj0 / j6=i qj .
• Usw: Bleibe dort für eine exponentialverteilte Wartezeit zum Parameter
cj0 = −qj0 j0 , usw.
Fazit
Für die Beschreibung von homogenen Markovketten in kontinuierlicher Zeit
gibt es im Fall endlicher Zustandsräume drei gleichberechtigte Möglichkeiten,
nämlich
• Als Prozess (Xt )t≥0 , ein homogener Markovprozess.
• Als Markovhalbgruppe (Pt )t≥0 .
• Durch die Q-Matrix.
Ähnlich wie im diskreten Fall kann man nun die Eigenschaften der einzelnen
Zustände und des Verhalten der Kette aus den Pt oder der Matrix Q ablesen.
(S. z.B. im Buch von Liggett, Kapitel 2, insbesondere Abschnitt 2.6.)
30
KAPITEL 3. MARKOVKETTEN
Kapitel 4
Optimales Stoppen auf
Markovketten
Das Problem soll an zwei Beispielen illustriert werden.
Beispiel 1: Stellen Sie sich das folgende Spiel vor:
• Es gibt die Spielfelder 0, 1, 2, . . ., Ihr Spielstein steht auf Feld 0.
• Jetzt wird gewürfelt, entsprechend der Augenzahl rücken Sie vor.
• Nach jedem Wurf haben Sie die Möglichkeit, aufzuhören und ausgezahlt
zu werden: tausend Mal die Augenzahl des Feldes, auf dem Sie stehen.
• Wenn Sie allerdings über die 5 hinauskommen, gibt es gar nichts.
Wann sollte man bei diesem Spiel aufhören, um den Erwartungswert des Gewinns zu maximieren? Wie soll ich mich verhalten, wenn ich mich auf Feld i
befinde: aufhören oder weitermachen?
• Für i = 5 ist der Fall klar: aufhören, denn der nächste Zug verliert garantiert. Der Gewinn ist dann 5000 Euro.
• Mal angenommen, ich bin auf Feld 4 und entscheide mich fürs Stoppen:
Dann beträgt der Gewinn 4000 Euro. Im Fall des Weitermachens komme
ich mit Wahrscheinlichkeit 1/6 auf Feld 5, wo mich 5000 Euro erwarten,
mit Wahrscheinlichkeit 5/6 gibt es aber gar nichts. Der erwartete Gewinn
beträgt also 5000/6 Euro. Man sollte also besser nicht weiterspielen.
• Ähnlich ist die Analyse im Fall i = 3: Stoppen bringt 3000 Euro, weiterspielen dagegen nur (4000 + 5000)/6 = 1500 Euro. Nicht weiterspielen!
• Bei i = 2 ist es egal: 2000 sichere Euro beim Stoppen gegen zu erwartende
(3000 + 4000 + 5000)/6 = 2000 beim Weiterspielen.
31
32
KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN
• Klar ist dann auch, dass man es bei i = 1 noch (mindestens) einmal
versuchen sollte: 1000 Euro gegen
2000 + 3000 + 4000 + 5000
=≈ 2333 Euro.
6
• Und man sollte auf jeden Fall spielen: Sofortiges Stoppen in Position 0 liefert gar nichts, andernfalls ist der erwartete Gewinn in jedem Fall positiv.
Zusammen: Probiere es noch einmal, wenn der erste Wurf eine 1 oder eine 2 ist,
andernfalls stoppe!
Beispiel 2: Auch diesmal haben Sie einen Würfel. Sie dürfen bis zur ersten 6
würfeln und jederzeit vorher stoppen. Dann erhalten Sie das zuletzt gewürfelte
Ergebnis (mal tausend, in Euro). Bei der 6 ist das Spiel zu Ende. Wie sieht hier
die optimale Strategie aus? Es ist plausibel, dass es ein i0 ∈ {1, . . . , 5} geben
wird, so dass die Strategie lautet:
Stoppe, wenn der letzte Wurf in {i0 , . . . , 5} lag, andernfalls spiele
weiter.
Wie sollte man i0 wählen? Der maximal beim Weiterspielen zu erzielende Erwartungswert werde mit Mi0 bezeichnet.
• Was passiert bei i0 = 5? Befinde ich mich schon bei 5, so ist der Gewinn
5000. In allen anderen Fällen soll ich noch einmal würfeln. Mit Wahrscheinlichkeit 4/6 wird das fortgesetzt und ich erhalte M5 . Mit Wahrscheinlichkeit 1/6 erreiche ich die 5 und erhalte 5000. Das liefert die Gleichung
4
1
M5 + 5000 = M5 .
6
6
Es ist also M5 = 2500.
• Was passiert bei i0 = 4? Eine ähnliche Überlegung führt auf
3
1
M4 + (4000 + 5000) = M4 ;
6
6
es folgt M4 = 3000. (Das ist schon besser als M5 !)
• i0 = 3 führt auf
2
1
M3 + (3000 + 4000 + 5000) = M3 ,
6
6
also M3 = 3000.
• i0 = 2 ist ungünstiger, denn
1
1
M1 + (2000 + 3000 + 4000 + 5000) = M1
6
6
führt auf M1 = 14.000/5 = 2800.
4.1. DIE PRÄZISIERUNG DER PROBLEMSTELLUNG
33
• Was ist mit i0 = 1? Da ist immer nach dem ersten Wurf zu stoppen. Der
Erwartungswert ist
15.000
1000 + 2000 + 3000 + 4000 + 5000
=
= 2500;
6
6
Fazit: Stoppe, sobald Du eine Zahl in {3, 4, 5, 6} gewürfelt hast.
Die Lösungswege waren recht unterschiedlich. In diesem Kapitel geht es um
optimale Strategien für allgemeine derartige Situationen.
4.1
Die Präzisierung der Problemstellung
Gegeben sei ein endlicher Zustandsraum S, auf ihm ist durch eine stochastische
Matrix P eine Markovkette definiert, gestartet wird in x0 . Das gibt Anlass zu
einem Markovprozess, den wir mit (Xn )n≥0 bezeichnen wollen. Dabei seien die
Xn auf einem Wahrscheinlichkeitsraum (Ω, E, P) definiert.
Zusätzlich gibt es eine Gewinnfunktion“ f : S → R (die auch negative
”
Werte haben kann). Der Prozess läuft, man kann jederzeit Stopp!“ sagen, und
”
wenn sich der Prozess gerade in x befindet, erhält man f (x) Euro. Ist diese Zahl
allerdings negativ, muss man etwas zahlen.
In den Beispielen lag folgende Situation vor:
Beispiel 1: Hier kann S als {0, 1, 2, 3, 4, 5, 6} gewählt
schen Matrix
0
0 1/6 1/6 1/6 1/6 1/6
0
1/6 1/6 1/6 1/6
B 0
B
0
0
1/6 1/6 1/6
B 0
B
0
0
0
1/6 1/6
B 0
@ 0
0
0
0
0
1/6
0
0
0
0
0
0
werden mit der stochasti1/6
2/6
3/6
4/6
5/6
1
1
C
C
C
C;
C
A
und f (i) := 1000 · i für i < 6 und f (6) = 0.
Beispiel 2: Es ist S = {1, 2, 3, 4, 5, 6},
0
1/6 1/6 1/6
B 1/6 1/6 1/6
B
B 1/6 1/6 1/6
B
B 1/6 1/6 1/6
@ 1/6 1/6 1/6
0
0
0
die stochastische Matrix lautet
1
1/6 1/6 1/6
1/6 1/6 1/6 C
C
1/6 1/6 1/6 C
C,
1/6 1/6 1/6 C
1/6 1/6 1/6 A
0
0
1
und f ist wie vorstehend.
Was muss man tun, um den erwarteten Gewinn zu maximieren oder wenigstens sehr nah“ am optimalen Wert zu sein?
”
Präziser lässt sich das so ausdrücken. Sei (Fn )n≥0 die natürliche Filtration
zu (Xn ). Welche Stoppzeit τ : Ω → N 0 ∪ {∞} sollte man wählen, damit gilt:
• τ ist fast sicher endlich.
34
KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN
• Definiert man Xτ : Ω → R durch ω 7→ Xτ (ω) (ω), so ist der Erwartungswert1 von f (Xτ ) optimal (oder wenigstens nahezu optimal).
Es ist alles andere als klar, wie man sich verhalten sollte. Eine offensichtliche Lösung gibt es allerdings im Fall ergodischer Ketten: Da der Prozess jeden
Zustand (sogar beliebig oft) erreicht, muss man nur warten, bis man ein x0 mit
f (x0 ) = maxx f (x) =: M erreicht hat. Für die zugehörige Stoppzeit τ ist Xτ
konstant gleich x, und so wird sicher der optimale Wert M für die Auszahlung
erreicht.
Hier wollen wir eine Lösung des Problems herleiten. Überraschender Weise
lässt sich das Optimum exakt realisieren und nicht nur mit beliebiger Genauigkeit.
4.2
Superharmonische Funktionen
Sei u : S → R eine Funktion, sie soll als Auszahlungsfunktion interpretiert
werden. Wenn ich mich gerade in x befinde und mich auszahlen lasse, erhalte
ich u(x). Und der Erwartungswert der Auszahlung ist
X
pxy u(y),
y∈S
wenn ich das erst nach dem nächsten Schritt mache.
Die Funktion heißt superharmonisch2 , wenn Warten eher ungünstig ist, wenn
also
X
pxy u(y) ≤ u(x)
y∈S
für alle x gilt. (Beachte: Es müsste eigentlich superharmonisch in Bezug auf
”
(pxy )“ heißen.)
Sicher ist jede konstante Funktion superharmonisch, und es lässt sich leicht
zeigen, dass das Infimum von superharmonischen Funktionen (falls es punktweise definiert werden kann) auch diese Eigenschaft hat.
Sei U eine nichtleere Familie von superharmonischen Funktionen und g ihr punktweise definiertes Infimum.
Nun sei i ∈ S und u ∈ U. Es ist dann u(j) ≥ g(j) für jedes j, es folgt also
X
u(i) ≥
pij u(j)
j
≥
X
pij g(j).
Und da das für jedes u gilt, zeigt das auch g(i) ≥
P
j
pij g(j).
1 Bevor man sich um den Erwartungswert kümmert, muss natürlich gezeigt werden, dass
Xτ messbar ist.
2 Manchmal heißen solche Funktionen in der Literatur auch exzessiv .
4.2. SUPERHARMONISCHE FUNKTIONEN
35
Insbesondere ist die Funktion fˆ : S → R, definiert durch
fˆ(x) := inf{u(x) | u superharmonisch, u ≥ f }
für jedes f : S → R superharmonisch.
fˆ heißt die superharmonische Majorante von f .
Beim symmetrischen absorbierenden Zufallsspaziergang auf {0, . . . , n0 }ist
eine Funktion genau dann superharmonisch, wenn u(x) ≥ u(x−1)+u(x+1) /2
für x = 1, . . . , n0−1 gilt, wenn die Funktion also diskret konkav“ ist. Und fˆ ist
”
dann so etwas wie die konkave obere Einhüllende.
Als Vorbereitung für das Hauptergebnis dieses Kapitels benötigen wir noch
ein Resultat, das zwar plausibel ist, das sich aber nur überraschend aufwändig
beweisen lässt:
Ist die Auszahlungsfunktion superharmonisch, so ist längeres Warten
immer ungünstiger als kürzeres Warten. (Die Präzisierung mit Hilfe
des Begriffs Stoppzeit“ folgt gleich.)
”
Lemma 4.2.1 Ist E ∈ σ(X0 , . . . , Xn−1 ), so gilt
P(Xn = xn , Xn−1 = xn−1 , E) = pxn−1 ,xn P(Xn−1 = xn−1 , E).
Beweis: Ist E von der speziellen Form {X0 = y0 , . . . , Xn−2 = yn−1 }, so ist diese
Aussage im Fall xn−1 6= yn−1 trivialerweise richtig (beide Seiten der Gleichung
sind Null) und andernfalls eine Umformulierung der Markoveigenschaft:
P(Xn = xn | Xn−1 = xn−1 , Xn−2 = yn−2 , . . . , X0 = y0 ) =
= P(Xn = xn | Xn−1 = xn−1 ) = pxn−1 ,xn .
Beachte noch dass ein beliebiges E ∈ σ(X0 , . . . , Xn−1 ) disjunkt aus Ereignissen
dieses Typs zusammengesetzt werden kann.
Längere Stoppzeiten sind ungünstiger als kürzere. Wir zeigen das zunächst
für den Spezialfall von nahe beieinander liegenden“ Stoppzeiten:
”
Lemma 4.2.2 Es sei x0 ∈ S, wir betrachten den bei x0 startenden Prozess. Ist
u : S → R superharmonisch und sind τ, σ fast sicher endliche Stoppzeiten mit
τ ≤ σ ≤ τ + 1, so gilt
E u(Xτ ) ≥ E u(Xσ ) .
36
KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN
Beweis: Wir beginnen mit der rechten Seite:
X
P(σ = k, Xk = x)u(x)
E u(Xσ )
=
x∈S, k∈N 0
X
=
P(σ = τ = k, Xk = x)u(x) +
x∈S, k∈N 0
X
+
P(σ = k, τ = k − 1, Xk = x)u(x)
x∈S, k∈N
=: A.
Die Mengen {σ = k, τ = k − 1 Xk = x} zerfallen disjunkt in die Teilmengen
{σ = k, τ = k − 1, Xk−1 = y, Xk = x} mit y ∈ S. Dabei liegt das Ereignis
{σ = k, τ = k − 1, Xk−1 = y} in σ(X0 , . . . , Xk−1 ), denn diese Menge kann auch
als {σ ≥ k, τ = k − 1, Xk−1 = y} geschrieben werden, und {σ ≥ k} ist das
Komplement von {σ ≤ k − 1}. Und folglich gilt wegen Lemma 4.2.1:
P({σ = k, τ = k−1, Xk−1 = y, Xk = x}) = P({σ = k, τ = k−1, Xk−1 = y)py,x .
Die obige Rechnung kann also wie folgt fortgesetzt werden (wobei jetzt ausgenutzt wird, dass u superharmonisch ist):
X
A =
P(σ = τ = k, Xk = x)u(x) +
x∈S, k∈N 0
X
+
P({σ = k, τ = k − 1, Xk−1 = y)py,x u(x)
k∈N, x,y∈S
≤
X
P(σ = τ = k, Xk = x)u(x) +
x∈S, k∈N 0
X
+
P({σ = k, τ = k − 1, Xk−1 = y)u(y)
k∈N, y∈S
Jetzt ändern wir in der zweiten Summe noch den Laufindex von k zu k − 1 und
bezeichnen y in x um:
X
=
P(σ = τ = k, Xk = x)u(x) +
x∈S, k∈N 0
+
X
P({σ = k + 1, τ = k, Xk−1 = x)u(x).
k∈N 0 , y∈S
Und da {τ = k} die disjunkte Vereinigung der Mengen {τ = σ = k} und
{τ = k, σ = k + 1} ist, geht es weiter mit
X
=
P(τ = k, Xk = x)u(x)
x∈S, k∈N 0
= E u(Xτ ) .
4.3. DIE OPTIMALE LÖSUNG
37
Damit ist alles gezeigt.
Länger Warten ist immer schlechter:
Lemma 4.2.3 Es sei x0 ∈ S, wir betrachten den bei x0 startenden Prozess, eine
superharmonische Funktion u : S → R und fast sicher endliche Stoppzeiten τ, σ.
Ist dann τ ≤ σ, so gilt
E u(Xτ ) ≥ E u(Xσ ) .
Beweis: Definiere Stoppzeiten τn für n ∈ N durch
τn := min{σ, max{τ, n}}.
Dann gilt τn ≤ τn+1 ≤ τn + 1 und folglich wegen des vorigen Lemmas
E u(Xτn ) ≥ E u(Xτn+1 ) .
Da die τn punktweise fast sicher gegen σ konvergieren und alle auftretenden
Funktionen durch maxx |u(x)| beschränkt
sind, konvergieren die E u(Xτn ) nach
dem Satz von Lebesgue gegen E u(Xσ ) . Wegen τ0 = τ ist damit alles gezeigt.
4.3
Die optimale Lösung
Sei x ∈ S und τ : Ω → N 0 eine fast sicher endliche Stoppzeit für den bei x
startenden Prozess. Wir bezeichnen mit Gxτ den Erwartungswert von f (Xτx ).
Dabei ist (Xnx ) der stochastische Prozess, der durch die stochastische Matrix
bei Start in x erzeugt wird.
Von Interesse ist dann
v(x) := sup Gxτ ,
τ
wobei τ die zulässigen Stoppzeiten durchläuft. Die so definierte Funktion v :
S → R heißt die Funktion des optimalen Gewinns.
Bemerkungen: 1. Beachte, dass im hier vorliegenden Fall endlicher Zustandsräume v sicher durch maxx f (x) beschränkt ist. v(x) = ∞ kann also nicht vorkommen.
2. Wird nicht deterministisch bei x gestartet, sondern mit einer Wahrscheinlichkeitsverteilung ν, so ist auch dann der optimale zu erwartende Gewinn leicht
auszurechnen:
X
v(x)ν({x}).
x
Wir werden nun zeigen:
• v = fˆ.
38
KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN
• Sei ∆ die (offensichtlich nicht leere) Menge {x | f (x) = fˆ(x)} und τx∆ die
Stoppzeit des ersten Eintritts in ∆ bei Start in x. Dann ist τx∆ eine fast
sicher endliche Stoppzeit, und es gilt v(x) = Gxτ∆ für jedes x. Damit sieht
x
eine optimale Strategie so aus: Warte, bis zum ersten Mal ∆ erreicht ist,
stoppe dann sofort. Und mit Wahrscheinlichkeit 1 wird ∆ auch wirklich
gestoppt.
• fˆ kann rekursiv sehr schnell mit beliebiger Genauigkeit berechnet werden.
v = fˆ
Lemma 4.3.1 v ist superharmonisch, und v ≥ f . Folglich gilt v ≥ fˆ.
Beweis: Sei ε > 0. Wähle zu x ∈ S Stoppzeiten τx zu dem bei x startenden
Prozess, die jeweils v(x) bis auf ε approximieren:
Gxτx ≥ v(x) − ε.
Und nun sei x0 ∈ S. Eine neue Stoppzeit für den bei x0 startenden Prozess
wird so definiert: Gehe auf jeden Fall einen Schritt, danach orientiere Dich – je
nachdem, auf welches x der erste Schritt geführt hat – an τx .
Die Gewinnerwartung für diese Stoppzeit (die wieder fast sicher endlich ist)
ist dann offensichtlich
X
X
px0 ,x Gxτx ≥
px0 ,x v(x) − ε.
x
x
Folglich gilt
v(x0 ) ≥
X
px0 ,x v(x) − ε,
x
und da ε beliebig war, folgt v(x0 ) ≥
Satz 4.3.2 Es gilt v = fˆ.
P
x
px0 ,x v(x).
Beweis: Eine Ungleichung wurde schon im vorigen Lemma gezeigt. Für die
andere ist zu zeigen: Ist u superharmonisch mit u ≥ f , so ist u(x0 ) ≥ E f (Xτ )
für jede Stoppzeit zu dem bei x0 startenden Prozess, die fast sicher endlich ist.
Sei τ so eine Stoppzeit.
Lemma 4.2.3 (angewendet auf die Stoppzeiten
0 und
τ ) impliziert E u(Xτ ) ≤ u(x0 ), und damit gilt auch E f (Xτ ) ≤ u(x0 )
Alle τx∆ sind fast sicher endlich
Lemma 4.3.3 Alle τx∆ sind fast sicher endlich
Beweis: Wir fixieren ein x0 ∈ S und lassen den Prozess in x0 starten. Falls
x0 ∈ ∆ gilt, ist nichts zu beweisen, da sofort gestoppt wird. Sei also x0 ∈
/ ∆.
Wir wollen zeigen, dass A := {kein Xn liegt in ∆} eine Nullmenge ist.
Dazu wird eine Zahl δ > 0 so gewählt, dass v(x) − δ ≥ f (x) für alle x ∈
/∆
gilt.
4.3. DIE OPTIMALE LÖSUNG
39
Sei nun τ eine (zu dem bei x0 startenden Prozess gehörige) fast sicher endliche Stoppzeit. Es folgt
Z
E f (Xτ ) =
f (Xτ ) dP
Ω
Z
Z
=
f (Xτ ) dP +
f (Xτ ) dP.
Ω\A
A
Auf A ist die Funktion f (Xτ ) nach Konstruktion durch v − δ abschätzbar, auch
gilt f ≤ v. Folglich können wir die Rechnung mit
Z
Z
≤
v(Xτ ) dP +
v(Xτ ) dP − δP(A)
Ω\A
A
Z
=
v(Xτ ) dP − δ P(A)
Ω
≤ v(x0 ) − δ P(A)
fortsetzen, wobei wir im letzten Schritt Lemma 4.2.3 (mit τ und 0) und die
Tatsache ausgenutzt haben, dass v superharmonisch ist.
Gehen wir zum Supremum über alle zulässigen τ über, so folgt
v(x0 ) ≤ v(x0 ) − δ P(A).
Also muss P(A) = 0 gelten.
Stoppen gemäß τx∆ ist optimal
Nun folgt das Hauptergebnis dieses Kapitels:
Theorem 4.3.4 Durch τx∆ wird der bestmögliche Erwartungswert realisiert, und
insbesondere ist das Supremum in der Definiton von v(x) ein Maximum:
v(x) = E f (Xτx∆ )
für alle x.
Beweis: Sei φ(x) := E f (Xτx∆ ) . Wir werden zeigen:
• φ ist superharmonisch.
• φ ≤ v.
• φ ≥ v.
Damit wäre dann die Behauptung bewiesen.
a) φ ist superharmonisch.
Beweis dazu: Wir fixieren x0 , lassen den Prozess dort starten und definieren
eine Stoppzeit τ ∗ durch
min{n ≥ 1 | Xn ∈ ∆}.
40
KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN
(Der Unterschied zu τx∆0 : Bei τx∆0 wird das Minimum über die n ∈ N 0 mit Xn ∈
∆ gebildet.) Offensichtlich ist τ ∗ ≥ τx∆0 . Wir analysieren zunächst den ersten
Schritt. Mit Wahrscheinlichkeit px0 ,x ist der Prozess danach in x ∈ S. Und ab
hier stoppen wir ihn gemäß τy∆ : Das entspricht genau τ ∗ .
Zusammen mit Lemma 4.2.3 (für τx∆0 und τ ∗ und die superharmonische Funktion
fˆ) ergibt sich:
φ(x0 ) = E f (Xτx∆ )
0
= E fˆ(Xτx∆ )
0
≥ E fˆ(Xτ ∗ )
= E f (Xτ ∗ )
X
=
px0 ,x E f (Xτx∆ )
x∈S
=
X
px0 ,x φ(x).
x∈S
Hier wurde ausgenutzt, dass τx∆ und τ ∗ auf ∆ stoppen: Dort ist f = fˆ.
b) φ ≤ v.
Beweis dazu: Das ist aufgrund der Definition von v klar, denn φ ist durch eine
Stoppzeit entstanden.
c) φ ≥ v.
Beweis dazu: Wir müssen nur zeigen, dass φ ≥ f gilt, denn da φ superharmonisch ist, wäre dann auch φ ≥ fˆ = v.
Auf ∆ ist sicher f = φ, es fehlt noch der Nachweis für die x ∈
/ ∆. Falls
einmal φ(x) < f (x) für so ein x wäre, wählen wir x0 so, dass f (x0 ) − φ(x0 )
größtmöglich ist. Dann sind wir sicher, dass φ + f (x0 ) − φ(x0 ) die Funktion f
majorisiert. Da φ + f (x0 ) − φ(x0 ) superharmonisch ist, heißt das
φ + f (x0 ) − φ(x0 ) ≥ fˆ = v,
insbesondere also
f (x0 ) = φ(x0 ) + f (x0 ) − φ(x0 ) ≥ v(x0 ).
Das aber würde x0 ∈ ∆ bedeuten, ein Widerspruch.
Wie berechnet man fˆ?
Die vorstehenden Ergebnisse sind nur dann anwendbar, wenn man fˆ kennt.
Im nachstehenden Satz wird ein Verfahren vorgestellt, mit dem man diese Funktion sehr schnell mit beliebiger Genauigkeit berechnen kann:
4.3. DIE OPTIMALE LÖSUNG
41
Satz 4.3.5 Definiere Funktionen un : S → R induktiv durch u1 := f , uP
n+1 :=
max{un , P un }; dabei ist für eine Funktion u die Funktion P u durch x 7→ y pxy u(y)
erklärt.
Es ist dann f ≤ u1 ≤ u2 ≤ · · · , und
lim un (x) = fˆ(x)
für alle x.
Beweis: Es ist klar, dass f ≤ u1 ≤ u2 ≤ · · · . Da die un durch maxx f (x)
beschränkt sind, existiert U := lim un . Wir zeigen, dass U = fˆ gilt.
Sei u superharmonisch mit u ≥ f . Wir behaupten, dass u ≥ un für alle n
ist. Für n = 1 ist das klar. Sei u ≥ un . Dann ist auch P u ≥ P un , wegen u ≥ P u
(nach Voraussetzung) ist also u ≥ P un . Damit ist auch u ≥ un+1 , und es folgt
u ≥ U . Da das für alle u gilt, haben wir fˆ ≥ U bewiesen.
Als nächstes zeigen wir, dass U superharmonisch ist, dass also U ≥ P U gilt.
Das folgt mit Hilfe der Stetigkeit der Abbildung u 7→ P u so:
P U = P (lim un ) = lim P un ≤ lim un+1 = U.
Da U ≥ f gilt, muss damit auch U ≥ fˆ sein.
42
KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN
Kapitel 5
Die Brownsche Bewegung
Die Brownsche Bewegung ist einer der wichtigsten stochastischen Prozesse. Der
Name rührt daher, dass der Botaniker Robert Brown (1827) die irreguläre Bewegung kleinster Teilchen (Blütenpollen) unter dem Mikroskop studierte. Später
gab es – teils abenteuerliche – Erklärungsversuche. Die wichtigsten Punkte der
dann folgenden Entwicklung sind:
• Der Franzose Louis Bachelier verwendete die Brownsche Bewegung als
mathematisches Modell für Kursentwicklungen an der Börse.
• Albert Einstein berechnete, wie sich kleine Teilchen bewegen müssten,
wenn sie von noch (viel) kleineren Teilchen angestoßen werden: Es ergibt
sich eine Brownsche Bewegung, und man kann nachprüfbare Aussagen
über den Ort der Teilchen gewinnen. Das wurde einige Jahre später auch
wirklich verifiziert, und damit war der Physikerstreit über die Welt im
Kleinen – Elementarteilchen oder Kontinuum? – im Wesentlichen für die
Korpuskulartheorie entschieden.
• In den zwanziger Jahren zeigte Norbert Wiener, dass sich die Existenz der
Brownschen Bewegung streng beweisen lässt.
• Daraufhin zeigte sich immer mehr die fundamentale Bedeutung dieses stochastischen Prozesses. Im Jahr 2006 gab es eine Fieldsmedaille für Ergebnisse dazu (Wendelin Werner, ICM in Madrid).
5.1
Brownsche Bewegung: Definition / Existenz
Hier die Definition:
Definition Ein Prozess (Xt )t≥0 (wo Xt : Ω → R) heißt Brownsche Bewegung,
wenn gilt:
• X0 = 0.
• Für jedes ω ist t 7→ Xt (ω) stetig.
43
44
KAPITEL 5. DIE BROWNSCHE BEWEGUNG
• Für alle 0 = t0 < t1 < · · · tn sind die Zufallsvariablen Xti+1 − Xti , i =
0, . . . , n − 1 unabhängig.
• Für alle s < t ist Xt − Xs N (0, t − s)-verteilt.
Es ist alles andere als offensichtlich, dass es solche Prozesse gibt. Es dauerte
auch bis in die zwanziger Jahre des vorigen Jahrhunderts, bis Norbert Wiener
einen exakten Konstruktionsbeweis gab1 .
Es folgen zwei Beispiele für mögliche Konstruktionen.
Konstruktion 1: Als Ω wählt man einfach den Raum C [ 0, +∞ [. Die Xt : Ω → R
werden für t ≥ 0 als Auswertungen definiert: Xt : ω → ω(t), und E soll die von
den Xt erzeugte σ-Algebra sein. Dann werden – egal, welches Maß wir auf E
definieren – alle Xt Zufallsvariable sein, und die Pfade sind automatisch stetig.
Schwieriger ist es, das richtige Maß zu finden. Dazu verfährt man wie folgt:
• Bette C [ 0, +∞ [ in R [ 0,∞ [ ein. Dieser Raum wird mit der Produkt-σAlgebra versehen: Damit sind die Auswertungen automatisch messbar.
• Schreibe die Randverteilungen entsprechend dem Wunschprogramm Brown”
sche Bewegung“ vor. Prüfe dann nach, dass die Verträglichkeitsbedingung
aus dem Satz von Kolmogoroff erfüllt ist.
• Wende den Satz von Kolmogoroff an.
• Zeige, dass – bis auf eine Nullmenge – alle Pfade stetig sind, es also eine
natürliche Einschränkung auf C [ 0, +∞ [ gibt.
Konstruktion 2: Hier ist die Konstruktion des Maßraumes (Ω, E, P) einfach“:
”
Es ist irgendein Wahrscheinlichkeitsraum, auf dem abzählbar viele unabhängige
standardnormalverteilte Zufallsvariable ξij (i, j ∈ N 0 ) definiert sind2 . Es geht
dann so weiter:
1. Schritt: Wir definieren eine erste Approximation an die Brownsche Bewegung
(1)
so, dass sie sich zu den Zeitpunkten t ∈ N 0 richtig verhält: Es ist X0 = 0,
(1)
Xk (ω) := ξ1,1 + · · · + ξ1,k
(1)
für k ∈ N, und für die t ∈ [ k, k + 1 ] wird Xt (ω) durch lineare Interpolation
erklärt.
(1)
Dann ist (Xt )t ein Prozess mit stetigen Pfaden, der für ganzzahlige Zeitpunkte schon das Gewünschte leistet.
(2)
2. Schritt: Nun soll (Xt ) erklärt werden, und zwar so, dass gilt:
1 Die Brownsche Bewegung wurde damals allerdings schon seit einigen Jahrzehnten erforscht, zu nennen sind hier insbesondere Bachelier (1900, Finanzmathematik) und Einstein
(1905, Korpuskulartheorie). Auch heute ist wohl vielen Ingenieuren nicht einsichtig, dass man
sich um einen Existenzbeweis bemühen muss, denn “sie kommt doch offensichtlich in der
Natur vor”.
2 Dass das geht, ist auch nicht trivial: Hier braucht man den Satz von Carathéodory. In der
elementaren Stochastik hatten wir das den Klonsatz“ genannt.
”
5.1. BROWNSCHE BEWEGUNG: DEFINITION / EXISTENZ
45
• Der Prozess hat stetige Pfade, und auf 0.5·N 0 ist es eine richtige“ Brown”
sche Bewegung.
(2)
• Xt
(1)
stimmt auf N 0 mit Xt
überein.
(1)
(2)
Wir übernehmen dazu die Definition der Xk für die k ∈ N, definieren Xt für
die t = k + 0.5 geschickt“ und interpolieren dann wieder linear.
”
Das Hauptproblem liegt in der geschickten Wahl der Zwischenpunkte. Es
läuft im Wesentlichen auf die folgende Frage hinaus:
Gegeben sei ein N (0, 1)-verteiltes X. Wie muss man Y definieren,
so dass Y und X − Y unabhängig sind und sowohl Y als auch X − Y
N (0, 1/2)-verteilt sind?
Die Antwort: Verschaffe Dir ein N (0, 1)-verteiltes Z, dass von X unabhängig ist
und definiere dann Y := (X + Z)/2. Es ist dann X − Y = (X − Z)/2, und:
• Da Y, X − Y aus X, Z durch eine orthogonale Transformation entstanden
sind, handelt es sich wieder um unabhängige Normalverteilungen. Diese
Tatsache spielt auch in der Statistik eine fundamentale Rolle.
• Y und X − Y sind N (0, 1/2)-verteilt (klar).
In unserem Fall nehmen wir die benötigten Y ’s aus dem ξ-Reservoir. Der Rest
ist im Wesentlichen Routine.
2., 3., . . . Schritt: Es geht mit der gleichen Idee weiter:
(3)
verfeinert“ Xk , und nun stimmt alles (1/4)N 0 .
”
(4)
verfeinert“ Xk , und nun stimmt alles (1/8)N 0 .
”
• Xk
• Xk
(2)
(3)
• ...
(r)
• Xk
(r−1)
verfeinert“ Xk
”
, und nun stimmt alles (1/2r−1 )N 0 .
Finale: Nun endlich kann die Brownsche Bewegung definiert werden. Die Idee:
(r)
Xt (ω) := lim Xt (ω).
r
Ganz so einfach ist es leider nicht. Erstens ist die Konvergenz nicht klar, und
zweitens würde punktweise Konvergenz nicht ausreichen, um die Stetigkeit der
Pfade zu garantieren.
Deswegen muss sorgfältiger argumentiert werden. Eine geschickte Anwendung des Lemmas von Borel-Cantelli zeigt, dass für die ω außerhalb einer Null(r)
menge N die Funktionen t 7→ Xt (ω) sogar gleichmäßig auf Kompakta konvergieren. Man geht dann von Ω zu Ω \ N über, definiert darauf die Xt , und das
ist dann wirklich eine Brownsche Bewegung.
Nachspiel: Es ist manchmal handlicher, auf dem Raum C := C [ 0, +∞ [ zu
arbeiten. Das kann leicht erreicht werden:
46
KAPITEL 5. DIE BROWNSCHE BEWEGUNG
• Definiere X : Ω → C durch ω 7→ (t 7→ Xt (ω)). Diese Abbildung ist
wohldefiniert und eine Zufallsvariable, wenn man C mit der σ-Algebra der
Borelmengen (kompakt-offene Topologie) versieht.
• C wird mit dem Wahrscheinlichkeitsmaß PX versehen.
• Xt0 : C → R wird durch ω 0 7→ ω 0 (t) erklärt.
• Dann ist – wie sich fast von allein beweist – (Xt0 ) eine Brownsche Bewegung.
5.2
Brownsche Bewegung: Eigenschaften
Aus Satz 2.1.3 folgt unmittelbar, dass die Brownsche Bewegung ein Markovprozess ist3 .
Wir werden uns in diesem Abschnitt ausführlich um die Pfade der Brownschen Bewegung kümmern, sie haben sehr überraschende Eigenschaften.
Selbstähnlichkeit und Zeitumkehr
Die Brownsche Bewegung hat verschiedene Aspekte der Selbstähnlichkeit.
Bei richtiger Skalierung sieht sie überall gleich“ aus, man kann sie rückwärts
”
laufen lassen und beliebig vergrößern. Genauer:
Satz 5.2.1 Es sei (Bt )t≥0 eine Brownsche Bewegung (mit Bt : Ω → R). Dann
gilt:
(i) Für jedes t0 > 0 ist (Bt0 +t − Bt0 )t≥0 eine Brownsche Bewegung.
(ii) Für jedes a > 0 ist (Ba2 t /a)t≥0 eine Brownsche Bewegung.
(iii) Entfernt man aus Ω eine geeignete Nullmenge und definiert man dann
Y0 := 0 und Yt := tX1/t , so ist (Yt )t≥0 eine Brownsche Bewegung.
Beweis: (i) und (ii) sind fast klar, die Aussagen folgen aus bekannten Eigenschaften der Normalverteilung4 . Bei (iii) muss man nur dafür sorgen, dass die
Stetigkeit bei Null garantiert ist, die anderen Aussagen sind leicht einzusehen5 .
Insbesondere erfüllt (Yt ) im Bereich t > 0 alle Bedingungen an eine Brownsche
Bewegung.
3 Beachte: Ist – im Fall 0 ≤ t < t – die Zufallsvariable S := X − X von allen Zuwächsen
t0
t
0
Xt1 − X0 , Xt2 − Xt1 , . . . , Xtn − Xtn−1 unabhängig für 0 < t1 < · · · < tn = t, so ist S auch
von den Xt1 , . . . , Xtn unabhängig. Wie üblich folgt dann mit einem Dynkinsystem-Argument,
dass S von σ{Xs | s ≤ t} unabhängig ist.
4 Man sollte sich an die folgenden Tatsachen erinnern: Sind X und Y unabhängige Zufallsvariable, wobei X N (0, σ12 )-verteilt und Y N (0, σ22 )-verteilt ist, so ist aX N (0, a2 σ12 )-verteilt
und X + Y N (0, σ12 + σ22 )-verteilt.
5 Für die Verteilung der Zuwächse muss man die vorige Fußnote und die Gleichung
1
1
(t − s)2
+ s2 ( − ) = t − s
t
t
s
ausnutzen.
5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN
47
Für die Stetigkeit bei Null der Pfade von Yt ist zu zeigen, dass Xt /t für t → ∞
fast sicher gegen Null geht. Das ist plausibel, denn
Xt ist N (0, t) verteilt, sollte
√
also in der Regel“ nicht wesentlich größer als t sein. Als Hilfsmittel benötigen
”
wir die
Ungleichung von Kolmogoroff: Sind W1 , . . . , Wr unabhängige und
identisch verteilte Zufallsvariable mit existierender Varianz und Erwartungswert Null und definiert man Zm := W1 + · · · + Wm für
m = 1, . . . , r, so gilt für a > 0
P(max |Zm | ≥ a) ≤ σ 2 (Zr )/a2 .
m
(Beweis: Der Beweis ist sehr aufwändig. Man findet ihn zum Beispiel in meinem Skript zur Wahrscheinlichkeitstheorie, Seite 95.)
Die Interpretation: Ist Zm die Position eines Spaziergängers im mten Schritt, so wird durch die Ungleichung die Wahrscheinlichkeit
abgeschätzt, dass irgendwann zwischen dem ersten und dem r-ten
Schritt das Intervall [ −a, a ] verlassen wurde.
Im Fall r = 1 ist die Ungleichung gerade die Tschebycheff-Ungleichung.
Sei Ñ die Menge der ω ∈ Ω, für die Yt (ω) für t → 0 nicht gegen Null geht. Ziel:
Das ist eine Nullmenge6 .
Wir fixieren ein δ > 0 und betrachten für n ∈ N die Rasterpunkte“
”
δk
n
∆n := { n | 1 ≤ k ≤ 2 }.
2
S
Dann gilt ∆1 ⊂ ∆2 ⊂ · · · , und n ∆n liegt dicht in ] 0, δ ].
Wir wenden die Kolmogoroffungleichung für die Zuwächse der Y -Variablen
an: Für festes n sei r := 2n und Wm := Y(m+1)/2n − Ym/2n , m = 0, . . . , r − 1.
Dann ist – mit den Bezeichnungen der Ungleichung – Zm = Ym/2n , und wegen
σ 2 (Z2n ) = δ erhalten wir für jedes a > 0
P(max |Yt | ≥ a) ≤
t∈∆n
δ
.
a2
Da das für jedes n gilt, haben wir auch
P( max |Yt | ≥ a) ≤
0<t≤δ
δ
a2
bewiesen. Setze nun δ = 1/l und wende die vorstehenden Überlegungen für
a = 1/k an:
k2
.
P({ max |Yt | ≥ 1/k}) ≤
l
0<t≤1/l
6 Die
Messbarkeit macht wegen der Stetigkeit keine Probleme, man kann ja Ñ als
[\
{ max |Yt | ≥ 1/k}
k
l
0<t≤1/l
schreiben, und das Maximum von |Yt | ist genau dann größer als 1/k, wenn es bei einer rationalen Zahl größer als 1/k wird.
48
KAPITEL 5. DIE BROWNSCHE BEWEGUNG
T
Folglich ist l {max0<t≤1/l |Yt | ≥ 1/k} für jedes k eine Nullmenge, und damit
hat auch Ñ als Vereinigung dieser Mengen Maß Null.
Variation und quadratische Variation
Wieder sei (Bt ) eine Brownsche Bewegung. Für t > 0 betrachten wir das
Pk
Supremum der Zahlen i=1 |Bti (ω) − Bti−1 (ω)|, wobei beliebige Zerlegungen
0 = t0 < · · · < tk = t zugelassen sind. Dieses Supremum wird mit Vt (ω)
bezeichnet, man spricht von der Variation auf [ 0, t ]. Jedes Vt ist wieder eine
Zufallsvariable, Vt (ω) misst die bis zur Zeit t zurückgelegte Weglänge des Pfades
s 7→ Bs (ω).
Bezeichnet man für eine Zerlegung Z : 0 = t0 < · · · < tk = t von [ 0, t ]
mit δ(Z) := max |ti+1 − ti | die maximale Zerlegungslänge, so lässt sich leicht
Pk
zeigen, dass man Vt (ω) Grenzwert der Folge i=1 |Bti (ω) − Bti−1 (ω)| ist, wenn
die zugehörigen δ(Z) gegen Null gehen7 .
Ganz analog wird die quadratische Variation Qt definiert.
Für eine Zerlegung
Pk
Z : 0 = t0 < · · · < tk = t von [ 0, t ] sei QZ (ω) := i=1 |Bti (ω) − Bti−1 (ω)|2 .
Qt (ω) soll dann der Grenzwert der QZn (ω) für irgendeine Zerlegungsfolge sein,
für die δ(Zn ) gegen Null geht. Dass das existiert, wird gleich gezeigt werden.
Satz 5.2.2
(i) Wir behaupten erstens: Sind Zn Zerlegungen mit δ(Zn ) → 0, so geht die
Folge (QZn ) im L2 -Sinn gegen t: Die Erwartungswerte der Zufallsvariablen sind
gleich t, und die Erwartungswerte von (QZn − t)2 gehen gegen Null.
P
Und zweitens: Ist sogar
δ(Zn ) < ∞, so gehen die QZn fast sicher gegen t.
(ii) Fast sicher ist Qt = t.
(iii) Fast sicher ist Vt = ∞.
Beweis: (i) Ist Z beliebig, so ist doch wegen der Unabhängigkeit der Zuwächse
und der Linearität des Erwartungswerts (und da Bti − Bti−1 N (0, ti − ti−1 )verteilt ist)
E(QZ )
k
X
= E(
|Bti − Bti−1 |2 )
i=1
=
X
E(|Bti − Bti−1 |2 )
X
=
(ti − ti−1 )
= t.
Um die Varianz auszurechnen, schreiben wir QZ − t als
X
7 Hier
(Bti − Bti−1 )2 − (ti − ti−1 ) .
ist an die Stetigkeit der Pfade zu erinnern.
5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN
49
Weil sich Varianzen bei unabhängigen Zufallsvariablen addieren, folgt
X
2 E (QZ − t)2
=
E (Bti − Bti−1 )2 − (ti − ti−1 )
X
=
2 (Bti − Bti−1 )2
− 1) .
(ti − ti−1 )
(ti − ti−1 )2 E
Aber die Zufallsvariable (Bti − Bti−1 )/(ti − ti−1 ) ist für alle i N (0, 1)-verteilt,
die Rechnung kann also – mit einer Konstanten C – durch
X
≤C
(ti − ti−1 )2
fortgesetzt werden. Nun ist aber sicher
X
X
(ti − ti−1 )2 ≤ δ(Z)
(ti − ti−1 )
= tδ(Z),
und das beweist den ersten Teil von (i).
Für den zweiten wenden wir die Tschebycheff-Ungleichung an. Ist ε > 0
vorgelegt, so ist doch
P({|QZ − t| > ε}) ≤
σ 2 (QZ )
.
ε2
Lassen sich die δ(Zn ) aufsummieren, so folgt wegen der vor wenigen Zeilen
bewiesenen Ungleichung σ 2 (QZn ) ≤ Ctδ(Zn ), dass
X
P({|QZn − t| > ε}) < ∞
n
gilt. Aufgrund des Lemmas von Borel-Cantelli liegt also ein ω fast sicher in nur
endlich vielen {|QZn − t| > ε}, und das beweist die fast sichere Konvergenz der
QZn gegen t.
(ii) Das wurde in (i) mitbewiesen, da ein L2 -Limes fast sicher eindeutig bestimmt
ist.
(iii) Es sei ω so gegeben, dass die Variation von s 7→ Bs (ω) auf [ 0, t ] endlich,
etwa gleich K ist. Sei ε > 0 beliebig. Wir wählen δ > 0 so klein, dass für δ(Z) ≤ δ
stets folgt: Alle |Bti (ω) − Bti−1 (ω)| sind ≤ ε. Das geht wegen der gleichmäßigen
Stetigkeit. Es folgt dann:
X
X
(Bti (ω) − Bti−1 (ω) )2 ≤ max |Bti (ω) − Bti−1 (ω) |
|Bti (ω) − Bti−1 (ω) |
i
≤ εK.
Folglich ist Qt (ω) = 0, und das passiert nur auf einer Nullmenge.
Die Pfade sind nirgendwo differenzierbar ...
50
KAPITEL 5. DIE BROWNSCHE BEWEGUNG
In Bezug auf die Differenzierbarkeit sind die Pfade äußerst pathologisch.
Das ist auch plausibel, denn im Fall differenzierbarer Pfade wäre sicher die
Markoveigenschaft verletzt. Hier die ganze Wahrheit:
Satz 5.2.3 Es sei (Bt )t≥0 eine auf Ω definierte Brownsche Bewegung. Wir
definieren Teilmengen L und D von Ω durch die folgende Vorschrift:
• L ist die Menge derjenigen ω, für die der Pfad s 7→ Bs (ω) an irgendeiner
Stelle einer Lipschitzbedingung nach rechts“ genügt. Dabei bedeutet die
”
Aussage f genügt bei t0 einer Lipschitzbedingung nach rechts“, dass es
”
K, ε > 0 so gibt, dass
|f (t0 + t) − f (t0 )| ≤ Kt
für alle t ∈ [ 0, ε ].
• D ist die Menge der ω, für die der Pfad s 7→ Bs (ω) an irgendeiner Stelle
eine rechtsseitige Ableitung besitzt: Für mindestens ein t0 existiert
lim
h→0+
Bt0 +h − Bt0
h
in R.
Es gilt dann D ⊂ L, und es gibt eine Nullmenge N ⊂ Ω mit L ⊂ N . (Das
muss so kompliziert formuliert werden, da nicht garantiert werden kann, dass L
messbar ist.)
Kurz: Fast sicher sind Pfade der Brownschen Bewegung nirgendwo differenzierbar.
Beweis: Die Inklusion D ⊂ L ist leicht einzusehen, den zweiten Teil beweisen
wir in mehreren Schritten.
Schritt 1: Genügt eine Funktion f : [ 0, δ ] → R einer Lipschitzbedingung nach
rechts bei 0 auf [ 0, δ ], so gilt |f (t) − f (s)| ≤ 2Kδ für alle s, t.
Beweis dazu: Das folgt leicht mit Hilfe der Dreiecksungleichung (Vergleich mit
f (0)).
Schritt 2: Ist X N (0, 1)-verteilt, so ist P({|X| ≤ a}) ≤ 2a für alle a ≥ 0.
Beweis dazu: Klar, da die Dichtefunktion durch 1 beschränkt ist.
Schritt 3: Hier führen wir einige Definitionen ein. Es sei n ∈ N und 0 ≤ k ≤ n2n .
Zn,k sei dann die Zufallsvariable
max{|B(k+1)/2n − Bk/2n |, |B(k+2)/2n − B(k+1)/2n |, |B(k+3)/2n − B(k+1)/2n |}.
Mit En,k,ε bezeichnen wir das Ereignis {Zn,k ≤ ε}.
Da die Zuwächse unabhängig sind, gilt wegen Schritt 2:
P(En,k,ε ) ≤ (2 · 2n/2 ε)3 ;
beachte, dass die B(i+1)/2n − Bi/2n N (0, 2−n )-verteilt sind.
5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN
51
Schritt 4: Wir setzen nun Yn := min0≤k≤n2n −3 Zn,k . Dann ist P(Yn ≤ ε) die
Wahrscheinlichkeit dafür, dass ein Pfad irgendwo“ auf [ 0, n ] auf dem 2−n ”
Gitter nur wenig schwankt“.
Sn2n −3
”
Wir definieren Fn,ε := {Yn ≤ ε}. Es ist dann klar, dass Fn,ε ⊂ k=0 En,k,ε ,
und folglich gilt
P(Fn,ε ) ≤ n2n (2 · 2n/2 ε)3 .
−n
Schritt 5: Wir
T setzen jetzt εn := n2 . Dann geht P(Fn,εn ) gegen Null, und
deswegen ist n≥n0 Fn,εn eine Nullmenge für jedes n0 . Damit ist auch
N :=
[ \
Fn,εn
n0 n≥n0
eine Nullmenge: Das ist die Menge, von der wir L ⊂ N zeigen wollen.
Schritt 6: L ⊂ N
Beweis dazu: Es sei ω ∈ L. Es gibt also t0 , K, δ, so dass |Bt0 +s (ω)−Bt0 (ω)| ≤ Ks
für 0 ≤ s ≤ δ. Wähle n0 so groß, dass vier Punkte aus dem 2−n0 -Gitter in
[ t0 , t0 + δ ] fallen8 . Wir richten es dabei so ein, dass
k
k+1
k+2
k+3
k−1
< t0 ≤ n0 < n0 < n0 < n0 ≤ t0 + δ.
2 n0
2
2
2
2
Die t0 + i/2n0 sind für i = 0, 1, 2, 3 höchstens um 4/2n0 von t0 entfernt, und
deswegen gilt wegen Schritt 1: |B(i+1)/2n0 (ω) − Bi/2n0 (ω)| ≤ 8K/2n0 . Damit
ist auch Yn0 (ω) ≤ 8K/2n0 . Für Zahlen n mit n ≥ n0 ergeben sich die gleichen
Abschätzungen, und wenn wir n0 ≥ K annehmen, heißt das, dass ω in Fn,εn
liegt.
Zusammen: Es gibt ein n0 , so dass ω ∈ Fn,εn für alle n ≥ n0 ist. Und folglich
ist ω ∈ N .
... nicht einmal Hölderstetig für Exponenten > 0.5 ...
Zur Erinnerung: Eine Funktion f : [ a, b ] → R heißt Hölderstetig zum Exponenten γ, wenn für eine geeignete Konstante K stets
|f (s) − f (t)| ≤ K|s − t|γ
gilt. (Diese Definition ist für 0 < γ sinnvoll, für γ > 1 wird die Bedingung
allerdings nur von den konstanten Funktionen erfüllt.)
Das ist eine natürliche Verallgemeinerung der Lipschitzbedingung, die dem
Fall γ = 1 entspricht. Die Bedingung besagt, dass f an jeder Stelle höchstens so
schnell wie xγ bei Null wächst, insbesondere muss f dann stetig sein. Je kleiner
γ ist, um so mehr kann f explodieren“.
”
Für die Brownsche Bewegung ist 0.5 die kritische Grenze. Wir zeigen in
den nächsten Sätzen, dass die Brownsche Bewegung nirgendwo Hölderstetig zu
Exponenten > 0.5 und fast sicher Hölderstetig zu Exponenten < 0.5 ist.
8 Das
heißt: 2−n0 ≤ δ/4. Es soll auch n0 2n0 > t0 sein.
52
KAPITEL 5. DIE BROWNSCHE BEWEGUNG
Satz 5.2.4 Es sei (Bt ) eine Brownsche Bewegung. Für γ > 0.5 gilt dann fast
sicher: Es gibt kein Intervall [ a, b ] mit a < b, so dass s →
7 Bs (ω) auf [ a, b ]
Hölderstetig zum Exponenten γ ist.
Beweis: Sei H ⊂ Ω die Menge der ω, für die so eine Hölderbedingung erfüllt
ist. Ziel: H ist eine Nullmenge.
Etwas allgemeiner als oben definieren wir die quadratische Variation auch
für Teilintervalle: Q[ a,b ] bezeichnet die quadratische Variation der Brownschen
Bewegung auf [ a, b ]. Wie oben kann man dann leicht zeigen, dass die Zufallsvariablen
X
(Bti − Bti−1 )2
fast sicher gegen b − a gehen, wenn wir Zerlegungen Z von [ a, b ] betrachten, für
die die δ(Z) so schnell gegen Null konvergieren, dass sie sogar aufsummierbar
sind.
Sei N die Menge der ω, für die Q[ a,b ] (ω) = 0 ist für irgendein nichttriviales
Intervall mit rationalen Endpunkten. Das ist sicher eine Nullmenge, denn fast
sicher ist diese Zahl gleich b − a > 0, und es geht nur um abzählbar viele
Bedingungen. Wir wollen zeigen, dass H ⊂ N ist.
Sei dazu ω ∈ H, der zu ω gehörige Pfad erfülle auf [ a, b ] (nichttrivial, rationale Endpunkte) die Hölderbedingung. Dann gilt doch für eine Zerlegung von
[ a, b ]:
X
X
(Bti − Bti−1 )2 ≤ K 2
|ti − ti−1 |2γ
X
= K2
|ti − ti−1 |2γ−1 |ti − ti−1 |
2γ−1 X
≤ K 2 δ(Z)
|ti − ti−1 |
2γ−1
= K 2 δ(Z)
(b − a).
Und wenn die Z eine Zerlegungsfolge durchlaufen, so dass die δ(Z) schnell genug
gegen Null gehen, geht die linke Seite gegen Q[ a,b ] (ω), die rechte gegen Null (da
2γ − 1 > 0). Folglich liegt ω in N .
Wir beweisen noch ein weitergehendes Ergebnis, eine Verschärfung von Satz
5.2.3:
Satz 5.2.5 Es sei (Bt ) eine Brownsche Bewegung und γ > 0.5. Mit H bezeichnen wir jetzt die Menge der ω, für die t 7→ Bt (ω) an irgendeiner Stelle t0 nach
rechts Hölderstetig mit Exponent γ ist. Das soll bedeuten: Es gibt ein δ > 0 und
ein K, so dass
|Bt0 +s − Bt0 | ≤ Ksγ
für alle |s| ≤ δ gilt.
Dann gibt es eine Nullmenge mit H ⊂ N .
Beweis: Zunächst sei bemerkt, dass das eine weitreichende Verschärfung von
Satz 4.2.4 ist. Der Beweis ist eine Modifikation des Beweises von Satz 5.2.3.
5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN
53
Schritt 1: Es sei f : [ 0, δ 0 ] → R Hölderstetig nach rechts zum Exponenten γ
(Konstante: K). Für s, t ∈ [ 0, δ 0 ] ist dann
|f (s) − f (t)| ≤ 2Kδ 0γ .
Beweis dazu: Das ist wieder klar durch Vergleich mit f (0).
Schritt 2: Es folgen wieder Definitionen. Wir fixieren diesmal ein r ∈ N, das
erst später festgelegt wird. Zn,k ist wieder eine Zufallsvariable: diesmal das Maximum der Zahlen
|B(k+i+1)/2n − B(k+i)/2n |, i = 0, . . . , r − 1.
(Im obigen Beweis war r = 3.) Auch diesmal ist En,k,ε das Ereignis {Zn,k ≤ ε},
und wegen der Unabhängigkeit der Zuwächse ist P(En,k,ε ) ≤ (2 · 2n/2 ε)r .
Schritt 3: Wir setzen jetzt Yn := min0≤k≤n2n −3 Zn,k und Fn,ε := {Yn ≤ ε}. Es
gilt
P(Fn,ε ) ≤ n2n (2 · 2n/2 ε)r .
Schritt 4: Jetzt wird εn festgelegt: εn := n2−γn . Dann ist
P(Fn,εn ) ≤ n2n (2 · 2n/2 n2−γn )r
=
2r n1+r 2n(1+r(0.5−γ)) .
Da γ > 0.5 gilt, können wir r so groß wählen, dass 1 + r(0.5 − γ) negativ ist.
Dann ist die Reihe über die P(Fn,εn ) wieder endlich, und es folgt, dass
[ \
N :=
Fn,εn
n0 n≥n0
eine Nullmenge ist.
Schritt 5: Es ist H ⊂ N .
Beweis dazu: Sei ω ∈ H. Wir wählen t0 , K, δ so, dass
|Bt0 +s − Bt0 | ≤ Ksγ
für 0 ≤ s ≤ δ.
Nun wird n0 festgesetzt, so groß, dass für n ≥ n0
• n > t0 und n > 2K(r + 1)γ .
• Für ein geeignetes k ist
k−1
k
k+r
< t0 ≤ n ≤
≤ t0 + δ.
2n
2
2n
Schritt 1, mit δ 0 = (r + 1)/2n , garantiert dann, dass
|Bt0 +(i+1)/2n (ω) − Bt0 +i/2n (ω)| ≤ 2K(r + 1)γ 2−nγ ≤ εn
54
KAPITEL 5. DIE BROWNSCHE BEWEGUNG
für i = 1, . . . , r. Damit ist Zn,k (ω) ≤ εn und folglich ω ∈ Fn,εn , und das bedeutet
ω ∈ N.
... aber immerhin Hölderstetig für Exponenten < 0.5
Satz 5.2.6: Es sei γ < 0.5. Dann gilt fast sicher: Es gibt zu jedem ω und
jedem t0 ein positives δ 0 , so dass t 7→ Bt (ω) Hölderstetig zum Exponenten γ auf
[ t0 , t0 + δ 0 ] ist.
Der Beweis wird etwas später geführt, das Ergebnis soll aus dem folgenden
Stetigkeitssatz von Kolmogoroff 9 folgen:
Satz 5.2.7: Es sei (Xt )t≥0 ein reellwertiger Prozess mit stetigen Pfaden. Es
gebe positive Zahlen α, β, c, so dass stets gilt:
E(|Xt − Xs |β ) ≤ c|s − t|1+α .
Für jedes γ < α/β sind dann die Pfade von (Xt ) fast sicher Hölderstetig zum
Exponenten γ.
Beweis: Es reicht der Nachweis für (Xt )0≤t≤1 , der allgemeine Fall kann dann
durch Herausnehmen abzählbar vieler Nullmengen darauf zurückgeführt werden. Aus Bequemlichkeit nehmen wir auch c = 1 an, was leicht durch Übergang
zu Xt /c1/β erreicht werden kann.
Sei δ > 0, es wird später festgesetzt. Für n ∈ N sei ∆n die Menge der i/2n
mit i ∈ N, 0 ≤ i ≤ 2n .
Schritt 1: Ist δ klein genug, so gilt für fast alle ω, dass für genügend große n die
folgende Ungleichung erfüllt ist:
|Xi/2n (ω) − Xj/2n (ω) ≤ |(i − j)/2n |γ ,
falls 0 ≤ i ≤ j ≤ 2n und j − i ≤ 2δn . Das ist schon die gesuchte Hölderbedingung auf den ∆n , allerdings wird der Gültigkeitsbereich für wachsende n immer
winziger.
Beweis dazu: Die Markovungleichung garantiert, dass P(|Y | > a) ≤ E(|Y |β )/aβ
für a > 0. Für uns bedeutet das:
P(|Xi/2n − Xj/2n | >
|i − j| γ
|i − j| 1+α−βγ
) ≤
.
n
2
2n
Ist Fn das Ereignis, dass es irgendwelche i, j mit 0 ≤ i ≤ j ≤ 2n und j − i ≤ 2δn
gibt, so können wir P(Fn ) so abschätzen:
P(Fn ) ≤ 2n 2δn
2δn 1+α−βγ
,
2n
9 In einer anderen Version als der nachstehenden wird ausgesagt, dass (X ) eine gleicht t
wertige Variante mit stetigen Pfaden hat. Dieser Teil des Satzes ist hier nicht interessant, da
wir uns für Eigenschaften der Brownschen Bewegung interessieren, und das ist die Stetigkeit
schon sichergestellt.
5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN
55
denn die Anzahl der zu berücksichtigenden Paare kann durch 2n 2δn abgeschätzt
werden.
Der rechte Ausdruck ist aber gerade 2nρ , mit
ρ := (1 + δ) − (1 + α − βγ)(1 − δ),
und da 1 + α − βγ strikt positiv ist, lässt sich δ so wählen, dass ρ negativ ist.
Mit ε := −ρ ist also P(Fn ) ≤ 2−εn , und das garantiert, dass ein ω fast sicher in
nur endlich vielen Fn liegt. Das ist gerade die Behauptung.
Schritt 2: Wir werden zeigen, dass für ein ω, das in nur endlich vielen Fn liegt,
eine γ-Hölderbedingung erfüllt ist. Genauer: Es sei ω ∈
/ Fn für n ≥ n0 , wir
setzen f (t) := Xt (ω). Wir behaupten, dass es eine Konstante K so gibt, dass
|f (r) − f (q)| ≤ K|r − q|γ
für alle r, q ∈ [ 0, 1 ] mit q ≤ r und r − q ≤ 2−(1−δ)n0 .
Beweis dazu: Da f stetig ist, reicht es, das für eine dichte Teilmenge zu beweisen.
Wir nehmen an, dass r, q in einem ∆n mit n ≥ n0 liegen.
Wir wählen ein m ≥ n mit der folgenden Eigenschaft:
2−(m+1)(1−δ) ≤ r − q ≤ 2−m(1−δ) .
Anschließend suchen wir Punkte aus ∆m , die möglichst nahe“ bei q und r
”
liegen:
i
j
j+1
i−1
<q≤ m < m ≤r< m .
m
2
2
2
2
• Wie groß kann |f (j/2m ) − f (i/2m )| werden?
Es ist doch (j − i)/2m ≤ r − q ≤ 2−(1−δ)m . Damit ist 0 ≤ j − i ≤ 2mδ ,
und es folgt (wegen ω ∈
/ Fm )
|f (j/2m ) − f (i/2m )| ≤
2mδ γ
.
2m
• Wie groß kann |f (j/2m ) − f (r)| werden?
Das Argument ist wirklich trickreich. Schreibe r als j/2m plus endlich viele
0
Summanden der Form a/2m , wobei gilt: a ∈ {0, 1}, m0 > m, und jedes
m0 tritt höchstens einmal auf. Man findet diese Summanden, wenn man
für die Zahl 2m r − j ∈ [ 0, 1 ] die Darstellung im Dualsystem ausrechnet.
Wegen der Dreiecksungleichung, da die m0 > m sind und da jeder Summand nur einmal auftritt, ist |f (j/2m ) − f (r)| durch eine Summe aus
Termen (2−(m+s) )γ über gewisse s > 1 abzuschätzen. Schätzen wir weiter
ab, indem wir alle s berücksichtigen, folgt
|f (j/2m ) − f (r)| ≤ C1 2−mγ
mit einer nur von γ abhängigen Konstanten.
56
KAPITEL 5. DIE BROWNSCHE BEWEGUNG
• Wie groß kann |f (i/2m ) − f (q)| werden?
Das geht analog: ≤ C1 2−mγ .
Und nun das Finale. Die vorstehenden Überlegungen zeigen, dass
|f (r) − f (q)| ≤ 2−γm(1−δ) + 2C1 2−mγ ,
und das muss durch C2 |r − q|γ abgeschätzt werden. Wegen 2−(m+1)(1−δ) ≤ r − q
ist |r − q|γ ≥ 2−γ(m+1)(1−δ) , und deswegen reicht es zu zeigen, dass
2−γm(1−δ) + 2C1 2−mγ ≤ C2 2−γ(m+1)(1−δ)
für ein geeignetes C2 . Das wird genau dann gelten, wenn
2mδγ + 2C1 ≤ C2 2−γ(1+δ) 2mδγ .
Damit ist klar, dass das für genügend große C2 garantiert werden kann: C2 muss
nur so groß sein, dass 1 + 21−n0 δγ C1 ≤ C2 2−γ(1−δ) .
Es folgt nun der Beweis von Satz 5.2.3
√ . Sei n ∈ N und X eine N (0, 1)verteilte Zufallsvariable. Für s < t ist t − sX so verteilt wie Bt − Bs , und
deswegen gilt
√
E(|Bt − Bs |2n ) = E(| t − sX|2n ) = E(|X|2n )|t − s|n .
Folglich sind mit C = E(|X|2n ), β = 2n und α = n − 1 die Voraussetzungen des
vorigen Satzes erfüllt. Die Hölderstetigkeit kann damit für alle γ < (n − 1)/(2n)
garantiert werden, und da n beliebig groß gewählt werden kann, ist der Beweis
für alle γ < 0.5 geführt.
Kapitel 6
Stochastische Integrale und
stochastische
Differentialgleichungen
Der Ausgangspunkt ist die folgende Problemstellung. Wenn sich ein Prozess
gemäß einer Differentialgleichung entwickelt, so ist die lokale Änderung in einem
kleinen“ Zeitintervall durch
”
dZ(t) = f (Z(t), t)dt
gegeben, man schreibt das kurz als Z 0 (t) = f (Z(t), t). In vielen Fällen gibt es
aber eine Zufallsstörung“: Während des kleinen“ Zeitintervalls dt wird dZ(t)
”
”
zusätzlich durch einen mehr oder weniger abgeschwächten Zufallseinfluss modifiziert. Modelliert man den normalisierten Zufall im Zeitraum [ t, t + dt ] durch
dBt := Bt+dt − Bt für eine Brownsche Bewegung (Bt ), so kann man zu
dZ(t) = f (Z(t), t)dt + g(Z(t), t)dBt
übergehen; g ist folglich dafür verantwortlich, wie stark der Zufallseinfluss ist.
Das ist eine stochastische Differentialgleichung. In diesem Kapitel soll präzisiert
werden, was das bedeutet.
6.1
Riemann-Stieltjes-Integrale
Rb
Das übliche“ Integral a f (x) dx kann doch als Fläche zwischen dem Graphen
”
von f und der x-Achse interpretiert werden. Alternativ kann man sich auch
vorstellen, dass die Wegstückchen“ dx mit einer Wichtung f (x) versehen und
”
dann aufsummiert werden: Das Integral wird durch
X
f (xi )(xi+1 − xi )
57
58KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN
approximiert, wobei die xi eine feine“ Unterteilung von [ a, b ] bilden.
”
Nun gibt es eine Modifikation. Die Wegstückchen werden auch noch gewichtet, und zwar durch die Zuwächse einer Funktion g. Der Zielwert soll also durch
X
f (xi ) g(xi+1 ) − g(xi ) ,
die Riemann-Stieltjes-Summe, angenähert werden. Der vorstehende Fall ist darin enthalten, man muss nur g(x) = x setzen. Der jetzige Ansatz ist aber viel
allgemeiner. Ist zum Beispiel g eine Treppenfunktion, die bei c um Eins springt
und ist f stetig, so ist die entsprechende Summe nahe bei f (c), wenn die Unterteilung fein ist.
Hier die wichtigsten Fakten zu diesem Ansatz:
• Ist f stetig und g von beschränkter Variation1 , so gibt es eine Zahl R ∈ R
mit der folgenden Eigenschaft: Wenn
gegen
P die maximale Zerlegungslänge
Null geht, so konvergieren die
f (xi ) g(xi+1 ) − g(xi ) gegen R. Man
Rb
schreibt statt R dann a f (x) dg(x), das ist das Riemann-Stieltjes-Integral .
Beweisskizze für die Existenzaussage:
1. Schritt:
P Ist Z : x0 = a < x1 < · · · < xn = b eine Zerlegung von [ a, b ], so schreibe
IZ :=
f (xi ) g(xi+1 ) − g(xi ) . Zeige zunächst: Ist Z̃ eine Verfeinerung von Z (es gibt
also mehr Zerlegungspunkte) und schwankt f auf jedem Zerlegungsintervall von Z um
höchstens ε, so ist |IZ − IZ̃ | ≤ εV (g).
2. Schritt: Sind Z, Z̃ Zerlegungen und schwankt f auf jedem Zerlegungsintervall von Z
und Z̃ um höchstens ε, so ist |IZ −IZ̃ | ≤ 2εV (g). Zum Beweis betrachte die gemeinsame
Verfeinerung.
3. Schritt: Geht für die Zerlegungsfolge (Zn ) die maximale Zerlegungslänge gegen Null,
so ist (IZn ) eine Cauchyfolge in R und folglich konvergent. Hier ist der zweite Schritt
mit der Tatsache zu kombinieren, dass stetige Funktionen auf [ a, b ] gleichmäßig stetig
sind.
4. Schritt: Der vorstehende Limes ist unabhängig von (Zn ). Sind nämlich (Zn ) und
(Z̃n ) zulässige Zerlegungsfolgen, so betrachte Z1 , Z̃1 , Z2 , Z̃2 , . . .. auch diese Folge ist
zulässig. Folglich konvergiert IZ1 , IZ̃1 , IZ2 , IZ̃2 , . . ., und die Folgen (IZn ) und (IZ̃n )
sind Teilfolgen.)
• Dieses
Integral hat
Linearitätsund Stetigkeitseigenschaften:
R
R die üblichen
R
R
(f1 + f2 ) dg = f1 dg + f2 dg, | f dg| ≤ ||f ||max V (g), . . . (V (g) soll
die Variation von g bezeichnen.)
• Mehr ist nicht zu erwarten:
Wenn das Integral für alle stetigen f erklärt
R
werden kann und f 7→ f dg stetig ist, so ist g von beschränkter Variation.
• Dieser Ansatz ist sehr allgemein: Für alle endlichen Rregulären“R Maße µ
”
auf [ a, b ] gibt es eine monotone Funktion g, so dass f dµ = f dg für
alle stetigen f gilt.
P
bedeutet: Es gibt ein M ∈ R, so dass i |g(xi+1 )−g(xi )| ≤ M für alle Unterteilungen
a = x1 < · · · < xn = b von [ a, b ]. Das Supremum der links stehenden Zahlen heißt die
Variation von g, diese Zahl wird hier mit V (g) bezeichnet.
1 Das
6.2. ITO-ISOMETRIE
59
Aus den vorstehenden Überlegungen scheint sich eine Motivation zu ergeben,
wie man das in der Einleitung beschriebene Problem, in dem dBt auftrat, lösen
RT
könnte: Ist (Yt )t≥0 ein Prozess, so könnte man doch 0 Yt (ω) dBt (ω) pfadweise
als Riemann-Stieltjes-Integral definieren:
X
Yti (ω) Bti+1 − Bti
für Unterteilungen von [ 0, T ] berechnen und dann zum Limes übergehen, wobei
die maximale Zerlegungslänge gegen Null geht.
Doch leider ist dieser klassische Lösungsversuch für das vorliegende Problem
zum Scheitern verurteilt, denn die Pfade der Brownschen Bewegung haben fast
sicher keine endliche Variation (vgl. Satz 5.2.2(iii)). Es geht mit einer neuen Idee
aber doch, das behandeln wir im nächsten Abschnitt.
6.2
Das stochastische Integral für stochastische
Treppenfunktionen, die Ito-Isometrie
Wie kann man es aber besser machen? Die Lösung ist das Ito-Integral, es wurde
von Kiyoshi Ito (1915 – 2008) vorgeschlagen2 . Die Idee kann so beschrieben
werden:
Angenommen, man möchte für Objekte x eine Definition f (x) einführen,
die auf direktem Weg mathematisch unsinnig ist. Dann kann man
so vorgehen:
• Zeige, dass für die x in einer Teilklasse T alles gut geht.
• Setze die Definition dann mit Hilfe der Stetigkeit auf den Abschluss T − von T fort: f (x) := lim f (xn ), wobei xn → x.
Dazu muss natürlich eine geeignete Topologie vorliegen, und die Definition muss von der zufälligen Wahl der Folge xn unabhängig sein.
Beispiele, in denen man genau so verfährt, sind:
1. Die Definition von ax für a > 0 und x ∈ R. (Es geht natürlich auch einfacher
mit Hilfe der Exponentialfunktion: ax := exp(x log a).)
2. Die Definition der Fortsetzung von linearen stetigen Abbildungen von einem
normierten Raum auf seine Vervollständigung.
3. Die L2 -Fourier-Transformation.
Und hier soll die Idee zur Definition des stochastischen Integrals eingesetzt
werden.
2 Erst in den letzten Jahren ist klar geworden, dass Wolfgang Döblin (1915 –1945) schon
früher einen ähnlichen Ansatz vorgeschlagen hatte.
60KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN
Für unsere Zwecke ist die folgende Variante dieser Technik genügend allgemein3 .
Lemma 6.2.1 Es seien (M, d) und (M 0 , d0 ) metrische Räume. Von M 0 setzen
wir voraus, dass dieser Raum vollständig ist. Ist dann M0 eine dichte Teilmenge
von M und f : M0 → M 0 eine Lipschitzabbildung, so gibt es genau eine stetige
Fortsetzung F : M → M 0 von f auf M .
Zusatz 1: Falls f eine Isometrie ist, so auch F .
Zusatz 2: Sind M und M 0 normierte Räume und ist f linear, so ist auch F
linear.
Beweis: Sei x ∈ M , wir schreiben x = lim xn . (xn ) ist eine Cauchyfolge,
wegen der Lipschitzbedingung ist dann auch (f (xn )) eine Cauchyfolge. Setze
F (x) := lim f (xn ). (Dieser Limes existiert wegen der Vollständigkeit). Es ist
dann leicht einzusehen:
• F (x) ist unabhängig von (xn ) definiert.
• F (x) = f (x) für x ∈ M0 .
• F genügt der gleichen Lipschitzbedingung wie f .
Zusatz 1 folgt aus der Stetigkeit der Norm und Zusatz 2 aus der Stetigkeit der
Addition. Und damit ist alles gezeigt.
Wir beginnen mit zwei stochastischen Prozessen, einer ist die Brownsche
Bewegung: (Yt )t≥0 und (Bt )t≥0 . Beide sollen auf dem gleichen Raum (Ω, E, P)
definiert sein.
(Yt )t≥0 spielt die Rolle des sich bewegenden Teilchens, wobei die Bewegung
durch die Zufallseinflüsse (Bt ) gestört ist. Deswegen ist plausibel, dass Yt nur
durch die Bs mit s ≤ t beeinflusst ist, oder anders ausgedrückt:
Bezeichnet (Ft ) die von den (Bt ) erzeugte natürliche Filtration, so
ist (Yt ) adaptiert, d.h. stets ist Yt Ft -messbar.
RT
Wir werden nun versuchen, für solche Situationen dem Integral 0 Yt dBt für
alle T > 0 einen Sinn zu geben. Das soll mit Hilfe von Lemma 2.6.1 realisiert
werden.
Wir fixieren ein T > 0 und definieren
Prozesse.
RT
0
Yt dBt zunächst für ganz einfache“
”
Definition 6.2.2: Ein Prozess (Yt )0≤t≤T mit Y0 = 0 heißt elementar , wenn
es eine Zerlegung 0 = t0 < t1 < · · · < tk = T von [ 0, T ] und Zufallsvariable
Yi0 , i = 0, . . . , k − 1 so gibt, dass gilt:
• Yi0 ist Fti -messbar für alle i.
3 Nicht viel schwieriger ist ein entsprechendes Ergebnis einzusehen, wenn statt der LipschitzBedingung eine Hölder-Stetigkeitsbedingung oder auch nur die gleichmäßige Stetigkeit gefordert wird.
6.2. ITO-ISOMETRIE
61
• Yt = Yi0 auf ] ti , ti+1 ] für i = 0, . . . , k − 1. Das kann man auch geschlossen
schreiben:
k−1
X
Yt =
Yi0 χ] ti ,ti+1 ] (t).
i=0
Der Prozess startet also in Null, dann wird sofort auf Y00 umgeschaltet, ab
t1 springt der Prozess auf Y10 usw. Dabei ist Y00 einfach eine Zahl, Y10 muss sich
aus dem Verhalten von Bt auf [ 0, t1 ] ergeben4 , Y20 aus dem Verhalten von Bt
auf [ 0, t2 ] usw.
Wir fassen die auf [ 0, T ] definierten elementaren Prozesse (Yt ) als Abbildungen
Y : [ 0, T ] × Ω, (t, ω) 7→ Yt (ω)
auf. Es ist dann fast trivial einzusehen, dass die Gesamtheit dieser Prozesse
einen linearen Raum bildet, wenn man die Linearstruktur des Raumes R [ 0,T ]×Ω
übernimmt.
Schwieriger ist die richtige Wahl der Norm für diese Funktionen. Wir werden
mit der L2 -Norm arbeiten. Zugelassen sind also ab sofort nur noch Funktionen,
die messbar bezüglich der Produkt-σ-Algebra auf [ 0, T ] × Ω sind und deren
Quadrat ein endliches Integral hat (Produktmaß aus Lebesguemaß und P).
Pk−1
Um zu erreichen, dass eine elementare Funktion i=0 Yi0 χ] ti ,ti+1 ] (s) diese
Eigenschaft hat, muss man nur verlangen, dass alle Yi0 zu L2 (Ω, P) gehören, dass
also die Varianz dieser Zufallsvariablen existiert. Wir schreiben das so:
Z
1/2
0
||Yi ||Ω :=
|Yi0 (ω)|2 (ω) dP(ω)
< ∞.
Ω
Dann gehört die zugehörige elementare Funktion Y wirklich zum Raum
L2 ([ 0, T ] × Ω), und die Norm ist auch leicht auszurechnen:
Z
||Y ||2[0,T ]×Ω =
|Y |2 d(λ[ 0,T ] ⊗ P)
[ 0,T ]×Ω
Z
Z
=
Yt2 dP dλ(t)
[ 0,T ]
=
X
Ω
||Yi0 ||2 (ti+1
− ti ).
i
Nun soll das zugehörige stochastische Integral betrachtet werden. Es ist plausibel, das für elementare Prozesse durch
X
IY :=
Yi0 (Bti+1 − Bti )
4 Zum Beispiel: Y 0 (ω) := 5, wenn max
t≤t1 Bt (ω) > 1, und Null sonst. Nicht zulässig wäre
1
zum Beispiel die Definition: Y10 (ω) := 3, wenn maxt≤T +1 Bt (ω) > 8, und π sonst
62KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN
zu definieren. Das ist eine auf Ω definierte Zufallsvariable. Um mit Normen
arbeiten zu können, sollte sie im L2 (Ω) liegen, doch das kann nicht garantiert
werden. Deswegen schränken wir den Bereich der betrachteten Prozesse weiter
ein und betrachten nur noch beschränkte Yi0 . Dann ist die Norm ||IY ||Ω =
1/2
E[(IY )2 ]
sicher endlich, und bemerkenswerter Weise wird sich gleich zeigen,
dass Y 7→ IY eine lineare Isometrie ist. Das ist die Ito-Isometrie, die Grundlage
der stochastischen Integration.
Zunächst fassen wir die bisherigen Schritte auf dem Weg zum stochastischen
Integral zusammen:
• Wir fixieren T > 0 und betrachten Prozesse (Yt )0≤t≤T . Sie sollen die Form
Pk−1
Yt = i=0 Yi0 χ] ti ,ti+1 ] (t) haben, wobei die ti eine Zerlegung von [ 0, T ]
bilden.
• Yi0 ist jeweils Fti -messbar (natürliche Filtration zu (Bt )), und aus technischen Gründen betrachten wir vorläufig nur elementare Prozesse, bei
denen alle Yi0 beschränkt ist. Die Menge der so entstehenden Y ist ein
Unterraum von L2 ([ 0, T ] × Ω): Das lässt sich leicht ausrechnen. Er soll
für die nächsten Untersuchungen mit V bezeichnet werden.
P
• Wir definieren dann IY := Yi0 (Bti+1 − Bti ) für Y ∈ V . Es ist offensichtlich, dass Y 7→ IY eine lineare Abbildung ist.
Und hier der Schlüsselsatz“:
”
Satz 6.2.3: Mit den vorstehenden Definitionen gilt
||Y ||[ 0,T ]×Ω = ||IY ||Ω (Ito-Isometrie).
Beweis: Es ist praktisch, mit den Quadraten der Normen
zu rechnen. Das
P
Quadrat der linken Seite haben wir schon bestimmt:
||Yi0 ||2Ω (ti+1 − ti ). Das
2
P 0
Quadrat der rechten Seite ist der Erwartungswert von
Yi (Bti+1 − Bti ) .
Ein typischer Summand dieser quadrierten Summe hat nach Ausmultiplizieren die Form
Yi0 (Bti+1 − Bti )Yj0 (Btj+1 − Btj ).
Wir betrachten zwei Fälle:
Fall 1: i 6= j
Sei etwa i < j. In diesem Fall ist Yi0 (Bti+1 − Bti )Yj0 Ftj -messbar und folglich
von Btj+1 − Bji unabhängig. Da alle auftretenden Erwartungswerte existieren5 ,
der Erwartungswert für Produkte unabhängiger Zufallsvariablen multiplikativ
ist und E(Btj+1 − Bji ) = 0 gilt, verschwindet der Erwartungswert dieses Summanden.
5 Deswegen
hatten wir sicherheitshalber die Beschränktheit der Yi0 vorausgesetzt.
6.2. ITO-ISOMETRIE
63
Fall 2: i = j
Jetzt ist der Erwartungswert von Yi02 (Bti+1 − Bti )2 zu ermitteln. Wieder wegen
der Unabhängigkeit ist das gleich E(Yi02 )E((Bti+1 − Bti )2 ). Dabei ist der erste
Faktor gleich ||Yi0 ||2Ω , der zweite gleich der Varianz von Bti+1 − Bti , also gleich
ti+1 − ti .
Und damit ist alles gezeigt.
Es ist also Y 7→ IY eine lineare Isometrie von V nach L2 (Ω), und wir können
Lemma 6.2.1 anwenden. Damit kann die Definition auf V − fortgesetzt werden
(Abschluss im L2 ([ 0, T ] × Ω).) Das ist dann das Ito-Integral. Es wäre natürlich
gut, etwas genauer zu wissen, welche Funktionen man dadurch erreicht hat. Es
folgt eine Beschreibung:
Satz 6.2.4: Sei (Yt )0≤t≤T ein Prozess, der – aufgefasst als Abbildung auf
[ 0, T ] × Ω – messbar und quadratintegrabel ist. Dann gilt: (Yt ) gehört genau
dann zu V − , wenn gilt: Für fast alle t ist Yt quadratintegrabel Ft -messbar. Damit gilt: Sind alle Yt quadratintegrabel und ist stets Yt Ft -messbar, so ist das
Ito-Integral erklärt. Der Wert des Integrals – es ist eine Zufallsvariable auf Ω,
die wir mit
Z
T
Yt dBt
0
bezeichnen werden –, kann wie folgt bestimmt werden:
• Finde Yn ∈ V mit ||Y − Yn || → 0.
• Berechne die Zufallsvariablen IYn ∈ L2 (Ω).
• Die Folge der (IYn ) ist in L2 (Ω) konvergent, der Limes ist das Ito-Integral
RT
Yt dBt .
0
Beweis: Eine Richtung ist klar: Auch im Abschluss bleibt die Adaptiertheit
erhalten, und die Yt müssen nach dem Satz von Fubini fast sicher quadratintegrabel sein. Etwas aufwändiger ist die Umkehrung, dazu soll es nur eine Beweisskizze geben.
Schritt 1: Die Behauptung stimmt, wenn Y beschränkt ist und stetige Pfade hat.
Beweis dazu: Y sei vorgelegt. Yn ∈ V wird wie folgt definiert. Wir unterteilen
(n)
[ 0, T ] in n + 1 gleiche Teile: ti = iT /n, i = 0, . . . , n + 1. Setze, mit Yi := Yin ,
Yn :=
X
(n)
Yi
χ] ti ,ti+1 ] .
i
Wegen der (gleichmäßigen) Stetigkeit der Pfade konvergieren die Yn punktweise
gegen Y , aufgrund der Beschränktheit dann auch im L2 ; hier wird der Satz von
der dominierten Konvergenz wichtig.
Schritt 2: Die Behauptung stimmt, wenn Y stetige Pfade hat.
64KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN
Beweis dazu: Betrachte Y [n] : Alles, was oberhalb (bzw. unterhalb) n (bzw. −n)
liegt wird als n (bzw. −n) definiert. Wegen Schritt 1 liegen diese Zufallsvariablen in V − , und sie konvergieren (wieder nach dem Satz von der dominierten
Konvergenz) gegen Y .
Schritt 3: Die Behauptung stimmt für alle Y , die adaptiert sind.
Beweis dazu: Hier ist es wesentlich, dass die stetigen Funktionen im L2 dicht
liegen. Die Approximationen können dabei durch ein Faltungsintegral definiert
werden, dadurch kann man sicherstellen, dass sie auch adaptiert sind.
Wenn man weiß, wie ein Integral definiert ist, ist noch lange nicht klar, wie
man es ausrechnet. In der elementaren Analysis etwa Rkostet es große Mühe,
1
allein aufgrund der Integraldefinition zu beweisen, dass 0 x2 dx = 1/3 gilt.
Hier ist es ganz ähnlich: Es geht zwar manchmal, aber es ist extrem mühsam.
In der Analysis wurde alles viel einfacher mit dem Hauptsatz der Differentialund Integralrechnung, hier spielt die Ito-Formel (die wir im nächsten Kapitel
behandeln werden) eine ähnliche Rolle.
Als typisches und eher abschreckendes Beispiel behandeln wir das Integral
Bt dBt . Als Vorbereitung benötigen wir das
0
Pk−1
Lemma 6.2.4: Ist Y = i=0 Yi0 χ] ti ,ti+1 ] (t) elementar und sind die Yi0 und die
Yi0 Bt quadratintegrabel, so ist Y ∈ V − , und es gilt
RT
Z
T
Yt dBt =
0
k−1
X
Yi0 (Bti+1 − Bti ).
i=0
Beweis: Das beweist man wieder durch geeignete Approximation: Die Yi0 werPk−1 [n]
[n]
den bei ±n abgeschnitten“: Yi . Die i=0 Yi χ] ti ,ti+1 ] approximieren Y , und
”
Pk−1
die Bilder unter der Integrationsabbildung approximieren i=0 Yi0 (Bti+1 −Bti ).
Dabei spielt der Satz von der majorisierten Konvergenz wieder eine wichtige
Rolle.
Nach dieser Vorbereitung behandeln wir ein erstes nichttriviales Beispiel:
RT
Satz 6.2.5: 0 Bt dBt = (BT2 − T )/2.
Beweis: Für n ∈ N wird der Prozess Y [n] durch
[n]
Yt
:=
n−1
X
BiT /n χ] i/n,(i+1)T /n ]
i=0
erklärt. Aufgrund des vorigen
Satzes liegen die Y [n] in V − und ihr Ito-Integral
P
ist leicht berechenbar: i BiT /n (B(i+1)T /n − Bi/n T ).
Schritt 1: Y [n] → (Bt )t∈[ 0,T ] .
6.2. ITO-ISOMETRIE
65
Beweis dazu: Wir berechnen den Erwartungswert des Abstandsquadrats:
||Y [n] − (Bt )t∈[ 0,T ] ||2
T
Z Z
Ω
=
=
Z
(BiT /n − Bt )2 dP dt
Ω
(i+1)T /n
(t − i0 /n) dt
iT /n
X 1 T2
i
2
=
(i+1)T /n
iT /n
XZ
i
=
0
XZ
i
[n]
|Yt (ω) − Bt (ω)|2 dt dP
=
2 n2
T
.
2n
Da das gegen Null geht ist Y [n] → (Bt )t∈[ 0,T ] bewiesen.
RT
Schritt 2: 0 Y [n] dBt → (BT2 − T )/2.
Beweis dazu: Wenn man für das Integral die Definition einsetzt, so ist das Abstandsquadrat zwischen Folge und rechter Seite gleich
Z
2
BT2 − T X
An :=
−
BT i/n (BT (i+1)/n − BT i/n ) dP .
2
Ω
i
Eine längliche Rechnung wird zeigen, dass
An =
iT T 2 X iT (i + 1)T
−
−
,
2
n
n
n
i
RT
und da die rechte Summe eine Riemannsumme zur Berechnung von 0 xdx ist,
gilt An → 0 wie behauptet.
Teilschritt 2.1: Ist X N (0, 1)-verteilt, so ist E(X 4 ) = 3. Es folgt dann: Ist Y
N (0, d)-verteilt, so ist E(Y 4 ) = 3d2 . Insbesondere ist also E(BT4 ) = 3T 2 .
2
2
Beweis dazu: Schreibe den hier auftretenden Integranden x4 e−x /2 als x3 xe−x /2 =
uv 0 und führe dann eine partielle Integration aus. So folgt
Z
2
3
E(X 4 ) = √
x2 e−x /2 dx,
2π R
und das ist gerade das Dreifache der Varianz von X.
√
Der Zusatz ist klar, denn Y hat die gleiche Verteilung wie dX.
Teilschritt 2.2: Wir nennen die Zufallsvariablen unter dem Integral in der Definition von An jetzt S1 − S2 − S3 . S1 = BT /2, S2 = T /2 (eine Konstante), und
S3 ist die Summe. An ist dann der Erwartungswert von (S1 − S2 − S3 )2 , und
deswegen müssen wir uns um sechs verschiedene Erwartungswerte kümmern.
S1 S1 : Das ist in Teilschritt 2.1 vorbereitet: E(S12 ) = 3T 2 /4.
66KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN
S1 S2 : Da die Varianz von BT gleich T ist, folgt E(S1 S2 ) = T 2 /4
0
−
S1 S3 : Das ist der schwierigste Teil, wir setzen Bi0 := BiT /n und ∆i B := Bi+1
0
Bi . Dann ist
X
E(S1 S3 ) =
E(BT2 Bi0 ∆i B)
i
=
X 2
0
E (BT − Bi+1
) + ∆i B + Bi0 Bi0 ∆i B.
i
Wenn wir das Quadrat ausmultiplizieren, so entstehen fast nur Produkte der
Form ZW , wobei die Zufallsvariablen unabhängig sind und mindestens eine von
beiden Erwartungswert Null hat. Deswegen ist dieser Anteil am Erwartungswert
Null. (Beispiel: E(Bi03 ∆i B) = 0.) Einzig die Bi02 (∆i B)2 liefern einen Beitrag,
nämlich
T 2 (i/n) (i + 1)/n − i/n ;
beachte, dass sie zweimal auftreten.
Zusammen heißt das, dass
E(S1 S3 ) = T 2
X i i+1 i
. .
n n n
i
S2 S2 : Das ist leicht, da S2 konstant ist: E(S22 ) = T 2 /4.
S2 S3 : Der Erwartungswert von S3 ist gleich Null, da jeweils BT i/n von (BT (i+1)/n −
BT i/n ) unabhängig ist und die Faktoren Erwartungswert Null haben. Da S2 , S3
unabhängig sind, folgt E(S2 S) = 0.
S3 S3 : In Analogie zum Beweis der Ito-Isometrie 6.2.3 (Ausmultiplizieren, Fallunterscheidung nach gleichen bzw. verschiedenen Indizes) folgt
E(S3 S3 ) = T 2
X i
n
i
i+1
i −
.
n
n
Es ist Zeit für das Finale. An ist der Erwartungswert von
S12 + S22 + S32 − 2S1 S2 − 2S1 S3 + 2S2 S3
und folglich gleich
X i
T2
− T2
2
n
i
wie behauptet.
i+1
i −
n
n
Schlussbemerkungen
1. Ohne große Mühe sind für das Ito-Integral gewisse Eigenschaften nachweisbar,
RT
die bei einem Integrationsprozess zu erwarten sind. So ist Y 7→ 0 Yt dBt linear,
R T R t0 R T
und es gilt 0 = 0 + t0 für 0 < t0 < T .
6.2. ITO-ISOMETRIE
67
2. In der Regel
R t ist Y als Prozess für t ≥ 0 gegeben, und deswegen kann man
durch Jt := 0 Ys dBs einen neuen Prozess (Jt )t≥0 erzeugen. Jedes Jt ist nur
bis auf eine Nullmenge eindeutig bestimmt, und deswegen muss man recht genau argumentieren, wenn man Eigenschaften des ganzen Prozesses untersuchen
möchte. Die Lösung besteht natürlich darin, mit ein für allemal gewählten Ap[n]
proximationen (Yt )t≥0 zu arbeiten, deren Einschränkungen auf jedes Intervall
[ 0, t ] zur Berechnung des Ito-Integrals verwendet werden können. Dann folgt:
• (Jt )t≥0 ist wieder ein adaptierter Prozess.
• Hat (Yt ) fast sicher stetige Pfade, so lässt sich Jt so konstruieren, dass
auch dieser Prozess fast sicher stetige Pfade hat.
• (Jt )t≥0 ist ein Martingal: E(Jt1 |FT ) = JT für t1 > T .
3. Doch wie kann man mit dem Ito-Integral numerisch arbeiten, wie kann man
es visualisieren? Das ist ein wichtiger Punkt, der im Rahmen dieser Vorlesung
nur angerissen werden kann6 .
Zunächst wird an eine entsprechende Situation aus der elementaren Analysis
+
erinnert.
ist, wie verschafft man sich ein Bild von
R t Wenn f : R → R stetig
t 7→ 0 f (s)ds? Das ist sehr einfach7 : Lege eine kleine“ Schrittweite h fest und
”
definiere rekursiv x0 := 0, xk+1 := xk +f (kh)h. Dann ist xk eine Approximation
R kh
von 0 f (s) ds, denn xk ist gerade eine Riemannsumme zum Integral von f auf
[ 0, kh ].
Und diese Idee kann hier übertragen werden, es heißt dann das Verfahren von
Euler-Maruyama. Danach erhält
R t man einen ”typischen“ Pfad des stochastischen
Integrals, also t 7→ Jt (ω) = 0 Ys (ω) dBs (ω) wie folgt:
• Bereite einen Zufallsgenerator Z vor, der N (0, 1)-erzeugte Ausgaben liefert.
• Setze x0 := 0 (das Integral), b0 := 0 (die Brownsche Bewegung) und
y0 := 0 (der Y -Pfad).
• Bestimme eine genügend kleine“ Schrittweite h.
”
√
• Für das update verfahre wie folgt. Zunächst ist bk+1 = bk + hZ und
xk+1 = xk + yk (bk+1 − bk ). Und dann ist yk+1 auszurechnen, das soll
eine Approximation von Y(k+1)h (ω) sein, und da der Prozess adaptiert
ist, sollte dieser Wert irgendwie durch die y1 , . . . , yk und die b0 , . . . , bk+1
ausgedrückt werden können.
Ist es berechtigt zu erwarten, auf diese Weise realistische Bilder der Pfade
t 7→ Jt (ω) zu erhalten? Eine erste Analyse identifiziert zwei Fehlerquellen. Die
6 Es ist zu bemerken dass es bei der Visualisierung von chaotischen Prozessen und in der
Fraktaltheorie ganz ähnliche Probleme wie hier gibt.
7 Formal geht es um das Euler-Verfahren für die Differentialgleichung y 0 = f, y(0) = 0.
68KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN
erste kommt – wie in der elementaren Analysis – dadurch zustande, dass stetige Funktionen durch Werte an diskreten Stellen approximiert werden. Da ist
zu hoffen, dass der Fehler bei genügend kleinem h kontrollierbar bleibt. Die
zweite Fehlerquelle liegt in der Tatsache, dass das Ito-Integral nicht pfadweise,
sondern nur durch eine Approximation im quadratischen Mittel definiert ist. Anders ausgedrückt: Wir haben eine Situation vor uns, bei der für die beteiligten
Zufallsvariablen R, S (Approximation und wirkliches Ito-Integral) sichergestellt
ist, dass E((R − S)2 ) klein“ ist. Dann ist auch |R − S|(ω) in der Regel“ klein,
”
”
es kann aber (mit kleiner Wahrscheinlichkeit) große Abweichungen geben.
Die Moral: Das, was man auf dem Bildschirm sieht, ist üblicher Weise nur mit
großer Wahrscheinlichkeit, aber nicht hundertprozentig sicher, eine gute Approximation des wirklichen Prozesses.
4. Wie fast immer in der Mathematik kann man alles viel allgemeiner machen,
wenn man die Idee verstanden hat. Tatsächlich haben wir von der Brownschen
Bewegung nur gewisse Eigenschaften ausgenutzt: Dieser Prozess ist ein Martingal, die Pfade sind stetig usw. Deswegen ist es nicht wirklich überraschend, dass
das stochastische Integral viel allgemeiner definiert werden kann. Das soll hier
aber nicht weiterverfolgt werden.
Rt
5. Man beachte die folgende Feinheit: Nur 0 Ys dBs (ω) ist ein sinnvoller AusRt
druck, nicht aber 0 Ys (ω)dBs (ω). So kann man es nur für elementare Prozesse
machen. Anders ausgedrückt: Das stochastische Integral ist ausdrücklich nicht
pfadweise definiert.
6.3
Das stochastische Integral / stochastische
Differentialgleichungen
Der Ausgangspunkt dieses Kapitels war das Problem, dem Ausdruck
f (Zt , t)dt + g(Zt , t)dBt
(er soll gleich dZt sein) einen Sinn zu geben. Der zweite Summand war problematisch, durch das Ito-Integral ist dieses Problem gelöst. Das ist aber nur in
der Integralfassung sinnvoll, und deswegen definieren wir:
Definition 6.3.1: f, g seien stetige Funktionen (von einer offenen Teilmenge
des R 2 nach R). Weiter seien (Yt ), (Zt ) stochastische Prozesse und (Bt ) eine
Brownsche Bewegung. Diese Prozesse sind für t ≥ 0 auf einem Raum (Ω, E, P)
definiert. Es wird vorausgesetzt, dass auch (Yt ) und (Zt ) stetige Pfade haben.
(Ft ) bezeichnet die natürliche Filtration zu (Bt ), und wir setzen voraus, dass
(Yt ) und (Zt ) adaptiert sind.
(i) Wir sagen, dass die stochastische Differentialgleichung
dYt = f (Zt , t)dt + g(Zt , t)dBt
erfüllt ist, wenn für alle t ≥ 0 die Gleichung
Z t
Z t
Yt (ω) = Y0 (ω) +
f (Zs (ω), s) ds + (
Zt dBt )(ω)
0
0
6.3. STOCHASTISCHE DIFFERENTIALGLEICHUNGEN
69
fast sicher gilt8 . Man vermeidet also ausdrücklich, von dBt , der “Ableitung der
Brownschen Bewegung” zu sprechen9
(ii) Konsequenterweise bedeutet deswegen, dass (Zt ) der Differentialgleichung
dZt = f (Zt , t)dt + g(Zt , t)dBt
genügt, dass man für t ≥ 0 die Gleichung
Z t
Z t
Zt dBt )(ω)
f (Zs (ω), s) ds + (
Zt (ω) = Z0 (ω) +
0
0
fast sicher garantieren kann.
Wie kann man heuristisch Lösungen finden?
Dazu ist nur das zu erweitern, was wir am Ende des vorigen Abschnitts ausgeführt haben: Es folgt eine Beschreibung des Euler-Maruyama-Verfahrens zum
Auffinden von pfadweisen Lösungen von stochastischen Differentialgleichungen.
Lösungen von dZt = f (Zt , t)dt + g(Zt , t)dBt , Z0 = Z 0 findet man
wie folgt.
• Wähle eine ausreichend kleine Schrittweite h.
• Erzeuge eine Zufallszahl z0 , die wie Z 0 verteilt ist. N steht für
die Simulation einer N (0, 1)-verteilten Zufallsvariablen.
• Definiere rekursiv (zk ) wie folgt:
√
zk+1 := zk + f (zk , kh)h + g(zk , kh) hN.
Dann ist – mit hoher Wahrscheinlichkeit – die Folge (zk ) eine gute
Approximation an einen möglichen Pfad der Lösung der vorgelegten
stochastischen Differentialgleichung.
Existenz- und Eindeutigkeitssätze
Es ist aus theoretischen Gründen interessant, ob man die Existenz von
Lösungen stochastischer Differentialgleichungen garantieren kann. Schon in der
nicht-stochastischen Theorie muss man gewisse Voraussetzungen machen um zu
vermeiden, dass die Lösungen “explodieren”. Bemerkenswerter Weise kommt
man auch im stochastischen Fall mit ähnlich einfachen Voraussetzungen ans
Ziel:
Satz 6.3.2: Die Funktionen f und g seien stetig und linear beschränkt: Es gelte
|f (x, t)| + |g(x, t)| ≤ C(1 + |x|) für ein geeignetes C und alle x ∈ R, 0 ≤ t ≤ t0 .
Außerdem gelte eine Lipschitzbedingung in der Raum-Komponente:
|f (x, t) − f (y, t)| + |g(x, t) − g(y, t)| ≤ D|x − y|
8 Das
erste Integral ist ein gewöhnliches Riemann-Integral.
gibt es eine eigene, schwierige Therorie: die Theorie des “weißen Rauschens”.
9 Dazu
70KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN
(D geeignet, alle x, y).
Dann gibt es für vorgelegtes Z 0 im Wesentlichen genau eine Lösung der
stochastischen Differentialgleichung
dZt = f (Zt , t)dt + g(Zt , t)dBt , Z0 = Z 0
für 0 ≤ t ≤ t0 .
Beweis: Die Existenz wird wie beim Satz von Picard-Lindelöf bewiesen. Man
(0)
definiert induktiv Prozesse durch Zt := Z 0 und
(k+1)
Zt
0
Z
:= Z +
t
f (Zs(k) , s) ds
0
Z
+
t
g(Zs(k) , s) dBs
0
für 0 ≤ t ≤ t0 . Es lässt sich dann zeigen, dass die (Z (n) ) gegen eine Lösung der
Differentialgleichung konvergieren.
Für den Beweis der Eindeutigkeit sei φ(t) := ||Zt − Z̃t || der Abstand zur Zeit
t für zwei potenzielle Lösungen. Man zeigt dann, dass
Z t
φ(t) ≤ A
φ(s)ds
0
für eine geeignete Konstante A und alle t gilt. Das impliziert, dass φ identisch
verschwindet.
Kapitel 7
Die Ito-Formel
Wir wissen nun, was ein stochastisches Integral (oder, fast gleichwertig, die
Lösung
R einer stochastischen Differentialgleichung) ist. Wir haben auch am Beispiel Bt dBt gesehen, dass es extrem schwierig sein kann, ein Integral konkret
auszuwerten. Das ist damit ganz ähnlich wie in der elementaren Analysis.
Dringend erforderlich sind damit Methoden, diese Situation zu verbessern,
und das wichtigste Ergebnis in diesem Zusammenhang ist die Ito-Formel. Sie
besagt, dass Funktionen von stochastischen Integralen wieder stochastische Integrale sind, und wenn man das geschickt anwendet, kann man viele konkrete
Rechnungen ganz leicht erledigen.
7.1
Neue stochastische Integrale aus bekannten
stochastischen Integralen
Wir wollen die Idee durch ein Beispiel aus der elementaren Analysis motivieren.
f sei eine Funktion und F ein Integral“:
”
Z t
F (t) = x0 +
f (s) ds.
0
Nun ist eine stetig differenzierbare
Funktion g : R 2 → R vorgelegt, wir definieren
F̃ durch F̃ (t) := g t, F (t) , und wir fragen uns, ob auch F̃ ein Integral“ ist.
”
Rt
Behauptung: Es ist F̃ (t) = x̃0 + f˜(s) ds, wobei
0
• x̃0 = g(0, x0 ).
•
∂g
∂g
f˜(s) =
(s, F (s)) + f (s)
s, F (s) .
∂s
∂x
Beweis dazu: Sei H(t) die rechte Seite der Gleichung in der Behauptung. Dann
ist sicher H(0) = g(0, x0 ), und das stimmt mit F̃ (0) überein. Wir zeigen noch,
71
72
KAPITEL 7. DIE ITO-FORMEL
dass die Ableitungen von H und F̃ übereinstimmen, womit die Behauptung
dann bewiesen wäre. Das ist aber leicht einzusehen, denn nach bekannten Sätzen
sind beide Ableitungen bei t gleich f˜(t). Beachte insbesondere die folgende Formel, die sich aus der mehrdimensionalen Kettenregel ergibt:
dφ
d
dφ
φ f (t), g(t) =
f (t), g(t) f 0 (t) +
f (t), g(t) g 0 (t);
dt
dx
dy
dabei haben wir die Variablen in φ als φ(x, y) geschrieben.
Wenn wir also vorhaben, einen Katalog von Stammfunktionen anzulegen, so
könnten wir aufgrund dieses Ergebnisses so verfahren:
• Bestimme auf irgendeine Weise eine Stammfunktion, zeige also zum Beispiel, dass
Z t
t4
F (t) = 7 +
=7+
s3 ds;
4
0
hier ist also x0 = 7 und f (s) = s3 .
• Wähle irgendeine Funktion in s und x, etwa g(s, x) := s2 + 4sx + 1.
• In diesem Fall ist F̃ (t) = g(t, F (t)) = t2 + t5 + 28t + 1.
• Bestimme (∂g/∂s)(s, x) = 2s + 4x und (∂g/∂x)(s, x) = 4s.
• Ermittle damit f˜(s) = 2s + 4(s4 /4 + 7) + s3 s = 2s + 5s4 + 28.
• Berechne x̃0 = g(0, x0 ) = 1.
• Unsere Behauptung liefert, dass
t2 + t5 + 1 + 28t = 1 +
Z
t
(2s + 5s4 + 28) ds.
0
• Und wenn irgend jemand eine Stammfunktion zu 2s + 5s4 + 28 braucht,
so haben wir das schon vorbereitet.
Ähnlich bescheiden ist der Anspruch der Ito-Formel. Mit ihr können stochastische Integrale sozusagen auf Vorrat“ gelöst werden. Ob das im gerade in”
teressierenden Fall hilft, ist dann Glückssache, und viel Erfahrung wird sicher
hilfreich sein.
7.2
Die Ito-Formel
In Definition 6.3.1 hatten wir sehr allgemein den Begriff stochastisches Integral“
”
eingeführt. Wir gehen nun zu einer etwas kompakteren Schreibweise über:
• (Bt ) sei eine Brownsche Bewegung, und die Prozesse (Ut ) und (Yt ) seien
an die natürliche Filtration adaptiert: Wir setzen voraus, dass sie stetige
Pfade haben.
7.2. DIE ITO-FORMEL
73
• (Xt )t≥0 sei das zugehörige stochastische Integral (X0 gibt den Startwert
an): Fast sicher gilt
Z t
Z t
Ys dBs (ω).
Xt (ω) = X0 (ω) +
Us (ω)ds +
0
0
Man beachte dabei, dass das ω beim rechten Integral außen steht, denn es
ist nicht pfadweise definiert.
Nun sei g(t, x) eine dreimal stetig differenzierbare Funktion. Wir setzen (Xt )
darin ein, betrachten also den Prozess
X̃t := g(t, Xt ) : Ω → R.
Der nachstehende Satz garantiert, dass auch (X̃t ) ein stochastisches Integral ist:
Satz 7.2.1 (Ito-Formel, 1951): Definiere (mit den vorstehenden Bezeichnungen) eine Zufallsvariable und Prozesse durch
X̃0 := g(0, X0 ).
Ũs :=
∂g
1
∂g
∂2g
(s, Xs ) + Us g(s, Xs ) + Ys2 2 (s, Xs ).
∂s
∂x
2 ∂x
∂g
Ỹs := Ys (s, Xs ).
∂x
Dann ist (X̃t )t das zu (Ũt )t , (Ỹt )t gehörige stochastische Integral:
Z t
Z t
Ỹs dBs (ω).
Ũs (ω)ds +
X̃t (ω) = X̃0 (ω) +
0
0
Beweis: Es ist offensichtlich, dass die Prozesse (Ũt )t und (Ỹt )t adaptiert sind.
Nun sei t > 0 fest vorgegeben. Wir wollen X̃t berechnen und dabei die auftretenden Integrale durch gute Approximationen ersetzen. Dazu erinnern wir
zunächst an die Taylorformel: Ist (t0 , x0 ) vorgelegt und sind h, y sehr klein“,
”
so kann g(t0 + h, x0 + y) − g(t0 , x0 ) gut durch
Pt h + Px y +
1
Ptt h2 + 2Ptx hy + Pxx y 2
2
approximiert werden. Dabei bezeichnen die P die verschiedenen partiellen Ableitungen von g bei (t0 , x0 ), z.B. ist Ptx = (∂ 2 g/∂t∂x)(t0 , x0 ). Der Fehler ist ein
klein-o-Quadrat der Abweichung.
Wir geben eine sehr feine“ Unterteilung 0 = t0 < · · · < tm = t von [ 0, t ]
”
vor. Die Idee: Wir wollen so approximieren, dass der Fehler mit maxi |ti+1 − ti |
gegen Null geht. Es ist
X̃t = g(t, Xt ) = g(0, X0 ) +
m−1
X
j=0
g(tj+1 , Xtj+1 ) − g(tj , Xtj ) ;
74
KAPITEL 7. DIE ITO-FORMEL
das ist einfach eine Teleskopsumme. Die Summanden werden nun mit der Taylorformel approximiert, so werden sich nach und nach die Terme ergeben, die
bei der Berechnung des stochastischen Integrals zu den Ũ , Ỹ auftreten.
Wir approximieren:
g(tj+1 , Xtj+1 ) − g(tj , Xtj )
=
∂g
(tj , Xtj )(tj+1 − tj ) + (:= δj1 )
∂s
∂g
+ (tj , Xtj )(Xtj+1 − Xtj ) + (:= δj2 )
∂x
∂2g
+0.5 2 (tj , Xtj )(tj+1 − tj )2 + (:= 0.5δj3 )
∂s
∂2g
+
(tj+1 − tj )(Xtj+1 − Xtj ) + (:= δj4 )
∂s∂x
∂2g
+0.5 2 (tj , Xtj )(Xtj+1 − Xtj )2 + (:= 0.5δj5 )
∂x
+Restglied.
Nebenbei haben wir die einzelnen Summanden als δjk definiert, dabei ist k
natürlich kein Exponent. Das Restglied ist dabei jeweils (für jedes j) ein klein-o
von |Xtj+1 − Xtj | + |tj+1 − tj |.
P
Was approximiert j δjk , k = 1, . . . , 5? Wir behandeln diese Summen einzeln
für die verschiedenen k, eine Beweiskritik folgt im Anschluss.
Rt
P 1
δj : Diese Summe tritt als Riemannsumme auf, wenn man 0 (∂g/∂s)(s, Xs ) ds
P 1
berechnet.
δ approximiert also den ersten Summanden, der bei der BerechRt j
nung von 0 Ũs ds zu berücksichtigen ist.
P 2
δj : Es ist doch
Z
tj+1
Xtj+1 − Xtj =
Z
tj+1
Us ds +
tj
Ys dBs ,
tj
und wenn wir annehmen, dass tj+1 − tj klein genug ist, dürfen wir δj2 wegen der
Stetigkeit von ∂g/∂x durch
Z tj+1
Z tj+1
∂g
∂g
(s, Xs )Us ds +
(s, Xs )Ys dBs
∂x
∂x
tj
tj
approximieren. Summieren wir über alle j, so erhalten wir wieder einige derjenigen Summanden, die bei der Berechnung des stochastischen Integrals aus Ũ
und Ỹ auftreten: der zweite von Ũs und der zu Ỹs . (Es fehlt also nur noch der
dritte aus der Integration gegen Ũs ).
P 3
δj : Setzt man M := das Maximum der auftretenden Zahlen |∂ 2 g/∂s2 (tj , Xtj )|,
so ist
|
X
X
δj3 | ≤ M max |tj+1 − tj |
(tj+1 − tj ) = tM max |tj+1 − tj |.
j
7.2. DIE ITO-FORMEL
75
Das geht gegen Null mit max |tj+1 − tj | → 0.
P 4
P
δj : Hier argumentieren wir ähnlich. | δj4 | ist abschätzbar durch die Zahl
M 0 t max |Xtj+1 − Xtj |, wobei M 0 das Maximum der |(∂ 2 g/∂s∂x)(tj , Xtj )| ist.
Und dieser Ausdruck geht wegen der Stetigkeit der t 7→ Xt (ω) gegen Null.
P 5
P 5
δj : Wir behaupten, dass
δj den noch fehlenden Summanden in der approximativen Berechnung des Ũ -Ỹ -Integrals approximiert:
X
δj5 ≈
X
Yt2j
j
∂2g
(tj , Xj )(tj+1 − tj ).
∂x2
Der Beweis wäre dann – bis auf Nachbesserung der Feinheiten – geführt.
Zunächst setzen wir für den Faktor Xtj+1 − Xtj in δj5 die folgende Approximation ein:
Xtj+1 − Xtj ≈ Utj (tj+1 − tj ) + Ytj (Btj+1 − Btj ).
Das ist aufgrund der Integraldefinition gerechtfertigt.
Definiere nun gj := (∂ 2 g/∂x2 )(tj , Xj ), ∆j t := tj+1 − tj und ∆j B := Btj+1 −
Btj .
Dann ist
δj5 ≈ gj Ut2j (∆j t)2 + 2gj Utj (∆j t)(∆j B) + gj Yt2j (∆j B)2 .
δj5 in drei Summen, die wir gesondert behandeln
P
1. Da ist zunächst j gj Ut2j (∆j t)2 . Diese Summe geht gegen Null, das Argument
P 3
ist so wie im Fall von
δj .
P
2.Als nächstes untersuchen wir j gj Utj (∆j t)(∆j B). Auch das geht gegen Null,
P 4
man kopiere den Beweis für
δj .
P
2
2
3. Es bleibt noch
j gj Ytj (∆j B) zu untersuchen, wir behaupten, dass das
P
2
durch
j gj Ytj ∆j t approximiert werden kann. Dazu rechnen wir wieder den
Erwartungswert des Quadrats der Differenz aus:
X
2
E
gj Yt2j ((∆j B)2 ) − ∆j t .
Damit zerfällt
P
Mit den schon mehrfach angewandten Techniken reduziert sich das auf m Summanden, mit Aj := gj Yt2j erhalten wir
X
E A2j ((∆j B)2 ) − ∆j t
2
=
X
=
X
j
E(A2j )E (∆j B)4 − 2(∆j t)(∆j B)2 + (∆j t)2
j
E(Aj ) 3(∆j t)2 − 2(∆j t)2 + (∆j t)2
j
=
2
X
j
E(Aj )(∆j t)2 .
76
KAPITEL 7. DIE ITO-FORMEL
Dabei haben wir die früher bewiesene Gleichung E(Bt4 ) = 3t2 ausgenutzt. Damit
sind wir fertig, denn es wurde schon mehrfach bemerkt, dass derartige Ausdrücke
gegen Null gehen.
Beweiskritik: Obwohl der Beweis recht umfangreich war, sind einige Punkte
noch ergänzungsbedürftig:
• Eigentlich müsste das Restglied in der Taylorformel noch berücksichtigt
werden:
Dieser Fehler ist – bei beliebigem ε – von der Größenordnung
P
ε( (∆j t)2 + (∆j B)2 ) und konvergiert deswegen gegen Null.
• Bei den Argumenten wären punktweise Konvergenz und L2 -Konvergenz zu
unterscheiden. Der Grenzübergang unter dem Integral müsste noch durch
den Satz von der majorisierten Konvergenz gerechtfertigt werden.
• ...
Schlussbemerkung: Mit einer Faustregel kann man sich die Itoformel leicht
merken:
• Berechne dX̃t mit einer Taylorformel zweiter Ordnung für g:
dX̃t =
∂g
∂g
1 ∂2g
∂2g
∂2g
dt +
dXt +
(dt)2 + 2
dtdXt + 2 (dXt )2 .
2
∂t
∂x
2 ∂t
∂t∂x
∂x
• Setze für dXt den Wert Ut dt + Yt dBt ein.
• Ersetze alle (dt)2 und alle dtdBt durch 0 und alle (dBt )2 durch dt.
7.3
Anwendungen der Ito-Formel
Es folgen einige Anwendungen.
1. Falls g in Wirklichkeit nicht von s abhängt, vereinfacht sich die Itoformel.
Das gilt insbesondere dann, wenn es nur um das stochastische Integral geht,
wenn also U = 0 ist:
Rt
Ist Xt = 0 Ys dBs , so gilt für zweimal stetig differenzierbares f :
R → R:
Z
Z t
1 t 2 00
f (Xt ) = f (0) +
Y f (Xs ) ds +
Ys f 0 (Xs ) dBs .
2 0 s
0
2. Sicher ist richtig, dass Bt =
Bt3 =
Rt
Z
0
0
t
1 dBs . Wir wählen f (x) := x3 und erhalten
1
6Bs ds + 3
2
Z
0
t
Bs2 dBs .
7.3. ANWENDUNGEN DER ITO-FORMEL
Auf diese Weise ergibt sich
Z t
Bs2 dBs =
0
Bt3
−
3
77
Z
t
Bs ds.
0
Rt
3. Wir beginnen wieder mit Bt = 0 1 dBs , es ist also Us = 0 und Ys = 1. Diesmal
arbeiten wir mit g(s, x) := (x2 − s)/2. Das führt zu Ũs = −1/2 + 1/2 = 0 und
Ỹs = Bs :
Z t
Bt2 − t
=
Bs dBs .
2
0
Man vergleiche das mit dem Aufwand, den wir im Beweis von Satz 6.2.5 führen
mussten.
4. Sucht man eine Lösung für das Wachstum-Modell mit Störung, also für
dNt = rNt dt + αNt dBt ,
so erhält man mit der Ito-Formel:
2
Nt = N0 e(r−α /2)t+αBt .
Rt
2
Man muss die Ito-Formel nur auf Bt = 0 1 dBs und g(t, x) := e(r−α /2)t+αx
anwenden.
Es folgt: Durch die stochastische Störung wird die Bewegung quasi gedämpft.
Es lässt sich übrigens zeigen, dass E(Nt ) = E(N0 )ert , die Erwartungswerte
entwickeln sich also so wie im nicht-stochastischen Fall.
78
KAPITEL 7. DIE ITO-FORMEL
Kapitel 8
Monte-Carlo-Verfahren zur
Lösung stochastischer
Differentialgleichungen
In diesem Abschnitt soll skizziert werden, wie stochastische Differentialgleichungen zur Lösung partieller Differentialgleichungen benutzt werden. Es handelt
sich um Monte-Carlo-Methoden, man muss also sehr oft“ simulieren, und die
”
Ergebnisse erhält man nur approximativ und mit hoher Wahrscheinlichkeit
”
soundso genau“.
8.1
Partielle Differentialgleichungen
Die Problemstellung ist die folgende: Es ist D ⊂ R n gegeben, und man sucht
eine Funktion f : D → R, die eine gewisse Gleichung erfüllt, in der die partiellen
Ableitungen von f vorkommen und für die außerdem noch eine oder mehrere
Zusatzbedingungen erfüllt sind. Hier zur Illustration einige typische Beispiele:
• Wärmeleitungsgleichung: Es soll f : R + × R → R so gefunden werden,
dass ∂f /∂t = ∂ 2 f /∂x2 im Bereich t > 0. Zusätzlich soll f (0, x) = f0 (x)
(alle x) für eine vorgegebene Funktion f0 sein.
• Potentialgleichung: D ⊂ R n sei beschränkt, und f0 : ∂D → R sei vorgegeben. Man sucht ein stetiges f : D → R, das auf dem Rand mit f0
übereinstimmt und im Innern von D der Gleichung
∂2f
∂2f
+
·
·
·
+
=0
∂x21
∂x2n
genügt.
Wie lassen sich solche Differentialgleichungen mit Monte-Carlo-Verfahren behandeln?
79
80
KAPITEL 8. MONTE-CARLO-VERFAHREN
8.2
n-dimensionale stochastische Differentialgleichungen
Bisher hatten wir Prozesse (Xt )t≥0 mit Xt : Ω → R behandelt. Die Theorie ist
ganz ähnlich, wenn man zu Xt : Ω → R n übergeht. Genauer:
2
• Es sei Ut : Ω → R n und Yt : Ω → R n ; jedes Yt (ω) soll also eine n × nMatrix sein.
• Weiter sei (Bt )t≥0 eine n-dimensionale Brownsche Bewegung mit unabhängigen Komponenten.
• Dann kann man wieder die stochastische Differentialgleichung
dXt = Ut dt + Yt dBt , X0 = x0
betrachten. Die Lösung ist
Z
Xt = X0 +
t
Z
Us ds +
0
t
Ys dBs ,
0
wobei das zweite Integral komponentenweise als Ito-Integral zu interpretieren ist.
Auch dafür lassen sich Existenz- und Eindeutigkeitssätze beweisen, und es gibt
eine n-dimensionale Variante der Ito-Formel.
Die mehrdimensionale Itoformel“ soll hier nur für einen Spezialfall for”
muliert werden:
• Gegeben sei eine genügend glatte“ Funktion g : R n → R. Wir
”
betrachten
X̃t := g(Xt ),
wobei Xt wie vorstehend ist.
• Dann ist
dX̃t =
n
X
∂g
i=1
∂xi
• Es ist dXi durch (Ut )i dt +
dXi +
P
1 X ∂2g
dXi dXj .
2 i,j ∂xi ∂xj
k (Yt )ik d(Bt )k
auszudrücken.
2
• Und dann ist zu vereinfachen: Alle (dt) , alle dt d(Bt )i und alle
d(Bt )i d(Bt )j für i 6= j sind Null, und (d(Bt )i )2 = dt für alle i.
• Wenn man dann alles zusammenfasst, ergibt sich:
dX̃t =
X ∂g
i
∂xi
(Ut )i +
X ∂g X
1 X ∂2g
(Yt Yt> )ij dt+
(Yt )ik d(Bt )k .
2 ij ∂xi ∂xj
∂xi
i
k
8.3. STOPPEN VON STOCHASTISCHEN PROZESSEN
8.3
81
Stoppen von stochastischen Prozessen
Wir beginnen mit zwei Vorbereitungen. Dazu betrachten wir zunächst noch
einmal die eindimensionale Situation: dXt = Ut dtR + Yt dBt . Eine wichtige Rolle
t
spielte die Definition des stochastischen Integrals 0 Ys dBs . Diese Definition soll
nun verallgemeinert werden.
Gegeben sei eine fast sicher endliche Stoppzeit τ . Zunächst nehmen wir an,
dass sie durch ein T > 0 beschränkt ist. Wir definieren Zufallsvariable Ytτ durch
Ytτ := Yt χτ ≤t .
(Ys wird also auf Null gesetzt, sobald gestoppt wird.) Der Prozess (Ytτ )t ist
wieder adaptiert, denn Yt und {τ ≤ t} sind stets Ft -messbar. Und deswegen
können wir definieren:
Z τ
Z T
Ys dBs :=
Ys dBs .
0
0
Für unbeschränkte τ wird dieses Integral – falls existent – als Limes der Zahlen
R min{n,τ }
Ys dBs erklärt.
0
R t Als zweite Vorbereitung bestimmen wir den Erwartungswert von Ito-Integralen
Y dBs . Wir behaupten, dass er stets gleich Null ist. Für elementare Prozesse
0 s
folgt das aus der Tatsache, dass stets Yi0 unabhängig von Bti+1 −Bti ist und deswegen der Erwartungswert von Yi0 (Bti+1 − Bti ) verschwindet. Und für beliebige
Prozesse folgt die Behauptung durch Grenzübergang.
Nun sei wieder (Xt )t≥0 ein Prozess wie im vorstehenden Abschnitt. Wir
lassen ihn bei x0 starten. Weiter seien vorgegeben:
• Eine fast sicher endliche Stoppzeit τ : Der Prozess zum Beispiel dann gestoppt, wenn er den Rand einer vorgegebenen Kugel trifft, die x0 enthält.
• Eine genügend glatte“ Funktion g : R n → R. Das ist so etwas wie eine
”
Wichtungsfunktion.
Wir interessieren uns für den g-Wert zum Zeitpunkt des Stoppens, also für
g(Xτ ). Über den Erwartungswert lässt sich etwas sagen:
Satz 8.3.1 Wir definieren einen Prozess (Zt ) auf Ω durch
Zt (ω) :=
n
X
i=1
00
(Ut )i (ω)
∂g
1X
∂2g
(Xt (ω)) +
(Yt (ω)Yt> (ω))ij
(Xt (ω)).
∂xi
2 i,j
∂xi ∂xj
Wenn wir die Pfade von (Zt ) bis zur Stoppzeit aufintegrieren, entsteht eine
Zufallsvariable W :
Z τ (ω)
W (ω) =
Zs (ω) ds.
0
82
KAPITEL 8. MONTE-CARLO-VERFAHREN
Der Erwartungswert von g(Xτ ) ist dann gleich
g(x0 ) + E W .
Beweis: Wenn man die n-dimensionale Ito-Formel anwendet, folgt
Z
g(Xt ) = x0 +
t
Zs ds +
0
Z tX
0
(As )i d(Bs )i ,
i
wobei (At ) ein vektorwertiger adaptierter Prozess ist. Ersetzen wir t durch τ
und berechnen Erwartungswerte, so fällt der zweite Teil aufgrund unserer Vorbereitung weg, und so ergibt sich die Behauptung.
8.4
Die Dynkin-Formel
Wir betrachten nun Lösungen stochastischer Differentialgleichungen. (Xt ) soll
ein R n -wertiger Prozess sein, der die stochastische Differentialgleichung
dXt = b(Xt ) dt + σ(Xt ) dBt
erfüllt. Dabei ist b : R n → R n , und σ ordnet jedem x ∈ R n eine n × n-Matrix
zu.
Wir definieren im Interesse einer übersichtlicheren Formulierung einen Differentialoperator wie folgt (f soll dabei eine genügend glatte“ Funktion sein):
”
X
X
1
∂2f
∂f
(x) +
(σσ > )ij (x)
(x).
Df (x) :=
bi (x)
∂xi
2 i,j
∂xi ∂xj
i
Satz 8.3.1 lässt sich dann so formulieren:
Satz 8.4.1 (Dynkin-Formel): Ist τ eine fast sicher endliche Stoppzeit, so ist
für glatte f
Z τ
E f (Xτ ) = f (x0 ) + E
(Df )(Xs ) ds .
0
8.5
Monte-Carlo-Methoden für partielle Differentialgleichungen
Die Grundidee besteht darin, die Dynkin-Formel für solche Funktionen zu nutzen, für die Df = 0 ist, die also Lösung der entsprechenden partiellen Differentialgleichung sind. Dann vereinfacht sich die Dynkinformel zu
E f (Xτ ) = f (x0 ),
8.5. MONTE-CARLO-METHODEN FÜR PARTIELLE DIFFERENTIALGLEICHUNGEN83
und man kann so hoffen, f (x0 ) als Erwartungswert zu bestimmen, falls man die
f (Xτ ) kennt.
Die wesentlichen Ideen kann man schon am eindimensionalen Fall erklären.
Uns interessiert eine Lösung des Problems
1
f : [ c, d ] → R, bf 0 + σ 2 f 00 = 0, f (c) = γ, f (d) = δ,
2
dabei sind b, σ : [ c, d ] → R Funktionen. Wir sind auch in der Lage, eine Lösung
der stochastischen Differentialgleichung
dXt = b(Xt )dt + σ(Xt )dBt
zu simulieren.
Mal angenommen, die Theorie der Differentialgleichungen garantiert, dass
es genau eine Lösung f unseres Problems gibt. Für jede Stoppzeit τ ist dann
aufgrund der Dynkinformel
E f (Xτ ) = f (x0 ),
wobei wir Prozesse betrachten, die bei x0 ∈ ] c, d [ starten. Wenn wir τ als Austritt aus [ c, d ] wählen, können wir die linke Seite durch Simulation bestimmen:
Tritt der Prozess bei c aus, ist doch f (Xτ ) = γ, bei Austritt bei d gilt f (Xτ ) = δ.
Verfahre also wie folgt:
• Fixiere x0 ∈ ] c, d [, wir wollen f (x0 ) ermitteln, wobei f die eindeutig
bestimmte Lösung des Problems bezeichnet.
• Lasse sehr oft“, etwa n Mal, den Prozess bei x0 starten. Er trete etwa n1
”
Mal in c und n2 Mal in d aus [ c, d ] aus.
• Unsere Approximation an E(f (Xτ )) und damit an f (x0 ) ist damit die Zahl
n1 γ + n2 δ
.
n
Allgemeiner – bei n Veränderlichen sieht das typische Verfahren so aus:
• Man möchte eine partielle Differentialgleichung Df = 0 in einem beschränkten Gebiet D lösen. Für die Lösung f sollen die Randwerte vorgegeben sein: Es gibt eine Funktion f0 : ∂D → R, es soll f |∂D = f0 sein;
dabei wurde f stetig auf den Rand von D fortgesetzt. Es gibt hoffentlich
ein theoretisches Ergebnis, das Existenz und Eindeutigkeit der Lösung
sichert.
• Wähle, falls möglich, Funktionen b, σ, so dass D gerade derjenige Differentialoperator ist, den wir in Abschnitt 8.3 mit Hilfe von b und σ konstruiert
haben.
84
KAPITEL 8. MONTE-CARLO-VERFAHREN
• Wir wollen f punktweise ermitteln, dazu fixieren wir ein x0 ∈ D. Wir
bezeichnen die zu b, σ gehörige Lösung der stochastischen Differentialgleichung, die bei x0 startet, mit (Xt ).
• Nun simulieren wir Xt : Wir lassen den Prozess so lange laufen, bis er den
Rand von D an einer Stelle y trifft. f0 (y) wird notiert.
• Und dann wissen wir: f (x0 ) ist der Erwartungswert der f0 (y), also approximativ der Mittelwert sehr vieler“ Messungen.
”
Bevor wir uns um Beispiele kümmern, soll auf einige grundsätzliche Probleme
im Zusammenhang mit diesem Verfahren hingewiesen werden.
• Wie kann man denn viele“ Pfade mit vertretbarem Zeitaufwand so lange
”
simulieren, bis sie auf den Rand von D treffen?
Bei der Brownschen Bewegung ist es noch relativ einfach. Lege eine größtmögliche Kugel um x0 in D. Wähle gleichverteilt einen Punkt aus. Setze mit
diesem Punkt auf gleiche Weise fort. So lange, bis ein Punkt gefunden wurde, der sehr nahe“ am Rand von D liegt. Das Verfahren ist deswegen
”
gerechtfertigt, weil alle Punkte des Randes einer Kugel um x0 die gleiche
Wahrscheinlichkeit haben, als erste erreicht zu werden, wenn die Brownsche
Bewegung bei x0 startet.
• Was heißt denn sehr oft simulieren“? Dazu müsste man eigentlich Infor”
mationen über die Varianz derjenigen Zufallsvariablen haben, für die man
den Erwartungswert berechnet.
• Natürlich kann man von den Funktionen b und σ ausgehen und dann den
Differentialoperator bilden, den man mit der hier beschriebenen Methode
behandeln kann. Wichtiger ist natürlich die umgekehrte Fragestellung: Der
Differentialoperator D ist gegeben, und man möchte b und σ so bestimmen,
dass der hier auftretende Operator gerade der Operator D ist.
Wir kümmern uns zunächst um die letzte Fragestellung. Der allgemeine lineare Differentialoperator zweiter Ordnung für reellwertige Funktionen auf dem
R n hat die Form
Df = α(x)f +
X
i=1
βi (x)
X
∂f
∂2f
(x) +
γij (x)
(x).
∂xi
∂xi ∂xj
i,j
Notwendige Bedingungen für die Anwendbarkeit der hier vorgestellten Methoden sind also sicherlich, dass α die Nullfunktion und die Matrix (γij (x))ij für
alle i, j positiv semidefinit ist (sie soll ja als σ(x)σ > (x) geschrieben werden.)
Diese Bedingungen sind aber auch schon hinreichend. So lassen sich also leicht
Anwendungsbeispiele finden.
Es folgen noch Bemerkungen zur Potentialgleichung, das ist ein berühmtes
Anwendungsbeispiel (vgl. Abschnitt 8.1). Definiert man nämlich b = 0 und die
Funktion σ an jeder Stelle als die Einheitsmatrix, so ist D wirklich der zur
8.5. MONTE-CARLO-METHODEN FÜR PARTIELLE DIFFERENTIALGLEICHUNGEN85
Potentialgleichung gehörige Differentialoperator1 . Die zugehörige stochastische
Differentialgleichung ist die vektorwertige Gleichung dXt = dBt , die Lösung ist
damit ein n-Tupel von unabhängigen Brownschen Bewegungen.
Im eindimensionalen Spezialfall lässt sich noch eine interessante Folgerung
ziehen. Da geht es um 0.5f 00 = 0 auf [ 0, a ], und die Randwerte f (0) = α, f (a) =
β sind vorgegeben.
Die Lösung ist leicht explizit angebbar: f (x) = α + (β − α)x/a. Andererseits
kann man sie doch punktweise so ermitteln:
• Wähle ein x ∈ ] 0, a [ und lasse dort eine Brownsche Bewegung starten.
Warte, bis sie aus dem Intervall austritt. Das möge mit Wahrscheinlichkeit
p bei Null und mit Wahrscheinlichkeit 1 − p bei a passieren. Der f -Wert
bei x muss dann pα + (1 − p)β sein.
Und so schließen wir, dass p = (a − x)/a.
1 Wegen des Faktors 1/2 bei σσ > sollten wir besser die mit 0.5 multiplizierte Potentialgleichung untersuchen.
86
KAPITEL 8. MONTE-CARLO-VERFAHREN
Kapitel 9
Finanzmathematik: einige
grundlegende Begriffe
Seit vergleichsweise kurzer Zeit hat sich ein neues mathematisches Gebiet etabliert: die auf stochastischen Methoden beruhende Finanzmathematik. Auslöser
war sicher die zunehmende Bedeutung von Optionsgeschäften, bei deren Behandlung neue mathematische Verfahren eingesetzt werden mussten. Heute arbeiten Hunderte von Mathematikern daran, Risiken abzuschätzen und Preise
von Optionen auszurechnen.
In diesem Kapitel sollen einige grundlegende Begriffe eingeführt werden, die
zum Verständnis der Ausführungen rund um die Black-Scholes-Formel wichtig
sind. Wir behandeln hier:
• Einige Grundbegriffe: Was sind Optionen, was ist Arbitrage?
• Wie modelliert man Aktienkurse?
• Wie kann man den Preis für eine Option berechnen? Wir zeigen das am
Beispiel der europäischen Call-Option, zur Herleitung der Black-ScholesFormel im nächsten Kapitel werden wir die Ito-Formel anwenden.
9.1
Die Bank, Optionen und Arbitrage
Aktien und die Bank
Beim einfachsten Modell gibt es eine Börse und die Bank . An der Börse
werden Aktien A1 , . . . , An gehandelt, der jeweilige Preis zur Zeit t sei Si (t).
Diese Funktionen sind stochastische Prozesse. Bei der Bank hingegen gibt es
keine Überraschungen. Es gibt einen Zinssatz r, und wenn man K Euro für t
Zeiteinheiten anlegt, gibt es Kert Euro zurück. Der Einfachheit halber nehmen
wir an, dass auch für das Borgen von Geld der Zinssatz gleich r ist.
87
88KAPITEL 9. FINANZMATHEMATIK: EINIGE GRUNDLEGENDE BEGRIFFE
Was sind Optionen?
Optionen sind Geschäfte, die man mit der Bank abschließt, um Risiken abzusichern. Hier ein Beispiel. Jemand hat einen Weinberg, nach der Ernte möchte er
die Trauben verkaufen. Üblicherweise bekommt er K Euro pro Zentner. Da seine Kalkulation darauf beruht, möchte er sichergehen, dass das in diesem Herbst
auch so sein wird. Er möchte deswegen einen Vertrag mit der Bank schließen,
der folgenden Inhalt hat: Sollte der Einkaufspreis beim vereinbarten Zeitpunkt
nur bei K 0 < K liegen, gleicht das die Bank durch eine Zahlung von K − K 0
aus. Im Fall K 0 ≥ K hat die Bank keine Verpflichtungen. Das ist ein Beispiel
für eine europäische Put-Option. K heißt dabei der Strike-Preis.
Als zweites Beispiel betrachten wir jemanden, der dringend am 1. Januar
des nächsten Jahres 10.000 Dollar braucht, um seine Angestellten in den USA
auszuzahlen. Üblicherweise bekommt man 10.000 Dollar für K Euro. Es gäbe ein
Problem, wenn der Kurs bei K 0 > K läge. Deswegen wäre ein Vertrag hilfreich,
bei dem in diesem Fall die Bank die Differenz K 0 −K übernimmt. So ein Vertrag
entspricht einer europäischen Call-Option mit Strike-Preis K. Statt Dollar zu
kaufen, könnte es auch um ein beliebiges anderes Gut gehen, wichtig ist nur,
dass es um zukünftige Preise zu einem festen Zeitpunkt geht. Noch einmal etwas
formaler:
• Der Wert einer europäischen Call-Option zum Strike-Preis K zum Zeitpunkt T in der Zukunft ist max{ST −K, 0}, wobei ST der Wert des Gutes,
auf das sich die Option bezieht, zum Zeitpunkt T ist.
• Der Wert einer europäischen Put-Option zum Strike-Preis K zum Zeitpunkt T in der Zukunft ist max{K −ST , 0}, wobei ST der Wert des Gutes,
auf das sich die Option bezieht, zum Zeitpunkt T ist.
Bemerkung: Bei europäischen Optionen passiert also erst zum Zeitpunkt T
etwas. Im Unterschied dazu kann man bei amerikanischen Optionen jederzeit
(zwischen heute und T ) die Einlösung verlangen. Wenn ich zum Beispiel eine
amerikanische Call-Option habe, werde ich die dann schon vor T bei t0 realisieren, wenn mir St0 besonders hoch zu sein scheint und möglicherweise bald
wieder fällt.
Was ist Arbitrage?
Über das Stichwort Arbitrage muss man zwei Dinge wissen:
1. Die Definition: Arbitrage ist die Möglichkeit, risikolos einen Gewinn zu machen. Wenn zum Beispiel in Rotterdam der Dollar für 0.80 Euro verkauft wird
und sich in Kapstadt Käufer für 0.90 Euro finden, so gäbe es Arbitrage: 10
Millionen Dollar in Rotterdam kaufen und in Kapstadt verkaufen. Gewinn: eine
Million Euro.
2. Arbitrage gibt es nicht1 . Das ist so etwas wie ein Naturgesetz der Finanzmärkte, vergleichbar etwa dem zweiten Hauptsatz der Thermodynamik ( Es gibt kein
”
1 Auf
Englisch heißt das übrigens No free lunch.“
”
9.1. DIE BANK, OPTIONEN UND ARBITRAGE
89
Perpetuum Mobile“). Dieses Prinzip ist eine Erfahrungstatsache, die allerdings
nur im Wesentlichen“ richtig ist. Tatsächlich gibt es minimale Abweichungen
”
der Wechselkurse, die kurzzeitig von den Banken für Arbitrage-Gewinne ausgenutzt werden können.
Hier zwei Beispiele, wie das Arbitrage-Prinzip angewendet wird.
Heute sei der Zeitpunkt t, und irgendjemand hat ein kompliziertes Portfolio
zusammengestellt, das zu einem Zeitpunkt T in der Zukunft mit Sicherheit M
Euro abwirft. Wir behaupten, dass das heute exakt zu M e−r(T −t) Euro verkauft
werden muss. Hier die Begründung:
1. Es kann nicht billiger sein. Falls es irgendjemand zum Preis N < M e−r(T −t)
anbieten würde, könnte ich mir N Euro von der Bank borgen und es kaufen. Zum
Zeitpunkt T bekomme ich dann M Euro, und die Bank will von mir N er(T −t)
Euro für das geborgte Geld haben. Da N er(T −t) < M ist, habe ich einen risikolosen Gewinn gemacht: Widerspruch, denn Arbitrage gibt es nicht.
2. Es kann nicht teurer sein. Angenommen, man kann das Portfolio auch für
N > M e−r(T −t) verkaufen. Dann trete ich als Verkäufer auf: Ich nehme die N
Euro und bringe sie auf die Bank. Zum Zeitpunkt T sind daraus N er(T −t) Euro
geworden. Das ist mehr als M , ich kann also meinen Vertrag erfüllen und es
bleibt noch etwas übrig. Wieder Arbitrage, wieder ein Widerspruch.
Eine typische Anwendung dieser Technik ist der
9.1.1 Satz von der Put-Call-Parität: Wir betrachten ein Gut ( underly”
ing“). Zum Zeitpunkt T – jetzt sind wir bei t – interessieren wir uns für eine
Call- und eine Put-Option, beide zum Strike-Preis K. Sind dann Ct bzw. Pt die
heutigen Preise für diese Optionen und ist unser Gut heute St wert, so muss
St + Pt − Ct = Ke−r(T −t) gelten.
Beweis: Wir stellen uns ein Portfolio St + Pt − Ct zusammen: Wir kaufen eine
Aktie und eine Put und treten als Verkäufer eines Calls auf. Dann warten wir
T ab:
• Angenommen, ST ≥ K. Wir verkaufen die Aktie und zahlen – als Verpflichtung aus unserer Call-Option – den Betrag ST − K an den Käufer
unseres Calls. Uns bleiben K Euro.
• Was ist, wenn ST < K? Dann aktivieren wir unsere Put-Option, daraus
erhalten wir K − ST Euro. Zusammen mit der Aktie sind das auch wieder
K Euro.
Kurz: In jedem Fall haben wir bei T exakt K Euro. Deswegen muss der Preis
des Portfolios nach dem vorstehenden Argument gleich Ke−r(T −t) sein.
Wegen dieses Satzes reicht es, sich um – zum Beispiel – Call-Optionen zu
kümmern. Der Preis für Put-Optionen liegt dann fest.
90KAPITEL 9. FINANZMATHEMATIK: EINIGE GRUNDLEGENDE BEGRIFFE
9.2
Binomialmodelle, die Black-Scholes-Welt
Wie modelliert man die Entwicklung des Preises einer Aktie? Bezeichne den
Preis zur Zeit t mit St . Wie wird sich der in einem Zeitintervall ∆ t verändern?
Zur Motivation einer sinnvollen Modellierung gibt es zwei Vorüberlegungen:
• Es ist sicher sinnvoll, die relativen und nicht die absoluten Preisänderungen zu betrachten, da die absoluten Preis sehr unterschiedlich sind und
deswegen ein Vergleich zwischen verschiedenen Aktien nur schwer möglich
wäre.
• Die Preisentwicklung besteht aus einem deterministischen und einem stochastischen Anteil: Wenn irgendeine Industrie im Trend ist, steigt die zugehörige Aktie mit Sicherheit, und dazu gibt es noch den unberechenbaren
Zufall, der allerdings je nach Aktie einen mehr oder weniger starken Einfluss hat.
Auf diese Weise gelangt man zu dem folgenden Modell: Man verschaffe sich eine
Zufallsvariable X mit Erwartungswert Null und Varianz Eins. Das ist der pro
Zeiteinheit wirkende Zufall. Für zwei Zahlen m (für den Trend) und σ (für die
Stärke des Zufallseinflusses2 ) setzt man dann an:
√
∆S
= m ∆ t + σ ∆t.
S
Und je nachdem, ob man diskret oder kontinuierlich modelliert, gelangt man
zum Binomialmodell oder zur Black-Scholes-Welt.
Das Binomialmodell
Hier interessiert man sich nur für die Preise zu den Zeitpunkten t0 , t0 + ∆ t,
t0 + 2∆t usw.; dabei ist ∆ t eine positive Zahl. Man startet bei St0 , von da
ausgehend entwickelt sich ein Binomialbaum. Mit Wahrscheinlichkeit p bzw.
1 − p steigt bzw. fällt der Wert der Aktie, von S0 := St0 (Zeit t0 ) auf Su ( up“)
”
bzw. Sd ( down“) bei t1 = t0 + ∆t. Von da aus verzweigt die Kursentwicklung
”
wieder, dann noch einmal usw. Es entsteht ein (üblicherweise von links nach
rechts) wachsender Baum. Manchmal ist er geschlossen: up-down“ liefert den
”
gleichen Wert wie down-up“.
”
Wir wollen nun zeigen, wie man in so einem Fall Werte für Optionen ausrechnen kann. Als Beispiel wählen wir eine europäische Call-Option zum Strike-Preis
K, wir interessieren uns zunnächst für die erste Masche, die Option soll also bei
t1 eingelöst werden.
Der Wert der Option bei t1 ist Cu = max{Su − K, 0} bzw. Cd = max{Sd −
K, 0}, je nachdem, ob der Kurs gestiegen oder gefallen ist. Uns interessiert der
Preis C0 bei t0 . Wir behaupten: Der Preis muss gleich
Ct0 =
2 Der
Cu − Cd −r∆t
Cu − Cd
St0 + Cu −
Su e
Su − Sd
Su − Sd
Fachausdruck ist Volatilität.
9.2. BINOMIALMODELLE, DIE BLACK-SCHOLES-WELT
91
sein. Zum Beweis benutzen wir ein Arbitrage-Argument. Setze
B := Cu −
diese Zahl stimmt mit
Cd −
Cu − Cd
Su ,
S u − Sd
Cu − Cd
Sd
S u − Sd
überein. Daraus folgt, mit ∆ := (Cu − Cd )/(Su − Sd ), dass ein Portfolio der
Form C − ∆S bei t1 garantiert den Wert B haben wird. Also muss es heute
wegen des Verbots von Arbitrage3 den Wert Be−r∆t haben:
Ct0 − ∆St0 = Be−r∆t .
Das ist gerade die Behauptung.
Ganz analog kann man beliebige Optionen behandeln, bei denen der Auszahlungswert eine Funktion von St1 ist.
Nun kann man auch komplizierte Situationen durch Rückwärtsrechnen untersuchen. Wir nehmen an, dass die Option bei t0 + k∆t fällig wird.
• Starte bei den Maschen ganz rechts, die die Entwicklung zwischen t0 +
(k − 1)∆t und t0 + k∆t beschreiben. Bei t0 + k∆t ist der Wert der Option
bekannt, und mit dem eben vorgestellten Argument ermitteln wir ihn bei
den Zeitpunkten t0 + (k − 1)∆t.
• Danach berechne die Werte bei den Verzweigungen der Maschen, die von
t0 + (k − 2)∆t nach t0 + (k − 1)∆t führen.
• Und so weiter: Schließlich haben wir den Wert bei t0 ermittelt.
Das Verfahren ist sehr flexibel, es lässt sich auch für zeit-abhängige Volatilitäten
verwenden.
Damit die Bank keine Verluste macht, muss sie das für die Option eingenomme Geld immer in sichere Portfolios umschichten: Sie braucht ein Portfolio
C − ∆S, um von Kursschwankungen unabhängig zu sein. Und das kann bei jedem Zeitschritt t0 + i∆t ein anderes sein. Man spricht von ∆-hedging (to hedge:
hegen, pflegen).
Die Black-Scholes-Welt
Wird ∆ t immer kleiner, so wird St für alle Zeitpunkte t ≥ t0 einen sinnvollen
Wert haben: (St )t≥t0 ist dann ein stochastischer Prozess. Er muss der Bedingung
d St
= m dt + σBt
St
3 Vgl.
Abschnitt 9.1.
92KAPITEL 9. FINANZMATHEMATIK: EINIGE GRUNDLEGENDE BEGRIFFE
genügen, wir haben die Brownsche Bewegung als Modell für den normalisierten
Zufallseinfluss eingesetzt. Anders ausgedrückt: (St ) genügt der stochastischen
Differentialgleichung
d St = m St dt + σSt dBt .
Diese Differentialgleichung haben wir aber schon gelöst, es ergibt sich
St = St0 exp(m −
σ2
)t + σ Bt ,
2
die geometrische Brownsche Bewegung.
Man spricht bei diesem Modell von der Black-Scholes-Welt. Der Vorteil besteht darin, dass gut bekannte Objekte wie die Normalverteilung und die Brownsche Bewegung auftreten. Der Nachteil (der erst recht spät erkannt wurde):
Die Normalverteilung fällt zu schnell“ ab, das Auftreten großer Abweichun”
gen wird unterschätzt. Deswegen versucht man verstärkt, die Normalverteilung
durch Verteilungen zu ersetzen, die größere Abweichungen zulassen ( fat tails“).
”
Kapitel 10
Finanzmathematik: die
Black-Scholes-Formel
In diesem Kapitel soll eine berühmte Formel der Finanzmathematik hergeleitet
werden, die Black-Scholes-Formel . Es ist nicht übertrieben, die Entdeckung dieser Formel als den Beginn der modernen Finanzmathematik zu bezeichnen. Wie
beschreiben in Abschnitt 10.1 das Problem, in Abschnitt 10.2 wird es auf eine
partielle Differentialgleichung zurückgeführt (Black-Scholes-Gleichung), und in
Abschnitt 10.3 wird die Lösung explizit angegeben.
10.1
Die Problemstellung: Bewertung von Optionen
Allgemein stellt sich das Problem so dar:
• Wir betrachten eine spezielle Aktie, deren Preisentwicklung durch den
Prozess (St ) beschrieben wird. Wir haben das durch
St = S0 exp (m −
σ2
)t + σBt
2
modelliert.
• Zu irgendeinem Zeitpunkt T in der Zukunft möchten wir φ(ST ) ausgezahlt
bekommen. Dabei ist φ eine von der Situation abhängige Funktion. Zum
Beispiel ist φ(s) = max{s − K, 0} bei einer Call-Option zum Strike-Preis
K.
• Wir wollen einen Vertrag abschließen, der genau das leistet.
Das Problem besteht nun darin, jetzt (o.E. ist das t = 0) einen fairen Preis für
dieses Geschäft auszuhandeln.
93
94KAPITEL 10. FINANZMATHEMATIK: DIE BLACK-SCHOLES-FORMEL
Als Nomenklatur vereinbaren wir: Wenn das Geschäft zu einem Zeitpunkt
t ∈ [ 0, T ] abgeschlossen wird, so soll der faire Preis Vt genannt werden, das ist
ein stochastischer Prozess1 . Es wird angenommen, dass man Vt als V (t, St ) für
eine geeignete Funktion V schreiben kann, dass Vt also nur von t und St abhängt
(nicht also – z.B. – von der Entwicklung der Aktie in den letzten Wochen).
Eigentlich sind wir nur an V0 = V (0, S0 ) interessiert, und es ist offensichtlich, dass VT = V (T, ST ) = φ(ST ) gelten muss. Wie kann die Funktion V (·, ·)
ermittelt werden?
10.2
Die Black-Scholes-Gleichung
(St ) genügt doch der stochastischen Differentialgleichung
dSt = St m dt + σSt dBt .
Wir wollen nun die Ito-Formel anwenden. Mit den Bezeichnungen aus Abschnitt 7.2 gilt:
• Xt entspricht unserem St , Yt ist mSt und Zt ist σSt .
• Die Funktion g ist in unserem Fall durch V (·, ·) zu ersetzen. Das, was X̃t
genannt wurde, ist unser Vt .
• Aufgrund der Ito-Formel genügt (Vt ) der stochastischen Differentialgleichung
dVt = Ỹt dt + Z̃t dBt ,
wobei Ỹt , Z̃t explizit angegeben werden können:
Ỹt =
∂V
∂V
1 ∂2V
(t, St ) +
(t, St )mSt +
(t, St )σ 2 St2 ,
∂t
∂s
2 ∂s
Z̃t =
∂V
(t, St )σSt .
∂s
Fasst man alles zusammen, folgt
dVt =
∂V
∂V
σ 2 St2 ∂ 2 V
∂V
(t, St ) + mSt
(t, St ) +
(t, St )dBt .
(t, St ) dt + σSt
∂t
∂s
2 ∂s2
∂s
(Um das richtig zu interpretieren, sollte man noch einmal zur Herleitung der
Ito-Formel zurückblättern. V ist als Funktion in zwei Veränderlichen t, s aufzufassen, damit sind die partiellen Ableitungen zu berechnen. Und dann ist jedes
s durch St zu ersetzen.)
Nun werden wir ein lokales Arbitrageargument verwenden, das ist der Schlüssel
zur Herleitung der Black-Scholes-Gleichung.
1
V “ steht für value“.
”
”
10.2. DIE BLACK-SCHOLES-GLEICHUNG
95
Fixiere dazu einen Zeitpunkt t0 und betrachte für eine Zahl ∆ ein Portfolio
der Form Vt − ∆ · St . Die Zahl ∆ soll so bestimmt werden, dass der Zufall bei t0
ausgeschaltet ist, dass also der Faktor bei dBt verschwindet. Die stochastische
Differentialgleichung für Vt − ∆St kann leicht bestimmt werden:
d(Vt − ∆St )
=
∂V
∂V
σ 2 St2 ∂ 2 V
(t, St ) − ∆mSt dt +
(t, St ) + mSt
(t, St ) +
2
∂t
∂s
2 ∂s
∂V
+σSt
(t, St ) − ∆ dBt
∂s
Der Zufall ist folglich bei t0 eliminiert, falls
∂V
(t0 , St0 ) = ∆
∂s
gilt. In diesem Fall wird sich Vt − ∆St für ein sehr kleines“ Zeitintervall dt
”
deterministisch entwickeln, der Wertzuwachs zwischen t0 und t0 + dt wird
σ 2 St20 ∂ 2 V
∂V
∂V
(t0 , St0 ) + mSt0
(t0 , St0 ) +
(t0 , St0 ) − ∆mSt0 dt,
2
∂t
∂s
2 ∂s
also (wegen der Definition von ∆)
σ 2 St20 ∂ 2 V
∂V
(t0 , St0 ) +
(t0 , St0 ) dt
2
∂t
2 ∂s
betragen.
0
Eine sichere Auszahlung M nach t0 Zeiteinheiten muss aber M e−rt kosten2 ,
sonst gäbe es Arbitrage: Vgl. das Argument vor Satz 9.1.1. Oder, anders ausgedrückt, aus M (heute) wird nach t0 Zeiteinheiten bei einer deterministischen
0
Anlage immer M ert , die Wertsteigerung ist also bei kleinem“ t0 gleich M rt0 . In
”
unserem Fall bedeutet das: Die Wertsteigerung des Portfolios, also von Vt − ∆St
zwischen t0 und t0 + dt, ist gleich
(Vt0 − ∆St0 )r dt.
Und diese Zahl ist gleich
σ 2 St20 ∂ 2 V
∂V
(t0 , St0 ) +
(t0 , St0 ) dt.
2
∂t
2 ∂s
Wenn wir nun noch dt kürzen, die Definition von ∆ einsetzen, von t0 zu t
übergehen und für St die neutrale Variable s einsetzen, erhalten wir die folgende
partielle Differentialgleichung für V :
∂V
σ 2 s2 ∂ 2 V
∂V
+
+ rs
− rV = 0.
∂t
2 ∂s2
∂s
Das ist die Black-Scholes-Differentialgleichung. Gesucht ist eine Lösung, die
auch noch der Randbedingung V (T, s) = φ(s) für alle s genügt.
2 Mit
r bezeichnen wir weiterhin den Zinssatz.
96KAPITEL 10. FINANZMATHEMATIK: DIE BLACK-SCHOLES-FORMEL
10.3
Die Black-Scholes-Formel
In manchen Fällen, wenn φ nicht zu kompliziert ist, lässt sich V explizit angeben.
Wir konzentrieren uns hier auf die Formel für den Fall von europäischen Calls,
wenn also φ(s)) = max{s−K, 0} ist. Das wird dann die berühmte Black-ScholesFormel sein. (Wegen der Put-Call-Parität 9.1.1 haben wir damit dann auch eine
eine Formel für Puts gefunden.)
Statt V (t, s) schreiben wir nun C(t, s), um daran zu erinnern, dass wir Calls
behandeln. Es geht also um die Gleichung
∂C
σ 2 s2 ∂ 2 C
∂C
+ rs
+
− rC = 0
∂t
2 ∂s2
∂s
mit der Randbedingung C(T, s) = max{s − K, 0}.
Die Lösung wird dadurch gefunden werden, dass wir das Problem auf ziemlich trickreiche Weise in die Wärmeleitungsgleichung transformieren. An diese
partielle Differentialgleichung soll zunächst erinnert werden.
Unter der Wärmeleitungsgleichung versteht man die Gleichung
∂u
∂2u
=
,
∂τ
∂x2
die für alle τ > 0 und alle x ∈ R erfüllt sein soll. Zusätzlich soll u zu einer
stetigen Funktion auf R + × R ergänzbar sein und der Bedingung
u(0, x) = u0 (x) für x ∈ R
für eine vorgegebene Funktion u0 genügen.
Die Interpretation: Ein unendlich langer Stab hat zur Zeit τ bei x die Temperatur u(τ, x). Zur Zeit 0 ist die Temperatur durch die Funktion u0 vorgegeben,
und man möchte wissen, wie sie sich im Lauf der Zeit entwickelt. Das führt, wie
von Joseph Fourier zu Beginn des 19. Jahrhunderts gezeigt wurde, auf unsere
Wärmeleitungsgleichung (jedenfalls dann, wenn man die auftretenden Materialkonstanten zu Eins normiert).
Die Lösung kann explizit angegeben werden. Sie lautet: Definiere u(τ, x) für
τ = 0 durch u0 (x) und für die positiven τ durch
Z
2
1
u(τ, x) := √
u0 (s)e−(x−s) /4τ ds.
4πτ R
(Man sieht schon, dass es möglicherweise einen Zusammenhang zur Normalverteilung geben wird.)
Zurück zur Black-Scholes-Gleichung. Sie soll durch geeignete Transformationen auf die Wärmeleitungsgleichung zurückgeführt werden3 .Bei einer ersten
3 Das ist so ähnlich wie bei quadratischen Gleichungen: Da transformiert man ja auch
x2 + px + q = 0 durch y := x − p/2 zu einer Gleichung des Typs y 2 = A.
10.3. DIE BLACK-SCHOLES-FORMEL
97
Transformation gehen wir wie folgt zu neuen Koordinaten über:
s = Kex , t = T −
τ
, C = Kv(τ, x).
σ 2 /2
Das soll folgendes bedeuten: Statt einer Differentialgleichung für C wollen wir
eine für v erhalten, die hoffentlich leichter lösbar ist. Raum- und Zeitkoordinaten werden dabei mittransformiert. Das man es ausgerechnet so versucht, ist
wohl nur für diejenigen nachvollziehbar, die schon oft Differentialgleichungen
umtransformiert haben.
Wie kann man die Differentialgleichung für v erhalten? Dazu muss man
sich an Ergebnisse aus der Theorie der Funktionen in mehreren Veränderlichen
erinnern. Da gilt doch – als Verallgemeinerung der Kettenregel der elementaren
Analysis die Formel Jf ◦g (x) = Jf (g(x))Jg (x) für Jacobimatrizen, und wenn
dann insbesondere Funktionen A(x, y), B(s, t), C(s, t) vorgegeben sind und man
an A(B(s, t), C(s, t)) interessiert ist, so folgt
∂A
∂B
∂A
∂C
∂A(B(s, t), C(s, t))
=
(B(s, t), C(s, t))
(s, t)+
(B(s, t), C(s, t))
(s, t),
∂s
∂x
∂s
∂y
∂s
und eine entsprechende Formel gilt für die partielle Ableitung nach t. Alles wird
etwas einfacher, wenn B nur von s und C nur von t abhängt (so eine Situation
wird bei uns vorliegen).
Unser Ziel ist zu zeigen, dass
∂v
∂2v
∂v
=
+ (k − 1)
− kv
∂τ
∂x2
∂x
gilt, wobei k := 2r/σ 2 ist. Um das nachzuweisen, rechnen wir nach und nach
die auftretenden Summanden aus und benutzen dann die Tatsache, dass C der
Black-Scholes-Gleichung genügen soll.
∂C/∂t. Da wir das durch Beziehungen zwischen den Variablen τ, x ausdrücken
wollen, müssen wir die Transformation (τ, x) 7→ (t, s) zunächst invertieren:
x = log(s/K), τ =
σ2
(T − t).
2
So erhalten wir
∂C
∂v
∂v σ 2 =K
=K
(− ) .
∂t
∂t
∂τ
2
∂C/∂s.
∂C
∂v
∂v 1
=K
=K
.
∂s
∂s
∂x s
98KAPITEL 10. FINANZMATHEMATIK: DIE BLACK-SCHOLES-FORMEL
∂ 2 C/∂s2 .
∂2C
∂s2
∂ ∂C ∂s ∂s
∂
∂v 1 =
K
∂s
∂x s
∂v 1 ∂2v 1
−
.
= K
2
2
∂x s
∂x s2
=
Wenn nun C der Black-Scholes-Gleichung genügt und wir die partiellen CAbleitungen durch v ausdrücken, so folgt
∂v
∂2v
∂v
=
+
(k − 1) − kv;
∂τ
∂x2
∂x
dabei haben wir – wie schon angekündigt – die Abkürzung k := 2r/σ 2 eingesetzt. Umgekehrt gilt das auch: Wenn v diese Differentialgleichung löst, so
löst C die Black-Scholes-Gleichung. Durch Transformation ist also eine einfachere Gleichung entstanden, die der Wärmeleitungsgleichung schon sehr ähnlich
sieht.
Es fehlt allerdings noch etwas: Wie transformieren sich die Zusatzbedingungen? Beachte
• Zu t = T gehört τ = 0.
• Wenn C(T, s) = s − K ist, heißt das, das Kv(0, x) = Kex − K gilt, also
v(0, x) = ex − 1. (Ähnlich für die Null.)
Und daraus schließen wir: v soll neben der Differentialgleichung auch die Bedingung
v(0, x) = max{ex − 1, 0}
erfüllen. Aus einer Bedingung am Ende der Laufzeit ist so eine Bedingung am
Anfang geworden. Das liegt daran, dass bei Übergang von t zu τ die neue Zeit“
”
τ rückwärts läuft.
Nun gibt es noch eine zweite Transformation, um wirklich zur Wärmeleitungsgleichung zu kommen. Wir definieren eine neue Funktion u durch
u(τ, x) = eαx+βτ v(τ, x)
mit noch freien Konstanten α, β: Die sollen so gewählt werden, dass für u die
Wärmeleitungsgleichung entsteht. Wir argumentieren so:
∂u
∂τ
∂u
∂x
∂2u
∂x2
∂v
,
∂τ
∂v
= αeαx+βτ v + eαx+βτ
,
∂x
= βeαx+βτ v + eαx+βτ
= eαx+βτ α2 v + 2αeαx+βτ
∂v
∂2v + 2 .
∂x ∂x
10.3. DIE BLACK-SCHOLES-FORMEL
99
Folglich ist
∂u
∂2u
=
∂τ
∂x2
äquivalent zu
∂v
∂2v
∂v
= α2 v + 2α
+ 2.
∂τ
∂x ∂x
Wir wählen nun zunächst α so, dass 2α − (k − 1) = 0. Dann dürfen wir die zwei
Summanden rechts durch ∂v/∂τ + kv ersetzen. Die Funktion ∂v/∂τ kann man
kürzen, wir erhalten die Bedingung βv = α2 v + kv.
Anders ausgedrückt: Wenn wir auch noch β = α2 + k wählen, ist das erfüllt,
dann genügt u der Wärmeleitungsgleichung (vorausgesetzt, v hatte die vorige
Differentialgleichung erfüllt).
Und was wird aus der Nebenbedingung? v(0, x) = max{ex −1, 0} wird, wenn
wir zu u bei τ = 0 übergehen, zu
βv +
u(0, x)
=
=
=
=
=
eαx v(0, x)
max{ex − 1, 0}
max{eαx (ex − 1), 0}
max{ex(1+α) − eαx , 0}
max{e(k+1)x/2 − e(k−1)x/2 , 0}.
Nun können wir u explizit angeben, die Anfangsbedingung u0 haben wir
gerade eben ausgerechnet. Und nun muss alles wieder rückgängig gemacht werden: Aus u wird v und anschließend C. Da verweise ich für die technischen
Einzelheiten auf das Buch von P. Wilmott et al.: The Mathematics of Financial
Derivatives, Kapitel 5. Hier ist das Endergebnis, die
Black-Scholes-Formel zur Bewertung von europäischen Call-Optionen
zum Strike-Preis K:
• Setze
1
N (x) := √
2π
Z
x
2
e−t
/2
dt
−∞
für x ∈ R. (Das ist die Verteilungsfunktion der Standardnormalverteilung.)
• Für t ∈ [ 0, T [ und S > 0 sei
d± :=
log(S/K) + (r ± σ 2 /2)(T − t)
√
.
σ T −t
• Dann ist C(t, St ) = St N (d+ ) − Ke−r(T −t) N (d− )
(Zum Kennenlernen lässt sich schnell nachprüfen, dass wirklich C(T, ST ) =
max{ST − K, 0}. Beachte dazu: Ist ST > K bzw. ST < K, so ist
d+ = d− = +∞ bzw. d+ = d− = −∞.)
100KAPITEL 10. FINANZMATHEMATIK: DIE BLACK-SCHOLES-FORMEL
Es ist zu betonen, dass für die Bank die Arbeit erst anfängt. Sie muss –
im Idealfall in kontinuierlicher Zeit – ein Portfolio Ct − ∆St bereithalten, wo
∆ = (∂C/∂s)(t, St ). Damit wird lokal der Zufall ausgeschaltet. Dieses Verfahren
heißt auch im kontinuierlichen Fall ∆-hedging.

Zugehörige Unterlagen

¨Ubung zur Stochastischen Analysis mit Finanzmathematik Blatt 4

Markovprozesse und stochastische Differentialgleichungen

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können