Markovprozesse und stochastische Differentialgleichungen

Werbung
Markovprozesse und
stochastische Differentialgleichungen
Ehrhard Behrends
Fachbereich Mathematik und Informatik
Freie Universität Berlin
Sommersemester 2011
Version vom Ende des Sommersemesters 2011
i
“
”
Einleitung
In dieser Vorlesung sollen einige Themen aus der Stochastik behandelt werden, die auf dem Begriff des Markoffprozesses aufbauen. Dabei sind Markoffprozesse stochastische Prozesse, für welche die Prognose für das zufällige Verhalten
in der Zukunft nur von der gegenwärtigen Position abhängt. Der Aufbau ist wie
folgt:
• In Kapitel 1 beginnen wir mit einigen Vorbereitungen: An welche Sachverhalte aus der elementaren Stochastik sollte man sich erinnern? Was wird
von der Maßtheorie gebraucht? Was sind stochastische Prozesse, Filtrationen und Stoppzeiten? Besonders wichtig für das Folgende wird dann die
Definition der bedingten Erwartung sein.
• Erste Tatsachen zu Markovprozessen werden in Kapitel 2 eingeführt: Es
gibt eine Definition und einen Charakterisierungssatz ( Markovprozesse
”
sind Prozesse, bei denen die Zukunft von der Vergangenheit unter der
Bedingung der Gegenwart unabhängig ist.“ )
• In diesem Kapitel, in Kapitel 3 , geht es um einen Spezialfall, nämlich den
Fall, dass die auftretenden Prozesse nur endlich oder höchstens abzählbar
viele verschiedene Werte annehmen können. Man muss dann noch unterscheiden, ob die Zeit als diskret oder als kontinuierlich aufgefasst wird.
Im diskreten Fall lassen sich fast alle interessierenden Fragen beantworten
(wenigstens im Fall endlicher Zustandsräume), der kontinuierliche Fall ist
technisch weit aufwändiger.
• In Kapitel 4 beschäftigen wir uns dann mit einer Frage aus der Entscheidungstheorie. Es ist ein Zufallsspaziergang gegeben, der zu beliebigen Zeiten gestoppt werden kann, je nach Position wird ein Gewinn ausgezahlt.
Wie sollte man stoppen, um den Erwartungswert des Gewinns zu maximieren?
Obwohl es eine unübersehbare Fülle von Stoppmöglichkeiten gibt, kann
man trotzdem die optimale Variante explizit berechnen.
• Die Brownsche Bewegung wird in Kapitel 5 behandelt. Heute ist Konsens,
dass dieser Prozess eine fundamentale Rolle in verschiedenen Bereichen
der Stochastik spielt. Wir definieren diesen Prozess, zeigen die Existenz
und untersuchen einige fundamentale Eigenschaften.
• Um stochastische Integrale und stochastische Differentialgleichungen geht
es dann in Kapitel 6 . Wir beschreiben den Ito-Ansatz, bei dem diese
zufällige Störung deterministischer Prozesse“ durch eine topologische Kon”
struktion eingeführt wird.
• In der elementaren Analysis ist es ja auch so: Wenn man das Integral definiert hat, kann es immer noch sehr mühsam sein, Integrale konkret zu
berechnen. Abhilfe schafft der Hauptsatz der Differential- und Integralrechnung.
iii
Bei stochastischen Integralen ist es genau so: Erst mit Hilfe der Ito-Formel
(Kapitel 7 ) ist es halbwegs einfach, etwas explizit zu bestimmen.
• Eine der klassischen Anwendungen von stochastischen Differentialgleichungen sind Monte-Carlo-Verfahren zur Lösung von partiellen Differentialgleichungen. Dieser Zusammenhang soll in Kapitel 8 beschrieben werden.
• Stochastik ist aus der modernen Finanzmathematik nicht wegzudenken.
In Kapitel 9 werden einige der grundlegenden Begriffe eingeführt . . .
• . . . und in Kapitel 10 wird gezeigt, wie man Methoden der stochastischen
Differentialgleichungen erfolgreich einsetzen kann, um Optionen korrekt
zu bewerten (Black-Scholes-Formel ).
E. Behrends, im Frühjahr 2011.
Zur Vorbereitung der Vorlesung wurde die nachstehende Literatur verwendet:
Ash, Robert B. Probability and Measure Theory. Academic Press, 2000.
Ein Klassiker. Beim Charakterisierungstheorem für Markovprozesse folge ich
diesem Buch.
Behrends, Ehrhard. An Introduction to Markov Chains with Special Emphasis on Rapid Mixing. Vieweg 1998.
Hier findet man die Theorie der Markovketten in diskreter Zeit auf endlichen Zustandsräumen. Es werden auch ausführlich verschiedene Verfahren beschrieben,
um das Mischungsverhalten zu analysieren. Es gibt auch mehrere Anwendungen:
simulated annealing, approximatives Zählen, Ising-Modell.
Behrends, Ehrhard. Maß- und Integrationstheorie. Springer, 1983.
Alle Sätze, die aus der Maßtheorie gebraucht werden, sind hier dargestellt.
Billingsley, Patrick. Probability and Measure. Wiley, 1986.
Ein immer noch empfehlenswerter Klassiker zu Maßtheorie und Wahrscheinlichkeitsrechnung. Die Darstellung zum optimalen Stoppen folgt diesem Buch.
Brémaud, Pierre. Markov Chains, Gibbs Fields, Monte Carlo Simulation and
Queues. Springer, 1999.
Hier werden Markovprozesse auf endlichen Zustandsräumen in diskreter und
kontinuierlicher Zeit untersucht. Es gibt Anwendungen in der statistischen Mechanik und der Warteschlangentheorie.
iv
Chow, Pao-Li. Stochastic Partial Differential Equations. Chapman and Hall,
2007.
Wie kann man mit stochastischen Methoden partielle Differentialgleichungen
behandeln?
Cyganowsk, Sasha - Kloeden, Peter - Ombach, Jerzy. From Elementary
Probability to Stochastic Differential Equations with MAPLE. Springer, 2002.
Hier gibt es Anregungen, wie man die theoretischen Ergebnisse visualisieren
kann.
Doob, J.L. Stochastic Processes. Chapman and Hall, 1952.
Ein Klassiker, sehr kompakt“ geschrieben.
”
Dynkin, E.B. Markov Processes I, II. Springer, 1965.
Ein Klassiker. Es ist viel enthalten, die Darstellung ist oft sehr knapp.
Elliott, Robert - Aggoun, Lakhdar - Moore, John. Hidden Markov Models. Springer, 1995.
Was lässt sich über stochastische Prozesse sagen, die durch Markovprozesse
gesteuert werden, selbst aber keine Markovprozesse sind?
Klenke, Achim. Wahrscheinlichkeitstheorie. Springer 2005.
Hier findet man alle Vorbereitungen aus der Wahrscheinlichkeitstheorie, es gibt
auch erste Ergebnisse zu Markovprozessen und stochastischen Differentialgleichungen. Ich persönlich finde es recht technisch.
Liggett, Thomas. Continuous Time Markov Processes. AMS Graduate Studies, 2010.
Eine anspruchsvolle Einführung in die Theorie der stochastischen Differentialgleichungen.
Marcus, Michael – Rosen, Jay. Markov Processes, Gaussian Processes, and
Local Times. Cambridge Studies, 2006.
Hier wird das Schwergewicht af Gaußprozesse, insbesondere die Brownsche Bewegung, gelegt. Für Anfänger weniger zu empfehlen.
Meintrup, David - Schäffler, Stefan. Stochastik. Springer 2005.
Eine empfehlenswerte Gesamtdarstellung der Stochastik, die bis zum Ito-Integral
geht. Es gibt auch viele Anwendungen.
Oksendal, Bernt. Stochastic Differential Equations. Springer, 1982 (und mehrere weitere Auflagen).
Das war für lange Zeit das Standardwerk zu stochastischen Differentialgleichungen.
v
Stroock, Daniel. An Introduction to Markov Processes. Springer, 2005.
Markovketten mit besonderer Berücksichtigung der Ergodentheorie.
Winkler, Gerhard. Image Analysis, Random Fields and Markov Chain Monte
Carlo Methods. Springer, 1995.
Hier geht es um Markov-Methoden in der Bildverarbeitung.
Inhaltsverzeichnis
1 Vorbereitungen
1.1 Erinnerung an die elementare Stochastik
1.2 Maßtheorie . . . . . . . . . . . . . . . .
1.3 Stochastische Prozesse . . . . . . . . . .
1.4 Bedingte Erwartungen . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
3
5
8
2 Markovprozesse I
11
2.1 Was ist ein Markovprozess? . . . . . . . . . . . . . . . . . . . . . 11
2.2 Ein Charakterisierungssatz . . . . . . . . . . . . . . . . . . . . . 14
3 Markovketten
17
3.1 Die wichtigsten Definitionen . . . . . . . . . . . . . . . . . . . . . 17
3.2 Die Struktur von endlichen Markovketten . . . . . . . . . . . . . 24
3.3 Homogene Markovketten in kontinuierlicher Zeit . . . . . . . . . 24
4 Optimales Stoppen auf Markovketten
31
4.1 Die Präzisierung der Problemstellung . . . . . . . . . . . . . . . . 33
4.2 Superharmonische Funktionen . . . . . . . . . . . . . . . . . . . . 34
4.3 Die optimale Lösung . . . . . . . . . . . . . . . . . . . . . . . . . 37
5 Die Brownsche Bewegung
43
5.1 Brownsche Bewegung: Definition / Existenz . . . . . . . . . . . . 43
5.2 Brownsche Bewegung: Eigenschaften . . . . . . . . . . . . . . . . 46
6 Stochastische Integrale/Differentialgleichungen
57
6.1 Riemann-Stieltjes-Integrale . . . . . . . . . . . . . . . . . . . . . 57
6.2 Ito-Isometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.3 Stochastische Differentialgleichungen . . . . . . . . . . . . . . . . 68
7 Die
7.1
7.2
7.3
Ito-Formel
71
Neue stochastische Integrale . . . . . . . . . . . . . . . . . . . . . 71
Die Ito-Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Anwendungen der Ito-Formel . . . . . . . . . . . . . . . . . . . . 76
vii
0
INHALTSVERZEICHNIS
8 Monte-Carlo-Verfahren
8.1 Partielle Differentialgleichungen . . . . . . . . . . . . . . . .
8.2 n-dimensionale stochastische Differentialgleichungen . . . .
8.3 Stoppen von stochastischen Prozessen . . . . . . . . . . . .
8.4 Die Dynkin-Formel . . . . . . . . . . . . . . . . . . . . . . .
8.5 Monte-Carlo-Methoden für partielle Differentialgleichungen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
79
79
80
81
82
82
9 Finanzmathematik: einige grundlegende Begriffe
87
9.1 Die Bank, Optionen und Arbitrage . . . . . . . . . . . . . . . . . 87
9.2 Binomialmodelle, die Black-Scholes-Welt . . . . . . . . . . . . . . 90
10 Finanzmathematik: die Black-Scholes-Formel
93
10.1 Die Problemstellung: Bewertung von Optionen . . . . . . . . . . 93
10.2 Die Black-Scholes-Gleichung . . . . . . . . . . . . . . . . . . . . . 94
10.3 Die Black-Scholes-Formel . . . . . . . . . . . . . . . . . . . . . . 96
Kapitel 1
Vorbereitungen
In diesem Kapitel erinnern wir zunächst an einige Definitionen und Ergebnisse
aus der elementaren Stochastik. Alles findet sich – zum Beispiel – in meinem
Skript zu dieser Vorlesung. Danach gibt es einige Informationen zur Maßtheorie,
und im letzten Abschnitt geht es um den wichtigen Begriff bedingte Erwar”
tung“.
1.1
Erinnerung an die elementare Stochastik
Es wird in dieser Vorlesung vorausgesetzt, dass die folgenden Sachverhalte bekannt sind:
Wahrscheinlichkeitsräume
• Eine σ-Algebra E auf einer Menge Ω ist eine Teilmenge der Potenzmenge,
die unter allen Mengenoperationen stabil ist, bei denen höchstens abzählbar viele Elemente von E beteilgt sind.
• Sei E eine σ-Algebra auf Ω. Eine Abbildung P : E → [0, 1] heißt ein
Wahrscheinlichkeitsmaß , wenn P(Ω) = 1 ist und
[
X
P( En ) =
P(En )
n
n
für jede Folge (En ) von paarweise disjunkten Mengen in E gilt.
• Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, E, P); dabei ist Ω eine Menge, E eine σ-Algebra auf Ω und P ein Wahrscheinlichkeitsmaß auf (Ω, E).
• Die σ-Algebra der Borelmengen auf dem R n ist die kleinste σ-Algebra,
die alle offenen Teilmengen enthält. Faustregel: Jede Teilmenge, die in
den Anwendungen jemals vorkommen kann, ist eine Borelmenge.
Wichtige Beispiele für Wahrscheinlichkeitsräume
1
2
KAPITEL 1. VORBEREITUNGEN
• Ist Ω endlich oder höchstens abzählbar, so ist E in der Regel die Potenzmenge. Ein Wahrscheinlichkeitsmaß ist dann durch die Angabe der Zahlen
P({ω}) definiert. (Diese Zahlen müssen nichtnegativ sein und sich zu Eins
summieren.)
• Die wichtigsten Beispiele dazu sind
– Laplaceräume: Da ist Ω endlich, und alle Elementarereignisse haben
die gleiche Wahrscheinlichkeit.
– Bernoulliräume. Hier ist Ω = {0, 1}, und es reicht die Angabe der
Zahl p = P({1}) ( Wahrscheinlichkeit für Erfolg“), um das Wahr”
scheinlichkeitsmaß festzulegen.
– Abgeleitet von Bernoulliräumen sind die geometrische Verteilung (warten auf den ersten Erfolg), die Binomialverteilung (k Erfolge in n Versuchen), die hypergeometrische Verteilung (Ziehen ohne Zurücklegen)
und die Poissonverteilung (Grenzwert von Binomialverteilungen).
• Sei zunächst Ω eine einfache“ Teilmenge von R (etwa ein Intervall) und
”
f : Ω → R eine gutartige“ (etwa eine stetige) nichtnegative Funktion mit
”
Integral Eins. Dann kann damit ein Wahrscheinlichkeitsraum durch die
Festsetzung
Z
P(E) :=
f (x) dx
E
definiert werden. Dabei kann E eine beliebige Borelmenge sein, für die
Anwendungen reicht es aber so gut wie immer, sich für E ein Teilintervall
von Ω vorzustellen. f heißt dann die Dichtefunktion zu dem so definierten
Wahrscheinlichkeitsmaß.
• Die wichtigsten Beispiele sind
– Die Gleichverteilung auf [a, b]; da ist f (x) := 1/(b − a).
– Die Exponentialverteilung zum Parameter λ > 0; sie ist durch die
Dichtefunktion
f (x) := λ · e−λx
auf R + definiert. Durch die Exponentialverteilung kann gedächtnisloses Warten beschrieben werden.
– Die Normalverteilungen N (µ, σ 2 ) auf R. Sie haben – für µ ∈ R und
σ > 0 – die Dichtefunktion
f (x) := √
2
2
1
e−(x−µ) /2σ .
2πσ
Sie spielen für die Statistik eine ganz besonders wichtige Rolle.
• Die gleiche Idee kann in allen Situationen ausgenutzt werden, in denen ein
Integral zur Verfügung steht. Wer also auf R das Lebesgue-Integral kennen
gelernt hat, kann integrierbare Dichten zulassen, wer die Integration im
1.2. MASSTHEORIE
3
R n beherrscht, kann leicht Wahrscheinlichkeitsmaße auf den Borelmengen
dieses Raumes angeben usw. Für uns wird das später auch sehr wichtig werden, Eigenschaften mehrdimensionaler Normalverteilungen werden
eine wichtige Rolle spielen.
Wahrscheinlichkeitstheorie: Grundbegriffe
• Bedingte Wahrscheinlichkeit.
• Was bedeutet Unabhängigkeit“ für zwei, endlich viele bzw. beliebig viele
”
Ereignisse?
• Zufallsvariable.
• Erwartungswert und Streuung.
• Unabhängigkeit für Zufallsvariable.
Grenzwertsätze
Die Grenzwertsätze besagen, dass der Zufallseinfluss verschwindet“, wenn
”
sich viele“ Zufallseinflüsse unabhängig überlagern. Genauer:
”
• Was bedeuten Konvergenz in Wahrscheinlichkeit“, Konvergenz in Ver”
”
teilung“, Fast sichere Konvergenz“?
”
• Das Wurzel-n-Gesetz.
• Das Lemma von Borel-Cantelli
• Das schwache Gesetz der großen Zahlen.
• Das starke Gesetz der großen Zahlen.
• Der zentrale Grenzwertsatz.
1.2
Maßtheorie
In der elementaren Stochastik konnte man sich weitgehend auf diskrete Räume
und Räume mit Dichten beschränken. Die Räume in dieser Vorlesung sind komplizierter, es muss der allgemeine Maßbegriff bekannt sein. Insbesondere wird für
die Definition
R des Erwartungswerts einer Zufallsvariablen der allgemeine Integralbegriff X dP wichtig. Beweise zu den Ergebnissen dieses Abschnitts findet
man in jedem Buch zur Maßtheorie, z.B. in meinem.
Wichtige Definitionen
Es wird immer wieder um erzeugte σ-Algebren gehen;
• Ist B ein Mengensystem, so schreiben wir σ(B) für die erzeugte σ-Algebra.
4
KAPITEL 1. VORBEREITUNGEN
• Ist X eine skalarwertige Zufallsvariable, so bezeichnet σ(X) die kleinste
σ-Algbera, in der X messbar ist. (Es ist übrigens σ(X) das System der
X −1 (B), wenn B alle Borelmengen durchläuft.)
• Analog ist für eine Menge Y von Zufallsvariablen σ(Y) die kleinste σAlgebra, in der alle Y ∈ Y messbar sind. Den Spezialfall einer endlichen
Familie schreiben wir so: σ(Y1 , . . . , Yn ).
Wichtige Ergebnisse
1.2.1 Satz von Radon-Nikodym: Es sei (Ω, E, P) ein Wahrscheinlichkeitsraum. Ist dann ν : E → [ 0, 1 ] ein weiteres endliches Maß, für das stets
P(E) = 0 ⇒ ν(E) = 0
R
gilt, so gibt es eine Zufallsvariable Y : Ω → R + , so dass ν(E) = E Y dP für
alle E ist.
1.2.2 Satz von der dominierten Konvergenz (Lebesgue): Es sei (Ω, E, P)
ein Wahrscheinlichkeitsraum, und g, f, f1 , f2 , . . . : Ω → R seien intgegrierbare
Funktionen. g sei eine Majorante der fn , d.h. |fn (ω)| ≤ g(ω) für alle n, ω.
Ist dann g integrierbar und Rkonvergieren
R die fn punktweise gegen f , so ist
auch f integrierbar und es gilt fn dP →n f dP .
Beweistechniken
Es gibt in der Wahrscheinlichkeitstheorie einige Beweistechniken, die immer
und immer wieder eingesetzt werden. An einige soll hier erinnert werden.
Besonders wichtig ist der Dynkin-System-Trick“. (Ein Dynkinsystem ist
”
ein Mengensystem, das beinahe“ eine σ-Algebra ist: Man verlangt nur, dass
”
disjunkte abzählbare Vereinigungen wieder dazu gehören.) Er geht so:
1.2.3 Dynkin-System-Trick: Es sei D0 ein System von Teilmengen von Ω
und D das von D0 erzeugte Dynkin-System. Ist D0 durchschnittsstabil, so stimmt
D mit der von D0 erzeugten σ-Algebra überein.
In typischen Anwendungen möchte man etwa zeigen, dass E 0 = E für zwei
σ-Algebren ist. Man weiß:
• E 0 ⊂ E.
• E 0 ist ein Dynkinsystem.
• E 0 ⊃ E0 , und E ist die von E0 erzeugte σ-Algebra.
• E0 ist ∩-stabil.
Dann ist man nach dem Satz auch schon fertig!
So ist zum Beispiel schnell einzusehen, dass zwei Wahrscheinlichkeitsmaße
auf R (mit den Borelmengen als σ-Algebra) identisch sind, wenn sie für alle
1.3. STOCHASTISCHE PROZESSE
5
kompakten Intervalle den gleichen Wert liefern. (Wende die vorstehende Technik an mit E 0 = alle Borelmengen, für die die Maße übereinstimmen, E0 = die
kompakten Intervalle)1 .
1.3
Stochastische Prozesse
Ein stochastischer Prozess auf einem Maßraum (Ω, E, P) ist nichts weiter als eine
Familie von Zufallsvariablen. Das Prozess“-hafte drückt sich dadurch aus, dass
”
in quasi allen wichtigen Beispielen die Indexmenge als Zeit interpretiert werden
kann:
• Wie viele Fahrzeuge sind bis zur Zeit t unter der Brücke durchgefahren?
• Wie hoch ist der Gewinn im n-ten Spiel?
• Wo befindet sich die Rakete zur Zeit t?
• ...
Wir werden folglich voraussetzen, dass T ⊂ R, wobei praktisch nur die folgenden Fälle interessant sind:
T = R + , T = [ a, b ] , T = N 0 , T = {n, n + 1, . . . , m}.
Über allgemeine stochastische Prozesse lässt sich recht wenig aussagen, es
gibt wenige allgemeine nichttriviale Ergebnisse dazu. Wichtig ist insbesondere
der Satz von Kolmogoroff , der besagt, dass man stochastische Prozesse in allen
interessanten Fällen aus der Vorgabe der endlich-dimensionalen Randverteilungen konstruieren kann.
Es gibt eine Reihe von speziellen Familien von stochastischen Prozessen,
für die sich interessante und häufig anwendbare Theorien entwickeln lassen. In
dieser Vorlesung werden zwei dieser Familien eine Rolle spielen, nämlich
• Markovprozesse: da hängt die zukünftige Entwicklung nur von der Gegenwart ab. Exakte Definitionen folgen in Kapitel 2.
• Martingale: Die braucht man, um faire Spiele zu beschreiben. Die Martingalbedingung besagt, dass die Entwicklung, vom jetzigen Standpunkt aus
gesehen, ausgewogen ist. Martingale werden erst später in dieser Vorlesung
eine Rolle spielen.
Um die vagen Ideen präzisieren zu können, spielt der Begriff der bedingten
Erwartung eine fundamental wichtige Rolle. Der nächste Abschnitt wird dieser
Definition gewidmet sein.
1 Weitere
1/2
Beispiele finden sich in meinem Skript zur elementaren Stochastik auf Seite 96
6
KAPITEL 1. VORBEREITUNGEN
Es sollen vorher noch zwei Begriffe eingeführt werden, die im Folgenden
gebraucht werden.
Filtrationen
Es sei (Xt )t∈T ein stochastischer Prozess, wieder sei T ⊂ R, und die t ∈ T
werden als Zeiten interpretiert. Die Xt sollen alle auf einem Wahrscheinlichkeitsraum (Ω, E, P) definiert sein.
Ist dann eine Filtration (Ft )t∈T gegeben, so bedeutet das:
• Die Ft sind Teil-σ-Algebren von E.
• Für s < t gilt Fs ⊂ Ft .
Interessant sind Fälle, bei denen (Xt )t an (Ft )t adaptiert ist: Es soll jeweils Xt
Ft -messbar sein.
Bemerkung: Ist (Xt ) als stochastischer Prozess vorgegeben, so kann man stets
so eine Filtration finden: Man muss nur Ft als die von {Xs | s ≤ t} erzeugte
σ-Algebra definieren. (Das wird die natürliche Filtration genannt. Falls nichts
anderes gesagt ist, soll (Ft ) immer so erklärt sein.)
Die Interpretation ist die folgende. In der modernen Wahrscheinlichkeitsrechnung wird Information über (Ω, E, P)“ als Teil-σ-Algebra
”
von E verschlüsselt: Heißt diese Teil-σ-Algebra E0 , so hat man für
alle E0 ∈ E0 die Information, ob ω ∈ E0 gilt oder nicht.
Ft ist die bis zum Zeitpunkt t angesammelte Information“, die
”
Monotonie-Bedingung bedeutet dann gerade, dass Information im
Lauf der Zeit nicht verloren geht. Und Adaptiertheit eines Proesses
besagt, dass die Beobachtung dieses Prozesses bis zur Zeit t zu den
Informationen dazugehört2 .
Stoppzeiten
Es sei (Ft )t∈T eine Filtration auf (Ω, E, P). Unter einer Stoppzeit (für (Ft ))
verstehen wir eine Abbildung
τ : Ω → T ∪ {∞},
die der folgenden Bedingung genügt:
Für jedes t ∈ T gehört {ω | τ (ω) ≤ t} zu Ft .
2 Manchmal kann F echt größer sein. Als Beispiel werde ein Zufallsspaziergang durch einen
t
Würfel gesteuert: Man startet bei 0, und ist der k-te Wurf Yk gerade bzw. ungerade, so geht es
um einen Schritt nach rechts bzw. links; so wird (Xn ) erzeugt. Setzt man Fn := σ{Yk | k ≤ n},
so ist (Xn ) adaptiert, aber Fn enthält mehr Informationen als die Spaziergangsbeobachtung.
1.3. STOCHASTISCHE PROZESSE
7
Die Idee: Es soll möglich sein, aufgrund der in Ft enthaltenen Information
Stopp“ zu sagen. So würde etwa Stoppe, wenn der Spaziergänger zum ersten
”
”
Mal ins Negative kommt“ einer sinnvollen Stoppregel in Bezug auf die natürliche
Filtration entsprechen, Stoppe dann, wenn der Spaziergänger im übernächsten
”
Schritt zum ersten Mal die 100 betritt“ aber nicht.
Im täglichen Leben unterscheidet man ja auch sinnvolle und sinnlose Anleitungen: Vergleiche Am Kaufhaus links abbiegen“ mit Fünf Querstraßen vor
”
”
der Arnimallee rechts abbiegen“.
Die Definition Stoppzeit“ sieht recht technisch aus. Wirklich ist es gewöh”
nungsbedürftig, mit diesem Begriff exakt zu arbeiten. Er hat sich aber als maßgeschneidert herausgestellt, wenn man das Thema Entscheidungen treffen“ an”
gemessen modellieren möchte.
Hier noch einige
Bemerkungen:
1. Es ist sinnvoll, sich – zum Kennenlernen der Definition – von einigen Tatsachen zu überzeugen:
• Abzählbare Suprema und Infima von Stoppzeiten sind wieder Stoppzeiten.
• Mit τ ist auch τ + n Stoppzeit, τ − n aber – plausibler Weise – im allgemeinen nicht.
• Ist τ eine Stoppzeit, so ist
Fτ := {E ∈ E | E ∩ {τ ≤ t} ∈ Ft für alle t}
eine σ-Algebra: Die σ-Algebra der τ -Vergangenheit.
2. Es sind fast ausschließlich solche τ von Interesse, bei denen {τ = ∞} eine
Nullmenge ist.
3. Gibt es auch noch einen an (Ft ) adaptierten Prozess (Xt ), so wird der gestoppte Prozess (Xtτ )t so definiert: Xtτ (ω) ist gleich Xt (ω) für t ≤ τ (t) und
gleich Xτ (ω) (ω) sonst.
Ohne Zusatzbedingungen kann dann nicht gezeigt werden, dass die Xtτ wirklich Zufallsvariable sind. Hinreichend ist zum Beispiel, dass T = {tk | k ∈ N}
abzählbar ist. Dann ist nämlich {Xtτ ≤ a} schreibbar als
[
{τ = tk } ∩ {Xtk ≤ a} ∪ {t ≤ τ } ∪ {Xt ≤ a} .
tk <t
Ganz analog führt man die durch Stoppen gemäß τ entstehende Zufallsvariable X τ ein. Es ist
X τ (ω) := Xτ (ω) (ω),
falls τ (ω) < ∞. Auf {τ = ∞} ist X τ nicht definiert. Das macht aber nichts,
wenn das – wie in den meisten Fällen – nur eine Nullmenge ist. Wieder muss
man durch Zusatzbedingungen sicherstellen, dass die so definierte Abbildung
messbar ist.
8
KAPITEL 1. VORBEREITUNGEN
1.4
Bedingte Erwartungen
In der modernen Wahrscheinlichkeitstheorie wird – wie schon im vorigen Abschnitt gesagt – Information“ über einen Wahrscheinlichkeitsraum (Ω, E, P) als
”
Unter-σ-Algebra von E“ interpretiert.
”
Sei nun E0 eine Teil-σ-Algebra von E und Y : Ω → R eine integrierbare
Zufallsvariable.
Die bedingte Erwartung von Y |E0 für E0 ∈ E0 ist doch
R
Y
dP/P(E
),
und
das soll übersichtlich – gleichzeitig für alle E0 – codiert
0
E0
werden.
1.4.1 Definition Eine Funktion φ heißt bedingte Erwartung von Y unter der
Voraussetzung E0 , wenn gilt:
• φ ist E0 -messbar.
• Für alle E0 ∈ E0 ist
R
E0
Y dP =
R
E0
φ dP.
Fundamental wichtig ist dann der
1.4.2 Satz Zu Y existiert eine bedingte Erwartung, und diese Funktion ist –
bis auf mögliche Abänderung auf einer E0 -Nullmenge – eindeutig bestimmt. Wir
bezeichnen sie mit E(Y | E0 ).
Beweis: R Das folgt schnell aus dem Satz von Radon-Nikodym den wir auf
ν : E0 7→ E0 Y dP anwenden.
Man mache sich klar, wie E(Y | E0 ) in Spezialfällen aussieht, insbesondere,
wenn E0 von endlich vielen Atomen erzeugt wird.
Varianten: 1. Falls E0 durch eine oder mehrere Zufallsvariable erzeugt ist,
schreiben wir E(Y | X) oder E(Y | Y) oder E(Y | Y1 , . . . , Yn ).
2. Ist A ein Ereignis, so setzen wir P(A | E0 ) := E(χA | E0 ): das ist die natürliche
Verallgemeinerung der bedingten Erwartung.
Aus dem Satz ergibt sich noch eine wichtige Beweisstrategie: Wenn man
zeigen soll, dass eine vorgelegte Funktion ψ (fast sicher) gleich E(Y | E0 ) ist, so
reicht es, zwei Tatsachen nachzuprüfen:
1. ψ ist E0 -messbar.
2. Für alle E0 ∈ E0 ist
R
E0
ψ dP =
R
E0
Y dP.
Nach dem Satz muss dann ψ = E(Y | E0 ) sein.
Es ist mit dieser Strategie fast trivial zu zeigen, dass Y 7→ E(Y | E0 ) eine
lineare Abbildung ist. Es gibt noch andere wichtige Eigenschaften:
1.4.3 Satz
(i) Ist X E0 -messbar, so ist
E(XY | E0 ) = XE(Y | E0 ).
1.4. BEDINGTE ERWARTUNGEN
9
(ii) Es gelte E1 ⊂ E2 . Dann ist
E E(Y | E2 ) | E1 = E(Y | E1 ).
(iii) Ist Y unabhängig von E0 3 , so ist E(Y | E0 ) = E(Y ).
(iv) Es sei D0 ein schnittstabiles Mengensystem mit Ω ∈ D, so dass E0 die
von
σ-Algebra ist. Ist dann φ eine E0 -messbare Funktion und gilt
R D0 erzeugte
R
φ
dP
=
Y
dP für alle D0 ∈ D0 , so ist φ = E(Y | E0 ).
D0
D0
Beweis: (i) Es ist zu zeigen, dass XE(Y | E0 ) E0 -messbar ist und der Integralbedingung genügt. Der erste Teil ist klar, da Produkte messbarer Funktionen
messbar sind.
P
Für den zweiten Teil approximiere X durch eine Treppenfunktion i ai χAi
mit ai ∈ R und disjunkten Ai bis auf ε. Dann ist für E0 ∈ E0
Z
Z X
XY dP ≈
(
ai χAi )Y dP
E0
E0
=
X
i
Z
ai
χAi Y dPi
E0
i
=
X
Z
ai
Y dP
Ai ∩E0
i
=
X
Z
E(Y | E0 ) dP
ai
Ai ∩E0
i
=
X
Z
χAi E(Y | E0 ) dP
ai
E0
i
Z
=
E0
X
(
ai χAi )E(Y | E0 ) dP
i
Z
≈
XE(Y | E0 ) dP.
E0
(Hier war wichtig, dass Ai ∩E0 ∈ E0 .) Für ε → 0 wird die Approximation immer
besser, und das zeigt
Z
Z
XY dP =
XE(Y | E0 ) dP.
E0
E0
(ii) E(Y | E1 ) ist sicher E1 -messbar. Sei noch E1 ∈ E1 , wir müssen zeigen, dass
Z
Z
E(Y | E2 ) dP =
E(Y | E1 ) dP.
E1
E1
R
Das ist aber klar, denn beide Integrale stimmen mit E1 Y dP überein. (Hier
wird bei der Auswertung des linken Inttegrals ausgenutzt, dass E1 ∈ E2 )
3Y
ist also von allen χE0 mit E0 ∈ E0 unabhängig.
10
KAPITEL 1. VORBEREITUNGEN
(iii) Zunächst erinnern wir daran, dass E(W Z) = E(W )E(Z) für unabhängige
Zufallsvariable W, Z.
Nun zum Beweis. Die konstante Funktion E(Y ) ist sicher E0 -messbar. Sie
genügt auch der Integralbedingung:
Z
E(Y ) dP = E(χE0 )E(Y )
E0
= E(χE0 Y )
Z
=
χE0 Y dP
ZΩ
=
Y dP.
E0
(iv) Das System D aller D ∈ E0 mit
Z
Z
φ dP =
Y dP
D
D
ist offensichtlich ein Dynkinsystem. Es enthält D0 und muss deswegen nach 1.2.2
mit E0 übereinstimmen.
Kapitel 2
Markovprozesse I
In diesem Abschnitt werden Markovprozesse eingeführt und charakterisiert.
2.1
Was ist ein Markovprozess?
2.1.1 Definition (Xt ) heißt ein Markovprozess (genauer: Markovprozess in
Bezug auf (Ft )), wenn gilt: Ist t < t0 und B eine Borelmenge in R, so ist
P(Xt0 ∈ B | Ft ) = P(Xt0 ∈ B | Xt ).
Dabei ist für Ereignisse E die bedingte Wahrscheinlichkeit P(E | Ft ) als die
Funktion E(χE ) | Ft ) erklärt.
Anders ausgedrückt: Um Prognosen über Xt0 abzugeben, ist die Information
Ft (also insbesondere die Vorgeschichte des Prozesses bis t) genauso gut wie die
in Xt enthaltene Information.
Bemerkungen: 1. Ist (Ft ) die natürliche Filtration, so ist dazu äquivalent: Für
tn < tn−1 · · · t1 < t < t0 ist
P(Xt0 ∈ B | Xtn , . . . , Xt1 , Xt ) = P(Xt0 ∈ B | Xt ).
Dazu ist nur zu beachten, dass
[
σ(Xt1 , . . . , Xtn , Xt )
n∈N,tn <tn−1 ···t1 <t
ein schnittstabiler Erzeuger von σ({Xs | s ≤ t}) ist. Das Ergebnis folgt dann
aus Satz 1.4.3(iv).
2. Äquivalent ist auch: Für jede integrierbare Xt0 -messbare Funktion g, also für
jede Funktion der Form h(Xt0 ), gilt
E(g | Ft ) = E(g | Xt ).
11
12
KAPITEL 2. MARKOVPROZESSE I
Das liegt daran, dass messbare Funktionen durch Linearkombinationen von charakteristischen Funktionen zu Mengen des Typs {Xt0 ∈ B} approximiert werden
können.
Es gilt sogar viel mehr. Nicht nur für die Prognose von Xt0 , sondern für
die Prognose der ganzen t-Zukunft ist bei Markovprozessen die Xt -Information
gleichwertig zur Ft -Information. Genauer:
2.1.2 Satz Es sei (Xt ) ein Markovprozess.
(i) Ist t < t1 < · · · < tn und sind B1 , . . . , Bn Borelmengen, so gilt
P Xt1 ∈ B1 , . . . , Xtn ∈ Bn | Ft = P Xt1 ∈ B1 , . . . , Xtn ∈ Bn | Xt .
(ii) Es sei A ein Ereignis der t-Zukunft, also ein Element von σ{Xs | s ≥ t}
(diese σ-Algebra werden wir mit Zt bezeichnen). Dann gilt
P A | Ft = P A | Xt .
Beweis:
(i) Wir beginnen mit drei Vorbemerkungen:
• Ist X eine Zufallsvariable und ist eine weitere Zufallsvariable Y σ(X)messbar, so gibt es eine Borelfunktion g mit Y = g ◦ X. (Umgekehrt
stimmt das natürlich auch.)
• χ{X∈B} = χB ◦ X (klar).
• Es seien E1 ⊂ E2 σ-Algebren und Y eine Zufallsvariable. Ist dann E(Y | E2 )
E1 -messbar, so ist E(Y | E2 ) = E(Y | E1 ) (klar).
Seien nun die ti , Bi vorgegeben.
P(Xt1 ∈ B1 , . . . , Xtn ∈ Bn | Ft )
= E((χB1 ◦ Xt1 ) · · · (χBn ◦ Xtn ) | Ft )
= E E(χB1 ◦ Xt1 · · · χBn ◦ Xtn | Ftn−1 ) | Ft
Das gilt nach Satz 1.4.3.(ii).
Die Ftn−1 -messbaren Funktionen können nach vorn gezogen werden:
= E (χB1 ◦ Xt1 ) · · · (χBn−1 ◦ Xtn−1 ))E(χBn ◦ Xtn | Ftn−1 ) | Ft ,
und die innen stehende bedingte Erwartung ist wegen der Markov-Eigenschaft
gleich E(χBn ◦ Xtn | Xtn−1 ) , kann also als g(Xtn−1 ) geschrieben werden:
= E (χB1 ◦ Xt1 ) · · · (χBn−1 ◦ Xtn−1 )g(Xtn−1 ) | Ft .
Ganz ähnlich (auf Ftn−2 bedingen, Markoveigenschaft ausnutzen, als h(Xtn−2 )
schreiben) wird der Ausdruck zu
E (χB1 ◦ Xt1 ) · · · (χBn−2 ◦ Xtn−2 )h(Xtn−2 ) | Ft ,
2.1. WAS IST EIN MARKOVPROZESS?
13
und nach endlich vielen Schritten landen wir bei
= E g̃(Xt1 ) | Ft
für eine geeignete Borelfunktion g̃. Wegen der Markoveigenschaft ist das gleich
= E g̃(Xt1 ) | Xt ,
die Ausgangsfunktion ist also Xt -messbar und stimmt deswegen nach Vorbemerkung mit
P(Xt1 ∈ B1 , . . . , Xtn ∈ Bn | Xt )
überein.
(ii) Das ist relativ einfach. Sei nämlich D das System der A aus der Zukunftsσ-Algebra Zt , für die die Behauptung stimmt. Das ist ein Dynkin-System, das
nach (i) den ∩-stabilen Erzeuger
{Xt1 ∈ B1 , . . . , Xtn ∈ Bn }, t ≤ t1 < · · · < tn , Bi Borel
von Zt enthält. Damit ist D = Zt wie behauptet (vgl. 1.2.2).
Hier noch eine hinreichende Bedingung:
2.1.3 Satz Es sei (Xt )t≥0 ein reellwertiger stochastischer Prozess. Für 0 ≤ t <
t0 sei Xt0 − Xt von Ft := σ{Xs | s ≤ t} unabhängig1 .
Dann ist (Xt ) ein Markovprozess zu (Ft )t≥0 .
Beweis: Es ist zu zeigen, dass
P(Xt0 ∈ C | Ft ) = P(Xt0 ∈ C | Xt )
für 0 ≤ t < t0 und Borelmengen C ⊂ R.
Es sei 0 ≤ t < t0 . Als Vorbereitung betrachten wir Borelmengen A und B in
R. Dann ist, mit S := Xt0 − Xt ,
P(S ∈ A, Xt ∈ B | Ft )
=
=
=
=
=
E(χS∈A,Xt ∈B | Ft )
E(χS∈A χXt ∈B | Ft )
χXt ∈B E(χS∈A | Ft )
χXt ∈B E(χS∈A )
χXt ∈B P(S ∈ A).
Dabei haben Satz 1.4.3 ausgenutzt (Xt ist Ft -messbar, und χS∈A ist von Ft
unabhängig).
Ganz genauso zeigt man, dass auch die Gleichung P(S ∈ A, Xt ∈ B | Xt ) =
χXt ∈B P(S ∈ A) gilt.
Die Gleichheit von P((S, Xt ) ∈ ∆ | Ft ) und P((S, Xt ) ∈ ∆ | Xt ) gilt also
für alle Mengen ∆ der Form A × B. Die Gesamtheit aller dieser ∆ ist ein
1 Man
spricht von unabhängigen Zuwächsen.
14
KAPITEL 2. MARKOVPROZESSE I
Dynkinsystem, und die A × B bilden einen durchschnittsstabilen Erzeuger der
Borelmengen des R 2 : So folgt, dass
P((S, Xt ) ∈ ∆ | Ft ) = P((S, Xt ) ∈ ∆ | Xt )
für alle Borelmengen ∆ ⊂ R 2 gilt.
Nun sei C eine Borelmenge in R. Wir setzen ∆C := {(x, y) | x + y ∈ C}.
Dann ist
P(Xt0 ∈ C | Ft )
=
=
=
=
P(Xt + S ∈ C | Ft )
P((Xt , S) ∈ ∆C | Ft )
P((Xt , S) ∈ ∆C | Xt )
P(Xt0 ∈ C | Xt ).
Damit ist der Satz vollständig bewiesen.
2.2
Ein Charakterisierungssatz
Ein Prozess ist genau dann ein Markovprozess, wenn Zukunft und Vergangen”
heit unter der Bedingung der Gegenwart unabhängig voneinander sind“. Genauer:
2.2.1 Theorem: Es sei (Xt )t∈T ) ein stochastischer Prozess, der zu einer Filtration (Ft ) adaptiert ist. Dann gilt: (Xt ) ist genau dann ein Markovprozess (in
Bezug auf (Ft )), wenn für alle alle t ∈ T , alle A ∈ Ft und alle B ∈ Zt (das ist
die σ-Algebra σ{Xs | s ≥ t}) gilt:
P(A ∩ B | Xt ) = P(A | Xt )P(B | Xt ).
Beweis: (Hier folgen wir dem Aufbau aus dem Buch von Ash: “Probability”.)
Sei zunächst (Xt ) ein Markovprozess, A ∈ Ft und B ∈ Zt . Dann schließen wir
so (Begründungen finden sich unten):
P(A | Xt )P(B | Xt )
= E(χA | Xt )E(χB | Xt )
= E χA E(χB | Xt ) | Xt
= E χA E(χB | Ft ) | Xt
= E E(χA χB | Ft ) | Xt
= E(χA χB | Xt )
= P(A ∩ B | Xt ).
Wir haben ausgenutzt:
• Messbare Funktionen können in die bedingte Erwartung hineingezogen
werden (Satz 1.4.2).
2.2. EIN CHARAKTERISIERUNGSSATZ
15
• Die Markov-Eigenschaft.
• Das Bilden der bedingten Erwartung in zwei Stufen kann zu einem Schritt
zusammengezogen werden (Satz 1.4.3).
Nun sei umgekehrt die relative Unabhängigkeitsbedingung des Theorems
vorausgesetzt. Wir müssen die Markoveigenschaft zeigen, in Wirklichkeit beweisen wir ein bisschen mehr (vgl. Satz 2.1.2(ii)). Wir zeigen nämlich sogar: Für
A ∈ Zt ist P(A | Ft ) = P(A | Xt ). Dazu ist zu beweisen, dass für B ∈ Ft die
Gleichung
Z
Z
P(A ∩ B) =
χA dP =
P(A | Xt ) dP
B
B
gilt. Das kann mit den eben verwendeten Schlussweisen so gezeigt werden (im
dritten Schritt wird die Voraussetzung ausgenutzt):
Z
P(A ∩ B) =
χA∩B dP
Ω
Z
=
P(A ∩ B | Xt ) dP
ZΩ
=
P(A | Xt )P(B | Xt ) dP
ZΩ
=
E(χA | Xt )E(χB | Xt ) dP
Ω
Z
=
E χB E(χA | Xt ) | Xt dP
ZΩ
=
χB E(χA | Xt ) dP
ZΩ
=
E(χA | Xt ) dP
B
Z
=
P(A | Xt ) dP
B
Falls (Ft ) die natürliche Filtration ist, so hat das Theorem noch eine überraschende Konsequenz : Zukunft und Vergangenheit sind völlig symmetrisch! Falls
zum Beispiel T das Intervall [ 0, t0 ] ist, so ist der rückwärts durchlaufene Prozess
(also (Xt0 −t )t∈T ) ebenfalls ein Markovprozess.
16
KAPITEL 2. MARKOVPROZESSE I
Kapitel 3
Markovketten
Die Struktur von Markovprozessen kann recht kompliziert sein. Am weitesten
kann die Theorie entwickelt werden, wenn nur diskrete Zeitpunkte betrachtet
werden und die Werte des Prozesses in einer endlichen (oder abzählbaren) Menge
liegen. Man spricht dann von Markovketten, die wichtigsten Definitionen und
einige grundlegende Ergebnisse findet man in den Abschnitten 3.1 und 3.21 .
Die Theorie wird im Fall diskret-wertiger Zufallsvariablen wesentlich schwieriger, wenn man von diskreter zu kontinuierlicher Zeit übergeht. In Abschnitt 3.3
soll kurz skizziert werden, welchen Zusammenhang es zu Halbgruppen gibt und
wie man das globale Verhalten durch einen infinitesimalen Erzeuger beschreiben
kann.
3.1
Die wichtigsten Definitionen
Markovketten: Definition und Beispiele
Sei S eine endliche oder abzählbare Menge, die Elemente werden wir Zustände
nennen. Es wird bequem sein, sich S als {1, . . . , s} (falls die Anzahl der Elemente
von S gleich s ist) oder als N vorzustellen.
Zufallsspaziergänge sind Markovprozesse.
Man kann auf recht naive Weise einen Zufallsspaziergang definieren:
• Starte irgendwo auf S. Genauer: Es ist ein Wahrscheinlichkeitsmaß auf S
vorgegeben, und die Startposition wird entsprechend dieses Maßes ausgesucht. Beachte,
P dass man dazu nur (pi )i∈S angeben muss, für die pi ∈ [ 0, 1 ]
(alle i) und i pi = 1 gilt.
• Die jeweils nächste Position wird wie folgt gefunden. Befindet man sich
zum Zeitpunkt n in i ∈ S, so wähle die Position bei n + 1 gemäß den
1 Hier gibt es nur eine Kurzfassung, sie soll die Untersuchungen des nächsten Kapitels
vorbereiten. Alles steht ausführlicher in meinem Buch über Markovketten “Introduction to
Markov Chains”, wir kürzen es hier mit ItMC ab.
17
18
KAPITEL 3. MARKOVKETTEN
(n)
(n)
vorgegebenen Wahrscheinlichkeiten (pij )j∈S . (Es ist also pij ≥ 0 für alle
P (n)
j, und es gilt j pij = 1.)
Kurz: Durch die Vorgabe eines stochastischen Vektors (pi )i∈S und von stocha(n)
stischen Matrizen P (n) = (pij )i,j∈S wird auf naive Weise ein Zufallsspaziergang
definiert.
Das kann man auch mathematisch etwas präziser einführen:
• Man verschaffe sich Zufallsvariable X0 , Yi,n , i ∈ S, n = 1, 2, . . . auf einem
geeigneten Wahrscheinlichkeitsraum (Ω, E, P). Sie sollen unabhängig sein
und es soll gelten:
(n)
P(X0 = i) = pi ; P(Yi,n = j) = pij
für alle i, j, n.
• X0 ist schon definiert, und die X1 , X2 , . . . entstehen induktiv. Angenommen, Xn ist schon konstruiert. Dann wird Xn+1 dadurch erklärt, dass
diese Zufallsvariable auf Xn = i gleich Yi,n+1 ist.
Aufgrund der Konstruktion ist offensichtlich, dass der jeweils nächste Schritt nur
von der gegenwärtigen Position abhängt, und deswegen liegt ein Markovprozess
vor.
Umgekehrt geht das auch, jeder Markovprozess mit Werten in S in diskreter
Zeit entsteht auf diese Weise. Sei (Xn )n∈N 0 so ein Prozess. Wir definieren pi :=
(n)
P(X0 = i) und pij := P(Xn+1 = j | Xn = i). Dann ist (Xn ) gleichwertig zu
(n)
demjenigen Prozess, der naiv durch die (pi )i∈S und die (pij )i,j∈S definiert ist.
Hier sind einige technische Feinheiten weggelassen worden. Es kann zum Beispiel
vorkommen, dass ein Zustand i nie erreicht wird. Dann sind die pi,j gar nicht
definiert (ihre Definition spielt allerdings auch keine Rolle).
In vielen Fällen ist es so, dass die P (n) nicht von n abhängen: Alle P (n) sind
gleich einer stochastischen s × s-Matrix P . Man spricht dann von einer homogenen Markovkette, und auf solche Situationen werden wir uns beschränken2 .
Der ganze Prozess ist also durch einen s-dimensionalen stochastischen Vektor
und eine stochastische s × s-Matrix erklärt.
Um ein Gefühl für die Situation zu bekommen, ist es wichtig, dass man
trainiert, die folgenden beiden Übersetzungen umzusetzen:
2 Im Fall S = N sind unendliche stochastische Matrizen zu betrachten. Da alle auftretenden
0
Reihen absolut konvergent sind, gibt es bei den algebraischen Manipulationen keine Schwierigkeiten. Diese Bemerkung gilt auch im Folgenden: Wenn nicht ausdrücklich das Gegenteil
betont wird, ist auch der Fall S = N 0 zugelassen.
3.1. DIE WICHTIGSTEN DEFINITIONEN
19
(n)
• Gegeben seien die (pi )i∈S und die (pij )i,j∈S . Wie kann man sich dann
den typischen“ Zufallsspaziergang vorstellen?
”
• Man beobachte sehr häufig“ einen Markovprozess. Welche Rückschlüsse
”
(n)
auf die (pi )i∈S und die (pij )i,j∈S lässt das zu?
Es folgen einige typische Beispiele:
0. Auch die Einheitsmatrix ist stochastisch. Der zugehörige Zufallsspaziergang“
”
ist nicht wirklich spannend.
1. Der gleichverteilte Zufallsspaziergang auf {1, . . . , s}. Da sind alle Einträge der
Matrix gleich 1/s.
2. Der reflektierende Zufallsspaziergang auf {1, . . . , s}. Hier ist


0 1 0 ···
0
0
0
 a2 b2 c2 · · ·
0
0
0 


 0 a3 b3 · · ·
0
0
0 


P = .
..
..
..
..
..  ,
 ..
.
.
.
.
. 


 0 0 0 · · · as−1 bs−1 cs−1 
0 0 0 ···
0
1
0
wobei ai , bi , ci ≥ 0 für i = 2, . . . , s−1 und ai + bi + ci = 1.
2. Der absorbierende Zufallsspaziergang auf {1, . . . , s}.
Mit ai , bi , ci wie eben ist diesmal

1 0 0 ···
0
0
0
 a2 b2 c2 · · ·
0
0
0

 0 a3 b3 · · ·
0
0
0

P = .
.
.
.
.
..
..
..
..
..
 ..
.

 0 0 0 · · · as−1 bs−1 cs−1
0 0 0 ···
0
0
1





.



4. Der zyklische Zufallsspaziergang auf {1, . . . , s}.
Diesmal sind die ai , bi , ci für alle i gegeben, und P wird so erklärt:


b1 c1 0 · · ·
0
0
a1
 a2 b2 c2 · · ·
0
0
0 


 0 a3 b3 · · ·
0
0
0 


P = .
..
..
..
..
..  .
 ..
.
.
.
.
. 


 0 0 0 · · · as−1 bs−1 cs−1 
cs 0 0 · · ·
0
as
bs
5. Sei G ein endlicher Graph, jede Ecke soll mit mindestens einer anderen verbunden sein. Starte dann an einer Ecke, die gemäß einer Wahrscheinlichkeitsverteilung (pi )i∈G ausgewählt wird. Wähle im jeweils nächsten Schritt unter
20
KAPITEL 3. MARKOVKETTEN
denjenigen Ecken gleichverteilt eine aus, die von der aktuellen Position aus erreichbar sind.
6. Allgemeiner können Markovketten durch gerichtete und gewichtete Graphen
veranschaulicht werden. Nachstehend sehen wir einen absorbierenden und einen
zyklischen Zufallsspaziergang:
u
YH
H
H
*
HHHH
j u
H
u
1/2
1/2
1/2
u
u
u
u
u - u
6
6
1/2
1/2
1/2
1/2
1/2
1
1
6
6
?
?
u
u
Y
H
H HH
*
HH H j u H
alle eingezeichneten pij = 1/2
6. Auf S = N0 starte in 0. Dann geht es mit Wahrscheinlichkeit p um einen
Schritt nach rechts, mit Wahrscheinlichkeit 1−p wird die Position nicht verändert.
7. Der klassische Zufallsspaziergang betrifft S = Z. Mit gleicher Wahrscheinlichkeit geht es um einen Schritt nach rechts oder links. In naheliegender Weise
kann das auf Z d ausgedehnt werden. Analog dazu haben die Beispiele 1 bis 4
d-dimensionale Varianten.
8. Fasst man die Töne einer (vollständigen oder pentatonischen) Tonleiter als
Zustände auf, so kann man die Zufallsspaziergänge auch durch Kompositionen“
”
hörbar machen.
Grundlegende Definitionen
Wie in allen mathematischen Theorien stellt sich nach und nach heraus,
welche Begriffe fundamental sind. Bei den Markovketten sind es die folgenden:
Beschreibung mit linearer Algebra
Was beim Start passiert, ist klar: Die verschiedenen Zustände i werden mit
Wahrscheinlichkeit pi eingenommen. Was ist nach einem Schritt passiert, wie
groß sind die P(X1 = i)? Nach dem Satz von der totalen Wahrscheinlichkeit ist
das gleich
X
X
P(X1 = i | X0 = j)P(X0 = j) =
pji pj .
j
j
>
Man muss also nur den Zeilenvektor (p1 , . . . , ps ) von rechts (!) mit P multiplizieren3 , die Komponenten sind dann die P(X1 = i). (Das geht im Fall
abzählbarer S übrigens genau so.)
3 Der Vektor steht also links. Das ist gewöhnungsbedürftig, denn meist werden Vektoren
als Spaltenvektoren von rechts an eine Matrix multipliziert.
3.1. DIE WICHTIGSTEN DEFINITIONEN
21
Die gleiche Idee kann man auch mehrfach anwenden: Die Wahrscheinlichkeiten P(Xn = i) sind gerade die Einträge des Zeilenvektors (p1 , . . . , ps )> P n . Auf
diese Weise kommt die lineare Algebra ins Spiel
Invariante Teilmengen
Welche Bereiche in S kann der Prozess erreichen? Eine nichtleere Teilmenge
C von S heißt invariant, wenn gilt: einmal in C, immer in C. Formal wird das
so definiert: Für i ∈ C und j ∈
/ C soll stets pij = 0 gelten. In den Beispielen
sind die invarianten Teilmengen leicht zu identifizieren.
Der Prozess heißt irreduzibel , wenn es außer S keine invarianten Teilmengen
gibt.
Einige einfache Eigenschaften sind leicht zu verifizieren: Vereinigungen und
nichtleere Durchschnitte sind wieder invariant; im Fall endlicher S gibt es minimale invariante Teilmengen4 ; verschiedene minimale invariante Mengen sind
disjunkt usw.
Angenommen, C ist invariant in S = {1, . . . , s}. Ohne Einschränkung ist C
die Menge {1, . . . , s0 }, und P hat dann die Form


∗ ··· ∗ 0 ··· 0
 ..
.. ..
.. 
 .
. .
. 


 ∗ ··· ∗ 0 ··· 0 


 ∗ ··· ∗ ∗ ··· ∗ .


 .
.. ..
.. 
 ..
. .
. 
∗
···
Allgemeiner, wenn C1 , . . . , Cr die
P wie folgt geschrieben werden:

P1 0
 0 P2

 ..
..
 .
.

 0
0
∗
∗
∗
∗
···
∗
minimalen invarianten Teilmengen sind, kann
0 ···
0 ···
..
.
0
0
..
.
0 ···
∗ ···
0 Pr
∗ ∗
0
0
..
.
0
0
..
.




;

0 
∗
(3.1)
dabei sind die Pρ die stochastische Matrizen, die zu den Einschränkungen des
Prozesses auf Pρ gehören, und “0” bezeichnet hier eine Matrix, für die alle
Einträge Null sind. (Beachte: Im endlichen Fall gibt es immer gewisse C, die
∗-Matrizen können aber evtl. fehlen.
Erreichbarkeit
Für i, j ∈ S schreiben wir i → j, falls ein Weg von i nach j möglich ist,
wenn also für ein geeignetes n ≥ 0 der (i, j)-Eintrag in P n strikt positiv ist. (Da
n = 0 zugelassen ist, gilt stets i → i.) Falls i → j und j → i gilt, sagen wir, dass
i und j kommunizieren und schreiben dafür i ↔ j“.
”
4 Für unendliche S stimmt das nicht: Im obigen Beispiel 6 sind alle Mengen {k, k + 1, . . .}
invariant, es gibt aber keine kleinste.
22
KAPITEL 3. MARKOVKETTEN
Es folgt das erste nicht ganz triviale Ergebnis:
Satz 3.1.1 (i) “↔” ist eine Äquivalenzrelation.
(ii) Ist C ⊂ S minimal und invariant, so kommunizieren je zwei Zustände in
C.
(iii) Die Kette ist genau dann irreduzibel, wenn je zwei Zustände kommunizieren.
Beweis: (i) ist klar, für den Beweis von (ii) braucht man schon einen kleinen
Trick. Es ist doch zu zeigen, dass i → j für beliebige i, j ∈ C. Sei j ∈ C.
Definiere C 0 als die Menge der i ∈ C, die niemals nach j kommen. Man zeigt
leicht, dass C 0 invariant ist. Es ist eine echte Teilmenge von C (denn j ∈
/ C 0 ),
also die leere Menge. Der Rest ist klar.
Die Periode eines Zustands
Hier soll präzisiert werden, was es heißt, dass ein Zustand nur zu gewissen
”
Zeiten“ erreichbar ist. Als Beispiel betrachten wir einen zyklischen Zufallsspaziergang auf {1, . . . , 12}, der immer deterministisch um zwei Schritte weitergeht.
Wenn man dann irgendwo startet, so wird der gleiche Zustand nach 6, 12, . . .
Schritten wieder eingenomen.
Die präzise Definition ist recht schwerfällig. Sei i ∈ S, wir nehmen an, dass
es ein k > 0 gibt, so dass der (i, i)-Eintrag von P k strikt positiv ist: Es ist also
möglich, nach k Schritten von i nach i zu kommen. Wir betrachten die Menge
∆i aller k mit dieser Eigenschaft, nach Voraussetzung ist das eine nichtleere
Teilmenge von N. Die Periode von i ist dann der größte gemeinsame Teiler von
∆i also das Maximum derjenigen Zahlen, die alle k ∈ ∆ teilen. Die Kette heißt
aperiodisch, wenn ihre Periode gleich 1 ist.
Beliebige Perioden p für Zustände i sind möglich. Beachte, dass das nicht
bedeutet, dass man von i nach i in l · p Schritten für jedes l kommt. Recht
leicht ist zu sehen, dass i und j die gleiche Periode haben, wenn i ↔ j gilt.
Insbesondere haben alle Zustände in einer minimalen invarianten Teilmenge die
gleiche Periode.
Beweisidee: Es seien d bzw. d0 die Periode von i bzw. j, und wir kommen in k
Schritten von i nach j und in k0 Schritten von j nach i. Dann ist offensichtlich
k + k0 ∈ ∆i sowie k + k0 + l ∈ ∆i für jedes l ∈ ∆j . Also teilt d die Zahl k + k0 und
alle k + k0 + l. d teilt also alle l ∈ ∆j , und so folgt d|d0 . Aus Symmetriegründen
gilt auch d0 |d, und das zeigt d = d0 .
Rekurrenz und Transienz
(k)
Wir wollen den Begriff i → j etwas quantifizieren. Sei fij die Wahrscheinlichkeit, erstmals in genau k Schritten von i nach j zu kommen (k = 1, 2, . . .).
P∞ (k)
∗
Wir setzen fij
:= k=1 fij . Wenn diese Zahl positiv ist, gilt also i → j, und
für i 6= j gilt auch die Umkehrung.
Wir sagen, dass i rekurrent ist, wenn fii∗ = 1 gilt. Andernfalls heißt i transient. Ist S endlich, so sind alle i in minimalen invarianten Teilmengen rekurrent.
Umgekehrt gilt das in endlichen Ketten auch: Liegt i in keiner minimalen
invarianten Teilmenge, so ist i transient5 .
5 Beweis
in ItMC.
3.1. DIE WICHTIGSTEN DEFINITIONEN
23
Wir kommen nun zum Phänomen der Gedächtnislosigkeit. Zur Illustration
betrachten wir zunächst eine Kette, die zwischen den Zuständen 0 und 1 hin
und her springt. Die stochastische Matrix ist also
0 1
.
1 0
Auch nach 1000 Schritten lässt sich noch sagen, ob die Kette in 0 oder 1 gestartet
wurde. Meistens ist es jedoch anders. Betrachten wir etwa


0
1
0
0
 1/3 1/3 1/3
0 

P =
 0 1/3 1/3 1/3  .
0
0
1
0
Das ist eine Variante eines reflektierenden Zufallsspaziergangs: Der Spaziergänger
legt mit einer gewissen Wahrscheinlichkeit eine Pause ein. Hier sind einige Potenzen von P :


3 3 3 0
1 1 5 2 1 
,
P2 = 
9 1 2 5 1 
0 3 3 3


15 30 30 6

1 
 10 35 26 10  ,
P4 =

10 26 35 10 
81
6 30 30 15


861 2460 2460 780

1 
 820 2501 2420 820  .
P8 =
6561  820 2420 2501 820 
780 2460 2460 861
Schon bei P 8 sind die Zeilen fast gleich“, und das bedeutet, dass es (fast) völlig
”
egal ist, auf welchem Zustand gestartet wurde: Die Wahrscheinlichkeiten für die
Position nach 8 Schritten sind fast identisch. Man spricht vom Phänomen der
Gedächtnislosigkeit.
Es folgt einer der Hauptsätze der Theorie:
Satz 3.1.2 S sei endlich, und die Kette sei aperiodisch und irreduzibel6 .
(i) Die Matrizen P k konvergieren gegen eine stochastische Matrix W , in der alle
Zeilen identisch sind: Sie stimmen mit π > überein, wobei π ein stochastischer
Vektor ist.
(ii) π ist der eindeutig bestimmte stochastische Vektor, für den π > P = π > gilt.
π > ist also linker Eigenvektor zum Eigenwert Eins.
Beweis: Der Beweis ist schwierig, er macht wesentlich von einem grundlegenden
Ergebnis der Erneuerungstheorie Gebrauch.
6 Man
sagt dann auch, dass sie ergodisch ist.
24
KAPITEL 3. MARKOVKETTEN
Seien (p0 , p1 , . . .) und (f0 , f1 , . . .) nichtnegative Zahlen. Es sei p0 = 1 und f0 = 0,
und es gelten die folgenden Gleichungen:
pk = fk + p1 fk−1 + · · · + pk−1 f1 , k = 1, 2, . . . .
Weiter sei f1 + f2 + · · · = 1, und der größtePgemeinsame Teiler der k mit fk > 0
sei gleich Eins. Dann sind die pk gegen 1/ kfk konvergent7 .
(Einzelheiten in Kapitel 7 von ItMC.)
Bemerkung: Das π = (πi ) aus dem Satz heißt die Gleichgewichtsverteilung
der Kette. Sie hat die folgende Interpretation: Wird die Kette so gestartet, dass
die einzelnen Zustände mit Wahrscheinlichkeit πi ausgewählt werden, so ist die
Verteilung nach k Schritten (k beliebig) genau die gleiche. Das liegt an dem
weiter oben erläuterten Zusammenhang zur linearen Algebra und der Tatsache
π> P k = π> .
3.2
Die Struktur von endlichen Markovketten
Mit den vorstehenden Begriffen lässt sich die Struktur beliebiger endlicher Markovketten analysieren. Gegeben seien also S = {1, . . . , s} und eine stochastische
s × s-Matrix P .
• Schreibe S als disjunkte Vereinigung C1 ∪ · · · ∪ Cr ∪ T , wobei die Cρ
die minimalen invarianten Mengen sind. T (die Menge der transienten
Zustände) kann dabei die leere Menge sein.
• Die i ∈ T landen mit Wahrscheinlichkeit Eins in irgendeinem Cρ , dort
bleiben sie dann auch. Zu den ρ gehören Absorptionswahrscheinlichkeiten
pi,ρ , die sich mit Hilfe linearer Algebra bestimmen lassen. (Vgl. Kapitel 5
in ItMC.)
• Fixiere nun ein Cρ und betrachte die Einschränkung von P auf Cρ : Das ist
die Matrix Pρ := (pij )i,j∈Cρ . Alle i ∈ Cρ haben die gleiche Periode l unter
Pρ . Wir betrachten nun die Kette mit Zustandsraum Cρ und stochastischer
Matrix Pρl . Jetzt haben alle Zustände Periode Eins. Cρ zerfällt in (bzgl.
Pρl ) minimale invariante Teilmengen, darauf ist Pρl dann ergodisch
Kurz: Wenn man transiente Zustände und ergodische Ketten beherrscht, kann
man die Struktur beliebiger Markovketten vollständig beschreiben.
3.3
Homogene Markovketten in kontinuierlicher
Zeit
In diesem Abschnitt soll beschrieben werden, welche neuen Phänomene sich
ergeben, wenn statt t ∈ N 0 als Zeitpunkte“ alle t ∈ R + zugelassen sind. S =
”
7 Hier
wird 1/∞:=0 gesetzt.
3.3. HOMOGENE MARKOVKETTEN IN KONTINUIERLICHER ZEIT 25
{1, . . . , s0 } sei wieder ein endlicher Zustandsraum8 . Wir skizzieren hier, wie man
homogene Markovketten auf verschiedene Weisen beschreiben kann.
Eine naive Vorüberlegung
Es gibt eine naheliegende Möglichkeit, von diskreter Zeit zu kontinuierlicher
Zeit überzugehen. Dazu seien eine stochastische Matrix P und eine Startverteilung vorgegeben und (Xn )n∈N 0 sei der zugehörige S-wertige Markovprozess.
Warum kann man dann nicht einfach konstant ergänzen: Liegt t in [ n, n + 1 [,
so soll Xt := Xn sein. Die Kette springt“ also immer an den ganzzahligen
”
Zeitpunkten auf den neuen Zustand.
Dann ist (Xt )t≥0 offensichtlich ein Markovprozess. Es ist aber die Homogenität verloren gegangen. Im diskreten Fall war das stochastische Verhalten beim
Übergang von i nach j zum Zeitpunkt n ∈ N 0 (nach n + 1) bei der vorliegenden
Situation von n unabhängig. Für (Xt )t≥0 stimmt das offensichtlich nicht mehr:
Die Wahrscheinlichkeiten für den Übergang von i nach j zwischen den Zeitpunkten t und t + s können sehr unterschiedlich sein: Liegen t, t + s im gleichen
[ n, n + 1 [, ist alles deterministisch, andernfalls kann es stochastische Sprünge
geben. Da wir hier Homogenität erhalten wollen, müssen wir etwas sorgfältiger
argumentieren
Homogene Markovketten in kontinuierlicher Zeit
Wir betrachten einen S-wertigen Markovprozess (Xt )t≥0 . Die Xt sind an
eine Filtration (Ft )t≥0 adaptiert, und stets gilt für 0 ≤ s < s0 und j ∈ S:
P(Xs0 = j | Fs ) = P(Xs0 = j | Xs ).
Nun ist P(Xs0 = j | Xs ) auf den Mengen {Xs = i} konstant, der Wert dort ist
P(Xs0 = j | Xs = i). Wenn diese Zahl nur von i, j, s0 − s (und nicht von i, j, s, s0 )
abhängt, sprechen wir von einer homogenen Markovkette in kontinuierlicher
Zeit.
Um pathologisches Verhalten auszuschließen, soll noch vorausgesetzt werden,
dass die Pfade t 7→ Xt (ω) für alle ω von rechts stetig sind.
Von Ketten zu Wahrscheinlichkeitsfunktionen
Wenn so eine Kette vorliegt, kann man doch für i, j ∈ S und t > 0 definieren:
pt (i, j) := P(Xs+t = j | Xs = i);
dabei kann s nach Voraussetzung völlig beliebig gewählt werden. Dann gilt der
P
Satz 3.3.1 (i) j pt (i, j) = 1 für alle t und i.
8 Wir bezeichnen in diesem Unterabschnitt die Anzahl der Elemente von S mit s (statt mit
0
s), da wir den Buchstaben s“ als Zeitparameter verwenden werden. Große Teile der Theorie
”
sind übrigens auf abzählbares S übertragbar. Es gibt aber eine Reihe von neuen technischen
Schwierigkeiten, z.B., weil dann gewisse Summationsreihenfolgen im Allgemeinen nicht mehr
vertauschbar sind.
26
KAPITEL 3. MARKOVKETTEN
P
(ii) pt+s (i, j) = k pt (i, k)ps (k, j) für alle t, s, i, j
(Chapman-Kolmogoroff-Gleichung).
(iii) limt→0+ pt (i, i) = 1 für alle i.
Beweis: (i) ist nach der Definition klar und (ii) folgt aus dem Satz von der
totalen Wahrscheinlichkeit. Zum Beweis von (iii) fixiere ein i. Mit Ωin bezeichnen
wir die Menge der ω, für die der bei i startende Pfad t 7→ Xt (ω) auf [ 0, 1/n ]
den Wert i hat. Es ist dann nach Voraussetzung Ω die aufsteigende Vereinigung
der Ωin , also gilt P(Ωin ) → 1. Beachte noch, dass pt (i, i) ≥ P(Ωin ) für t ≤ 1/n. Markovhalbgruppen
Mit den vorstehenden Bezeichnungen ist Pt := (pt (i, j))i,j∈S eine stochastische s0 ×s0 -Matrix für jedes t, und die Chapman-Kolmogoroff-Gleichung besagt,
dass Pt+s = Pt Ps für s, t ≥ 0 gilt. Auch gilt P0 = Id, und t 7→ Pt ist stetig bei
0. Man spricht dann von einerMarkov-Halbgruppe.
Für das weitere Vorgehen erinnern wir an die elementare Analysis: Ist φ :
R + → R eine stetige Funktion mit der Eigenschaft φ(0) = 1 und φ(s + t) =
φ(s)φ(t) (alle s, t ≥ 0), so gibt es ein α mit φ(t) = eαt (alle t). Das α kann aus
φ durch α = log φ(1) oder durch α = φ0 (0) berechnet werden.
Ein analoges Ergebnis gilt für Markovhalbgruppen, und deswegen ist es nicht
sehr überraschend, dass die Ableitung von t 7→ Pt bei t = 0 von Interesse ist.
Dass die e-Funktion ins Spiel kommt, kann man wie folgt einsehen.
Mal angenommen, man weiß schon, dass t 7→ Pt bei 0 differenzierbar
mit Ableitung Q ist. Für beliebiges t > 0 und großes“ n ist dann
”
t/n so klein, dass Pt/n gut durch Id + (t/n)Q approximiert werden
kann, und folglich ist
n
Pt = Pt/n+···+t/n = Pt/n
≈ (Id +
tQ n
) ≈ etQ .
n
Wir wollen allgemein die Struktur von stetigen Operatorhalbgruppen beschreiben. Für unsere Zwecke reicht es, den folgenden Satz zu beweisen:
Satz 3.3.2 t 7→ Tt sei eine Abbildung, die jedem t ≥ 0 eine s0 × s0 -Matrix
zuordnet. Es gelte Tt+s = Tt Ts für alle s, t sowie limt→0 Tt = Id = T0 . Dann
existiert
Tt − Id
A := lim
t→0
t
(die rechtsseitige Ableitung bei Null), und es gilt Tt = eAt für alle t.
Beweis: Wegen der Stetigkeit bei Null gibt es ein ε > 0, so dass ||Tt0 || ≤ 2 für
t0 ∈ [ 0, ε ] (wir arbeiten mit der Operatornorm für Matrizen).
Sei nun t > 0 beliebig. Für t/ε ≤ n ≤ 1 + t/ε ist t/n ≤ ε und folglich
||Tt || ≤ ||Tt/n ||n ≤ 2n ≤ 2(21/ε )t .
Die Norm wächst also höchstens exponentiell, die Tt sind insbesondere auf jedem
Intervall [ 0, R ] beschränkt.
3.3. HOMOGENE MARKOVKETTEN IN KONTINUIERLICHER ZEIT 27
Ebenfalls schnell ergibt sich die lokal gleichmäßige Stetigkeit. Ist ε > 0 vorgegeben, wähle δ > 0 so, dass ||Id − Tt0 || ≤ ε für t0 ≤ δ. Sind dann s, t vorgelegt
mit 0 ≤ s ≤ t ≤ R und t − s ≤ δ, so ist
||Tt − Ts || = ||Ts (Tt−s − Id)|| ≤ ||Ts ||ε ≤ Cε,
wenn C eine Normschranke der Ts auf [ 0, R ] ist.
Wir kommen nun zur Differenzierbarkeit. Setze
Tt x − x
existiert}.
t→0
t
∆ := {x ∈ R s0 | lim
Das ist offensichtlich ein Unterraum des R s0 . Wir behaupten, dass er dicht ist.
Dann wäre ∆ = R s0 , die Operatoren (Tt − Id)/t wären damit punktweise und
folglich auch bezüglich der Norm gegen eine Matrix A konvergent.
Aufgrund der Halbgruppeneigenschaft würde sich allgemeiner Tt0 = ATt ergeben:
d
Tt+h − Tt
Th − Id
Tt = lim
= lim
Tt = ATt .
h→0
h→0
dt
h
h
Aus der Theorie der Systeme linearer Differentialgleichungen weiß man, dass
dieses System die eindeutig bestimmte Lösung Tt = eAt hat, wenn die Anfangsbedingung T0 = Id erfüllt sein soll. Der Satz wäre damit vollständig bewiesen.
s0
Zeige
R t also noch, dass ∆ dicht liegt. Sei dazu x ∈ R und t > 0. Definiere
xt := 0 Ts x ds/t. Dann gilt
• xt ∈ ∆. Für h > 0 ist nämlich
1
(Th xt − xt )
h
=
=
=
=
Z t
Z t
1
Th
Ts x ds −
Ts x ds
ht
0
0
Z t
Z t
1
Th+s x ds −
Ts x ds
ht 0
0
Z t+h
Z t
1
Ts x ds −
Ts x ds
ht h
0
Z t+h
Z h
1
Ts x ds −
Ts x ds .
ht t
0
(Dabei haben wir ausgenutzt, dass lineare stetige Operatoren unter des
Integral gezogen werden können.) Wenn nun h gegen Null geht, sind beide
Summanden konvergent:
Z
1
1 t+h
Ts x ds = Tt x,
lim
h→0 t t
t
Z
1 h
1
lim
Ts x ds = x.
h→0 t 0
t
Das zeigt xt ∈ ∆.
28
KAPITEL 3. MARKOVKETTEN
• Für t → 0 geht xt gegen x. Also liegt ∆ dicht im R n .
(Die Theorie der Operatorhalbgruppen auf beliebigen – nicht notwendig endlich dimensionalen – Räumen ist im Buch Funktionalanalysis“ von Dirk Werner
”
dargestellt.)
Hier noch ein alternativer, etwas direkterer Beweis nach einer ähnlichen Strategie
(von D. Werner).
• Zeige wie eben, dass limh→0
ist.
Rt
Ts ds /t.
Th Xt − Xt /h existiert und gleich (Tt − Id)/t
• Fixiere t > 0 und definiere Xt :=
0
• Ist t klein genug, so ist Xt nahe bei Id und deswegen invertierbar. Multipliziere die eben gefundene Gleichung von rechts mit Xt−1 . So folgt
lim
h→0
Th − Id
1
= (Tt − Id)Xt−1 .
h
t
Das zeigt – diesmal direkt – die Differenzierbarkeit der Halbgruppe bei
Null.
Der infinitesimale Erzeuger
Für unseren Spezialfall bedeutet der vorstehende Satz, dass
Q = lim
t→0+
Pt − Id
= (qij )i,j∈S
t
existiert. Man spricht von der Q-Matrix des Prozesses. Die Diagonale wird eine
wichtige Rolle spielen, man setzt ci := −qi,i .
Satz 3.3.3 (i) Die Einträge qij für i 6= j liegen in R + .
P
(ii) j qij = 0 für alle i.
Beweis: Für i 6= j sind die (i, j)-Einträge von Pt − Id in R + . Deswegen ist
auch der (i, j)-Eintrag des Limes der (Pt − Id)/t größer oder gleich Null.
Zum Beweis von (ii) beachte, dass alle Komponenten von Pt (1, . . . , 1)> gleich
1 für alle t sind. Deswegen müssen (nach Differentiation) alle Komponenten von
Q(1, . . . , 1)> verschwinden.
Zusammen heißt das also: Aus den Pt ergibt sich eine Q-Matrix (Zeilensumme Null, Komponenten außerhalb der Diagonalen in R + ).
Vom infinitesimalen Erzeuger zur Markovkette
Sei nun Q eine beliebige Q-Matrix. Wir definieren Pt := etQ und behaupten:
Satz 3.3.4 Die (Pt )t≥0 sind eine Markov-Halbgruppe.
Beweis: Die Gruppeneigenschaft und die Stetigkeit bei Null sind klar, es ist
noch zu zeigen, dass alle Pt stochastische Matrizen sind.
3.3. HOMOGENE MARKOVKETTEN IN KONTINUIERLICHER ZEIT 29
Es ist Q(1, . . . , 1)> nach Voraussetzung der Nullvektor, und deswegen ist
Pt (1, . . . , 1)> der Vektor (1, . . . , 1)> : Die Zeilensumme von Pt ist jeweils gleich
Eins.
Die Komponenten von Pt liegen auch in R + : Für festes t und große n sind alle
Komponenten von Id + tQ/n nichtnegativ, das gilt dann auch für (Id + tQ/n)n ,
und das approximiert besser und besser (mit n → ∞) etQ .
Aus Q kann man also die Pt = (pt (i, j))i,j∈S zurückgewinnen. Der Prozess
(Xt ) lässt sich wie folgt konstruieren:
• Starte in irgendeinem i ∈ S.
• Bleibe dort für eine exponentialverteilte Wartezeit zum Parameter ci =
−qii .
• Springe
P danach zu einem j 6= i, und zwar zu j0 mit Wahrscheinlichkeit
qj0 / j6=i qj .
• Usw: Bleibe dort für eine exponentialverteilte Wartezeit zum Parameter
cj0 = −qj0 j0 , usw.
Fazit
Für die Beschreibung von homogenen Markovketten in kontinuierlicher Zeit
gibt es im Fall endlicher Zustandsräume drei gleichberechtigte Möglichkeiten,
nämlich
• Als Prozess (Xt )t≥0 , ein homogener Markovprozess.
• Als Markovhalbgruppe (Pt )t≥0 .
• Durch die Q-Matrix.
Ähnlich wie im diskreten Fall kann man nun die Eigenschaften der einzelnen
Zustände und des Verhalten der Kette aus den Pt oder der Matrix Q ablesen.
(S. z.B. im Buch von Liggett, Kapitel 2, insbesondere Abschnitt 2.6.)
30
KAPITEL 3. MARKOVKETTEN
Kapitel 4
Optimales Stoppen auf
Markovketten
Das Problem soll an zwei Beispielen illustriert werden.
Beispiel 1: Stellen Sie sich das folgende Spiel vor:
• Es gibt die Spielfelder 0, 1, 2, . . ., Ihr Spielstein steht auf Feld 0.
• Jetzt wird gewürfelt, entsprechend der Augenzahl rücken Sie vor.
• Nach jedem Wurf haben Sie die Möglichkeit, aufzuhören und ausgezahlt
zu werden: tausend Mal die Augenzahl des Feldes, auf dem Sie stehen.
• Wenn Sie allerdings über die 5 hinauskommen, gibt es gar nichts.
Wann sollte man bei diesem Spiel aufhören, um den Erwartungswert des Gewinns zu maximieren? Wie soll ich mich verhalten, wenn ich mich auf Feld i
befinde: aufhören oder weitermachen?
• Für i = 5 ist der Fall klar: aufhören, denn der nächste Zug verliert garantiert. Der Gewinn ist dann 5000 Euro.
• Mal angenommen, ich bin auf Feld 4 und entscheide mich fürs Stoppen:
Dann beträgt der Gewinn 4000 Euro. Im Fall des Weitermachens komme
ich mit Wahrscheinlichkeit 1/6 auf Feld 5, wo mich 5000 Euro erwarten,
mit Wahrscheinlichkeit 5/6 gibt es aber gar nichts. Der erwartete Gewinn
beträgt also 5000/6 Euro. Man sollte also besser nicht weiterspielen.
• Ähnlich ist die Analyse im Fall i = 3: Stoppen bringt 3000 Euro, weiterspielen dagegen nur (4000 + 5000)/6 = 1500 Euro. Nicht weiterspielen!
• Bei i = 2 ist es egal: 2000 sichere Euro beim Stoppen gegen zu erwartende
(3000 + 4000 + 5000)/6 = 2000 beim Weiterspielen.
31
32
KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN
• Klar ist dann auch, dass man es bei i = 1 noch (mindestens) einmal
versuchen sollte: 1000 Euro gegen
2000 + 3000 + 4000 + 5000
=≈ 2333 Euro.
6
• Und man sollte auf jeden Fall spielen: Sofortiges Stoppen in Position 0 liefert gar nichts, andernfalls ist der erwartete Gewinn in jedem Fall positiv.
Zusammen: Probiere es noch einmal, wenn der erste Wurf eine 1 oder eine 2 ist,
andernfalls stoppe!
Beispiel 2: Auch diesmal haben Sie einen Würfel. Sie dürfen bis zur ersten 6
würfeln und jederzeit vorher stoppen. Dann erhalten Sie das zuletzt gewürfelte
Ergebnis (mal tausend, in Euro). Bei der 6 ist das Spiel zu Ende. Wie sieht hier
die optimale Strategie aus? Es ist plausibel, dass es ein i0 ∈ {1, . . . , 5} geben
wird, so dass die Strategie lautet:
Stoppe, wenn der letzte Wurf in {i0 , . . . , 5} lag, andernfalls spiele
weiter.
Wie sollte man i0 wählen? Der maximal beim Weiterspielen zu erzielende Erwartungswert werde mit Mi0 bezeichnet.
• Was passiert bei i0 = 5? Befinde ich mich schon bei 5, so ist der Gewinn
5000. In allen anderen Fällen soll ich noch einmal würfeln. Mit Wahrscheinlichkeit 4/6 wird das fortgesetzt und ich erhalte M5 . Mit Wahrscheinlichkeit 1/6 erreiche ich die 5 und erhalte 5000. Das liefert die Gleichung
4
1
M5 + 5000 = M5 .
6
6
Es ist also M5 = 2500.
• Was passiert bei i0 = 4? Eine ähnliche Überlegung führt auf
3
1
M4 + (4000 + 5000) = M4 ;
6
6
es folgt M4 = 3000. (Das ist schon besser als M5 !)
• i0 = 3 führt auf
2
1
M3 + (3000 + 4000 + 5000) = M3 ,
6
6
also M3 = 3000.
• i0 = 2 ist ungünstiger, denn
1
1
M1 + (2000 + 3000 + 4000 + 5000) = M1
6
6
führt auf M1 = 14.000/5 = 2800.
4.1. DIE PRÄZISIERUNG DER PROBLEMSTELLUNG
33
• Was ist mit i0 = 1? Da ist immer nach dem ersten Wurf zu stoppen. Der
Erwartungswert ist
15.000
1000 + 2000 + 3000 + 4000 + 5000
=
= 2500;
6
6
Fazit: Stoppe, sobald Du eine Zahl in {3, 4, 5, 6} gewürfelt hast.
Die Lösungswege waren recht unterschiedlich. In diesem Kapitel geht es um
optimale Strategien für allgemeine derartige Situationen.
4.1
Die Präzisierung der Problemstellung
Gegeben sei ein endlicher Zustandsraum S, auf ihm ist durch eine stochastische
Matrix P eine Markovkette definiert, gestartet wird in x0 . Das gibt Anlass zu
einem Markovprozess, den wir mit (Xn )n≥0 bezeichnen wollen. Dabei seien die
Xn auf einem Wahrscheinlichkeitsraum (Ω, E, P) definiert.
Zusätzlich gibt es eine Gewinnfunktion“ f : S → R (die auch negative
”
Werte haben kann). Der Prozess läuft, man kann jederzeit Stopp!“ sagen, und
”
wenn sich der Prozess gerade in x befindet, erhält man f (x) Euro. Ist diese Zahl
allerdings negativ, muss man etwas zahlen.
In den Beispielen lag folgende Situation vor:
Beispiel 1: Hier kann S als {0, 1, 2, 3, 4, 5, 6} gewählt
schen Matrix
0
0 1/6 1/6 1/6 1/6 1/6
0
1/6 1/6 1/6 1/6
B 0
B
0
0
1/6 1/6 1/6
B 0
B
0
0
0
1/6 1/6
B 0
@ 0
0
0
0
0
1/6
0
0
0
0
0
0
werden mit der stochasti1/6
2/6
3/6
4/6
5/6
1
1
C
C
C
C;
C
A
und f (i) := 1000 · i für i < 6 und f (6) = 0.
Beispiel 2: Es ist S = {1, 2, 3, 4, 5, 6},
0
1/6 1/6 1/6
B 1/6 1/6 1/6
B
B 1/6 1/6 1/6
B
B 1/6 1/6 1/6
@ 1/6 1/6 1/6
0
0
0
die stochastische Matrix lautet
1
1/6 1/6 1/6
1/6 1/6 1/6 C
C
1/6 1/6 1/6 C
C,
1/6 1/6 1/6 C
1/6 1/6 1/6 A
0
0
1
und f ist wie vorstehend.
Was muss man tun, um den erwarteten Gewinn zu maximieren oder wenigstens sehr nah“ am optimalen Wert zu sein?
”
Präziser lässt sich das so ausdrücken. Sei (Fn )n≥0 die natürliche Filtration
zu (Xn ). Welche Stoppzeit τ : Ω → N 0 ∪ {∞} sollte man wählen, damit gilt:
• τ ist fast sicher endlich.
34
KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN
• Definiert man Xτ : Ω → R durch ω 7→ Xτ (ω) (ω), so ist der Erwartungswert1 von f (Xτ ) optimal (oder wenigstens nahezu optimal).
Es ist alles andere als klar, wie man sich verhalten sollte. Eine offensichtliche Lösung gibt es allerdings im Fall ergodischer Ketten: Da der Prozess jeden
Zustand (sogar beliebig oft) erreicht, muss man nur warten, bis man ein x0 mit
f (x0 ) = maxx f (x) =: M erreicht hat. Für die zugehörige Stoppzeit τ ist Xτ
konstant gleich x, und so wird sicher der optimale Wert M für die Auszahlung
erreicht.
Hier wollen wir eine Lösung des Problems herleiten. Überraschender Weise
lässt sich das Optimum exakt realisieren und nicht nur mit beliebiger Genauigkeit.
4.2
Superharmonische Funktionen
Sei u : S → R eine Funktion, sie soll als Auszahlungsfunktion interpretiert
werden. Wenn ich mich gerade in x befinde und mich auszahlen lasse, erhalte
ich u(x). Und der Erwartungswert der Auszahlung ist
X
pxy u(y),
y∈S
wenn ich das erst nach dem nächsten Schritt mache.
Die Funktion heißt superharmonisch2 , wenn Warten eher ungünstig ist, wenn
also
X
pxy u(y) ≤ u(x)
y∈S
für alle x gilt. (Beachte: Es müsste eigentlich superharmonisch in Bezug auf
”
(pxy )“ heißen.)
Sicher ist jede konstante Funktion superharmonisch, und es lässt sich leicht
zeigen, dass das Infimum von superharmonischen Funktionen (falls es punktweise definiert werden kann) auch diese Eigenschaft hat.
Sei U eine nichtleere Familie von superharmonischen Funktionen und g ihr punktweise definiertes Infimum.
Nun sei i ∈ S und u ∈ U. Es ist dann u(j) ≥ g(j) für jedes j, es folgt also
X
u(i) ≥
pij u(j)
j
≥
X
pij g(j).
Und da das für jedes u gilt, zeigt das auch g(i) ≥
P
j
pij g(j).
1 Bevor man sich um den Erwartungswert kümmert, muss natürlich gezeigt werden, dass
Xτ messbar ist.
2 Manchmal heißen solche Funktionen in der Literatur auch exzessiv .
4.2. SUPERHARMONISCHE FUNKTIONEN
35
Insbesondere ist die Funktion fˆ : S → R, definiert durch
fˆ(x) := inf{u(x) | u superharmonisch, u ≥ f }
für jedes f : S → R superharmonisch.
fˆ heißt die superharmonische Majorante von f .
Beim symmetrischen absorbierenden Zufallsspaziergang auf {0, . . . , n0 }ist
eine Funktion genau dann superharmonisch, wenn u(x) ≥ u(x−1)+u(x+1) /2
für x = 1, . . . , n0−1 gilt, wenn die Funktion also diskret konkav“ ist. Und fˆ ist
”
dann so etwas wie die konkave obere Einhüllende.
Als Vorbereitung für das Hauptergebnis dieses Kapitels benötigen wir noch
ein Resultat, das zwar plausibel ist, das sich aber nur überraschend aufwändig
beweisen lässt:
Ist die Auszahlungsfunktion superharmonisch, so ist längeres Warten
immer ungünstiger als kürzeres Warten. (Die Präzisierung mit Hilfe
des Begriffs Stoppzeit“ folgt gleich.)
”
Lemma 4.2.1 Ist E ∈ σ(X0 , . . . , Xn−1 ), so gilt
P(Xn = xn , Xn−1 = xn−1 , E) = pxn−1 ,xn P(Xn−1 = xn−1 , E).
Beweis: Ist E von der speziellen Form {X0 = y0 , . . . , Xn−2 = yn−1 }, so ist diese
Aussage im Fall xn−1 6= yn−1 trivialerweise richtig (beide Seiten der Gleichung
sind Null) und andernfalls eine Umformulierung der Markoveigenschaft:
P(Xn = xn | Xn−1 = xn−1 , Xn−2 = yn−2 , . . . , X0 = y0 ) =
= P(Xn = xn | Xn−1 = xn−1 ) = pxn−1 ,xn .
Beachte noch dass ein beliebiges E ∈ σ(X0 , . . . , Xn−1 ) disjunkt aus Ereignissen
dieses Typs zusammengesetzt werden kann.
Längere Stoppzeiten sind ungünstiger als kürzere. Wir zeigen das zunächst
für den Spezialfall von nahe beieinander liegenden“ Stoppzeiten:
”
Lemma 4.2.2 Es sei x0 ∈ S, wir betrachten den bei x0 startenden Prozess. Ist
u : S → R superharmonisch und sind τ, σ fast sicher endliche Stoppzeiten mit
τ ≤ σ ≤ τ + 1, so gilt
E u(Xτ ) ≥ E u(Xσ ) .
36
KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN
Beweis: Wir beginnen mit der rechten Seite:
X
P(σ = k, Xk = x)u(x)
E u(Xσ )
=
x∈S, k∈N 0
X
=
P(σ = τ = k, Xk = x)u(x) +
x∈S, k∈N 0
X
+
P(σ = k, τ = k − 1, Xk = x)u(x)
x∈S, k∈N
=: A.
Die Mengen {σ = k, τ = k − 1 Xk = x} zerfallen disjunkt in die Teilmengen
{σ = k, τ = k − 1, Xk−1 = y, Xk = x} mit y ∈ S. Dabei liegt das Ereignis
{σ = k, τ = k − 1, Xk−1 = y} in σ(X0 , . . . , Xk−1 ), denn diese Menge kann auch
als {σ ≥ k, τ = k − 1, Xk−1 = y} geschrieben werden, und {σ ≥ k} ist das
Komplement von {σ ≤ k − 1}. Und folglich gilt wegen Lemma 4.2.1:
P({σ = k, τ = k−1, Xk−1 = y, Xk = x}) = P({σ = k, τ = k−1, Xk−1 = y)py,x .
Die obige Rechnung kann also wie folgt fortgesetzt werden (wobei jetzt ausgenutzt wird, dass u superharmonisch ist):
X
A =
P(σ = τ = k, Xk = x)u(x) +
x∈S, k∈N 0
X
+
P({σ = k, τ = k − 1, Xk−1 = y)py,x u(x)
k∈N, x,y∈S
≤
X
P(σ = τ = k, Xk = x)u(x) +
x∈S, k∈N 0
X
+
P({σ = k, τ = k − 1, Xk−1 = y)u(y)
k∈N, y∈S
Jetzt ändern wir in der zweiten Summe noch den Laufindex von k zu k − 1 und
bezeichnen y in x um:
X
=
P(σ = τ = k, Xk = x)u(x) +
x∈S, k∈N 0
+
X
P({σ = k + 1, τ = k, Xk−1 = x)u(x).
k∈N 0 , y∈S
Und da {τ = k} die disjunkte Vereinigung der Mengen {τ = σ = k} und
{τ = k, σ = k + 1} ist, geht es weiter mit
X
=
P(τ = k, Xk = x)u(x)
x∈S, k∈N 0
= E u(Xτ ) .
4.3. DIE OPTIMALE LÖSUNG
37
Damit ist alles gezeigt.
Länger Warten ist immer schlechter:
Lemma 4.2.3 Es sei x0 ∈ S, wir betrachten den bei x0 startenden Prozess, eine
superharmonische Funktion u : S → R und fast sicher endliche Stoppzeiten τ, σ.
Ist dann τ ≤ σ, so gilt
E u(Xτ ) ≥ E u(Xσ ) .
Beweis: Definiere Stoppzeiten τn für n ∈ N durch
τn := min{σ, max{τ, n}}.
Dann gilt τn ≤ τn+1 ≤ τn + 1 und folglich wegen des vorigen Lemmas
E u(Xτn ) ≥ E u(Xτn+1 ) .
Da die τn punktweise fast sicher gegen σ konvergieren und alle auftretenden
Funktionen durch maxx |u(x)| beschränkt
sind, konvergieren die E u(Xτn ) nach
dem Satz von Lebesgue gegen E u(Xσ ) . Wegen τ0 = τ ist damit alles gezeigt.
4.3
Die optimale Lösung
Sei x ∈ S und τ : Ω → N 0 eine fast sicher endliche Stoppzeit für den bei x
startenden Prozess. Wir bezeichnen mit Gxτ den Erwartungswert von f (Xτx ).
Dabei ist (Xnx ) der stochastische Prozess, der durch die stochastische Matrix
bei Start in x erzeugt wird.
Von Interesse ist dann
v(x) := sup Gxτ ,
τ
wobei τ die zulässigen Stoppzeiten durchläuft. Die so definierte Funktion v :
S → R heißt die Funktion des optimalen Gewinns.
Bemerkungen: 1. Beachte, dass im hier vorliegenden Fall endlicher Zustandsräume v sicher durch maxx f (x) beschränkt ist. v(x) = ∞ kann also nicht vorkommen.
2. Wird nicht deterministisch bei x gestartet, sondern mit einer Wahrscheinlichkeitsverteilung ν, so ist auch dann der optimale zu erwartende Gewinn leicht
auszurechnen:
X
v(x)ν({x}).
x
Wir werden nun zeigen:
• v = fˆ.
38
KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN
• Sei ∆ die (offensichtlich nicht leere) Menge {x | f (x) = fˆ(x)} und τx∆ die
Stoppzeit des ersten Eintritts in ∆ bei Start in x. Dann ist τx∆ eine fast
sicher endliche Stoppzeit, und es gilt v(x) = Gxτ∆ für jedes x. Damit sieht
x
eine optimale Strategie so aus: Warte, bis zum ersten Mal ∆ erreicht ist,
stoppe dann sofort. Und mit Wahrscheinlichkeit 1 wird ∆ auch wirklich
gestoppt.
• fˆ kann rekursiv sehr schnell mit beliebiger Genauigkeit berechnet werden.
v = fˆ
Lemma 4.3.1 v ist superharmonisch, und v ≥ f . Folglich gilt v ≥ fˆ.
Beweis: Sei ε > 0. Wähle zu x ∈ S Stoppzeiten τx zu dem bei x startenden
Prozess, die jeweils v(x) bis auf ε approximieren:
Gxτx ≥ v(x) − ε.
Und nun sei x0 ∈ S. Eine neue Stoppzeit für den bei x0 startenden Prozess
wird so definiert: Gehe auf jeden Fall einen Schritt, danach orientiere Dich – je
nachdem, auf welches x der erste Schritt geführt hat – an τx .
Die Gewinnerwartung für diese Stoppzeit (die wieder fast sicher endlich ist)
ist dann offensichtlich
X
X
px0 ,x Gxτx ≥
px0 ,x v(x) − ε.
x
x
Folglich gilt
v(x0 ) ≥
X
px0 ,x v(x) − ε,
x
und da ε beliebig war, folgt v(x0 ) ≥
Satz 4.3.2 Es gilt v = fˆ.
P
x
px0 ,x v(x).
Beweis: Eine Ungleichung wurde schon im vorigen Lemma gezeigt. Für die
andere ist zu zeigen: Ist u superharmonisch mit u ≥ f , so ist u(x0 ) ≥ E f (Xτ )
für jede Stoppzeit zu dem bei x0 startenden Prozess, die fast sicher endlich ist.
Sei τ so eine Stoppzeit.
Lemma 4.2.3 (angewendet auf die Stoppzeiten
0 und
τ ) impliziert E u(Xτ ) ≤ u(x0 ), und damit gilt auch E f (Xτ ) ≤ u(x0 )
Alle τx∆ sind fast sicher endlich
Lemma 4.3.3 Alle τx∆ sind fast sicher endlich
Beweis: Wir fixieren ein x0 ∈ S und lassen den Prozess in x0 starten. Falls
x0 ∈ ∆ gilt, ist nichts zu beweisen, da sofort gestoppt wird. Sei also x0 ∈
/ ∆.
Wir wollen zeigen, dass A := {kein Xn liegt in ∆} eine Nullmenge ist.
Dazu wird eine Zahl δ > 0 so gewählt, dass v(x) − δ ≥ f (x) für alle x ∈
/∆
gilt.
4.3. DIE OPTIMALE LÖSUNG
39
Sei nun τ eine (zu dem bei x0 startenden Prozess gehörige) fast sicher endliche Stoppzeit. Es folgt
Z
E f (Xτ ) =
f (Xτ ) dP
Ω
Z
Z
=
f (Xτ ) dP +
f (Xτ ) dP.
Ω\A
A
Auf A ist die Funktion f (Xτ ) nach Konstruktion durch v − δ abschätzbar, auch
gilt f ≤ v. Folglich können wir die Rechnung mit
Z
Z
≤
v(Xτ ) dP +
v(Xτ ) dP − δP(A)
Ω\A
A
Z
=
v(Xτ ) dP − δ P(A)
Ω
≤ v(x0 ) − δ P(A)
fortsetzen, wobei wir im letzten Schritt Lemma 4.2.3 (mit τ und 0) und die
Tatsache ausgenutzt haben, dass v superharmonisch ist.
Gehen wir zum Supremum über alle zulässigen τ über, so folgt
v(x0 ) ≤ v(x0 ) − δ P(A).
Also muss P(A) = 0 gelten.
Stoppen gemäß τx∆ ist optimal
Nun folgt das Hauptergebnis dieses Kapitels:
Theorem 4.3.4 Durch τx∆ wird der bestmögliche Erwartungswert realisiert, und
insbesondere ist das Supremum in der Definiton von v(x) ein Maximum:
v(x) = E f (Xτx∆ )
für alle x.
Beweis: Sei φ(x) := E f (Xτx∆ ) . Wir werden zeigen:
• φ ist superharmonisch.
• φ ≤ v.
• φ ≥ v.
Damit wäre dann die Behauptung bewiesen.
a) φ ist superharmonisch.
Beweis dazu: Wir fixieren x0 , lassen den Prozess dort starten und definieren
eine Stoppzeit τ ∗ durch
min{n ≥ 1 | Xn ∈ ∆}.
40
KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN
(Der Unterschied zu τx∆0 : Bei τx∆0 wird das Minimum über die n ∈ N 0 mit Xn ∈
∆ gebildet.) Offensichtlich ist τ ∗ ≥ τx∆0 . Wir analysieren zunächst den ersten
Schritt. Mit Wahrscheinlichkeit px0 ,x ist der Prozess danach in x ∈ S. Und ab
hier stoppen wir ihn gemäß τy∆ : Das entspricht genau τ ∗ .
Zusammen mit Lemma 4.2.3 (für τx∆0 und τ ∗ und die superharmonische Funktion
fˆ) ergibt sich:
φ(x0 ) = E f (Xτx∆ )
0
= E fˆ(Xτx∆ )
0
≥ E fˆ(Xτ ∗ )
= E f (Xτ ∗ )
X
=
px0 ,x E f (Xτx∆ )
x∈S
=
X
px0 ,x φ(x).
x∈S
Hier wurde ausgenutzt, dass τx∆ und τ ∗ auf ∆ stoppen: Dort ist f = fˆ.
b) φ ≤ v.
Beweis dazu: Das ist aufgrund der Definition von v klar, denn φ ist durch eine
Stoppzeit entstanden.
c) φ ≥ v.
Beweis dazu: Wir müssen nur zeigen, dass φ ≥ f gilt, denn da φ superharmonisch ist, wäre dann auch φ ≥ fˆ = v.
Auf ∆ ist sicher f = φ, es fehlt noch der Nachweis für die x ∈
/ ∆. Falls
einmal φ(x) < f (x) für so ein x wäre, wählen wir x0 so, dass f (x0 ) − φ(x0 )
größtmöglich ist. Dann sind wir sicher, dass φ + f (x0 ) − φ(x0 ) die Funktion f
majorisiert. Da φ + f (x0 ) − φ(x0 ) superharmonisch ist, heißt das
φ + f (x0 ) − φ(x0 ) ≥ fˆ = v,
insbesondere also
f (x0 ) = φ(x0 ) + f (x0 ) − φ(x0 ) ≥ v(x0 ).
Das aber würde x0 ∈ ∆ bedeuten, ein Widerspruch.
Wie berechnet man fˆ?
Die vorstehenden Ergebnisse sind nur dann anwendbar, wenn man fˆ kennt.
Im nachstehenden Satz wird ein Verfahren vorgestellt, mit dem man diese Funktion sehr schnell mit beliebiger Genauigkeit berechnen kann:
4.3. DIE OPTIMALE LÖSUNG
41
Satz 4.3.5 Definiere Funktionen un : S → R induktiv durch u1 := f , uP
n+1 :=
max{un , P un }; dabei ist für eine Funktion u die Funktion P u durch x 7→ y pxy u(y)
erklärt.
Es ist dann f ≤ u1 ≤ u2 ≤ · · · , und
lim un (x) = fˆ(x)
für alle x.
Beweis: Es ist klar, dass f ≤ u1 ≤ u2 ≤ · · · . Da die un durch maxx f (x)
beschränkt sind, existiert U := lim un . Wir zeigen, dass U = fˆ gilt.
Sei u superharmonisch mit u ≥ f . Wir behaupten, dass u ≥ un für alle n
ist. Für n = 1 ist das klar. Sei u ≥ un . Dann ist auch P u ≥ P un , wegen u ≥ P u
(nach Voraussetzung) ist also u ≥ P un . Damit ist auch u ≥ un+1 , und es folgt
u ≥ U . Da das für alle u gilt, haben wir fˆ ≥ U bewiesen.
Als nächstes zeigen wir, dass U superharmonisch ist, dass also U ≥ P U gilt.
Das folgt mit Hilfe der Stetigkeit der Abbildung u 7→ P u so:
P U = P (lim un ) = lim P un ≤ lim un+1 = U.
Da U ≥ f gilt, muss damit auch U ≥ fˆ sein.
42
KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN
Kapitel 5
Die Brownsche Bewegung
Die Brownsche Bewegung ist einer der wichtigsten stochastischen Prozesse. Der
Name rührt daher, dass der Botaniker Robert Brown (1827) die irreguläre Bewegung kleinster Teilchen (Blütenpollen) unter dem Mikroskop studierte. Später
gab es – teils abenteuerliche – Erklärungsversuche. Die wichtigsten Punkte der
dann folgenden Entwicklung sind:
• Der Franzose Louis Bachelier verwendete die Brownsche Bewegung als
mathematisches Modell für Kursentwicklungen an der Börse.
• Albert Einstein berechnete, wie sich kleine Teilchen bewegen müssten,
wenn sie von noch (viel) kleineren Teilchen angestoßen werden: Es ergibt
sich eine Brownsche Bewegung, und man kann nachprüfbare Aussagen
über den Ort der Teilchen gewinnen. Das wurde einige Jahre später auch
wirklich verifiziert, und damit war der Physikerstreit über die Welt im
Kleinen – Elementarteilchen oder Kontinuum? – im Wesentlichen für die
Korpuskulartheorie entschieden.
• In den zwanziger Jahren zeigte Norbert Wiener, dass sich die Existenz der
Brownschen Bewegung streng beweisen lässt.
• Daraufhin zeigte sich immer mehr die fundamentale Bedeutung dieses stochastischen Prozesses. Im Jahr 2006 gab es eine Fieldsmedaille für Ergebnisse dazu (Wendelin Werner, ICM in Madrid).
5.1
Brownsche Bewegung: Definition / Existenz
Hier die Definition:
Definition Ein Prozess (Xt )t≥0 (wo Xt : Ω → R) heißt Brownsche Bewegung,
wenn gilt:
• X0 = 0.
• Für jedes ω ist t 7→ Xt (ω) stetig.
43
44
KAPITEL 5. DIE BROWNSCHE BEWEGUNG
• Für alle 0 = t0 < t1 < · · · tn sind die Zufallsvariablen Xti+1 − Xti , i =
0, . . . , n − 1 unabhängig.
• Für alle s < t ist Xt − Xs N (0, t − s)-verteilt.
Es ist alles andere als offensichtlich, dass es solche Prozesse gibt. Es dauerte
auch bis in die zwanziger Jahre des vorigen Jahrhunderts, bis Norbert Wiener
einen exakten Konstruktionsbeweis gab1 .
Es folgen zwei Beispiele für mögliche Konstruktionen.
Konstruktion 1: Als Ω wählt man einfach den Raum C [ 0, +∞ [. Die Xt : Ω → R
werden für t ≥ 0 als Auswertungen definiert: Xt : ω → ω(t), und E soll die von
den Xt erzeugte σ-Algebra sein. Dann werden – egal, welches Maß wir auf E
definieren – alle Xt Zufallsvariable sein, und die Pfade sind automatisch stetig.
Schwieriger ist es, das richtige Maß zu finden. Dazu verfährt man wie folgt:
• Bette C [ 0, +∞ [ in R [ 0,∞ [ ein. Dieser Raum wird mit der Produkt-σAlgebra versehen: Damit sind die Auswertungen automatisch messbar.
• Schreibe die Randverteilungen entsprechend dem Wunschprogramm Brown”
sche Bewegung“ vor. Prüfe dann nach, dass die Verträglichkeitsbedingung
aus dem Satz von Kolmogoroff erfüllt ist.
• Wende den Satz von Kolmogoroff an.
• Zeige, dass – bis auf eine Nullmenge – alle Pfade stetig sind, es also eine
natürliche Einschränkung auf C [ 0, +∞ [ gibt.
Konstruktion 2: Hier ist die Konstruktion des Maßraumes (Ω, E, P) einfach“:
”
Es ist irgendein Wahrscheinlichkeitsraum, auf dem abzählbar viele unabhängige
standardnormalverteilte Zufallsvariable ξij (i, j ∈ N 0 ) definiert sind2 . Es geht
dann so weiter:
1. Schritt: Wir definieren eine erste Approximation an die Brownsche Bewegung
(1)
so, dass sie sich zu den Zeitpunkten t ∈ N 0 richtig verhält: Es ist X0 = 0,
(1)
Xk (ω) := ξ1,1 + · · · + ξ1,k
(1)
für k ∈ N, und für die t ∈ [ k, k + 1 ] wird Xt (ω) durch lineare Interpolation
erklärt.
(1)
Dann ist (Xt )t ein Prozess mit stetigen Pfaden, der für ganzzahlige Zeitpunkte schon das Gewünschte leistet.
(2)
2. Schritt: Nun soll (Xt ) erklärt werden, und zwar so, dass gilt:
1 Die Brownsche Bewegung wurde damals allerdings schon seit einigen Jahrzehnten erforscht, zu nennen sind hier insbesondere Bachelier (1900, Finanzmathematik) und Einstein
(1905, Korpuskulartheorie). Auch heute ist wohl vielen Ingenieuren nicht einsichtig, dass man
sich um einen Existenzbeweis bemühen muss, denn “sie kommt doch offensichtlich in der
Natur vor”.
2 Dass das geht, ist auch nicht trivial: Hier braucht man den Satz von Carathéodory. In der
elementaren Stochastik hatten wir das den Klonsatz“ genannt.
”
5.1. BROWNSCHE BEWEGUNG: DEFINITION / EXISTENZ
45
• Der Prozess hat stetige Pfade, und auf 0.5·N 0 ist es eine richtige“ Brown”
sche Bewegung.
(2)
• Xt
(1)
stimmt auf N 0 mit Xt
überein.
(1)
(2)
Wir übernehmen dazu die Definition der Xk für die k ∈ N, definieren Xt für
die t = k + 0.5 geschickt“ und interpolieren dann wieder linear.
”
Das Hauptproblem liegt in der geschickten Wahl der Zwischenpunkte. Es
läuft im Wesentlichen auf die folgende Frage hinaus:
Gegeben sei ein N (0, 1)-verteiltes X. Wie muss man Y definieren,
so dass Y und X − Y unabhängig sind und sowohl Y als auch X − Y
N (0, 1/2)-verteilt sind?
Die Antwort: Verschaffe Dir ein N (0, 1)-verteiltes Z, dass von X unabhängig ist
und definiere dann Y := (X + Z)/2. Es ist dann X − Y = (X − Z)/2, und:
• Da Y, X − Y aus X, Z durch eine orthogonale Transformation entstanden
sind, handelt es sich wieder um unabhängige Normalverteilungen. Diese
Tatsache spielt auch in der Statistik eine fundamentale Rolle.
• Y und X − Y sind N (0, 1/2)-verteilt (klar).
In unserem Fall nehmen wir die benötigten Y ’s aus dem ξ-Reservoir. Der Rest
ist im Wesentlichen Routine.
2., 3., . . . Schritt: Es geht mit der gleichen Idee weiter:
(3)
verfeinert“ Xk , und nun stimmt alles (1/4)N 0 .
”
(4)
verfeinert“ Xk , und nun stimmt alles (1/8)N 0 .
”
• Xk
• Xk
(2)
(3)
• ...
(r)
• Xk
(r−1)
verfeinert“ Xk
”
, und nun stimmt alles (1/2r−1 )N 0 .
Finale: Nun endlich kann die Brownsche Bewegung definiert werden. Die Idee:
(r)
Xt (ω) := lim Xt (ω).
r
Ganz so einfach ist es leider nicht. Erstens ist die Konvergenz nicht klar, und
zweitens würde punktweise Konvergenz nicht ausreichen, um die Stetigkeit der
Pfade zu garantieren.
Deswegen muss sorgfältiger argumentiert werden. Eine geschickte Anwendung des Lemmas von Borel-Cantelli zeigt, dass für die ω außerhalb einer Null(r)
menge N die Funktionen t 7→ Xt (ω) sogar gleichmäßig auf Kompakta konvergieren. Man geht dann von Ω zu Ω \ N über, definiert darauf die Xt , und das
ist dann wirklich eine Brownsche Bewegung.
Nachspiel: Es ist manchmal handlicher, auf dem Raum C := C [ 0, +∞ [ zu
arbeiten. Das kann leicht erreicht werden:
46
KAPITEL 5. DIE BROWNSCHE BEWEGUNG
• Definiere X : Ω → C durch ω 7→ (t 7→ Xt (ω)). Diese Abbildung ist
wohldefiniert und eine Zufallsvariable, wenn man C mit der σ-Algebra der
Borelmengen (kompakt-offene Topologie) versieht.
• C wird mit dem Wahrscheinlichkeitsmaß PX versehen.
• Xt0 : C → R wird durch ω 0 7→ ω 0 (t) erklärt.
• Dann ist – wie sich fast von allein beweist – (Xt0 ) eine Brownsche Bewegung.
5.2
Brownsche Bewegung: Eigenschaften
Aus Satz 2.1.3 folgt unmittelbar, dass die Brownsche Bewegung ein Markovprozess ist3 .
Wir werden uns in diesem Abschnitt ausführlich um die Pfade der Brownschen Bewegung kümmern, sie haben sehr überraschende Eigenschaften.
Selbstähnlichkeit und Zeitumkehr
Die Brownsche Bewegung hat verschiedene Aspekte der Selbstähnlichkeit.
Bei richtiger Skalierung sieht sie überall gleich“ aus, man kann sie rückwärts
”
laufen lassen und beliebig vergrößern. Genauer:
Satz 5.2.1 Es sei (Bt )t≥0 eine Brownsche Bewegung (mit Bt : Ω → R). Dann
gilt:
(i) Für jedes t0 > 0 ist (Bt0 +t − Bt0 )t≥0 eine Brownsche Bewegung.
(ii) Für jedes a > 0 ist (Ba2 t /a)t≥0 eine Brownsche Bewegung.
(iii) Entfernt man aus Ω eine geeignete Nullmenge und definiert man dann
Y0 := 0 und Yt := tX1/t , so ist (Yt )t≥0 eine Brownsche Bewegung.
Beweis: (i) und (ii) sind fast klar, die Aussagen folgen aus bekannten Eigenschaften der Normalverteilung4 . Bei (iii) muss man nur dafür sorgen, dass die
Stetigkeit bei Null garantiert ist, die anderen Aussagen sind leicht einzusehen5 .
Insbesondere erfüllt (Yt ) im Bereich t > 0 alle Bedingungen an eine Brownsche
Bewegung.
3 Beachte: Ist – im Fall 0 ≤ t < t – die Zufallsvariable S := X − X von allen Zuwächsen
t0
t
0
Xt1 − X0 , Xt2 − Xt1 , . . . , Xtn − Xtn−1 unabhängig für 0 < t1 < · · · < tn = t, so ist S auch
von den Xt1 , . . . , Xtn unabhängig. Wie üblich folgt dann mit einem Dynkinsystem-Argument,
dass S von σ{Xs | s ≤ t} unabhängig ist.
4 Man sollte sich an die folgenden Tatsachen erinnern: Sind X und Y unabhängige Zufallsvariable, wobei X N (0, σ12 )-verteilt und Y N (0, σ22 )-verteilt ist, so ist aX N (0, a2 σ12 )-verteilt
und X + Y N (0, σ12 + σ22 )-verteilt.
5 Für die Verteilung der Zuwächse muss man die vorige Fußnote und die Gleichung
1
1
(t − s)2
+ s2 ( − ) = t − s
t
t
s
ausnutzen.
5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN
47
Für die Stetigkeit bei Null der Pfade von Yt ist zu zeigen, dass Xt /t für t → ∞
fast sicher gegen Null geht. Das ist plausibel, denn
Xt ist N (0, t) verteilt, sollte
√
also in der Regel“ nicht wesentlich größer als t sein. Als Hilfsmittel benötigen
”
wir die
Ungleichung von Kolmogoroff: Sind W1 , . . . , Wr unabhängige und
identisch verteilte Zufallsvariable mit existierender Varianz und Erwartungswert Null und definiert man Zm := W1 + · · · + Wm für
m = 1, . . . , r, so gilt für a > 0
P(max |Zm | ≥ a) ≤ σ 2 (Zr )/a2 .
m
(Beweis: Der Beweis ist sehr aufwändig. Man findet ihn zum Beispiel in meinem Skript zur Wahrscheinlichkeitstheorie, Seite 95.)
Die Interpretation: Ist Zm die Position eines Spaziergängers im mten Schritt, so wird durch die Ungleichung die Wahrscheinlichkeit
abgeschätzt, dass irgendwann zwischen dem ersten und dem r-ten
Schritt das Intervall [ −a, a ] verlassen wurde.
Im Fall r = 1 ist die Ungleichung gerade die Tschebycheff-Ungleichung.
Sei Ñ die Menge der ω ∈ Ω, für die Yt (ω) für t → 0 nicht gegen Null geht. Ziel:
Das ist eine Nullmenge6 .
Wir fixieren ein δ > 0 und betrachten für n ∈ N die Rasterpunkte“
”
δk
n
∆n := { n | 1 ≤ k ≤ 2 }.
2
S
Dann gilt ∆1 ⊂ ∆2 ⊂ · · · , und n ∆n liegt dicht in ] 0, δ ].
Wir wenden die Kolmogoroffungleichung für die Zuwächse der Y -Variablen
an: Für festes n sei r := 2n und Wm := Y(m+1)/2n − Ym/2n , m = 0, . . . , r − 1.
Dann ist – mit den Bezeichnungen der Ungleichung – Zm = Ym/2n , und wegen
σ 2 (Z2n ) = δ erhalten wir für jedes a > 0
P(max |Yt | ≥ a) ≤
t∈∆n
δ
.
a2
Da das für jedes n gilt, haben wir auch
P( max |Yt | ≥ a) ≤
0<t≤δ
δ
a2
bewiesen. Setze nun δ = 1/l und wende die vorstehenden Überlegungen für
a = 1/k an:
k2
.
P({ max |Yt | ≥ 1/k}) ≤
l
0<t≤1/l
6 Die
Messbarkeit macht wegen der Stetigkeit keine Probleme, man kann ja Ñ als
[\
{ max |Yt | ≥ 1/k}
k
l
0<t≤1/l
schreiben, und das Maximum von |Yt | ist genau dann größer als 1/k, wenn es bei einer rationalen Zahl größer als 1/k wird.
48
KAPITEL 5. DIE BROWNSCHE BEWEGUNG
T
Folglich ist l {max0<t≤1/l |Yt | ≥ 1/k} für jedes k eine Nullmenge, und damit
hat auch Ñ als Vereinigung dieser Mengen Maß Null.
Variation und quadratische Variation
Wieder sei (Bt ) eine Brownsche Bewegung. Für t > 0 betrachten wir das
Pk
Supremum der Zahlen i=1 |Bti (ω) − Bti−1 (ω)|, wobei beliebige Zerlegungen
0 = t0 < · · · < tk = t zugelassen sind. Dieses Supremum wird mit Vt (ω)
bezeichnet, man spricht von der Variation auf [ 0, t ]. Jedes Vt ist wieder eine
Zufallsvariable, Vt (ω) misst die bis zur Zeit t zurückgelegte Weglänge des Pfades
s 7→ Bs (ω).
Bezeichnet man für eine Zerlegung Z : 0 = t0 < · · · < tk = t von [ 0, t ]
mit δ(Z) := max |ti+1 − ti | die maximale Zerlegungslänge, so lässt sich leicht
Pk
zeigen, dass man Vt (ω) Grenzwert der Folge i=1 |Bti (ω) − Bti−1 (ω)| ist, wenn
die zugehörigen δ(Z) gegen Null gehen7 .
Ganz analog wird die quadratische Variation Qt definiert.
Für eine Zerlegung
Pk
Z : 0 = t0 < · · · < tk = t von [ 0, t ] sei QZ (ω) := i=1 |Bti (ω) − Bti−1 (ω)|2 .
Qt (ω) soll dann der Grenzwert der QZn (ω) für irgendeine Zerlegungsfolge sein,
für die δ(Zn ) gegen Null geht. Dass das existiert, wird gleich gezeigt werden.
Satz 5.2.2
(i) Wir behaupten erstens: Sind Zn Zerlegungen mit δ(Zn ) → 0, so geht die
Folge (QZn ) im L2 -Sinn gegen t: Die Erwartungswerte der Zufallsvariablen sind
gleich t, und die Erwartungswerte von (QZn − t)2 gehen gegen Null.
P
Und zweitens: Ist sogar
δ(Zn ) < ∞, so gehen die QZn fast sicher gegen t.
(ii) Fast sicher ist Qt = t.
(iii) Fast sicher ist Vt = ∞.
Beweis: (i) Ist Z beliebig, so ist doch wegen der Unabhängigkeit der Zuwächse
und der Linearität des Erwartungswerts (und da Bti − Bti−1 N (0, ti − ti−1 )verteilt ist)
E(QZ )
k
X
= E(
|Bti − Bti−1 |2 )
i=1
=
X
E(|Bti − Bti−1 |2 )
X
=
(ti − ti−1 )
= t.
Um die Varianz auszurechnen, schreiben wir QZ − t als
X
7 Hier
(Bti − Bti−1 )2 − (ti − ti−1 ) .
ist an die Stetigkeit der Pfade zu erinnern.
5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN
49
Weil sich Varianzen bei unabhängigen Zufallsvariablen addieren, folgt
X
2 E (QZ − t)2
=
E (Bti − Bti−1 )2 − (ti − ti−1 )
X
=
2 (Bti − Bti−1 )2
− 1) .
(ti − ti−1 )
(ti − ti−1 )2 E
Aber die Zufallsvariable (Bti − Bti−1 )/(ti − ti−1 ) ist für alle i N (0, 1)-verteilt,
die Rechnung kann also – mit einer Konstanten C – durch
X
≤C
(ti − ti−1 )2
fortgesetzt werden. Nun ist aber sicher
X
X
(ti − ti−1 )2 ≤ δ(Z)
(ti − ti−1 )
= tδ(Z),
und das beweist den ersten Teil von (i).
Für den zweiten wenden wir die Tschebycheff-Ungleichung an. Ist ε > 0
vorgelegt, so ist doch
P({|QZ − t| > ε}) ≤
σ 2 (QZ )
.
ε2
Lassen sich die δ(Zn ) aufsummieren, so folgt wegen der vor wenigen Zeilen
bewiesenen Ungleichung σ 2 (QZn ) ≤ Ctδ(Zn ), dass
X
P({|QZn − t| > ε}) < ∞
n
gilt. Aufgrund des Lemmas von Borel-Cantelli liegt also ein ω fast sicher in nur
endlich vielen {|QZn − t| > ε}, und das beweist die fast sichere Konvergenz der
QZn gegen t.
(ii) Das wurde in (i) mitbewiesen, da ein L2 -Limes fast sicher eindeutig bestimmt
ist.
(iii) Es sei ω so gegeben, dass die Variation von s 7→ Bs (ω) auf [ 0, t ] endlich,
etwa gleich K ist. Sei ε > 0 beliebig. Wir wählen δ > 0 so klein, dass für δ(Z) ≤ δ
stets folgt: Alle |Bti (ω) − Bti−1 (ω)| sind ≤ ε. Das geht wegen der gleichmäßigen
Stetigkeit. Es folgt dann:
X
X
(Bti (ω) − Bti−1 (ω) )2 ≤ max |Bti (ω) − Bti−1 (ω) |
|Bti (ω) − Bti−1 (ω) |
i
≤ εK.
Folglich ist Qt (ω) = 0, und das passiert nur auf einer Nullmenge.
Die Pfade sind nirgendwo differenzierbar ...
50
KAPITEL 5. DIE BROWNSCHE BEWEGUNG
In Bezug auf die Differenzierbarkeit sind die Pfade äußerst pathologisch.
Das ist auch plausibel, denn im Fall differenzierbarer Pfade wäre sicher die
Markoveigenschaft verletzt. Hier die ganze Wahrheit:
Satz 5.2.3 Es sei (Bt )t≥0 eine auf Ω definierte Brownsche Bewegung. Wir
definieren Teilmengen L und D von Ω durch die folgende Vorschrift:
• L ist die Menge derjenigen ω, für die der Pfad s 7→ Bs (ω) an irgendeiner
Stelle einer Lipschitzbedingung nach rechts“ genügt. Dabei bedeutet die
”
Aussage f genügt bei t0 einer Lipschitzbedingung nach rechts“, dass es
”
K, ε > 0 so gibt, dass
|f (t0 + t) − f (t0 )| ≤ Kt
für alle t ∈ [ 0, ε ].
• D ist die Menge der ω, für die der Pfad s 7→ Bs (ω) an irgendeiner Stelle
eine rechtsseitige Ableitung besitzt: Für mindestens ein t0 existiert
lim
h→0+
Bt0 +h − Bt0
h
in R.
Es gilt dann D ⊂ L, und es gibt eine Nullmenge N ⊂ Ω mit L ⊂ N . (Das
muss so kompliziert formuliert werden, da nicht garantiert werden kann, dass L
messbar ist.)
Kurz: Fast sicher sind Pfade der Brownschen Bewegung nirgendwo differenzierbar.
Beweis: Die Inklusion D ⊂ L ist leicht einzusehen, den zweiten Teil beweisen
wir in mehreren Schritten.
Schritt 1: Genügt eine Funktion f : [ 0, δ ] → R einer Lipschitzbedingung nach
rechts bei 0 auf [ 0, δ ], so gilt |f (t) − f (s)| ≤ 2Kδ für alle s, t.
Beweis dazu: Das folgt leicht mit Hilfe der Dreiecksungleichung (Vergleich mit
f (0)).
Schritt 2: Ist X N (0, 1)-verteilt, so ist P({|X| ≤ a}) ≤ 2a für alle a ≥ 0.
Beweis dazu: Klar, da die Dichtefunktion durch 1 beschränkt ist.
Schritt 3: Hier führen wir einige Definitionen ein. Es sei n ∈ N und 0 ≤ k ≤ n2n .
Zn,k sei dann die Zufallsvariable
max{|B(k+1)/2n − Bk/2n |, |B(k+2)/2n − B(k+1)/2n |, |B(k+3)/2n − B(k+1)/2n |}.
Mit En,k,ε bezeichnen wir das Ereignis {Zn,k ≤ ε}.
Da die Zuwächse unabhängig sind, gilt wegen Schritt 2:
P(En,k,ε ) ≤ (2 · 2n/2 ε)3 ;
beachte, dass die B(i+1)/2n − Bi/2n N (0, 2−n )-verteilt sind.
5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN
51
Schritt 4: Wir setzen nun Yn := min0≤k≤n2n −3 Zn,k . Dann ist P(Yn ≤ ε) die
Wahrscheinlichkeit dafür, dass ein Pfad irgendwo“ auf [ 0, n ] auf dem 2−n ”
Gitter nur wenig schwankt“.
Sn2n −3
”
Wir definieren Fn,ε := {Yn ≤ ε}. Es ist dann klar, dass Fn,ε ⊂ k=0 En,k,ε ,
und folglich gilt
P(Fn,ε ) ≤ n2n (2 · 2n/2 ε)3 .
−n
Schritt 5: Wir
T setzen jetzt εn := n2 . Dann geht P(Fn,εn ) gegen Null, und
deswegen ist n≥n0 Fn,εn eine Nullmenge für jedes n0 . Damit ist auch
N :=
[ \
Fn,εn
n0 n≥n0
eine Nullmenge: Das ist die Menge, von der wir L ⊂ N zeigen wollen.
Schritt 6: L ⊂ N
Beweis dazu: Es sei ω ∈ L. Es gibt also t0 , K, δ, so dass |Bt0 +s (ω)−Bt0 (ω)| ≤ Ks
für 0 ≤ s ≤ δ. Wähle n0 so groß, dass vier Punkte aus dem 2−n0 -Gitter in
[ t0 , t0 + δ ] fallen8 . Wir richten es dabei so ein, dass
k
k+1
k+2
k+3
k−1
< t0 ≤ n0 < n0 < n0 < n0 ≤ t0 + δ.
2 n0
2
2
2
2
Die t0 + i/2n0 sind für i = 0, 1, 2, 3 höchstens um 4/2n0 von t0 entfernt, und
deswegen gilt wegen Schritt 1: |B(i+1)/2n0 (ω) − Bi/2n0 (ω)| ≤ 8K/2n0 . Damit
ist auch Yn0 (ω) ≤ 8K/2n0 . Für Zahlen n mit n ≥ n0 ergeben sich die gleichen
Abschätzungen, und wenn wir n0 ≥ K annehmen, heißt das, dass ω in Fn,εn
liegt.
Zusammen: Es gibt ein n0 , so dass ω ∈ Fn,εn für alle n ≥ n0 ist. Und folglich
ist ω ∈ N .
... nicht einmal Hölderstetig für Exponenten > 0.5 ...
Zur Erinnerung: Eine Funktion f : [ a, b ] → R heißt Hölderstetig zum Exponenten γ, wenn für eine geeignete Konstante K stets
|f (s) − f (t)| ≤ K|s − t|γ
gilt. (Diese Definition ist für 0 < γ sinnvoll, für γ > 1 wird die Bedingung
allerdings nur von den konstanten Funktionen erfüllt.)
Das ist eine natürliche Verallgemeinerung der Lipschitzbedingung, die dem
Fall γ = 1 entspricht. Die Bedingung besagt, dass f an jeder Stelle höchstens so
schnell wie xγ bei Null wächst, insbesondere muss f dann stetig sein. Je kleiner
γ ist, um so mehr kann f explodieren“.
”
Für die Brownsche Bewegung ist 0.5 die kritische Grenze. Wir zeigen in
den nächsten Sätzen, dass die Brownsche Bewegung nirgendwo Hölderstetig zu
Exponenten > 0.5 und fast sicher Hölderstetig zu Exponenten < 0.5 ist.
8 Das
heißt: 2−n0 ≤ δ/4. Es soll auch n0 2n0 > t0 sein.
52
KAPITEL 5. DIE BROWNSCHE BEWEGUNG
Satz 5.2.4 Es sei (Bt ) eine Brownsche Bewegung. Für γ > 0.5 gilt dann fast
sicher: Es gibt kein Intervall [ a, b ] mit a < b, so dass s →
7 Bs (ω) auf [ a, b ]
Hölderstetig zum Exponenten γ ist.
Beweis: Sei H ⊂ Ω die Menge der ω, für die so eine Hölderbedingung erfüllt
ist. Ziel: H ist eine Nullmenge.
Etwas allgemeiner als oben definieren wir die quadratische Variation auch
für Teilintervalle: Q[ a,b ] bezeichnet die quadratische Variation der Brownschen
Bewegung auf [ a, b ]. Wie oben kann man dann leicht zeigen, dass die Zufallsvariablen
X
(Bti − Bti−1 )2
fast sicher gegen b − a gehen, wenn wir Zerlegungen Z von [ a, b ] betrachten, für
die die δ(Z) so schnell gegen Null konvergieren, dass sie sogar aufsummierbar
sind.
Sei N die Menge der ω, für die Q[ a,b ] (ω) = 0 ist für irgendein nichttriviales
Intervall mit rationalen Endpunkten. Das ist sicher eine Nullmenge, denn fast
sicher ist diese Zahl gleich b − a > 0, und es geht nur um abzählbar viele
Bedingungen. Wir wollen zeigen, dass H ⊂ N ist.
Sei dazu ω ∈ H, der zu ω gehörige Pfad erfülle auf [ a, b ] (nichttrivial, rationale Endpunkte) die Hölderbedingung. Dann gilt doch für eine Zerlegung von
[ a, b ]:
X
X
(Bti − Bti−1 )2 ≤ K 2
|ti − ti−1 |2γ
X
= K2
|ti − ti−1 |2γ−1 |ti − ti−1 |
2γ−1 X
≤ K 2 δ(Z)
|ti − ti−1 |
2γ−1
= K 2 δ(Z)
(b − a).
Und wenn die Z eine Zerlegungsfolge durchlaufen, so dass die δ(Z) schnell genug
gegen Null gehen, geht die linke Seite gegen Q[ a,b ] (ω), die rechte gegen Null (da
2γ − 1 > 0). Folglich liegt ω in N .
Wir beweisen noch ein weitergehendes Ergebnis, eine Verschärfung von Satz
5.2.3:
Satz 5.2.5 Es sei (Bt ) eine Brownsche Bewegung und γ > 0.5. Mit H bezeichnen wir jetzt die Menge der ω, für die t 7→ Bt (ω) an irgendeiner Stelle t0 nach
rechts Hölderstetig mit Exponent γ ist. Das soll bedeuten: Es gibt ein δ > 0 und
ein K, so dass
|Bt0 +s − Bt0 | ≤ Ksγ
für alle |s| ≤ δ gilt.
Dann gibt es eine Nullmenge mit H ⊂ N .
Beweis: Zunächst sei bemerkt, dass das eine weitreichende Verschärfung von
Satz 4.2.4 ist. Der Beweis ist eine Modifikation des Beweises von Satz 5.2.3.
5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN
53
Schritt 1: Es sei f : [ 0, δ 0 ] → R Hölderstetig nach rechts zum Exponenten γ
(Konstante: K). Für s, t ∈ [ 0, δ 0 ] ist dann
|f (s) − f (t)| ≤ 2Kδ 0γ .
Beweis dazu: Das ist wieder klar durch Vergleich mit f (0).
Schritt 2: Es folgen wieder Definitionen. Wir fixieren diesmal ein r ∈ N, das
erst später festgelegt wird. Zn,k ist wieder eine Zufallsvariable: diesmal das Maximum der Zahlen
|B(k+i+1)/2n − B(k+i)/2n |, i = 0, . . . , r − 1.
(Im obigen Beweis war r = 3.) Auch diesmal ist En,k,ε das Ereignis {Zn,k ≤ ε},
und wegen der Unabhängigkeit der Zuwächse ist P(En,k,ε ) ≤ (2 · 2n/2 ε)r .
Schritt 3: Wir setzen jetzt Yn := min0≤k≤n2n −3 Zn,k und Fn,ε := {Yn ≤ ε}. Es
gilt
P(Fn,ε ) ≤ n2n (2 · 2n/2 ε)r .
Schritt 4: Jetzt wird εn festgelegt: εn := n2−γn . Dann ist
P(Fn,εn ) ≤ n2n (2 · 2n/2 n2−γn )r
=
2r n1+r 2n(1+r(0.5−γ)) .
Da γ > 0.5 gilt, können wir r so groß wählen, dass 1 + r(0.5 − γ) negativ ist.
Dann ist die Reihe über die P(Fn,εn ) wieder endlich, und es folgt, dass
[ \
N :=
Fn,εn
n0 n≥n0
eine Nullmenge ist.
Schritt 5: Es ist H ⊂ N .
Beweis dazu: Sei ω ∈ H. Wir wählen t0 , K, δ so, dass
|Bt0 +s − Bt0 | ≤ Ksγ
für 0 ≤ s ≤ δ.
Nun wird n0 festgesetzt, so groß, dass für n ≥ n0
• n > t0 und n > 2K(r + 1)γ .
• Für ein geeignetes k ist
k−1
k
k+r
< t0 ≤ n ≤
≤ t0 + δ.
2n
2
2n
Schritt 1, mit δ 0 = (r + 1)/2n , garantiert dann, dass
|Bt0 +(i+1)/2n (ω) − Bt0 +i/2n (ω)| ≤ 2K(r + 1)γ 2−nγ ≤ εn
54
KAPITEL 5. DIE BROWNSCHE BEWEGUNG
für i = 1, . . . , r. Damit ist Zn,k (ω) ≤ εn und folglich ω ∈ Fn,εn , und das bedeutet
ω ∈ N.
... aber immerhin Hölderstetig für Exponenten < 0.5
Satz 5.2.6: Es sei γ < 0.5. Dann gilt fast sicher: Es gibt zu jedem ω und
jedem t0 ein positives δ 0 , so dass t 7→ Bt (ω) Hölderstetig zum Exponenten γ auf
[ t0 , t0 + δ 0 ] ist.
Der Beweis wird etwas später geführt, das Ergebnis soll aus dem folgenden
Stetigkeitssatz von Kolmogoroff 9 folgen:
Satz 5.2.7: Es sei (Xt )t≥0 ein reellwertiger Prozess mit stetigen Pfaden. Es
gebe positive Zahlen α, β, c, so dass stets gilt:
E(|Xt − Xs |β ) ≤ c|s − t|1+α .
Für jedes γ < α/β sind dann die Pfade von (Xt ) fast sicher Hölderstetig zum
Exponenten γ.
Beweis: Es reicht der Nachweis für (Xt )0≤t≤1 , der allgemeine Fall kann dann
durch Herausnehmen abzählbar vieler Nullmengen darauf zurückgeführt werden. Aus Bequemlichkeit nehmen wir auch c = 1 an, was leicht durch Übergang
zu Xt /c1/β erreicht werden kann.
Sei δ > 0, es wird später festgesetzt. Für n ∈ N sei ∆n die Menge der i/2n
mit i ∈ N, 0 ≤ i ≤ 2n .
Schritt 1: Ist δ klein genug, so gilt für fast alle ω, dass für genügend große n die
folgende Ungleichung erfüllt ist:
|Xi/2n (ω) − Xj/2n (ω) ≤ |(i − j)/2n |γ ,
falls 0 ≤ i ≤ j ≤ 2n und j − i ≤ 2δn . Das ist schon die gesuchte Hölderbedingung auf den ∆n , allerdings wird der Gültigkeitsbereich für wachsende n immer
winziger.
Beweis dazu: Die Markovungleichung garantiert, dass P(|Y | > a) ≤ E(|Y |β )/aβ
für a > 0. Für uns bedeutet das:
P(|Xi/2n − Xj/2n | >
|i − j| γ
|i − j| 1+α−βγ
) ≤
.
n
2
2n
Ist Fn das Ereignis, dass es irgendwelche i, j mit 0 ≤ i ≤ j ≤ 2n und j − i ≤ 2δn
gibt, so können wir P(Fn ) so abschätzen:
P(Fn ) ≤ 2n 2δn
2δn 1+α−βγ
,
2n
9 In einer anderen Version als der nachstehenden wird ausgesagt, dass (X ) eine gleicht t
wertige Variante mit stetigen Pfaden hat. Dieser Teil des Satzes ist hier nicht interessant, da
wir uns für Eigenschaften der Brownschen Bewegung interessieren, und das ist die Stetigkeit
schon sichergestellt.
5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN
55
denn die Anzahl der zu berücksichtigenden Paare kann durch 2n 2δn abgeschätzt
werden.
Der rechte Ausdruck ist aber gerade 2nρ , mit
ρ := (1 + δ) − (1 + α − βγ)(1 − δ),
und da 1 + α − βγ strikt positiv ist, lässt sich δ so wählen, dass ρ negativ ist.
Mit ε := −ρ ist also P(Fn ) ≤ 2−εn , und das garantiert, dass ein ω fast sicher in
nur endlich vielen Fn liegt. Das ist gerade die Behauptung.
Schritt 2: Wir werden zeigen, dass für ein ω, das in nur endlich vielen Fn liegt,
eine γ-Hölderbedingung erfüllt ist. Genauer: Es sei ω ∈
/ Fn für n ≥ n0 , wir
setzen f (t) := Xt (ω). Wir behaupten, dass es eine Konstante K so gibt, dass
|f (r) − f (q)| ≤ K|r − q|γ
für alle r, q ∈ [ 0, 1 ] mit q ≤ r und r − q ≤ 2−(1−δ)n0 .
Beweis dazu: Da f stetig ist, reicht es, das für eine dichte Teilmenge zu beweisen.
Wir nehmen an, dass r, q in einem ∆n mit n ≥ n0 liegen.
Wir wählen ein m ≥ n mit der folgenden Eigenschaft:
2−(m+1)(1−δ) ≤ r − q ≤ 2−m(1−δ) .
Anschließend suchen wir Punkte aus ∆m , die möglichst nahe“ bei q und r
”
liegen:
i
j
j+1
i−1
<q≤ m < m ≤r< m .
m
2
2
2
2
• Wie groß kann |f (j/2m ) − f (i/2m )| werden?
Es ist doch (j − i)/2m ≤ r − q ≤ 2−(1−δ)m . Damit ist 0 ≤ j − i ≤ 2mδ ,
und es folgt (wegen ω ∈
/ Fm )
|f (j/2m ) − f (i/2m )| ≤
2mδ γ
.
2m
• Wie groß kann |f (j/2m ) − f (r)| werden?
Das Argument ist wirklich trickreich. Schreibe r als j/2m plus endlich viele
0
Summanden der Form a/2m , wobei gilt: a ∈ {0, 1}, m0 > m, und jedes
m0 tritt höchstens einmal auf. Man findet diese Summanden, wenn man
für die Zahl 2m r − j ∈ [ 0, 1 ] die Darstellung im Dualsystem ausrechnet.
Wegen der Dreiecksungleichung, da die m0 > m sind und da jeder Summand nur einmal auftritt, ist |f (j/2m ) − f (r)| durch eine Summe aus
Termen (2−(m+s) )γ über gewisse s > 1 abzuschätzen. Schätzen wir weiter
ab, indem wir alle s berücksichtigen, folgt
|f (j/2m ) − f (r)| ≤ C1 2−mγ
mit einer nur von γ abhängigen Konstanten.
56
KAPITEL 5. DIE BROWNSCHE BEWEGUNG
• Wie groß kann |f (i/2m ) − f (q)| werden?
Das geht analog: ≤ C1 2−mγ .
Und nun das Finale. Die vorstehenden Überlegungen zeigen, dass
|f (r) − f (q)| ≤ 2−γm(1−δ) + 2C1 2−mγ ,
und das muss durch C2 |r − q|γ abgeschätzt werden. Wegen 2−(m+1)(1−δ) ≤ r − q
ist |r − q|γ ≥ 2−γ(m+1)(1−δ) , und deswegen reicht es zu zeigen, dass
2−γm(1−δ) + 2C1 2−mγ ≤ C2 2−γ(m+1)(1−δ)
für ein geeignetes C2 . Das wird genau dann gelten, wenn
2mδγ + 2C1 ≤ C2 2−γ(1+δ) 2mδγ .
Damit ist klar, dass das für genügend große C2 garantiert werden kann: C2 muss
nur so groß sein, dass 1 + 21−n0 δγ C1 ≤ C2 2−γ(1−δ) .
Es folgt nun der Beweis von Satz 5.2.3
√ . Sei n ∈ N und X eine N (0, 1)verteilte Zufallsvariable. Für s < t ist t − sX so verteilt wie Bt − Bs , und
deswegen gilt
√
E(|Bt − Bs |2n ) = E(| t − sX|2n ) = E(|X|2n )|t − s|n .
Folglich sind mit C = E(|X|2n ), β = 2n und α = n − 1 die Voraussetzungen des
vorigen Satzes erfüllt. Die Hölderstetigkeit kann damit für alle γ < (n − 1)/(2n)
garantiert werden, und da n beliebig groß gewählt werden kann, ist der Beweis
für alle γ < 0.5 geführt.
Kapitel 6
Stochastische Integrale und
stochastische
Differentialgleichungen
Der Ausgangspunkt ist die folgende Problemstellung. Wenn sich ein Prozess
gemäß einer Differentialgleichung entwickelt, so ist die lokale Änderung in einem
kleinen“ Zeitintervall durch
”
dZ(t) = f (Z(t), t)dt
gegeben, man schreibt das kurz als Z 0 (t) = f (Z(t), t). In vielen Fällen gibt es
aber eine Zufallsstörung“: Während des kleinen“ Zeitintervalls dt wird dZ(t)
”
”
zusätzlich durch einen mehr oder weniger abgeschwächten Zufallseinfluss modifiziert. Modelliert man den normalisierten Zufall im Zeitraum [ t, t + dt ] durch
dBt := Bt+dt − Bt für eine Brownsche Bewegung (Bt ), so kann man zu
dZ(t) = f (Z(t), t)dt + g(Z(t), t)dBt
übergehen; g ist folglich dafür verantwortlich, wie stark der Zufallseinfluss ist.
Das ist eine stochastische Differentialgleichung. In diesem Kapitel soll präzisiert
werden, was das bedeutet.
6.1
Riemann-Stieltjes-Integrale
Rb
Das übliche“ Integral a f (x) dx kann doch als Fläche zwischen dem Graphen
”
von f und der x-Achse interpretiert werden. Alternativ kann man sich auch
vorstellen, dass die Wegstückchen“ dx mit einer Wichtung f (x) versehen und
”
dann aufsummiert werden: Das Integral wird durch
X
f (xi )(xi+1 − xi )
57
58KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN
approximiert, wobei die xi eine feine“ Unterteilung von [ a, b ] bilden.
”
Nun gibt es eine Modifikation. Die Wegstückchen werden auch noch gewichtet, und zwar durch die Zuwächse einer Funktion g. Der Zielwert soll also durch
X
f (xi ) g(xi+1 ) − g(xi ) ,
die Riemann-Stieltjes-Summe, angenähert werden. Der vorstehende Fall ist darin enthalten, man muss nur g(x) = x setzen. Der jetzige Ansatz ist aber viel
allgemeiner. Ist zum Beispiel g eine Treppenfunktion, die bei c um Eins springt
und ist f stetig, so ist die entsprechende Summe nahe bei f (c), wenn die Unterteilung fein ist.
Hier die wichtigsten Fakten zu diesem Ansatz:
• Ist f stetig und g von beschränkter Variation1 , so gibt es eine Zahl R ∈ R
mit der folgenden Eigenschaft: Wenn
gegen
P die maximale Zerlegungslänge
Null geht, so konvergieren die
f (xi ) g(xi+1 ) − g(xi ) gegen R. Man
Rb
schreibt statt R dann a f (x) dg(x), das ist das Riemann-Stieltjes-Integral .
Beweisskizze für die Existenzaussage:
1. Schritt:
P Ist Z : x0 = a < x1 < · · · < xn = b eine Zerlegung von [ a, b ], so schreibe
IZ :=
f (xi ) g(xi+1 ) − g(xi ) . Zeige zunächst: Ist Z̃ eine Verfeinerung von Z (es gibt
also mehr Zerlegungspunkte) und schwankt f auf jedem Zerlegungsintervall von Z um
höchstens ε, so ist |IZ − IZ̃ | ≤ εV (g).
2. Schritt: Sind Z, Z̃ Zerlegungen und schwankt f auf jedem Zerlegungsintervall von Z
und Z̃ um höchstens ε, so ist |IZ −IZ̃ | ≤ 2εV (g). Zum Beweis betrachte die gemeinsame
Verfeinerung.
3. Schritt: Geht für die Zerlegungsfolge (Zn ) die maximale Zerlegungslänge gegen Null,
so ist (IZn ) eine Cauchyfolge in R und folglich konvergent. Hier ist der zweite Schritt
mit der Tatsache zu kombinieren, dass stetige Funktionen auf [ a, b ] gleichmäßig stetig
sind.
4. Schritt: Der vorstehende Limes ist unabhängig von (Zn ). Sind nämlich (Zn ) und
(Z̃n ) zulässige Zerlegungsfolgen, so betrachte Z1 , Z̃1 , Z2 , Z̃2 , . . .. auch diese Folge ist
zulässig. Folglich konvergiert IZ1 , IZ̃1 , IZ2 , IZ̃2 , . . ., und die Folgen (IZn ) und (IZ̃n )
sind Teilfolgen.)
• Dieses
Integral hat
Linearitätsund Stetigkeitseigenschaften:
R
R die üblichen
R
R
(f1 + f2 ) dg = f1 dg + f2 dg, | f dg| ≤ ||f ||max V (g), . . . (V (g) soll
die Variation von g bezeichnen.)
• Mehr ist nicht zu erwarten:
Wenn das Integral für alle stetigen f erklärt
R
werden kann und f 7→ f dg stetig ist, so ist g von beschränkter Variation.
• Dieser Ansatz ist sehr allgemein: Für alle endlichen Rregulären“R Maße µ
”
auf [ a, b ] gibt es eine monotone Funktion g, so dass f dµ = f dg für
alle stetigen f gilt.
P
bedeutet: Es gibt ein M ∈ R, so dass i |g(xi+1 )−g(xi )| ≤ M für alle Unterteilungen
a = x1 < · · · < xn = b von [ a, b ]. Das Supremum der links stehenden Zahlen heißt die
Variation von g, diese Zahl wird hier mit V (g) bezeichnet.
1 Das
6.2. ITO-ISOMETRIE
59
Aus den vorstehenden Überlegungen scheint sich eine Motivation zu ergeben,
wie man das in der Einleitung beschriebene Problem, in dem dBt auftrat, lösen
RT
könnte: Ist (Yt )t≥0 ein Prozess, so könnte man doch 0 Yt (ω) dBt (ω) pfadweise
als Riemann-Stieltjes-Integral definieren:
X
Yti (ω) Bti+1 − Bti
für Unterteilungen von [ 0, T ] berechnen und dann zum Limes übergehen, wobei
die maximale Zerlegungslänge gegen Null geht.
Doch leider ist dieser klassische Lösungsversuch für das vorliegende Problem
zum Scheitern verurteilt, denn die Pfade der Brownschen Bewegung haben fast
sicher keine endliche Variation (vgl. Satz 5.2.2(iii)). Es geht mit einer neuen Idee
aber doch, das behandeln wir im nächsten Abschnitt.
6.2
Das stochastische Integral für stochastische
Treppenfunktionen, die Ito-Isometrie
Wie kann man es aber besser machen? Die Lösung ist das Ito-Integral, es wurde
von Kiyoshi Ito (1915 – 2008) vorgeschlagen2 . Die Idee kann so beschrieben
werden:
Angenommen, man möchte für Objekte x eine Definition f (x) einführen,
die auf direktem Weg mathematisch unsinnig ist. Dann kann man
so vorgehen:
• Zeige, dass für die x in einer Teilklasse T alles gut geht.
• Setze die Definition dann mit Hilfe der Stetigkeit auf den Abschluss T − von T fort: f (x) := lim f (xn ), wobei xn → x.
Dazu muss natürlich eine geeignete Topologie vorliegen, und die Definition muss von der zufälligen Wahl der Folge xn unabhängig sein.
Beispiele, in denen man genau so verfährt, sind:
1. Die Definition von ax für a > 0 und x ∈ R. (Es geht natürlich auch einfacher
mit Hilfe der Exponentialfunktion: ax := exp(x log a).)
2. Die Definition der Fortsetzung von linearen stetigen Abbildungen von einem
normierten Raum auf seine Vervollständigung.
3. Die L2 -Fourier-Transformation.
Und hier soll die Idee zur Definition des stochastischen Integrals eingesetzt
werden.
2 Erst in den letzten Jahren ist klar geworden, dass Wolfgang Döblin (1915 –1945) schon
früher einen ähnlichen Ansatz vorgeschlagen hatte.
60KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN
Für unsere Zwecke ist die folgende Variante dieser Technik genügend allgemein3 .
Lemma 6.2.1 Es seien (M, d) und (M 0 , d0 ) metrische Räume. Von M 0 setzen
wir voraus, dass dieser Raum vollständig ist. Ist dann M0 eine dichte Teilmenge
von M und f : M0 → M 0 eine Lipschitzabbildung, so gibt es genau eine stetige
Fortsetzung F : M → M 0 von f auf M .
Zusatz 1: Falls f eine Isometrie ist, so auch F .
Zusatz 2: Sind M und M 0 normierte Räume und ist f linear, so ist auch F
linear.
Beweis: Sei x ∈ M , wir schreiben x = lim xn . (xn ) ist eine Cauchyfolge,
wegen der Lipschitzbedingung ist dann auch (f (xn )) eine Cauchyfolge. Setze
F (x) := lim f (xn ). (Dieser Limes existiert wegen der Vollständigkeit). Es ist
dann leicht einzusehen:
• F (x) ist unabhängig von (xn ) definiert.
• F (x) = f (x) für x ∈ M0 .
• F genügt der gleichen Lipschitzbedingung wie f .
Zusatz 1 folgt aus der Stetigkeit der Norm und Zusatz 2 aus der Stetigkeit der
Addition. Und damit ist alles gezeigt.
Wir beginnen mit zwei stochastischen Prozessen, einer ist die Brownsche
Bewegung: (Yt )t≥0 und (Bt )t≥0 . Beide sollen auf dem gleichen Raum (Ω, E, P)
definiert sein.
(Yt )t≥0 spielt die Rolle des sich bewegenden Teilchens, wobei die Bewegung
durch die Zufallseinflüsse (Bt ) gestört ist. Deswegen ist plausibel, dass Yt nur
durch die Bs mit s ≤ t beeinflusst ist, oder anders ausgedrückt:
Bezeichnet (Ft ) die von den (Bt ) erzeugte natürliche Filtration, so
ist (Yt ) adaptiert, d.h. stets ist Yt Ft -messbar.
RT
Wir werden nun versuchen, für solche Situationen dem Integral 0 Yt dBt für
alle T > 0 einen Sinn zu geben. Das soll mit Hilfe von Lemma 2.6.1 realisiert
werden.
Wir fixieren ein T > 0 und definieren
Prozesse.
RT
0
Yt dBt zunächst für ganz einfache“
”
Definition 6.2.2: Ein Prozess (Yt )0≤t≤T mit Y0 = 0 heißt elementar , wenn
es eine Zerlegung 0 = t0 < t1 < · · · < tk = T von [ 0, T ] und Zufallsvariable
Yi0 , i = 0, . . . , k − 1 so gibt, dass gilt:
• Yi0 ist Fti -messbar für alle i.
3 Nicht viel schwieriger ist ein entsprechendes Ergebnis einzusehen, wenn statt der LipschitzBedingung eine Hölder-Stetigkeitsbedingung oder auch nur die gleichmäßige Stetigkeit gefordert wird.
6.2. ITO-ISOMETRIE
61
• Yt = Yi0 auf ] ti , ti+1 ] für i = 0, . . . , k − 1. Das kann man auch geschlossen
schreiben:
k−1
X
Yt =
Yi0 χ] ti ,ti+1 ] (t).
i=0
Der Prozess startet also in Null, dann wird sofort auf Y00 umgeschaltet, ab
t1 springt der Prozess auf Y10 usw. Dabei ist Y00 einfach eine Zahl, Y10 muss sich
aus dem Verhalten von Bt auf [ 0, t1 ] ergeben4 , Y20 aus dem Verhalten von Bt
auf [ 0, t2 ] usw.
Wir fassen die auf [ 0, T ] definierten elementaren Prozesse (Yt ) als Abbildungen
Y : [ 0, T ] × Ω, (t, ω) 7→ Yt (ω)
auf. Es ist dann fast trivial einzusehen, dass die Gesamtheit dieser Prozesse
einen linearen Raum bildet, wenn man die Linearstruktur des Raumes R [ 0,T ]×Ω
übernimmt.
Schwieriger ist die richtige Wahl der Norm für diese Funktionen. Wir werden
mit der L2 -Norm arbeiten. Zugelassen sind also ab sofort nur noch Funktionen,
die messbar bezüglich der Produkt-σ-Algebra auf [ 0, T ] × Ω sind und deren
Quadrat ein endliches Integral hat (Produktmaß aus Lebesguemaß und P).
Pk−1
Um zu erreichen, dass eine elementare Funktion i=0 Yi0 χ] ti ,ti+1 ] (s) diese
Eigenschaft hat, muss man nur verlangen, dass alle Yi0 zu L2 (Ω, P) gehören, dass
also die Varianz dieser Zufallsvariablen existiert. Wir schreiben das so:
Z
1/2
0
||Yi ||Ω :=
|Yi0 (ω)|2 (ω) dP(ω)
< ∞.
Ω
Dann gehört die zugehörige elementare Funktion Y wirklich zum Raum
L2 ([ 0, T ] × Ω), und die Norm ist auch leicht auszurechnen:
Z
||Y ||2[0,T ]×Ω =
|Y |2 d(λ[ 0,T ] ⊗ P)
[ 0,T ]×Ω
Z
Z
=
Yt2 dP dλ(t)
[ 0,T ]
=
X
Ω
||Yi0 ||2 (ti+1
− ti ).
i
Nun soll das zugehörige stochastische Integral betrachtet werden. Es ist plausibel, das für elementare Prozesse durch
X
IY :=
Yi0 (Bti+1 − Bti )
4 Zum Beispiel: Y 0 (ω) := 5, wenn max
t≤t1 Bt (ω) > 1, und Null sonst. Nicht zulässig wäre
1
zum Beispiel die Definition: Y10 (ω) := 3, wenn maxt≤T +1 Bt (ω) > 8, und π sonst
62KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN
zu definieren. Das ist eine auf Ω definierte Zufallsvariable. Um mit Normen
arbeiten zu können, sollte sie im L2 (Ω) liegen, doch das kann nicht garantiert
werden. Deswegen schränken wir den Bereich der betrachteten Prozesse weiter
ein und betrachten nur noch beschränkte Yi0 . Dann ist die Norm ||IY ||Ω =
1/2
E[(IY )2 ]
sicher endlich, und bemerkenswerter Weise wird sich gleich zeigen,
dass Y 7→ IY eine lineare Isometrie ist. Das ist die Ito-Isometrie, die Grundlage
der stochastischen Integration.
Zunächst fassen wir die bisherigen Schritte auf dem Weg zum stochastischen
Integral zusammen:
• Wir fixieren T > 0 und betrachten Prozesse (Yt )0≤t≤T . Sie sollen die Form
Pk−1
Yt = i=0 Yi0 χ] ti ,ti+1 ] (t) haben, wobei die ti eine Zerlegung von [ 0, T ]
bilden.
• Yi0 ist jeweils Fti -messbar (natürliche Filtration zu (Bt )), und aus technischen Gründen betrachten wir vorläufig nur elementare Prozesse, bei
denen alle Yi0 beschränkt ist. Die Menge der so entstehenden Y ist ein
Unterraum von L2 ([ 0, T ] × Ω): Das lässt sich leicht ausrechnen. Er soll
für die nächsten Untersuchungen mit V bezeichnet werden.
P
• Wir definieren dann IY := Yi0 (Bti+1 − Bti ) für Y ∈ V . Es ist offensichtlich, dass Y 7→ IY eine lineare Abbildung ist.
Und hier der Schlüsselsatz“:
”
Satz 6.2.3: Mit den vorstehenden Definitionen gilt
||Y ||[ 0,T ]×Ω = ||IY ||Ω (Ito-Isometrie).
Beweis: Es ist praktisch, mit den Quadraten der Normen
zu rechnen. Das
P
Quadrat der linken Seite haben wir schon bestimmt:
||Yi0 ||2Ω (ti+1 − ti ). Das
2
P 0
Quadrat der rechten Seite ist der Erwartungswert von
Yi (Bti+1 − Bti ) .
Ein typischer Summand dieser quadrierten Summe hat nach Ausmultiplizieren die Form
Yi0 (Bti+1 − Bti )Yj0 (Btj+1 − Btj ).
Wir betrachten zwei Fälle:
Fall 1: i 6= j
Sei etwa i < j. In diesem Fall ist Yi0 (Bti+1 − Bti )Yj0 Ftj -messbar und folglich
von Btj+1 − Bji unabhängig. Da alle auftretenden Erwartungswerte existieren5 ,
der Erwartungswert für Produkte unabhängiger Zufallsvariablen multiplikativ
ist und E(Btj+1 − Bji ) = 0 gilt, verschwindet der Erwartungswert dieses Summanden.
5 Deswegen
hatten wir sicherheitshalber die Beschränktheit der Yi0 vorausgesetzt.
6.2. ITO-ISOMETRIE
63
Fall 2: i = j
Jetzt ist der Erwartungswert von Yi02 (Bti+1 − Bti )2 zu ermitteln. Wieder wegen
der Unabhängigkeit ist das gleich E(Yi02 )E((Bti+1 − Bti )2 ). Dabei ist der erste
Faktor gleich ||Yi0 ||2Ω , der zweite gleich der Varianz von Bti+1 − Bti , also gleich
ti+1 − ti .
Und damit ist alles gezeigt.
Es ist also Y 7→ IY eine lineare Isometrie von V nach L2 (Ω), und wir können
Lemma 6.2.1 anwenden. Damit kann die Definition auf V − fortgesetzt werden
(Abschluss im L2 ([ 0, T ] × Ω).) Das ist dann das Ito-Integral. Es wäre natürlich
gut, etwas genauer zu wissen, welche Funktionen man dadurch erreicht hat. Es
folgt eine Beschreibung:
Satz 6.2.4: Sei (Yt )0≤t≤T ein Prozess, der – aufgefasst als Abbildung auf
[ 0, T ] × Ω – messbar und quadratintegrabel ist. Dann gilt: (Yt ) gehört genau
dann zu V − , wenn gilt: Für fast alle t ist Yt quadratintegrabel Ft -messbar. Damit gilt: Sind alle Yt quadratintegrabel und ist stets Yt Ft -messbar, so ist das
Ito-Integral erklärt. Der Wert des Integrals – es ist eine Zufallsvariable auf Ω,
die wir mit
Z
T
Yt dBt
0
bezeichnen werden –, kann wie folgt bestimmt werden:
• Finde Yn ∈ V mit ||Y − Yn || → 0.
• Berechne die Zufallsvariablen IYn ∈ L2 (Ω).
• Die Folge der (IYn ) ist in L2 (Ω) konvergent, der Limes ist das Ito-Integral
RT
Yt dBt .
0
Beweis: Eine Richtung ist klar: Auch im Abschluss bleibt die Adaptiertheit
erhalten, und die Yt müssen nach dem Satz von Fubini fast sicher quadratintegrabel sein. Etwas aufwändiger ist die Umkehrung, dazu soll es nur eine Beweisskizze geben.
Schritt 1: Die Behauptung stimmt, wenn Y beschränkt ist und stetige Pfade hat.
Beweis dazu: Y sei vorgelegt. Yn ∈ V wird wie folgt definiert. Wir unterteilen
(n)
[ 0, T ] in n + 1 gleiche Teile: ti = iT /n, i = 0, . . . , n + 1. Setze, mit Yi := Yin ,
Yn :=
X
(n)
Yi
χ] ti ,ti+1 ] .
i
Wegen der (gleichmäßigen) Stetigkeit der Pfade konvergieren die Yn punktweise
gegen Y , aufgrund der Beschränktheit dann auch im L2 ; hier wird der Satz von
der dominierten Konvergenz wichtig.
Schritt 2: Die Behauptung stimmt, wenn Y stetige Pfade hat.
64KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN
Beweis dazu: Betrachte Y [n] : Alles, was oberhalb (bzw. unterhalb) n (bzw. −n)
liegt wird als n (bzw. −n) definiert. Wegen Schritt 1 liegen diese Zufallsvariablen in V − , und sie konvergieren (wieder nach dem Satz von der dominierten
Konvergenz) gegen Y .
Schritt 3: Die Behauptung stimmt für alle Y , die adaptiert sind.
Beweis dazu: Hier ist es wesentlich, dass die stetigen Funktionen im L2 dicht
liegen. Die Approximationen können dabei durch ein Faltungsintegral definiert
werden, dadurch kann man sicherstellen, dass sie auch adaptiert sind.
Wenn man weiß, wie ein Integral definiert ist, ist noch lange nicht klar, wie
man es ausrechnet. In der elementaren Analysis etwa Rkostet es große Mühe,
1
allein aufgrund der Integraldefinition zu beweisen, dass 0 x2 dx = 1/3 gilt.
Hier ist es ganz ähnlich: Es geht zwar manchmal, aber es ist extrem mühsam.
In der Analysis wurde alles viel einfacher mit dem Hauptsatz der Differentialund Integralrechnung, hier spielt die Ito-Formel (die wir im nächsten Kapitel
behandeln werden) eine ähnliche Rolle.
Als typisches und eher abschreckendes Beispiel behandeln wir das Integral
Bt dBt . Als Vorbereitung benötigen wir das
0
Pk−1
Lemma 6.2.4: Ist Y = i=0 Yi0 χ] ti ,ti+1 ] (t) elementar und sind die Yi0 und die
Yi0 Bt quadratintegrabel, so ist Y ∈ V − , und es gilt
RT
Z
T
Yt dBt =
0
k−1
X
Yi0 (Bti+1 − Bti ).
i=0
Beweis: Das beweist man wieder durch geeignete Approximation: Die Yi0 werPk−1 [n]
[n]
den bei ±n abgeschnitten“: Yi . Die i=0 Yi χ] ti ,ti+1 ] approximieren Y , und
”
Pk−1
die Bilder unter der Integrationsabbildung approximieren i=0 Yi0 (Bti+1 −Bti ).
Dabei spielt der Satz von der majorisierten Konvergenz wieder eine wichtige
Rolle.
Nach dieser Vorbereitung behandeln wir ein erstes nichttriviales Beispiel:
RT
Satz 6.2.5: 0 Bt dBt = (BT2 − T )/2.
Beweis: Für n ∈ N wird der Prozess Y [n] durch
[n]
Yt
:=
n−1
X
BiT /n χ] i/n,(i+1)T /n ]
i=0
erklärt. Aufgrund des vorigen
Satzes liegen die Y [n] in V − und ihr Ito-Integral
P
ist leicht berechenbar: i BiT /n (B(i+1)T /n − Bi/n T ).
Schritt 1: Y [n] → (Bt )t∈[ 0,T ] .
6.2. ITO-ISOMETRIE
65
Beweis dazu: Wir berechnen den Erwartungswert des Abstandsquadrats:
||Y [n] − (Bt )t∈[ 0,T ] ||2
T
Z Z
Ω
=
=
Z
(BiT /n − Bt )2 dP dt
Ω
(i+1)T /n
(t − i0 /n) dt
iT /n
X 1 T2
i
2
=
(i+1)T /n
iT /n
XZ
i
=
0
XZ
i
[n]
|Yt (ω) − Bt (ω)|2 dt dP
=
2 n2
T
.
2n
Da das gegen Null geht ist Y [n] → (Bt )t∈[ 0,T ] bewiesen.
RT
Schritt 2: 0 Y [n] dBt → (BT2 − T )/2.
Beweis dazu: Wenn man für das Integral die Definition einsetzt, so ist das Abstandsquadrat zwischen Folge und rechter Seite gleich
Z
2
BT2 − T X
An :=
−
BT i/n (BT (i+1)/n − BT i/n ) dP .
2
Ω
i
Eine längliche Rechnung wird zeigen, dass
An =
iT T 2 X iT (i + 1)T
−
−
,
2
n
n
n
i
RT
und da die rechte Summe eine Riemannsumme zur Berechnung von 0 xdx ist,
gilt An → 0 wie behauptet.
Teilschritt 2.1: Ist X N (0, 1)-verteilt, so ist E(X 4 ) = 3. Es folgt dann: Ist Y
N (0, d)-verteilt, so ist E(Y 4 ) = 3d2 . Insbesondere ist also E(BT4 ) = 3T 2 .
2
2
Beweis dazu: Schreibe den hier auftretenden Integranden x4 e−x /2 als x3 xe−x /2 =
uv 0 und führe dann eine partielle Integration aus. So folgt
Z
2
3
E(X 4 ) = √
x2 e−x /2 dx,
2π R
und das ist gerade das Dreifache der Varianz von X.
√
Der Zusatz ist klar, denn Y hat die gleiche Verteilung wie dX.
Teilschritt 2.2: Wir nennen die Zufallsvariablen unter dem Integral in der Definition von An jetzt S1 − S2 − S3 . S1 = BT /2, S2 = T /2 (eine Konstante), und
S3 ist die Summe. An ist dann der Erwartungswert von (S1 − S2 − S3 )2 , und
deswegen müssen wir uns um sechs verschiedene Erwartungswerte kümmern.
S1 S1 : Das ist in Teilschritt 2.1 vorbereitet: E(S12 ) = 3T 2 /4.
66KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN
S1 S2 : Da die Varianz von BT gleich T ist, folgt E(S1 S2 ) = T 2 /4
0
−
S1 S3 : Das ist der schwierigste Teil, wir setzen Bi0 := BiT /n und ∆i B := Bi+1
0
Bi . Dann ist
X
E(S1 S3 ) =
E(BT2 Bi0 ∆i B)
i
=
X 2
0
E (BT − Bi+1
) + ∆i B + Bi0 Bi0 ∆i B.
i
Wenn wir das Quadrat ausmultiplizieren, so entstehen fast nur Produkte der
Form ZW , wobei die Zufallsvariablen unabhängig sind und mindestens eine von
beiden Erwartungswert Null hat. Deswegen ist dieser Anteil am Erwartungswert
Null. (Beispiel: E(Bi03 ∆i B) = 0.) Einzig die Bi02 (∆i B)2 liefern einen Beitrag,
nämlich
T 2 (i/n) (i + 1)/n − i/n ;
beachte, dass sie zweimal auftreten.
Zusammen heißt das, dass
E(S1 S3 ) = T 2
X i i+1 i
. .
n n n
i
S2 S2 : Das ist leicht, da S2 konstant ist: E(S22 ) = T 2 /4.
S2 S3 : Der Erwartungswert von S3 ist gleich Null, da jeweils BT i/n von (BT (i+1)/n −
BT i/n ) unabhängig ist und die Faktoren Erwartungswert Null haben. Da S2 , S3
unabhängig sind, folgt E(S2 S) = 0.
S3 S3 : In Analogie zum Beweis der Ito-Isometrie 6.2.3 (Ausmultiplizieren, Fallunterscheidung nach gleichen bzw. verschiedenen Indizes) folgt
E(S3 S3 ) = T 2
X i
n
i
i+1
i −
.
n
n
Es ist Zeit für das Finale. An ist der Erwartungswert von
S12 + S22 + S32 − 2S1 S2 − 2S1 S3 + 2S2 S3
und folglich gleich
X i
T2
− T2
2
n
i
wie behauptet.
i+1
i −
n
n
Schlussbemerkungen
1. Ohne große Mühe sind für das Ito-Integral gewisse Eigenschaften nachweisbar,
RT
die bei einem Integrationsprozess zu erwarten sind. So ist Y 7→ 0 Yt dBt linear,
R T R t0 R T
und es gilt 0 = 0 + t0 für 0 < t0 < T .
6.2. ITO-ISOMETRIE
67
2. In der Regel
R t ist Y als Prozess für t ≥ 0 gegeben, und deswegen kann man
durch Jt := 0 Ys dBs einen neuen Prozess (Jt )t≥0 erzeugen. Jedes Jt ist nur
bis auf eine Nullmenge eindeutig bestimmt, und deswegen muss man recht genau argumentieren, wenn man Eigenschaften des ganzen Prozesses untersuchen
möchte. Die Lösung besteht natürlich darin, mit ein für allemal gewählten Ap[n]
proximationen (Yt )t≥0 zu arbeiten, deren Einschränkungen auf jedes Intervall
[ 0, t ] zur Berechnung des Ito-Integrals verwendet werden können. Dann folgt:
• (Jt )t≥0 ist wieder ein adaptierter Prozess.
• Hat (Yt ) fast sicher stetige Pfade, so lässt sich Jt so konstruieren, dass
auch dieser Prozess fast sicher stetige Pfade hat.
• (Jt )t≥0 ist ein Martingal: E(Jt1 |FT ) = JT für t1 > T .
3. Doch wie kann man mit dem Ito-Integral numerisch arbeiten, wie kann man
es visualisieren? Das ist ein wichtiger Punkt, der im Rahmen dieser Vorlesung
nur angerissen werden kann6 .
Zunächst wird an eine entsprechende Situation aus der elementaren Analysis
+
erinnert.
ist, wie verschafft man sich ein Bild von
R t Wenn f : R → R stetig
t 7→ 0 f (s)ds? Das ist sehr einfach7 : Lege eine kleine“ Schrittweite h fest und
”
definiere rekursiv x0 := 0, xk+1 := xk +f (kh)h. Dann ist xk eine Approximation
R kh
von 0 f (s) ds, denn xk ist gerade eine Riemannsumme zum Integral von f auf
[ 0, kh ].
Und diese Idee kann hier übertragen werden, es heißt dann das Verfahren von
Euler-Maruyama. Danach erhält
R t man einen ”typischen“ Pfad des stochastischen
Integrals, also t 7→ Jt (ω) = 0 Ys (ω) dBs (ω) wie folgt:
• Bereite einen Zufallsgenerator Z vor, der N (0, 1)-erzeugte Ausgaben liefert.
• Setze x0 := 0 (das Integral), b0 := 0 (die Brownsche Bewegung) und
y0 := 0 (der Y -Pfad).
• Bestimme eine genügend kleine“ Schrittweite h.
”
√
• Für das update verfahre wie folgt. Zunächst ist bk+1 = bk + hZ und
xk+1 = xk + yk (bk+1 − bk ). Und dann ist yk+1 auszurechnen, das soll
eine Approximation von Y(k+1)h (ω) sein, und da der Prozess adaptiert
ist, sollte dieser Wert irgendwie durch die y1 , . . . , yk und die b0 , . . . , bk+1
ausgedrückt werden können.
Ist es berechtigt zu erwarten, auf diese Weise realistische Bilder der Pfade
t 7→ Jt (ω) zu erhalten? Eine erste Analyse identifiziert zwei Fehlerquellen. Die
6 Es ist zu bemerken dass es bei der Visualisierung von chaotischen Prozessen und in der
Fraktaltheorie ganz ähnliche Probleme wie hier gibt.
7 Formal geht es um das Euler-Verfahren für die Differentialgleichung y 0 = f, y(0) = 0.
68KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN
erste kommt – wie in der elementaren Analysis – dadurch zustande, dass stetige Funktionen durch Werte an diskreten Stellen approximiert werden. Da ist
zu hoffen, dass der Fehler bei genügend kleinem h kontrollierbar bleibt. Die
zweite Fehlerquelle liegt in der Tatsache, dass das Ito-Integral nicht pfadweise,
sondern nur durch eine Approximation im quadratischen Mittel definiert ist. Anders ausgedrückt: Wir haben eine Situation vor uns, bei der für die beteiligten
Zufallsvariablen R, S (Approximation und wirkliches Ito-Integral) sichergestellt
ist, dass E((R − S)2 ) klein“ ist. Dann ist auch |R − S|(ω) in der Regel“ klein,
”
”
es kann aber (mit kleiner Wahrscheinlichkeit) große Abweichungen geben.
Die Moral: Das, was man auf dem Bildschirm sieht, ist üblicher Weise nur mit
großer Wahrscheinlichkeit, aber nicht hundertprozentig sicher, eine gute Approximation des wirklichen Prozesses.
4. Wie fast immer in der Mathematik kann man alles viel allgemeiner machen,
wenn man die Idee verstanden hat. Tatsächlich haben wir von der Brownschen
Bewegung nur gewisse Eigenschaften ausgenutzt: Dieser Prozess ist ein Martingal, die Pfade sind stetig usw. Deswegen ist es nicht wirklich überraschend, dass
das stochastische Integral viel allgemeiner definiert werden kann. Das soll hier
aber nicht weiterverfolgt werden.
Rt
5. Man beachte die folgende Feinheit: Nur 0 Ys dBs (ω) ist ein sinnvoller AusRt
druck, nicht aber 0 Ys (ω)dBs (ω). So kann man es nur für elementare Prozesse
machen. Anders ausgedrückt: Das stochastische Integral ist ausdrücklich nicht
pfadweise definiert.
6.3
Das stochastische Integral / stochastische
Differentialgleichungen
Der Ausgangspunkt dieses Kapitels war das Problem, dem Ausdruck
f (Zt , t)dt + g(Zt , t)dBt
(er soll gleich dZt sein) einen Sinn zu geben. Der zweite Summand war problematisch, durch das Ito-Integral ist dieses Problem gelöst. Das ist aber nur in
der Integralfassung sinnvoll, und deswegen definieren wir:
Definition 6.3.1: f, g seien stetige Funktionen (von einer offenen Teilmenge
des R 2 nach R). Weiter seien (Yt ), (Zt ) stochastische Prozesse und (Bt ) eine
Brownsche Bewegung. Diese Prozesse sind für t ≥ 0 auf einem Raum (Ω, E, P)
definiert. Es wird vorausgesetzt, dass auch (Yt ) und (Zt ) stetige Pfade haben.
(Ft ) bezeichnet die natürliche Filtration zu (Bt ), und wir setzen voraus, dass
(Yt ) und (Zt ) adaptiert sind.
(i) Wir sagen, dass die stochastische Differentialgleichung
dYt = f (Zt , t)dt + g(Zt , t)dBt
erfüllt ist, wenn für alle t ≥ 0 die Gleichung
Z t
Z t
Yt (ω) = Y0 (ω) +
f (Zs (ω), s) ds + (
Zt dBt )(ω)
0
0
6.3. STOCHASTISCHE DIFFERENTIALGLEICHUNGEN
69
fast sicher gilt8 . Man vermeidet also ausdrücklich, von dBt , der “Ableitung der
Brownschen Bewegung” zu sprechen9
(ii) Konsequenterweise bedeutet deswegen, dass (Zt ) der Differentialgleichung
dZt = f (Zt , t)dt + g(Zt , t)dBt
genügt, dass man für t ≥ 0 die Gleichung
Z t
Z t
Zt dBt )(ω)
f (Zs (ω), s) ds + (
Zt (ω) = Z0 (ω) +
0
0
fast sicher garantieren kann.
Wie kann man heuristisch Lösungen finden?
Dazu ist nur das zu erweitern, was wir am Ende des vorigen Abschnitts ausgeführt haben: Es folgt eine Beschreibung des Euler-Maruyama-Verfahrens zum
Auffinden von pfadweisen Lösungen von stochastischen Differentialgleichungen.
Lösungen von dZt = f (Zt , t)dt + g(Zt , t)dBt , Z0 = Z 0 findet man
wie folgt.
• Wähle eine ausreichend kleine Schrittweite h.
• Erzeuge eine Zufallszahl z0 , die wie Z 0 verteilt ist. N steht für
die Simulation einer N (0, 1)-verteilten Zufallsvariablen.
• Definiere rekursiv (zk ) wie folgt:
√
zk+1 := zk + f (zk , kh)h + g(zk , kh) hN.
Dann ist – mit hoher Wahrscheinlichkeit – die Folge (zk ) eine gute
Approximation an einen möglichen Pfad der Lösung der vorgelegten
stochastischen Differentialgleichung.
Existenz- und Eindeutigkeitssätze
Es ist aus theoretischen Gründen interessant, ob man die Existenz von
Lösungen stochastischer Differentialgleichungen garantieren kann. Schon in der
nicht-stochastischen Theorie muss man gewisse Voraussetzungen machen um zu
vermeiden, dass die Lösungen “explodieren”. Bemerkenswerter Weise kommt
man auch im stochastischen Fall mit ähnlich einfachen Voraussetzungen ans
Ziel:
Satz 6.3.2: Die Funktionen f und g seien stetig und linear beschränkt: Es gelte
|f (x, t)| + |g(x, t)| ≤ C(1 + |x|) für ein geeignetes C und alle x ∈ R, 0 ≤ t ≤ t0 .
Außerdem gelte eine Lipschitzbedingung in der Raum-Komponente:
|f (x, t) − f (y, t)| + |g(x, t) − g(y, t)| ≤ D|x − y|
8 Das
erste Integral ist ein gewöhnliches Riemann-Integral.
gibt es eine eigene, schwierige Therorie: die Theorie des “weißen Rauschens”.
9 Dazu
70KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN
(D geeignet, alle x, y).
Dann gibt es für vorgelegtes Z 0 im Wesentlichen genau eine Lösung der
stochastischen Differentialgleichung
dZt = f (Zt , t)dt + g(Zt , t)dBt , Z0 = Z 0
für 0 ≤ t ≤ t0 .
Beweis: Die Existenz wird wie beim Satz von Picard-Lindelöf bewiesen. Man
(0)
definiert induktiv Prozesse durch Zt := Z 0 und
(k+1)
Zt
0
Z
:= Z +
t
f (Zs(k) , s) ds
0
Z
+
t
g(Zs(k) , s) dBs
0
für 0 ≤ t ≤ t0 . Es lässt sich dann zeigen, dass die (Z (n) ) gegen eine Lösung der
Differentialgleichung konvergieren.
Für den Beweis der Eindeutigkeit sei φ(t) := ||Zt − Z̃t || der Abstand zur Zeit
t für zwei potenzielle Lösungen. Man zeigt dann, dass
Z t
φ(t) ≤ A
φ(s)ds
0
für eine geeignete Konstante A und alle t gilt. Das impliziert, dass φ identisch
verschwindet.
Kapitel 7
Die Ito-Formel
Wir wissen nun, was ein stochastisches Integral (oder, fast gleichwertig, die
Lösung
R einer stochastischen Differentialgleichung) ist. Wir haben auch am Beispiel Bt dBt gesehen, dass es extrem schwierig sein kann, ein Integral konkret
auszuwerten. Das ist damit ganz ähnlich wie in der elementaren Analysis.
Dringend erforderlich sind damit Methoden, diese Situation zu verbessern,
und das wichtigste Ergebnis in diesem Zusammenhang ist die Ito-Formel. Sie
besagt, dass Funktionen von stochastischen Integralen wieder stochastische Integrale sind, und wenn man das geschickt anwendet, kann man viele konkrete
Rechnungen ganz leicht erledigen.
7.1
Neue stochastische Integrale aus bekannten
stochastischen Integralen
Wir wollen die Idee durch ein Beispiel aus der elementaren Analysis motivieren.
f sei eine Funktion und F ein Integral“:
”
Z t
F (t) = x0 +
f (s) ds.
0
Nun ist eine stetig differenzierbare
Funktion g : R 2 → R vorgelegt, wir definieren
F̃ durch F̃ (t) := g t, F (t) , und wir fragen uns, ob auch F̃ ein Integral“ ist.
”
Rt
Behauptung: Es ist F̃ (t) = x̃0 + f˜(s) ds, wobei
0
• x̃0 = g(0, x0 ).
•
∂g
∂g
f˜(s) =
(s, F (s)) + f (s)
s, F (s) .
∂s
∂x
Beweis dazu: Sei H(t) die rechte Seite der Gleichung in der Behauptung. Dann
ist sicher H(0) = g(0, x0 ), und das stimmt mit F̃ (0) überein. Wir zeigen noch,
71
72
KAPITEL 7. DIE ITO-FORMEL
dass die Ableitungen von H und F̃ übereinstimmen, womit die Behauptung
dann bewiesen wäre. Das ist aber leicht einzusehen, denn nach bekannten Sätzen
sind beide Ableitungen bei t gleich f˜(t). Beachte insbesondere die folgende Formel, die sich aus der mehrdimensionalen Kettenregel ergibt:
dφ
d
dφ
φ f (t), g(t) =
f (t), g(t) f 0 (t) +
f (t), g(t) g 0 (t);
dt
dx
dy
dabei haben wir die Variablen in φ als φ(x, y) geschrieben.
Wenn wir also vorhaben, einen Katalog von Stammfunktionen anzulegen, so
könnten wir aufgrund dieses Ergebnisses so verfahren:
• Bestimme auf irgendeine Weise eine Stammfunktion, zeige also zum Beispiel, dass
Z t
t4
F (t) = 7 +
=7+
s3 ds;
4
0
hier ist also x0 = 7 und f (s) = s3 .
• Wähle irgendeine Funktion in s und x, etwa g(s, x) := s2 + 4sx + 1.
• In diesem Fall ist F̃ (t) = g(t, F (t)) = t2 + t5 + 28t + 1.
• Bestimme (∂g/∂s)(s, x) = 2s + 4x und (∂g/∂x)(s, x) = 4s.
• Ermittle damit f˜(s) = 2s + 4(s4 /4 + 7) + s3 s = 2s + 5s4 + 28.
• Berechne x̃0 = g(0, x0 ) = 1.
• Unsere Behauptung liefert, dass
t2 + t5 + 1 + 28t = 1 +
Z
t
(2s + 5s4 + 28) ds.
0
• Und wenn irgend jemand eine Stammfunktion zu 2s + 5s4 + 28 braucht,
so haben wir das schon vorbereitet.
Ähnlich bescheiden ist der Anspruch der Ito-Formel. Mit ihr können stochastische Integrale sozusagen auf Vorrat“ gelöst werden. Ob das im gerade in”
teressierenden Fall hilft, ist dann Glückssache, und viel Erfahrung wird sicher
hilfreich sein.
7.2
Die Ito-Formel
In Definition 6.3.1 hatten wir sehr allgemein den Begriff stochastisches Integral“
”
eingeführt. Wir gehen nun zu einer etwas kompakteren Schreibweise über:
• (Bt ) sei eine Brownsche Bewegung, und die Prozesse (Ut ) und (Yt ) seien
an die natürliche Filtration adaptiert: Wir setzen voraus, dass sie stetige
Pfade haben.
7.2. DIE ITO-FORMEL
73
• (Xt )t≥0 sei das zugehörige stochastische Integral (X0 gibt den Startwert
an): Fast sicher gilt
Z t
Z t
Ys dBs (ω).
Xt (ω) = X0 (ω) +
Us (ω)ds +
0
0
Man beachte dabei, dass das ω beim rechten Integral außen steht, denn es
ist nicht pfadweise definiert.
Nun sei g(t, x) eine dreimal stetig differenzierbare Funktion. Wir setzen (Xt )
darin ein, betrachten also den Prozess
X̃t := g(t, Xt ) : Ω → R.
Der nachstehende Satz garantiert, dass auch (X̃t ) ein stochastisches Integral ist:
Satz 7.2.1 (Ito-Formel, 1951): Definiere (mit den vorstehenden Bezeichnungen) eine Zufallsvariable und Prozesse durch
X̃0 := g(0, X0 ).
Ũs :=
∂g
1
∂g
∂2g
(s, Xs ) + Us g(s, Xs ) + Ys2 2 (s, Xs ).
∂s
∂x
2 ∂x
∂g
Ỹs := Ys (s, Xs ).
∂x
Dann ist (X̃t )t das zu (Ũt )t , (Ỹt )t gehörige stochastische Integral:
Z t
Z t
Ỹs dBs (ω).
Ũs (ω)ds +
X̃t (ω) = X̃0 (ω) +
0
0
Beweis: Es ist offensichtlich, dass die Prozesse (Ũt )t und (Ỹt )t adaptiert sind.
Nun sei t > 0 fest vorgegeben. Wir wollen X̃t berechnen und dabei die auftretenden Integrale durch gute Approximationen ersetzen. Dazu erinnern wir
zunächst an die Taylorformel: Ist (t0 , x0 ) vorgelegt und sind h, y sehr klein“,
”
so kann g(t0 + h, x0 + y) − g(t0 , x0 ) gut durch
Pt h + Px y +
1
Ptt h2 + 2Ptx hy + Pxx y 2
2
approximiert werden. Dabei bezeichnen die P die verschiedenen partiellen Ableitungen von g bei (t0 , x0 ), z.B. ist Ptx = (∂ 2 g/∂t∂x)(t0 , x0 ). Der Fehler ist ein
klein-o-Quadrat der Abweichung.
Wir geben eine sehr feine“ Unterteilung 0 = t0 < · · · < tm = t von [ 0, t ]
”
vor. Die Idee: Wir wollen so approximieren, dass der Fehler mit maxi |ti+1 − ti |
gegen Null geht. Es ist
X̃t = g(t, Xt ) = g(0, X0 ) +
m−1
X
j=0
g(tj+1 , Xtj+1 ) − g(tj , Xtj ) ;
74
KAPITEL 7. DIE ITO-FORMEL
das ist einfach eine Teleskopsumme. Die Summanden werden nun mit der Taylorformel approximiert, so werden sich nach und nach die Terme ergeben, die
bei der Berechnung des stochastischen Integrals zu den Ũ , Ỹ auftreten.
Wir approximieren:
g(tj+1 , Xtj+1 ) − g(tj , Xtj )
=
∂g
(tj , Xtj )(tj+1 − tj ) + (:= δj1 )
∂s
∂g
+ (tj , Xtj )(Xtj+1 − Xtj ) + (:= δj2 )
∂x
∂2g
+0.5 2 (tj , Xtj )(tj+1 − tj )2 + (:= 0.5δj3 )
∂s
∂2g
+
(tj+1 − tj )(Xtj+1 − Xtj ) + (:= δj4 )
∂s∂x
∂2g
+0.5 2 (tj , Xtj )(Xtj+1 − Xtj )2 + (:= 0.5δj5 )
∂x
+Restglied.
Nebenbei haben wir die einzelnen Summanden als δjk definiert, dabei ist k
natürlich kein Exponent. Das Restglied ist dabei jeweils (für jedes j) ein klein-o
von |Xtj+1 − Xtj | + |tj+1 − tj |.
P
Was approximiert j δjk , k = 1, . . . , 5? Wir behandeln diese Summen einzeln
für die verschiedenen k, eine Beweiskritik folgt im Anschluss.
Rt
P 1
δj : Diese Summe tritt als Riemannsumme auf, wenn man 0 (∂g/∂s)(s, Xs ) ds
P 1
berechnet.
δ approximiert also den ersten Summanden, der bei der BerechRt j
nung von 0 Ũs ds zu berücksichtigen ist.
P 2
δj : Es ist doch
Z
tj+1
Xtj+1 − Xtj =
Z
tj+1
Us ds +
tj
Ys dBs ,
tj
und wenn wir annehmen, dass tj+1 − tj klein genug ist, dürfen wir δj2 wegen der
Stetigkeit von ∂g/∂x durch
Z tj+1
Z tj+1
∂g
∂g
(s, Xs )Us ds +
(s, Xs )Ys dBs
∂x
∂x
tj
tj
approximieren. Summieren wir über alle j, so erhalten wir wieder einige derjenigen Summanden, die bei der Berechnung des stochastischen Integrals aus Ũ
und Ỹ auftreten: der zweite von Ũs und der zu Ỹs . (Es fehlt also nur noch der
dritte aus der Integration gegen Ũs ).
P 3
δj : Setzt man M := das Maximum der auftretenden Zahlen |∂ 2 g/∂s2 (tj , Xtj )|,
so ist
|
X
X
δj3 | ≤ M max |tj+1 − tj |
(tj+1 − tj ) = tM max |tj+1 − tj |.
j
7.2. DIE ITO-FORMEL
75
Das geht gegen Null mit max |tj+1 − tj | → 0.
P 4
P
δj : Hier argumentieren wir ähnlich. | δj4 | ist abschätzbar durch die Zahl
M 0 t max |Xtj+1 − Xtj |, wobei M 0 das Maximum der |(∂ 2 g/∂s∂x)(tj , Xtj )| ist.
Und dieser Ausdruck geht wegen der Stetigkeit der t 7→ Xt (ω) gegen Null.
P 5
P 5
δj : Wir behaupten, dass
δj den noch fehlenden Summanden in der approximativen Berechnung des Ũ -Ỹ -Integrals approximiert:
X
δj5 ≈
X
Yt2j
j
∂2g
(tj , Xj )(tj+1 − tj ).
∂x2
Der Beweis wäre dann – bis auf Nachbesserung der Feinheiten – geführt.
Zunächst setzen wir für den Faktor Xtj+1 − Xtj in δj5 die folgende Approximation ein:
Xtj+1 − Xtj ≈ Utj (tj+1 − tj ) + Ytj (Btj+1 − Btj ).
Das ist aufgrund der Integraldefinition gerechtfertigt.
Definiere nun gj := (∂ 2 g/∂x2 )(tj , Xj ), ∆j t := tj+1 − tj und ∆j B := Btj+1 −
Btj .
Dann ist
δj5 ≈ gj Ut2j (∆j t)2 + 2gj Utj (∆j t)(∆j B) + gj Yt2j (∆j B)2 .
δj5 in drei Summen, die wir gesondert behandeln
P
1. Da ist zunächst j gj Ut2j (∆j t)2 . Diese Summe geht gegen Null, das Argument
P 3
ist so wie im Fall von
δj .
P
2.Als nächstes untersuchen wir j gj Utj (∆j t)(∆j B). Auch das geht gegen Null,
P 4
man kopiere den Beweis für
δj .
P
2
2
3. Es bleibt noch
j gj Ytj (∆j B) zu untersuchen, wir behaupten, dass das
P
2
durch
j gj Ytj ∆j t approximiert werden kann. Dazu rechnen wir wieder den
Erwartungswert des Quadrats der Differenz aus:
X
2
E
gj Yt2j ((∆j B)2 ) − ∆j t .
Damit zerfällt
P
Mit den schon mehrfach angewandten Techniken reduziert sich das auf m Summanden, mit Aj := gj Yt2j erhalten wir
X
E A2j ((∆j B)2 ) − ∆j t
2
=
X
=
X
j
E(A2j )E (∆j B)4 − 2(∆j t)(∆j B)2 + (∆j t)2
j
E(Aj ) 3(∆j t)2 − 2(∆j t)2 + (∆j t)2
j
=
2
X
j
E(Aj )(∆j t)2 .
76
KAPITEL 7. DIE ITO-FORMEL
Dabei haben wir die früher bewiesene Gleichung E(Bt4 ) = 3t2 ausgenutzt. Damit
sind wir fertig, denn es wurde schon mehrfach bemerkt, dass derartige Ausdrücke
gegen Null gehen.
Beweiskritik: Obwohl der Beweis recht umfangreich war, sind einige Punkte
noch ergänzungsbedürftig:
• Eigentlich müsste das Restglied in der Taylorformel noch berücksichtigt
werden:
Dieser Fehler ist – bei beliebigem ε – von der Größenordnung
P
ε( (∆j t)2 + (∆j B)2 ) und konvergiert deswegen gegen Null.
• Bei den Argumenten wären punktweise Konvergenz und L2 -Konvergenz zu
unterscheiden. Der Grenzübergang unter dem Integral müsste noch durch
den Satz von der majorisierten Konvergenz gerechtfertigt werden.
• ...
Schlussbemerkung: Mit einer Faustregel kann man sich die Itoformel leicht
merken:
• Berechne dX̃t mit einer Taylorformel zweiter Ordnung für g:
dX̃t =
∂g
∂g
1 ∂2g
∂2g
∂2g
dt +
dXt +
(dt)2 + 2
dtdXt + 2 (dXt )2 .
2
∂t
∂x
2 ∂t
∂t∂x
∂x
• Setze für dXt den Wert Ut dt + Yt dBt ein.
• Ersetze alle (dt)2 und alle dtdBt durch 0 und alle (dBt )2 durch dt.
7.3
Anwendungen der Ito-Formel
Es folgen einige Anwendungen.
1. Falls g in Wirklichkeit nicht von s abhängt, vereinfacht sich die Itoformel.
Das gilt insbesondere dann, wenn es nur um das stochastische Integral geht,
wenn also U = 0 ist:
Rt
Ist Xt = 0 Ys dBs , so gilt für zweimal stetig differenzierbares f :
R → R:
Z
Z t
1 t 2 00
f (Xt ) = f (0) +
Y f (Xs ) ds +
Ys f 0 (Xs ) dBs .
2 0 s
0
2. Sicher ist richtig, dass Bt =
Bt3 =
Rt
Z
0
0
t
1 dBs . Wir wählen f (x) := x3 und erhalten
1
6Bs ds + 3
2
Z
0
t
Bs2 dBs .
7.3. ANWENDUNGEN DER ITO-FORMEL
Auf diese Weise ergibt sich
Z t
Bs2 dBs =
0
Bt3
−
3
77
Z
t
Bs ds.
0
Rt
3. Wir beginnen wieder mit Bt = 0 1 dBs , es ist also Us = 0 und Ys = 1. Diesmal
arbeiten wir mit g(s, x) := (x2 − s)/2. Das führt zu Ũs = −1/2 + 1/2 = 0 und
Ỹs = Bs :
Z t
Bt2 − t
=
Bs dBs .
2
0
Man vergleiche das mit dem Aufwand, den wir im Beweis von Satz 6.2.5 führen
mussten.
4. Sucht man eine Lösung für das Wachstum-Modell mit Störung, also für
dNt = rNt dt + αNt dBt ,
so erhält man mit der Ito-Formel:
2
Nt = N0 e(r−α /2)t+αBt .
Rt
2
Man muss die Ito-Formel nur auf Bt = 0 1 dBs und g(t, x) := e(r−α /2)t+αx
anwenden.
Es folgt: Durch die stochastische Störung wird die Bewegung quasi gedämpft.
Es lässt sich übrigens zeigen, dass E(Nt ) = E(N0 )ert , die Erwartungswerte
entwickeln sich also so wie im nicht-stochastischen Fall.
78
KAPITEL 7. DIE ITO-FORMEL
Kapitel 8
Monte-Carlo-Verfahren zur
Lösung stochastischer
Differentialgleichungen
In diesem Abschnitt soll skizziert werden, wie stochastische Differentialgleichungen zur Lösung partieller Differentialgleichungen benutzt werden. Es handelt
sich um Monte-Carlo-Methoden, man muss also sehr oft“ simulieren, und die
”
Ergebnisse erhält man nur approximativ und mit hoher Wahrscheinlichkeit
”
soundso genau“.
8.1
Partielle Differentialgleichungen
Die Problemstellung ist die folgende: Es ist D ⊂ R n gegeben, und man sucht
eine Funktion f : D → R, die eine gewisse Gleichung erfüllt, in der die partiellen
Ableitungen von f vorkommen und für die außerdem noch eine oder mehrere
Zusatzbedingungen erfüllt sind. Hier zur Illustration einige typische Beispiele:
• Wärmeleitungsgleichung: Es soll f : R + × R → R so gefunden werden,
dass ∂f /∂t = ∂ 2 f /∂x2 im Bereich t > 0. Zusätzlich soll f (0, x) = f0 (x)
(alle x) für eine vorgegebene Funktion f0 sein.
• Potentialgleichung: D ⊂ R n sei beschränkt, und f0 : ∂D → R sei vorgegeben. Man sucht ein stetiges f : D → R, das auf dem Rand mit f0
übereinstimmt und im Innern von D der Gleichung
∂2f
∂2f
+
·
·
·
+
=0
∂x21
∂x2n
genügt.
Wie lassen sich solche Differentialgleichungen mit Monte-Carlo-Verfahren behandeln?
79
80
KAPITEL 8. MONTE-CARLO-VERFAHREN
8.2
n-dimensionale stochastische Differentialgleichungen
Bisher hatten wir Prozesse (Xt )t≥0 mit Xt : Ω → R behandelt. Die Theorie ist
ganz ähnlich, wenn man zu Xt : Ω → R n übergeht. Genauer:
2
• Es sei Ut : Ω → R n und Yt : Ω → R n ; jedes Yt (ω) soll also eine n × nMatrix sein.
• Weiter sei (Bt )t≥0 eine n-dimensionale Brownsche Bewegung mit unabhängigen Komponenten.
• Dann kann man wieder die stochastische Differentialgleichung
dXt = Ut dt + Yt dBt , X0 = x0
betrachten. Die Lösung ist
Z
Xt = X0 +
t
Z
Us ds +
0
t
Ys dBs ,
0
wobei das zweite Integral komponentenweise als Ito-Integral zu interpretieren ist.
Auch dafür lassen sich Existenz- und Eindeutigkeitssätze beweisen, und es gibt
eine n-dimensionale Variante der Ito-Formel.
Die mehrdimensionale Itoformel“ soll hier nur für einen Spezialfall for”
muliert werden:
• Gegeben sei eine genügend glatte“ Funktion g : R n → R. Wir
”
betrachten
X̃t := g(Xt ),
wobei Xt wie vorstehend ist.
• Dann ist
dX̃t =
n
X
∂g
i=1
∂xi
• Es ist dXi durch (Ut )i dt +
dXi +
P
1 X ∂2g
dXi dXj .
2 i,j ∂xi ∂xj
k (Yt )ik d(Bt )k
auszudrücken.
2
• Und dann ist zu vereinfachen: Alle (dt) , alle dt d(Bt )i und alle
d(Bt )i d(Bt )j für i 6= j sind Null, und (d(Bt )i )2 = dt für alle i.
• Wenn man dann alles zusammenfasst, ergibt sich:
dX̃t =
X ∂g
i
∂xi
(Ut )i +
X ∂g X
1 X ∂2g
(Yt Yt> )ij dt+
(Yt )ik d(Bt )k .
2 ij ∂xi ∂xj
∂xi
i
k
8.3. STOPPEN VON STOCHASTISCHEN PROZESSEN
8.3
81
Stoppen von stochastischen Prozessen
Wir beginnen mit zwei Vorbereitungen. Dazu betrachten wir zunächst noch
einmal die eindimensionale Situation: dXt = Ut dtR + Yt dBt . Eine wichtige Rolle
t
spielte die Definition des stochastischen Integrals 0 Ys dBs . Diese Definition soll
nun verallgemeinert werden.
Gegeben sei eine fast sicher endliche Stoppzeit τ . Zunächst nehmen wir an,
dass sie durch ein T > 0 beschränkt ist. Wir definieren Zufallsvariable Ytτ durch
Ytτ := Yt χτ ≤t .
(Ys wird also auf Null gesetzt, sobald gestoppt wird.) Der Prozess (Ytτ )t ist
wieder adaptiert, denn Yt und {τ ≤ t} sind stets Ft -messbar. Und deswegen
können wir definieren:
Z τ
Z T
Ys dBs :=
Ys dBs .
0
0
Für unbeschränkte τ wird dieses Integral – falls existent – als Limes der Zahlen
R min{n,τ }
Ys dBs erklärt.
0
R t Als zweite Vorbereitung bestimmen wir den Erwartungswert von Ito-Integralen
Y dBs . Wir behaupten, dass er stets gleich Null ist. Für elementare Prozesse
0 s
folgt das aus der Tatsache, dass stets Yi0 unabhängig von Bti+1 −Bti ist und deswegen der Erwartungswert von Yi0 (Bti+1 − Bti ) verschwindet. Und für beliebige
Prozesse folgt die Behauptung durch Grenzübergang.
Nun sei wieder (Xt )t≥0 ein Prozess wie im vorstehenden Abschnitt. Wir
lassen ihn bei x0 starten. Weiter seien vorgegeben:
• Eine fast sicher endliche Stoppzeit τ : Der Prozess zum Beispiel dann gestoppt, wenn er den Rand einer vorgegebenen Kugel trifft, die x0 enthält.
• Eine genügend glatte“ Funktion g : R n → R. Das ist so etwas wie eine
”
Wichtungsfunktion.
Wir interessieren uns für den g-Wert zum Zeitpunkt des Stoppens, also für
g(Xτ ). Über den Erwartungswert lässt sich etwas sagen:
Satz 8.3.1 Wir definieren einen Prozess (Zt ) auf Ω durch
Zt (ω) :=
n
X
i=1
00
(Ut )i (ω)
∂g
1X
∂2g
(Xt (ω)) +
(Yt (ω)Yt> (ω))ij
(Xt (ω)).
∂xi
2 i,j
∂xi ∂xj
Wenn wir die Pfade von (Zt ) bis zur Stoppzeit aufintegrieren, entsteht eine
Zufallsvariable W :
Z τ (ω)
W (ω) =
Zs (ω) ds.
0
82
KAPITEL 8. MONTE-CARLO-VERFAHREN
Der Erwartungswert von g(Xτ ) ist dann gleich
g(x0 ) + E W .
Beweis: Wenn man die n-dimensionale Ito-Formel anwendet, folgt
Z
g(Xt ) = x0 +
t
Zs ds +
0
Z tX
0
(As )i d(Bs )i ,
i
wobei (At ) ein vektorwertiger adaptierter Prozess ist. Ersetzen wir t durch τ
und berechnen Erwartungswerte, so fällt der zweite Teil aufgrund unserer Vorbereitung weg, und so ergibt sich die Behauptung.
8.4
Die Dynkin-Formel
Wir betrachten nun Lösungen stochastischer Differentialgleichungen. (Xt ) soll
ein R n -wertiger Prozess sein, der die stochastische Differentialgleichung
dXt = b(Xt ) dt + σ(Xt ) dBt
erfüllt. Dabei ist b : R n → R n , und σ ordnet jedem x ∈ R n eine n × n-Matrix
zu.
Wir definieren im Interesse einer übersichtlicheren Formulierung einen Differentialoperator wie folgt (f soll dabei eine genügend glatte“ Funktion sein):
”
X
X
1
∂2f
∂f
(x) +
(σσ > )ij (x)
(x).
Df (x) :=
bi (x)
∂xi
2 i,j
∂xi ∂xj
i
Satz 8.3.1 lässt sich dann so formulieren:
Satz 8.4.1 (Dynkin-Formel): Ist τ eine fast sicher endliche Stoppzeit, so ist
für glatte f
Z τ
E f (Xτ ) = f (x0 ) + E
(Df )(Xs ) ds .
0
8.5
Monte-Carlo-Methoden für partielle Differentialgleichungen
Die Grundidee besteht darin, die Dynkin-Formel für solche Funktionen zu nutzen, für die Df = 0 ist, die also Lösung der entsprechenden partiellen Differentialgleichung sind. Dann vereinfacht sich die Dynkinformel zu
E f (Xτ ) = f (x0 ),
8.5. MONTE-CARLO-METHODEN FÜR PARTIELLE DIFFERENTIALGLEICHUNGEN83
und man kann so hoffen, f (x0 ) als Erwartungswert zu bestimmen, falls man die
f (Xτ ) kennt.
Die wesentlichen Ideen kann man schon am eindimensionalen Fall erklären.
Uns interessiert eine Lösung des Problems
1
f : [ c, d ] → R, bf 0 + σ 2 f 00 = 0, f (c) = γ, f (d) = δ,
2
dabei sind b, σ : [ c, d ] → R Funktionen. Wir sind auch in der Lage, eine Lösung
der stochastischen Differentialgleichung
dXt = b(Xt )dt + σ(Xt )dBt
zu simulieren.
Mal angenommen, die Theorie der Differentialgleichungen garantiert, dass
es genau eine Lösung f unseres Problems gibt. Für jede Stoppzeit τ ist dann
aufgrund der Dynkinformel
E f (Xτ ) = f (x0 ),
wobei wir Prozesse betrachten, die bei x0 ∈ ] c, d [ starten. Wenn wir τ als Austritt aus [ c, d ] wählen, können wir die linke Seite durch Simulation bestimmen:
Tritt der Prozess bei c aus, ist doch f (Xτ ) = γ, bei Austritt bei d gilt f (Xτ ) = δ.
Verfahre also wie folgt:
• Fixiere x0 ∈ ] c, d [, wir wollen f (x0 ) ermitteln, wobei f die eindeutig
bestimmte Lösung des Problems bezeichnet.
• Lasse sehr oft“, etwa n Mal, den Prozess bei x0 starten. Er trete etwa n1
”
Mal in c und n2 Mal in d aus [ c, d ] aus.
• Unsere Approximation an E(f (Xτ )) und damit an f (x0 ) ist damit die Zahl
n1 γ + n2 δ
.
n
Allgemeiner – bei n Veränderlichen sieht das typische Verfahren so aus:
• Man möchte eine partielle Differentialgleichung Df = 0 in einem beschränkten Gebiet D lösen. Für die Lösung f sollen die Randwerte vorgegeben sein: Es gibt eine Funktion f0 : ∂D → R, es soll f |∂D = f0 sein;
dabei wurde f stetig auf den Rand von D fortgesetzt. Es gibt hoffentlich
ein theoretisches Ergebnis, das Existenz und Eindeutigkeit der Lösung
sichert.
• Wähle, falls möglich, Funktionen b, σ, so dass D gerade derjenige Differentialoperator ist, den wir in Abschnitt 8.3 mit Hilfe von b und σ konstruiert
haben.
84
KAPITEL 8. MONTE-CARLO-VERFAHREN
• Wir wollen f punktweise ermitteln, dazu fixieren wir ein x0 ∈ D. Wir
bezeichnen die zu b, σ gehörige Lösung der stochastischen Differentialgleichung, die bei x0 startet, mit (Xt ).
• Nun simulieren wir Xt : Wir lassen den Prozess so lange laufen, bis er den
Rand von D an einer Stelle y trifft. f0 (y) wird notiert.
• Und dann wissen wir: f (x0 ) ist der Erwartungswert der f0 (y), also approximativ der Mittelwert sehr vieler“ Messungen.
”
Bevor wir uns um Beispiele kümmern, soll auf einige grundsätzliche Probleme
im Zusammenhang mit diesem Verfahren hingewiesen werden.
• Wie kann man denn viele“ Pfade mit vertretbarem Zeitaufwand so lange
”
simulieren, bis sie auf den Rand von D treffen?
Bei der Brownschen Bewegung ist es noch relativ einfach. Lege eine größtmögliche Kugel um x0 in D. Wähle gleichverteilt einen Punkt aus. Setze mit
diesem Punkt auf gleiche Weise fort. So lange, bis ein Punkt gefunden wurde, der sehr nahe“ am Rand von D liegt. Das Verfahren ist deswegen
”
gerechtfertigt, weil alle Punkte des Randes einer Kugel um x0 die gleiche
Wahrscheinlichkeit haben, als erste erreicht zu werden, wenn die Brownsche
Bewegung bei x0 startet.
• Was heißt denn sehr oft simulieren“? Dazu müsste man eigentlich Infor”
mationen über die Varianz derjenigen Zufallsvariablen haben, für die man
den Erwartungswert berechnet.
• Natürlich kann man von den Funktionen b und σ ausgehen und dann den
Differentialoperator bilden, den man mit der hier beschriebenen Methode
behandeln kann. Wichtiger ist natürlich die umgekehrte Fragestellung: Der
Differentialoperator D ist gegeben, und man möchte b und σ so bestimmen,
dass der hier auftretende Operator gerade der Operator D ist.
Wir kümmern uns zunächst um die letzte Fragestellung. Der allgemeine lineare Differentialoperator zweiter Ordnung für reellwertige Funktionen auf dem
R n hat die Form
Df = α(x)f +
X
i=1
βi (x)
X
∂f
∂2f
(x) +
γij (x)
(x).
∂xi
∂xi ∂xj
i,j
Notwendige Bedingungen für die Anwendbarkeit der hier vorgestellten Methoden sind also sicherlich, dass α die Nullfunktion und die Matrix (γij (x))ij für
alle i, j positiv semidefinit ist (sie soll ja als σ(x)σ > (x) geschrieben werden.)
Diese Bedingungen sind aber auch schon hinreichend. So lassen sich also leicht
Anwendungsbeispiele finden.
Es folgen noch Bemerkungen zur Potentialgleichung, das ist ein berühmtes
Anwendungsbeispiel (vgl. Abschnitt 8.1). Definiert man nämlich b = 0 und die
Funktion σ an jeder Stelle als die Einheitsmatrix, so ist D wirklich der zur
8.5. MONTE-CARLO-METHODEN FÜR PARTIELLE DIFFERENTIALGLEICHUNGEN85
Potentialgleichung gehörige Differentialoperator1 . Die zugehörige stochastische
Differentialgleichung ist die vektorwertige Gleichung dXt = dBt , die Lösung ist
damit ein n-Tupel von unabhängigen Brownschen Bewegungen.
Im eindimensionalen Spezialfall lässt sich noch eine interessante Folgerung
ziehen. Da geht es um 0.5f 00 = 0 auf [ 0, a ], und die Randwerte f (0) = α, f (a) =
β sind vorgegeben.
Die Lösung ist leicht explizit angebbar: f (x) = α + (β − α)x/a. Andererseits
kann man sie doch punktweise so ermitteln:
• Wähle ein x ∈ ] 0, a [ und lasse dort eine Brownsche Bewegung starten.
Warte, bis sie aus dem Intervall austritt. Das möge mit Wahrscheinlichkeit
p bei Null und mit Wahrscheinlichkeit 1 − p bei a passieren. Der f -Wert
bei x muss dann pα + (1 − p)β sein.
Und so schließen wir, dass p = (a − x)/a.
1 Wegen des Faktors 1/2 bei σσ > sollten wir besser die mit 0.5 multiplizierte Potentialgleichung untersuchen.
86
KAPITEL 8. MONTE-CARLO-VERFAHREN
Kapitel 9
Finanzmathematik: einige
grundlegende Begriffe
Seit vergleichsweise kurzer Zeit hat sich ein neues mathematisches Gebiet etabliert: die auf stochastischen Methoden beruhende Finanzmathematik. Auslöser
war sicher die zunehmende Bedeutung von Optionsgeschäften, bei deren Behandlung neue mathematische Verfahren eingesetzt werden mussten. Heute arbeiten Hunderte von Mathematikern daran, Risiken abzuschätzen und Preise
von Optionen auszurechnen.
In diesem Kapitel sollen einige grundlegende Begriffe eingeführt werden, die
zum Verständnis der Ausführungen rund um die Black-Scholes-Formel wichtig
sind. Wir behandeln hier:
• Einige Grundbegriffe: Was sind Optionen, was ist Arbitrage?
• Wie modelliert man Aktienkurse?
• Wie kann man den Preis für eine Option berechnen? Wir zeigen das am
Beispiel der europäischen Call-Option, zur Herleitung der Black-ScholesFormel im nächsten Kapitel werden wir die Ito-Formel anwenden.
9.1
Die Bank, Optionen und Arbitrage
Aktien und die Bank
Beim einfachsten Modell gibt es eine Börse und die Bank . An der Börse
werden Aktien A1 , . . . , An gehandelt, der jeweilige Preis zur Zeit t sei Si (t).
Diese Funktionen sind stochastische Prozesse. Bei der Bank hingegen gibt es
keine Überraschungen. Es gibt einen Zinssatz r, und wenn man K Euro für t
Zeiteinheiten anlegt, gibt es Kert Euro zurück. Der Einfachheit halber nehmen
wir an, dass auch für das Borgen von Geld der Zinssatz gleich r ist.
87
88KAPITEL 9. FINANZMATHEMATIK: EINIGE GRUNDLEGENDE BEGRIFFE
Was sind Optionen?
Optionen sind Geschäfte, die man mit der Bank abschließt, um Risiken abzusichern. Hier ein Beispiel. Jemand hat einen Weinberg, nach der Ernte möchte er
die Trauben verkaufen. Üblicherweise bekommt er K Euro pro Zentner. Da seine Kalkulation darauf beruht, möchte er sichergehen, dass das in diesem Herbst
auch so sein wird. Er möchte deswegen einen Vertrag mit der Bank schließen,
der folgenden Inhalt hat: Sollte der Einkaufspreis beim vereinbarten Zeitpunkt
nur bei K 0 < K liegen, gleicht das die Bank durch eine Zahlung von K − K 0
aus. Im Fall K 0 ≥ K hat die Bank keine Verpflichtungen. Das ist ein Beispiel
für eine europäische Put-Option. K heißt dabei der Strike-Preis.
Als zweites Beispiel betrachten wir jemanden, der dringend am 1. Januar
des nächsten Jahres 10.000 Dollar braucht, um seine Angestellten in den USA
auszuzahlen. Üblicherweise bekommt man 10.000 Dollar für K Euro. Es gäbe ein
Problem, wenn der Kurs bei K 0 > K läge. Deswegen wäre ein Vertrag hilfreich,
bei dem in diesem Fall die Bank die Differenz K 0 −K übernimmt. So ein Vertrag
entspricht einer europäischen Call-Option mit Strike-Preis K. Statt Dollar zu
kaufen, könnte es auch um ein beliebiges anderes Gut gehen, wichtig ist nur,
dass es um zukünftige Preise zu einem festen Zeitpunkt geht. Noch einmal etwas
formaler:
• Der Wert einer europäischen Call-Option zum Strike-Preis K zum Zeitpunkt T in der Zukunft ist max{ST −K, 0}, wobei ST der Wert des Gutes,
auf das sich die Option bezieht, zum Zeitpunkt T ist.
• Der Wert einer europäischen Put-Option zum Strike-Preis K zum Zeitpunkt T in der Zukunft ist max{K −ST , 0}, wobei ST der Wert des Gutes,
auf das sich die Option bezieht, zum Zeitpunkt T ist.
Bemerkung: Bei europäischen Optionen passiert also erst zum Zeitpunkt T
etwas. Im Unterschied dazu kann man bei amerikanischen Optionen jederzeit
(zwischen heute und T ) die Einlösung verlangen. Wenn ich zum Beispiel eine
amerikanische Call-Option habe, werde ich die dann schon vor T bei t0 realisieren, wenn mir St0 besonders hoch zu sein scheint und möglicherweise bald
wieder fällt.
Was ist Arbitrage?
Über das Stichwort Arbitrage muss man zwei Dinge wissen:
1. Die Definition: Arbitrage ist die Möglichkeit, risikolos einen Gewinn zu machen. Wenn zum Beispiel in Rotterdam der Dollar für 0.80 Euro verkauft wird
und sich in Kapstadt Käufer für 0.90 Euro finden, so gäbe es Arbitrage: 10
Millionen Dollar in Rotterdam kaufen und in Kapstadt verkaufen. Gewinn: eine
Million Euro.
2. Arbitrage gibt es nicht1 . Das ist so etwas wie ein Naturgesetz der Finanzmärkte, vergleichbar etwa dem zweiten Hauptsatz der Thermodynamik ( Es gibt kein
”
1 Auf
Englisch heißt das übrigens No free lunch.“
”
9.1. DIE BANK, OPTIONEN UND ARBITRAGE
89
Perpetuum Mobile“). Dieses Prinzip ist eine Erfahrungstatsache, die allerdings
nur im Wesentlichen“ richtig ist. Tatsächlich gibt es minimale Abweichungen
”
der Wechselkurse, die kurzzeitig von den Banken für Arbitrage-Gewinne ausgenutzt werden können.
Hier zwei Beispiele, wie das Arbitrage-Prinzip angewendet wird.
Heute sei der Zeitpunkt t, und irgendjemand hat ein kompliziertes Portfolio
zusammengestellt, das zu einem Zeitpunkt T in der Zukunft mit Sicherheit M
Euro abwirft. Wir behaupten, dass das heute exakt zu M e−r(T −t) Euro verkauft
werden muss. Hier die Begründung:
1. Es kann nicht billiger sein. Falls es irgendjemand zum Preis N < M e−r(T −t)
anbieten würde, könnte ich mir N Euro von der Bank borgen und es kaufen. Zum
Zeitpunkt T bekomme ich dann M Euro, und die Bank will von mir N er(T −t)
Euro für das geborgte Geld haben. Da N er(T −t) < M ist, habe ich einen risikolosen Gewinn gemacht: Widerspruch, denn Arbitrage gibt es nicht.
2. Es kann nicht teurer sein. Angenommen, man kann das Portfolio auch für
N > M e−r(T −t) verkaufen. Dann trete ich als Verkäufer auf: Ich nehme die N
Euro und bringe sie auf die Bank. Zum Zeitpunkt T sind daraus N er(T −t) Euro
geworden. Das ist mehr als M , ich kann also meinen Vertrag erfüllen und es
bleibt noch etwas übrig. Wieder Arbitrage, wieder ein Widerspruch.
Eine typische Anwendung dieser Technik ist der
9.1.1 Satz von der Put-Call-Parität: Wir betrachten ein Gut ( underly”
ing“). Zum Zeitpunkt T – jetzt sind wir bei t – interessieren wir uns für eine
Call- und eine Put-Option, beide zum Strike-Preis K. Sind dann Ct bzw. Pt die
heutigen Preise für diese Optionen und ist unser Gut heute St wert, so muss
St + Pt − Ct = Ke−r(T −t) gelten.
Beweis: Wir stellen uns ein Portfolio St + Pt − Ct zusammen: Wir kaufen eine
Aktie und eine Put und treten als Verkäufer eines Calls auf. Dann warten wir
T ab:
• Angenommen, ST ≥ K. Wir verkaufen die Aktie und zahlen – als Verpflichtung aus unserer Call-Option – den Betrag ST − K an den Käufer
unseres Calls. Uns bleiben K Euro.
• Was ist, wenn ST < K? Dann aktivieren wir unsere Put-Option, daraus
erhalten wir K − ST Euro. Zusammen mit der Aktie sind das auch wieder
K Euro.
Kurz: In jedem Fall haben wir bei T exakt K Euro. Deswegen muss der Preis
des Portfolios nach dem vorstehenden Argument gleich Ke−r(T −t) sein.
Wegen dieses Satzes reicht es, sich um – zum Beispiel – Call-Optionen zu
kümmern. Der Preis für Put-Optionen liegt dann fest.
90KAPITEL 9. FINANZMATHEMATIK: EINIGE GRUNDLEGENDE BEGRIFFE
9.2
Binomialmodelle, die Black-Scholes-Welt
Wie modelliert man die Entwicklung des Preises einer Aktie? Bezeichne den
Preis zur Zeit t mit St . Wie wird sich der in einem Zeitintervall ∆ t verändern?
Zur Motivation einer sinnvollen Modellierung gibt es zwei Vorüberlegungen:
• Es ist sicher sinnvoll, die relativen und nicht die absoluten Preisänderungen zu betrachten, da die absoluten Preis sehr unterschiedlich sind und
deswegen ein Vergleich zwischen verschiedenen Aktien nur schwer möglich
wäre.
• Die Preisentwicklung besteht aus einem deterministischen und einem stochastischen Anteil: Wenn irgendeine Industrie im Trend ist, steigt die zugehörige Aktie mit Sicherheit, und dazu gibt es noch den unberechenbaren
Zufall, der allerdings je nach Aktie einen mehr oder weniger starken Einfluss hat.
Auf diese Weise gelangt man zu dem folgenden Modell: Man verschaffe sich eine
Zufallsvariable X mit Erwartungswert Null und Varianz Eins. Das ist der pro
Zeiteinheit wirkende Zufall. Für zwei Zahlen m (für den Trend) und σ (für die
Stärke des Zufallseinflusses2 ) setzt man dann an:
√
∆S
= m ∆ t + σ ∆t.
S
Und je nachdem, ob man diskret oder kontinuierlich modelliert, gelangt man
zum Binomialmodell oder zur Black-Scholes-Welt.
Das Binomialmodell
Hier interessiert man sich nur für die Preise zu den Zeitpunkten t0 , t0 + ∆ t,
t0 + 2∆t usw.; dabei ist ∆ t eine positive Zahl. Man startet bei St0 , von da
ausgehend entwickelt sich ein Binomialbaum. Mit Wahrscheinlichkeit p bzw.
1 − p steigt bzw. fällt der Wert der Aktie, von S0 := St0 (Zeit t0 ) auf Su ( up“)
”
bzw. Sd ( down“) bei t1 = t0 + ∆t. Von da aus verzweigt die Kursentwicklung
”
wieder, dann noch einmal usw. Es entsteht ein (üblicherweise von links nach
rechts) wachsender Baum. Manchmal ist er geschlossen: up-down“ liefert den
”
gleichen Wert wie down-up“.
”
Wir wollen nun zeigen, wie man in so einem Fall Werte für Optionen ausrechnen kann. Als Beispiel wählen wir eine europäische Call-Option zum Strike-Preis
K, wir interessieren uns zunnächst für die erste Masche, die Option soll also bei
t1 eingelöst werden.
Der Wert der Option bei t1 ist Cu = max{Su − K, 0} bzw. Cd = max{Sd −
K, 0}, je nachdem, ob der Kurs gestiegen oder gefallen ist. Uns interessiert der
Preis C0 bei t0 . Wir behaupten: Der Preis muss gleich
Ct0 =
2 Der
Cu − Cd −r∆t
Cu − Cd
St0 + Cu −
Su e
Su − Sd
Su − Sd
Fachausdruck ist Volatilität.
9.2. BINOMIALMODELLE, DIE BLACK-SCHOLES-WELT
91
sein. Zum Beweis benutzen wir ein Arbitrage-Argument. Setze
B := Cu −
diese Zahl stimmt mit
Cd −
Cu − Cd
Su ,
S u − Sd
Cu − Cd
Sd
S u − Sd
überein. Daraus folgt, mit ∆ := (Cu − Cd )/(Su − Sd ), dass ein Portfolio der
Form C − ∆S bei t1 garantiert den Wert B haben wird. Also muss es heute
wegen des Verbots von Arbitrage3 den Wert Be−r∆t haben:
Ct0 − ∆St0 = Be−r∆t .
Das ist gerade die Behauptung.
Ganz analog kann man beliebige Optionen behandeln, bei denen der Auszahlungswert eine Funktion von St1 ist.
Nun kann man auch komplizierte Situationen durch Rückwärtsrechnen untersuchen. Wir nehmen an, dass die Option bei t0 + k∆t fällig wird.
• Starte bei den Maschen ganz rechts, die die Entwicklung zwischen t0 +
(k − 1)∆t und t0 + k∆t beschreiben. Bei t0 + k∆t ist der Wert der Option
bekannt, und mit dem eben vorgestellten Argument ermitteln wir ihn bei
den Zeitpunkten t0 + (k − 1)∆t.
• Danach berechne die Werte bei den Verzweigungen der Maschen, die von
t0 + (k − 2)∆t nach t0 + (k − 1)∆t führen.
• Und so weiter: Schließlich haben wir den Wert bei t0 ermittelt.
Das Verfahren ist sehr flexibel, es lässt sich auch für zeit-abhängige Volatilitäten
verwenden.
Damit die Bank keine Verluste macht, muss sie das für die Option eingenomme Geld immer in sichere Portfolios umschichten: Sie braucht ein Portfolio
C − ∆S, um von Kursschwankungen unabhängig zu sein. Und das kann bei jedem Zeitschritt t0 + i∆t ein anderes sein. Man spricht von ∆-hedging (to hedge:
hegen, pflegen).
Die Black-Scholes-Welt
Wird ∆ t immer kleiner, so wird St für alle Zeitpunkte t ≥ t0 einen sinnvollen
Wert haben: (St )t≥t0 ist dann ein stochastischer Prozess. Er muss der Bedingung
d St
= m dt + σBt
St
3 Vgl.
Abschnitt 9.1.
92KAPITEL 9. FINANZMATHEMATIK: EINIGE GRUNDLEGENDE BEGRIFFE
genügen, wir haben die Brownsche Bewegung als Modell für den normalisierten
Zufallseinfluss eingesetzt. Anders ausgedrückt: (St ) genügt der stochastischen
Differentialgleichung
d St = m St dt + σSt dBt .
Diese Differentialgleichung haben wir aber schon gelöst, es ergibt sich
St = St0 exp(m −
σ2
)t + σ Bt ,
2
die geometrische Brownsche Bewegung.
Man spricht bei diesem Modell von der Black-Scholes-Welt. Der Vorteil besteht darin, dass gut bekannte Objekte wie die Normalverteilung und die Brownsche Bewegung auftreten. Der Nachteil (der erst recht spät erkannt wurde):
Die Normalverteilung fällt zu schnell“ ab, das Auftreten großer Abweichun”
gen wird unterschätzt. Deswegen versucht man verstärkt, die Normalverteilung
durch Verteilungen zu ersetzen, die größere Abweichungen zulassen ( fat tails“).
”
Kapitel 10
Finanzmathematik: die
Black-Scholes-Formel
In diesem Kapitel soll eine berühmte Formel der Finanzmathematik hergeleitet
werden, die Black-Scholes-Formel . Es ist nicht übertrieben, die Entdeckung dieser Formel als den Beginn der modernen Finanzmathematik zu bezeichnen. Wie
beschreiben in Abschnitt 10.1 das Problem, in Abschnitt 10.2 wird es auf eine
partielle Differentialgleichung zurückgeführt (Black-Scholes-Gleichung), und in
Abschnitt 10.3 wird die Lösung explizit angegeben.
10.1
Die Problemstellung: Bewertung von Optionen
Allgemein stellt sich das Problem so dar:
• Wir betrachten eine spezielle Aktie, deren Preisentwicklung durch den
Prozess (St ) beschrieben wird. Wir haben das durch
St = S0 exp (m −
σ2
)t + σBt
2
modelliert.
• Zu irgendeinem Zeitpunkt T in der Zukunft möchten wir φ(ST ) ausgezahlt
bekommen. Dabei ist φ eine von der Situation abhängige Funktion. Zum
Beispiel ist φ(s) = max{s − K, 0} bei einer Call-Option zum Strike-Preis
K.
• Wir wollen einen Vertrag abschließen, der genau das leistet.
Das Problem besteht nun darin, jetzt (o.E. ist das t = 0) einen fairen Preis für
dieses Geschäft auszuhandeln.
93
94KAPITEL 10. FINANZMATHEMATIK: DIE BLACK-SCHOLES-FORMEL
Als Nomenklatur vereinbaren wir: Wenn das Geschäft zu einem Zeitpunkt
t ∈ [ 0, T ] abgeschlossen wird, so soll der faire Preis Vt genannt werden, das ist
ein stochastischer Prozess1 . Es wird angenommen, dass man Vt als V (t, St ) für
eine geeignete Funktion V schreiben kann, dass Vt also nur von t und St abhängt
(nicht also – z.B. – von der Entwicklung der Aktie in den letzten Wochen).
Eigentlich sind wir nur an V0 = V (0, S0 ) interessiert, und es ist offensichtlich, dass VT = V (T, ST ) = φ(ST ) gelten muss. Wie kann die Funktion V (·, ·)
ermittelt werden?
10.2
Die Black-Scholes-Gleichung
(St ) genügt doch der stochastischen Differentialgleichung
dSt = St m dt + σSt dBt .
Wir wollen nun die Ito-Formel anwenden. Mit den Bezeichnungen aus Abschnitt 7.2 gilt:
• Xt entspricht unserem St , Yt ist mSt und Zt ist σSt .
• Die Funktion g ist in unserem Fall durch V (·, ·) zu ersetzen. Das, was X̃t
genannt wurde, ist unser Vt .
• Aufgrund der Ito-Formel genügt (Vt ) der stochastischen Differentialgleichung
dVt = Ỹt dt + Z̃t dBt ,
wobei Ỹt , Z̃t explizit angegeben werden können:
Ỹt =
∂V
∂V
1 ∂2V
(t, St ) +
(t, St )mSt +
(t, St )σ 2 St2 ,
∂t
∂s
2 ∂s
Z̃t =
∂V
(t, St )σSt .
∂s
Fasst man alles zusammen, folgt
dVt =
∂V
∂V
σ 2 St2 ∂ 2 V
∂V
(t, St ) + mSt
(t, St ) +
(t, St )dBt .
(t, St ) dt + σSt
∂t
∂s
2 ∂s2
∂s
(Um das richtig zu interpretieren, sollte man noch einmal zur Herleitung der
Ito-Formel zurückblättern. V ist als Funktion in zwei Veränderlichen t, s aufzufassen, damit sind die partiellen Ableitungen zu berechnen. Und dann ist jedes
s durch St zu ersetzen.)
Nun werden wir ein lokales Arbitrageargument verwenden, das ist der Schlüssel
zur Herleitung der Black-Scholes-Gleichung.
1
V “ steht für value“.
”
”
10.2. DIE BLACK-SCHOLES-GLEICHUNG
95
Fixiere dazu einen Zeitpunkt t0 und betrachte für eine Zahl ∆ ein Portfolio
der Form Vt − ∆ · St . Die Zahl ∆ soll so bestimmt werden, dass der Zufall bei t0
ausgeschaltet ist, dass also der Faktor bei dBt verschwindet. Die stochastische
Differentialgleichung für Vt − ∆St kann leicht bestimmt werden:
d(Vt − ∆St )
=
∂V
∂V
σ 2 St2 ∂ 2 V
(t, St ) − ∆mSt dt +
(t, St ) + mSt
(t, St ) +
2
∂t
∂s
2 ∂s
∂V
+σSt
(t, St ) − ∆ dBt
∂s
Der Zufall ist folglich bei t0 eliminiert, falls
∂V
(t0 , St0 ) = ∆
∂s
gilt. In diesem Fall wird sich Vt − ∆St für ein sehr kleines“ Zeitintervall dt
”
deterministisch entwickeln, der Wertzuwachs zwischen t0 und t0 + dt wird
σ 2 St20 ∂ 2 V
∂V
∂V
(t0 , St0 ) + mSt0
(t0 , St0 ) +
(t0 , St0 ) − ∆mSt0 dt,
2
∂t
∂s
2 ∂s
also (wegen der Definition von ∆)
σ 2 St20 ∂ 2 V
∂V
(t0 , St0 ) +
(t0 , St0 ) dt
2
∂t
2 ∂s
betragen.
0
Eine sichere Auszahlung M nach t0 Zeiteinheiten muss aber M e−rt kosten2 ,
sonst gäbe es Arbitrage: Vgl. das Argument vor Satz 9.1.1. Oder, anders ausgedrückt, aus M (heute) wird nach t0 Zeiteinheiten bei einer deterministischen
0
Anlage immer M ert , die Wertsteigerung ist also bei kleinem“ t0 gleich M rt0 . In
”
unserem Fall bedeutet das: Die Wertsteigerung des Portfolios, also von Vt − ∆St
zwischen t0 und t0 + dt, ist gleich
(Vt0 − ∆St0 )r dt.
Und diese Zahl ist gleich
σ 2 St20 ∂ 2 V
∂V
(t0 , St0 ) +
(t0 , St0 ) dt.
2
∂t
2 ∂s
Wenn wir nun noch dt kürzen, die Definition von ∆ einsetzen, von t0 zu t
übergehen und für St die neutrale Variable s einsetzen, erhalten wir die folgende
partielle Differentialgleichung für V :
∂V
σ 2 s2 ∂ 2 V
∂V
+
+ rs
− rV = 0.
∂t
2 ∂s2
∂s
Das ist die Black-Scholes-Differentialgleichung. Gesucht ist eine Lösung, die
auch noch der Randbedingung V (T, s) = φ(s) für alle s genügt.
2 Mit
r bezeichnen wir weiterhin den Zinssatz.
96KAPITEL 10. FINANZMATHEMATIK: DIE BLACK-SCHOLES-FORMEL
10.3
Die Black-Scholes-Formel
In manchen Fällen, wenn φ nicht zu kompliziert ist, lässt sich V explizit angeben.
Wir konzentrieren uns hier auf die Formel für den Fall von europäischen Calls,
wenn also φ(s)) = max{s−K, 0} ist. Das wird dann die berühmte Black-ScholesFormel sein. (Wegen der Put-Call-Parität 9.1.1 haben wir damit dann auch eine
eine Formel für Puts gefunden.)
Statt V (t, s) schreiben wir nun C(t, s), um daran zu erinnern, dass wir Calls
behandeln. Es geht also um die Gleichung
∂C
σ 2 s2 ∂ 2 C
∂C
+ rs
+
− rC = 0
∂t
2 ∂s2
∂s
mit der Randbedingung C(T, s) = max{s − K, 0}.
Die Lösung wird dadurch gefunden werden, dass wir das Problem auf ziemlich trickreiche Weise in die Wärmeleitungsgleichung transformieren. An diese
partielle Differentialgleichung soll zunächst erinnert werden.
Unter der Wärmeleitungsgleichung versteht man die Gleichung
∂u
∂2u
=
,
∂τ
∂x2
die für alle τ > 0 und alle x ∈ R erfüllt sein soll. Zusätzlich soll u zu einer
stetigen Funktion auf R + × R ergänzbar sein und der Bedingung
u(0, x) = u0 (x) für x ∈ R
für eine vorgegebene Funktion u0 genügen.
Die Interpretation: Ein unendlich langer Stab hat zur Zeit τ bei x die Temperatur u(τ, x). Zur Zeit 0 ist die Temperatur durch die Funktion u0 vorgegeben,
und man möchte wissen, wie sie sich im Lauf der Zeit entwickelt. Das führt, wie
von Joseph Fourier zu Beginn des 19. Jahrhunderts gezeigt wurde, auf unsere
Wärmeleitungsgleichung (jedenfalls dann, wenn man die auftretenden Materialkonstanten zu Eins normiert).
Die Lösung kann explizit angegeben werden. Sie lautet: Definiere u(τ, x) für
τ = 0 durch u0 (x) und für die positiven τ durch
Z
2
1
u(τ, x) := √
u0 (s)e−(x−s) /4τ ds.
4πτ R
(Man sieht schon, dass es möglicherweise einen Zusammenhang zur Normalverteilung geben wird.)
Zurück zur Black-Scholes-Gleichung. Sie soll durch geeignete Transformationen auf die Wärmeleitungsgleichung zurückgeführt werden3 .Bei einer ersten
3 Das ist so ähnlich wie bei quadratischen Gleichungen: Da transformiert man ja auch
x2 + px + q = 0 durch y := x − p/2 zu einer Gleichung des Typs y 2 = A.
10.3. DIE BLACK-SCHOLES-FORMEL
97
Transformation gehen wir wie folgt zu neuen Koordinaten über:
s = Kex , t = T −
τ
, C = Kv(τ, x).
σ 2 /2
Das soll folgendes bedeuten: Statt einer Differentialgleichung für C wollen wir
eine für v erhalten, die hoffentlich leichter lösbar ist. Raum- und Zeitkoordinaten werden dabei mittransformiert. Das man es ausgerechnet so versucht, ist
wohl nur für diejenigen nachvollziehbar, die schon oft Differentialgleichungen
umtransformiert haben.
Wie kann man die Differentialgleichung für v erhalten? Dazu muss man
sich an Ergebnisse aus der Theorie der Funktionen in mehreren Veränderlichen
erinnern. Da gilt doch – als Verallgemeinerung der Kettenregel der elementaren
Analysis die Formel Jf ◦g (x) = Jf (g(x))Jg (x) für Jacobimatrizen, und wenn
dann insbesondere Funktionen A(x, y), B(s, t), C(s, t) vorgegeben sind und man
an A(B(s, t), C(s, t)) interessiert ist, so folgt
∂A
∂B
∂A
∂C
∂A(B(s, t), C(s, t))
=
(B(s, t), C(s, t))
(s, t)+
(B(s, t), C(s, t))
(s, t),
∂s
∂x
∂s
∂y
∂s
und eine entsprechende Formel gilt für die partielle Ableitung nach t. Alles wird
etwas einfacher, wenn B nur von s und C nur von t abhängt (so eine Situation
wird bei uns vorliegen).
Unser Ziel ist zu zeigen, dass
∂v
∂2v
∂v
=
+ (k − 1)
− kv
∂τ
∂x2
∂x
gilt, wobei k := 2r/σ 2 ist. Um das nachzuweisen, rechnen wir nach und nach
die auftretenden Summanden aus und benutzen dann die Tatsache, dass C der
Black-Scholes-Gleichung genügen soll.
∂C/∂t. Da wir das durch Beziehungen zwischen den Variablen τ, x ausdrücken
wollen, müssen wir die Transformation (τ, x) 7→ (t, s) zunächst invertieren:
x = log(s/K), τ =
σ2
(T − t).
2
So erhalten wir
∂C
∂v
∂v σ 2 =K
=K
(− ) .
∂t
∂t
∂τ
2
∂C/∂s.
∂C
∂v
∂v 1
=K
=K
.
∂s
∂s
∂x s
98KAPITEL 10. FINANZMATHEMATIK: DIE BLACK-SCHOLES-FORMEL
∂ 2 C/∂s2 .
∂2C
∂s2
∂ ∂C ∂s ∂s
∂
∂v 1 =
K
∂s
∂x s
∂v 1 ∂2v 1
−
.
= K
2
2
∂x s
∂x s2
=
Wenn nun C der Black-Scholes-Gleichung genügt und wir die partiellen CAbleitungen durch v ausdrücken, so folgt
∂v
∂2v
∂v
=
+
(k − 1) − kv;
∂τ
∂x2
∂x
dabei haben wir – wie schon angekündigt – die Abkürzung k := 2r/σ 2 eingesetzt. Umgekehrt gilt das auch: Wenn v diese Differentialgleichung löst, so
löst C die Black-Scholes-Gleichung. Durch Transformation ist also eine einfachere Gleichung entstanden, die der Wärmeleitungsgleichung schon sehr ähnlich
sieht.
Es fehlt allerdings noch etwas: Wie transformieren sich die Zusatzbedingungen? Beachte
• Zu t = T gehört τ = 0.
• Wenn C(T, s) = s − K ist, heißt das, das Kv(0, x) = Kex − K gilt, also
v(0, x) = ex − 1. (Ähnlich für die Null.)
Und daraus schließen wir: v soll neben der Differentialgleichung auch die Bedingung
v(0, x) = max{ex − 1, 0}
erfüllen. Aus einer Bedingung am Ende der Laufzeit ist so eine Bedingung am
Anfang geworden. Das liegt daran, dass bei Übergang von t zu τ die neue Zeit“
”
τ rückwärts läuft.
Nun gibt es noch eine zweite Transformation, um wirklich zur Wärmeleitungsgleichung zu kommen. Wir definieren eine neue Funktion u durch
u(τ, x) = eαx+βτ v(τ, x)
mit noch freien Konstanten α, β: Die sollen so gewählt werden, dass für u die
Wärmeleitungsgleichung entsteht. Wir argumentieren so:
∂u
∂τ
∂u
∂x
∂2u
∂x2
∂v
,
∂τ
∂v
= αeαx+βτ v + eαx+βτ
,
∂x
= βeαx+βτ v + eαx+βτ
= eαx+βτ α2 v + 2αeαx+βτ
∂v
∂2v + 2 .
∂x ∂x
10.3. DIE BLACK-SCHOLES-FORMEL
99
Folglich ist
∂u
∂2u
=
∂τ
∂x2
äquivalent zu
∂v
∂2v
∂v
= α2 v + 2α
+ 2.
∂τ
∂x ∂x
Wir wählen nun zunächst α so, dass 2α − (k − 1) = 0. Dann dürfen wir die zwei
Summanden rechts durch ∂v/∂τ + kv ersetzen. Die Funktion ∂v/∂τ kann man
kürzen, wir erhalten die Bedingung βv = α2 v + kv.
Anders ausgedrückt: Wenn wir auch noch β = α2 + k wählen, ist das erfüllt,
dann genügt u der Wärmeleitungsgleichung (vorausgesetzt, v hatte die vorige
Differentialgleichung erfüllt).
Und was wird aus der Nebenbedingung? v(0, x) = max{ex −1, 0} wird, wenn
wir zu u bei τ = 0 übergehen, zu
βv +
u(0, x)
=
=
=
=
=
eαx v(0, x)
max{ex − 1, 0}
max{eαx (ex − 1), 0}
max{ex(1+α) − eαx , 0}
max{e(k+1)x/2 − e(k−1)x/2 , 0}.
Nun können wir u explizit angeben, die Anfangsbedingung u0 haben wir
gerade eben ausgerechnet. Und nun muss alles wieder rückgängig gemacht werden: Aus u wird v und anschließend C. Da verweise ich für die technischen
Einzelheiten auf das Buch von P. Wilmott et al.: The Mathematics of Financial
Derivatives, Kapitel 5. Hier ist das Endergebnis, die
Black-Scholes-Formel zur Bewertung von europäischen Call-Optionen
zum Strike-Preis K:
• Setze
1
N (x) := √
2π
Z
x
2
e−t
/2
dt
−∞
für x ∈ R. (Das ist die Verteilungsfunktion der Standardnormalverteilung.)
• Für t ∈ [ 0, T [ und S > 0 sei
d± :=
log(S/K) + (r ± σ 2 /2)(T − t)
√
.
σ T −t
• Dann ist C(t, St ) = St N (d+ ) − Ke−r(T −t) N (d− )
(Zum Kennenlernen lässt sich schnell nachprüfen, dass wirklich C(T, ST ) =
max{ST − K, 0}. Beachte dazu: Ist ST > K bzw. ST < K, so ist
d+ = d− = +∞ bzw. d+ = d− = −∞.)
100KAPITEL 10. FINANZMATHEMATIK: DIE BLACK-SCHOLES-FORMEL
Es ist zu betonen, dass für die Bank die Arbeit erst anfängt. Sie muss –
im Idealfall in kontinuierlicher Zeit – ein Portfolio Ct − ∆St bereithalten, wo
∆ = (∂C/∂s)(t, St ). Damit wird lokal der Zufall ausgeschaltet. Dieses Verfahren
heißt auch im kontinuierlichen Fall ∆-hedging.
Herunterladen