Markovprozesse und stochastische Differentialgleichungen Ehrhard Behrends Fachbereich Mathematik und Informatik Freie Universität Berlin Sommersemester 2011 Version vom Ende des Sommersemesters 2011 i “ ” Einleitung In dieser Vorlesung sollen einige Themen aus der Stochastik behandelt werden, die auf dem Begriff des Markoffprozesses aufbauen. Dabei sind Markoffprozesse stochastische Prozesse, für welche die Prognose für das zufällige Verhalten in der Zukunft nur von der gegenwärtigen Position abhängt. Der Aufbau ist wie folgt: • In Kapitel 1 beginnen wir mit einigen Vorbereitungen: An welche Sachverhalte aus der elementaren Stochastik sollte man sich erinnern? Was wird von der Maßtheorie gebraucht? Was sind stochastische Prozesse, Filtrationen und Stoppzeiten? Besonders wichtig für das Folgende wird dann die Definition der bedingten Erwartung sein. • Erste Tatsachen zu Markovprozessen werden in Kapitel 2 eingeführt: Es gibt eine Definition und einen Charakterisierungssatz ( Markovprozesse ” sind Prozesse, bei denen die Zukunft von der Vergangenheit unter der Bedingung der Gegenwart unabhängig ist.“ ) • In diesem Kapitel, in Kapitel 3 , geht es um einen Spezialfall, nämlich den Fall, dass die auftretenden Prozesse nur endlich oder höchstens abzählbar viele verschiedene Werte annehmen können. Man muss dann noch unterscheiden, ob die Zeit als diskret oder als kontinuierlich aufgefasst wird. Im diskreten Fall lassen sich fast alle interessierenden Fragen beantworten (wenigstens im Fall endlicher Zustandsräume), der kontinuierliche Fall ist technisch weit aufwändiger. • In Kapitel 4 beschäftigen wir uns dann mit einer Frage aus der Entscheidungstheorie. Es ist ein Zufallsspaziergang gegeben, der zu beliebigen Zeiten gestoppt werden kann, je nach Position wird ein Gewinn ausgezahlt. Wie sollte man stoppen, um den Erwartungswert des Gewinns zu maximieren? Obwohl es eine unübersehbare Fülle von Stoppmöglichkeiten gibt, kann man trotzdem die optimale Variante explizit berechnen. • Die Brownsche Bewegung wird in Kapitel 5 behandelt. Heute ist Konsens, dass dieser Prozess eine fundamentale Rolle in verschiedenen Bereichen der Stochastik spielt. Wir definieren diesen Prozess, zeigen die Existenz und untersuchen einige fundamentale Eigenschaften. • Um stochastische Integrale und stochastische Differentialgleichungen geht es dann in Kapitel 6 . Wir beschreiben den Ito-Ansatz, bei dem diese zufällige Störung deterministischer Prozesse“ durch eine topologische Kon” struktion eingeführt wird. • In der elementaren Analysis ist es ja auch so: Wenn man das Integral definiert hat, kann es immer noch sehr mühsam sein, Integrale konkret zu berechnen. Abhilfe schafft der Hauptsatz der Differential- und Integralrechnung. iii Bei stochastischen Integralen ist es genau so: Erst mit Hilfe der Ito-Formel (Kapitel 7 ) ist es halbwegs einfach, etwas explizit zu bestimmen. • Eine der klassischen Anwendungen von stochastischen Differentialgleichungen sind Monte-Carlo-Verfahren zur Lösung von partiellen Differentialgleichungen. Dieser Zusammenhang soll in Kapitel 8 beschrieben werden. • Stochastik ist aus der modernen Finanzmathematik nicht wegzudenken. In Kapitel 9 werden einige der grundlegenden Begriffe eingeführt . . . • . . . und in Kapitel 10 wird gezeigt, wie man Methoden der stochastischen Differentialgleichungen erfolgreich einsetzen kann, um Optionen korrekt zu bewerten (Black-Scholes-Formel ). E. Behrends, im Frühjahr 2011. Zur Vorbereitung der Vorlesung wurde die nachstehende Literatur verwendet: Ash, Robert B. Probability and Measure Theory. Academic Press, 2000. Ein Klassiker. Beim Charakterisierungstheorem für Markovprozesse folge ich diesem Buch. Behrends, Ehrhard. An Introduction to Markov Chains with Special Emphasis on Rapid Mixing. Vieweg 1998. Hier findet man die Theorie der Markovketten in diskreter Zeit auf endlichen Zustandsräumen. Es werden auch ausführlich verschiedene Verfahren beschrieben, um das Mischungsverhalten zu analysieren. Es gibt auch mehrere Anwendungen: simulated annealing, approximatives Zählen, Ising-Modell. Behrends, Ehrhard. Maß- und Integrationstheorie. Springer, 1983. Alle Sätze, die aus der Maßtheorie gebraucht werden, sind hier dargestellt. Billingsley, Patrick. Probability and Measure. Wiley, 1986. Ein immer noch empfehlenswerter Klassiker zu Maßtheorie und Wahrscheinlichkeitsrechnung. Die Darstellung zum optimalen Stoppen folgt diesem Buch. Brémaud, Pierre. Markov Chains, Gibbs Fields, Monte Carlo Simulation and Queues. Springer, 1999. Hier werden Markovprozesse auf endlichen Zustandsräumen in diskreter und kontinuierlicher Zeit untersucht. Es gibt Anwendungen in der statistischen Mechanik und der Warteschlangentheorie. iv Chow, Pao-Li. Stochastic Partial Differential Equations. Chapman and Hall, 2007. Wie kann man mit stochastischen Methoden partielle Differentialgleichungen behandeln? Cyganowsk, Sasha - Kloeden, Peter - Ombach, Jerzy. From Elementary Probability to Stochastic Differential Equations with MAPLE. Springer, 2002. Hier gibt es Anregungen, wie man die theoretischen Ergebnisse visualisieren kann. Doob, J.L. Stochastic Processes. Chapman and Hall, 1952. Ein Klassiker, sehr kompakt“ geschrieben. ” Dynkin, E.B. Markov Processes I, II. Springer, 1965. Ein Klassiker. Es ist viel enthalten, die Darstellung ist oft sehr knapp. Elliott, Robert - Aggoun, Lakhdar - Moore, John. Hidden Markov Models. Springer, 1995. Was lässt sich über stochastische Prozesse sagen, die durch Markovprozesse gesteuert werden, selbst aber keine Markovprozesse sind? Klenke, Achim. Wahrscheinlichkeitstheorie. Springer 2005. Hier findet man alle Vorbereitungen aus der Wahrscheinlichkeitstheorie, es gibt auch erste Ergebnisse zu Markovprozessen und stochastischen Differentialgleichungen. Ich persönlich finde es recht technisch. Liggett, Thomas. Continuous Time Markov Processes. AMS Graduate Studies, 2010. Eine anspruchsvolle Einführung in die Theorie der stochastischen Differentialgleichungen. Marcus, Michael – Rosen, Jay. Markov Processes, Gaussian Processes, and Local Times. Cambridge Studies, 2006. Hier wird das Schwergewicht af Gaußprozesse, insbesondere die Brownsche Bewegung, gelegt. Für Anfänger weniger zu empfehlen. Meintrup, David - Schäffler, Stefan. Stochastik. Springer 2005. Eine empfehlenswerte Gesamtdarstellung der Stochastik, die bis zum Ito-Integral geht. Es gibt auch viele Anwendungen. Oksendal, Bernt. Stochastic Differential Equations. Springer, 1982 (und mehrere weitere Auflagen). Das war für lange Zeit das Standardwerk zu stochastischen Differentialgleichungen. v Stroock, Daniel. An Introduction to Markov Processes. Springer, 2005. Markovketten mit besonderer Berücksichtigung der Ergodentheorie. Winkler, Gerhard. Image Analysis, Random Fields and Markov Chain Monte Carlo Methods. Springer, 1995. Hier geht es um Markov-Methoden in der Bildverarbeitung. Inhaltsverzeichnis 1 Vorbereitungen 1.1 Erinnerung an die elementare Stochastik 1.2 Maßtheorie . . . . . . . . . . . . . . . . 1.3 Stochastische Prozesse . . . . . . . . . . 1.4 Bedingte Erwartungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 3 5 8 2 Markovprozesse I 11 2.1 Was ist ein Markovprozess? . . . . . . . . . . . . . . . . . . . . . 11 2.2 Ein Charakterisierungssatz . . . . . . . . . . . . . . . . . . . . . 14 3 Markovketten 17 3.1 Die wichtigsten Definitionen . . . . . . . . . . . . . . . . . . . . . 17 3.2 Die Struktur von endlichen Markovketten . . . . . . . . . . . . . 24 3.3 Homogene Markovketten in kontinuierlicher Zeit . . . . . . . . . 24 4 Optimales Stoppen auf Markovketten 31 4.1 Die Präzisierung der Problemstellung . . . . . . . . . . . . . . . . 33 4.2 Superharmonische Funktionen . . . . . . . . . . . . . . . . . . . . 34 4.3 Die optimale Lösung . . . . . . . . . . . . . . . . . . . . . . . . . 37 5 Die Brownsche Bewegung 43 5.1 Brownsche Bewegung: Definition / Existenz . . . . . . . . . . . . 43 5.2 Brownsche Bewegung: Eigenschaften . . . . . . . . . . . . . . . . 46 6 Stochastische Integrale/Differentialgleichungen 57 6.1 Riemann-Stieltjes-Integrale . . . . . . . . . . . . . . . . . . . . . 57 6.2 Ito-Isometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 6.3 Stochastische Differentialgleichungen . . . . . . . . . . . . . . . . 68 7 Die 7.1 7.2 7.3 Ito-Formel 71 Neue stochastische Integrale . . . . . . . . . . . . . . . . . . . . . 71 Die Ito-Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Anwendungen der Ito-Formel . . . . . . . . . . . . . . . . . . . . 76 vii 0 INHALTSVERZEICHNIS 8 Monte-Carlo-Verfahren 8.1 Partielle Differentialgleichungen . . . . . . . . . . . . . . . . 8.2 n-dimensionale stochastische Differentialgleichungen . . . . 8.3 Stoppen von stochastischen Prozessen . . . . . . . . . . . . 8.4 Die Dynkin-Formel . . . . . . . . . . . . . . . . . . . . . . . 8.5 Monte-Carlo-Methoden für partielle Differentialgleichungen . . . . . . . . . . . . . . . 79 79 80 81 82 82 9 Finanzmathematik: einige grundlegende Begriffe 87 9.1 Die Bank, Optionen und Arbitrage . . . . . . . . . . . . . . . . . 87 9.2 Binomialmodelle, die Black-Scholes-Welt . . . . . . . . . . . . . . 90 10 Finanzmathematik: die Black-Scholes-Formel 93 10.1 Die Problemstellung: Bewertung von Optionen . . . . . . . . . . 93 10.2 Die Black-Scholes-Gleichung . . . . . . . . . . . . . . . . . . . . . 94 10.3 Die Black-Scholes-Formel . . . . . . . . . . . . . . . . . . . . . . 96 Kapitel 1 Vorbereitungen In diesem Kapitel erinnern wir zunächst an einige Definitionen und Ergebnisse aus der elementaren Stochastik. Alles findet sich – zum Beispiel – in meinem Skript zu dieser Vorlesung. Danach gibt es einige Informationen zur Maßtheorie, und im letzten Abschnitt geht es um den wichtigen Begriff bedingte Erwar” tung“. 1.1 Erinnerung an die elementare Stochastik Es wird in dieser Vorlesung vorausgesetzt, dass die folgenden Sachverhalte bekannt sind: Wahrscheinlichkeitsräume • Eine σ-Algebra E auf einer Menge Ω ist eine Teilmenge der Potenzmenge, die unter allen Mengenoperationen stabil ist, bei denen höchstens abzählbar viele Elemente von E beteilgt sind. • Sei E eine σ-Algebra auf Ω. Eine Abbildung P : E → [0, 1] heißt ein Wahrscheinlichkeitsmaß , wenn P(Ω) = 1 ist und [ X P( En ) = P(En ) n n für jede Folge (En ) von paarweise disjunkten Mengen in E gilt. • Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, E, P); dabei ist Ω eine Menge, E eine σ-Algebra auf Ω und P ein Wahrscheinlichkeitsmaß auf (Ω, E). • Die σ-Algebra der Borelmengen auf dem R n ist die kleinste σ-Algebra, die alle offenen Teilmengen enthält. Faustregel: Jede Teilmenge, die in den Anwendungen jemals vorkommen kann, ist eine Borelmenge. Wichtige Beispiele für Wahrscheinlichkeitsräume 1 2 KAPITEL 1. VORBEREITUNGEN • Ist Ω endlich oder höchstens abzählbar, so ist E in der Regel die Potenzmenge. Ein Wahrscheinlichkeitsmaß ist dann durch die Angabe der Zahlen P({ω}) definiert. (Diese Zahlen müssen nichtnegativ sein und sich zu Eins summieren.) • Die wichtigsten Beispiele dazu sind – Laplaceräume: Da ist Ω endlich, und alle Elementarereignisse haben die gleiche Wahrscheinlichkeit. – Bernoulliräume. Hier ist Ω = {0, 1}, und es reicht die Angabe der Zahl p = P({1}) ( Wahrscheinlichkeit für Erfolg“), um das Wahr” scheinlichkeitsmaß festzulegen. – Abgeleitet von Bernoulliräumen sind die geometrische Verteilung (warten auf den ersten Erfolg), die Binomialverteilung (k Erfolge in n Versuchen), die hypergeometrische Verteilung (Ziehen ohne Zurücklegen) und die Poissonverteilung (Grenzwert von Binomialverteilungen). • Sei zunächst Ω eine einfache“ Teilmenge von R (etwa ein Intervall) und ” f : Ω → R eine gutartige“ (etwa eine stetige) nichtnegative Funktion mit ” Integral Eins. Dann kann damit ein Wahrscheinlichkeitsraum durch die Festsetzung Z P(E) := f (x) dx E definiert werden. Dabei kann E eine beliebige Borelmenge sein, für die Anwendungen reicht es aber so gut wie immer, sich für E ein Teilintervall von Ω vorzustellen. f heißt dann die Dichtefunktion zu dem so definierten Wahrscheinlichkeitsmaß. • Die wichtigsten Beispiele sind – Die Gleichverteilung auf [a, b]; da ist f (x) := 1/(b − a). – Die Exponentialverteilung zum Parameter λ > 0; sie ist durch die Dichtefunktion f (x) := λ · e−λx auf R + definiert. Durch die Exponentialverteilung kann gedächtnisloses Warten beschrieben werden. – Die Normalverteilungen N (µ, σ 2 ) auf R. Sie haben – für µ ∈ R und σ > 0 – die Dichtefunktion f (x) := √ 2 2 1 e−(x−µ) /2σ . 2πσ Sie spielen für die Statistik eine ganz besonders wichtige Rolle. • Die gleiche Idee kann in allen Situationen ausgenutzt werden, in denen ein Integral zur Verfügung steht. Wer also auf R das Lebesgue-Integral kennen gelernt hat, kann integrierbare Dichten zulassen, wer die Integration im 1.2. MASSTHEORIE 3 R n beherrscht, kann leicht Wahrscheinlichkeitsmaße auf den Borelmengen dieses Raumes angeben usw. Für uns wird das später auch sehr wichtig werden, Eigenschaften mehrdimensionaler Normalverteilungen werden eine wichtige Rolle spielen. Wahrscheinlichkeitstheorie: Grundbegriffe • Bedingte Wahrscheinlichkeit. • Was bedeutet Unabhängigkeit“ für zwei, endlich viele bzw. beliebig viele ” Ereignisse? • Zufallsvariable. • Erwartungswert und Streuung. • Unabhängigkeit für Zufallsvariable. Grenzwertsätze Die Grenzwertsätze besagen, dass der Zufallseinfluss verschwindet“, wenn ” sich viele“ Zufallseinflüsse unabhängig überlagern. Genauer: ” • Was bedeuten Konvergenz in Wahrscheinlichkeit“, Konvergenz in Ver” ” teilung“, Fast sichere Konvergenz“? ” • Das Wurzel-n-Gesetz. • Das Lemma von Borel-Cantelli • Das schwache Gesetz der großen Zahlen. • Das starke Gesetz der großen Zahlen. • Der zentrale Grenzwertsatz. 1.2 Maßtheorie In der elementaren Stochastik konnte man sich weitgehend auf diskrete Räume und Räume mit Dichten beschränken. Die Räume in dieser Vorlesung sind komplizierter, es muss der allgemeine Maßbegriff bekannt sein. Insbesondere wird für die Definition R des Erwartungswerts einer Zufallsvariablen der allgemeine Integralbegriff X dP wichtig. Beweise zu den Ergebnissen dieses Abschnitts findet man in jedem Buch zur Maßtheorie, z.B. in meinem. Wichtige Definitionen Es wird immer wieder um erzeugte σ-Algebren gehen; • Ist B ein Mengensystem, so schreiben wir σ(B) für die erzeugte σ-Algebra. 4 KAPITEL 1. VORBEREITUNGEN • Ist X eine skalarwertige Zufallsvariable, so bezeichnet σ(X) die kleinste σ-Algbera, in der X messbar ist. (Es ist übrigens σ(X) das System der X −1 (B), wenn B alle Borelmengen durchläuft.) • Analog ist für eine Menge Y von Zufallsvariablen σ(Y) die kleinste σAlgebra, in der alle Y ∈ Y messbar sind. Den Spezialfall einer endlichen Familie schreiben wir so: σ(Y1 , . . . , Yn ). Wichtige Ergebnisse 1.2.1 Satz von Radon-Nikodym: Es sei (Ω, E, P) ein Wahrscheinlichkeitsraum. Ist dann ν : E → [ 0, 1 ] ein weiteres endliches Maß, für das stets P(E) = 0 ⇒ ν(E) = 0 R gilt, so gibt es eine Zufallsvariable Y : Ω → R + , so dass ν(E) = E Y dP für alle E ist. 1.2.2 Satz von der dominierten Konvergenz (Lebesgue): Es sei (Ω, E, P) ein Wahrscheinlichkeitsraum, und g, f, f1 , f2 , . . . : Ω → R seien intgegrierbare Funktionen. g sei eine Majorante der fn , d.h. |fn (ω)| ≤ g(ω) für alle n, ω. Ist dann g integrierbar und Rkonvergieren R die fn punktweise gegen f , so ist auch f integrierbar und es gilt fn dP →n f dP . Beweistechniken Es gibt in der Wahrscheinlichkeitstheorie einige Beweistechniken, die immer und immer wieder eingesetzt werden. An einige soll hier erinnert werden. Besonders wichtig ist der Dynkin-System-Trick“. (Ein Dynkinsystem ist ” ein Mengensystem, das beinahe“ eine σ-Algebra ist: Man verlangt nur, dass ” disjunkte abzählbare Vereinigungen wieder dazu gehören.) Er geht so: 1.2.3 Dynkin-System-Trick: Es sei D0 ein System von Teilmengen von Ω und D das von D0 erzeugte Dynkin-System. Ist D0 durchschnittsstabil, so stimmt D mit der von D0 erzeugten σ-Algebra überein. In typischen Anwendungen möchte man etwa zeigen, dass E 0 = E für zwei σ-Algebren ist. Man weiß: • E 0 ⊂ E. • E 0 ist ein Dynkinsystem. • E 0 ⊃ E0 , und E ist die von E0 erzeugte σ-Algebra. • E0 ist ∩-stabil. Dann ist man nach dem Satz auch schon fertig! So ist zum Beispiel schnell einzusehen, dass zwei Wahrscheinlichkeitsmaße auf R (mit den Borelmengen als σ-Algebra) identisch sind, wenn sie für alle 1.3. STOCHASTISCHE PROZESSE 5 kompakten Intervalle den gleichen Wert liefern. (Wende die vorstehende Technik an mit E 0 = alle Borelmengen, für die die Maße übereinstimmen, E0 = die kompakten Intervalle)1 . 1.3 Stochastische Prozesse Ein stochastischer Prozess auf einem Maßraum (Ω, E, P) ist nichts weiter als eine Familie von Zufallsvariablen. Das Prozess“-hafte drückt sich dadurch aus, dass ” in quasi allen wichtigen Beispielen die Indexmenge als Zeit interpretiert werden kann: • Wie viele Fahrzeuge sind bis zur Zeit t unter der Brücke durchgefahren? • Wie hoch ist der Gewinn im n-ten Spiel? • Wo befindet sich die Rakete zur Zeit t? • ... Wir werden folglich voraussetzen, dass T ⊂ R, wobei praktisch nur die folgenden Fälle interessant sind: T = R + , T = [ a, b ] , T = N 0 , T = {n, n + 1, . . . , m}. Über allgemeine stochastische Prozesse lässt sich recht wenig aussagen, es gibt wenige allgemeine nichttriviale Ergebnisse dazu. Wichtig ist insbesondere der Satz von Kolmogoroff , der besagt, dass man stochastische Prozesse in allen interessanten Fällen aus der Vorgabe der endlich-dimensionalen Randverteilungen konstruieren kann. Es gibt eine Reihe von speziellen Familien von stochastischen Prozessen, für die sich interessante und häufig anwendbare Theorien entwickeln lassen. In dieser Vorlesung werden zwei dieser Familien eine Rolle spielen, nämlich • Markovprozesse: da hängt die zukünftige Entwicklung nur von der Gegenwart ab. Exakte Definitionen folgen in Kapitel 2. • Martingale: Die braucht man, um faire Spiele zu beschreiben. Die Martingalbedingung besagt, dass die Entwicklung, vom jetzigen Standpunkt aus gesehen, ausgewogen ist. Martingale werden erst später in dieser Vorlesung eine Rolle spielen. Um die vagen Ideen präzisieren zu können, spielt der Begriff der bedingten Erwartung eine fundamental wichtige Rolle. Der nächste Abschnitt wird dieser Definition gewidmet sein. 1 Weitere 1/2 Beispiele finden sich in meinem Skript zur elementaren Stochastik auf Seite 96 6 KAPITEL 1. VORBEREITUNGEN Es sollen vorher noch zwei Begriffe eingeführt werden, die im Folgenden gebraucht werden. Filtrationen Es sei (Xt )t∈T ein stochastischer Prozess, wieder sei T ⊂ R, und die t ∈ T werden als Zeiten interpretiert. Die Xt sollen alle auf einem Wahrscheinlichkeitsraum (Ω, E, P) definiert sein. Ist dann eine Filtration (Ft )t∈T gegeben, so bedeutet das: • Die Ft sind Teil-σ-Algebren von E. • Für s < t gilt Fs ⊂ Ft . Interessant sind Fälle, bei denen (Xt )t an (Ft )t adaptiert ist: Es soll jeweils Xt Ft -messbar sein. Bemerkung: Ist (Xt ) als stochastischer Prozess vorgegeben, so kann man stets so eine Filtration finden: Man muss nur Ft als die von {Xs | s ≤ t} erzeugte σ-Algebra definieren. (Das wird die natürliche Filtration genannt. Falls nichts anderes gesagt ist, soll (Ft ) immer so erklärt sein.) Die Interpretation ist die folgende. In der modernen Wahrscheinlichkeitsrechnung wird Information über (Ω, E, P)“ als Teil-σ-Algebra ” von E verschlüsselt: Heißt diese Teil-σ-Algebra E0 , so hat man für alle E0 ∈ E0 die Information, ob ω ∈ E0 gilt oder nicht. Ft ist die bis zum Zeitpunkt t angesammelte Information“, die ” Monotonie-Bedingung bedeutet dann gerade, dass Information im Lauf der Zeit nicht verloren geht. Und Adaptiertheit eines Proesses besagt, dass die Beobachtung dieses Prozesses bis zur Zeit t zu den Informationen dazugehört2 . Stoppzeiten Es sei (Ft )t∈T eine Filtration auf (Ω, E, P). Unter einer Stoppzeit (für (Ft )) verstehen wir eine Abbildung τ : Ω → T ∪ {∞}, die der folgenden Bedingung genügt: Für jedes t ∈ T gehört {ω | τ (ω) ≤ t} zu Ft . 2 Manchmal kann F echt größer sein. Als Beispiel werde ein Zufallsspaziergang durch einen t Würfel gesteuert: Man startet bei 0, und ist der k-te Wurf Yk gerade bzw. ungerade, so geht es um einen Schritt nach rechts bzw. links; so wird (Xn ) erzeugt. Setzt man Fn := σ{Yk | k ≤ n}, so ist (Xn ) adaptiert, aber Fn enthält mehr Informationen als die Spaziergangsbeobachtung. 1.3. STOCHASTISCHE PROZESSE 7 Die Idee: Es soll möglich sein, aufgrund der in Ft enthaltenen Information Stopp“ zu sagen. So würde etwa Stoppe, wenn der Spaziergänger zum ersten ” ” Mal ins Negative kommt“ einer sinnvollen Stoppregel in Bezug auf die natürliche Filtration entsprechen, Stoppe dann, wenn der Spaziergänger im übernächsten ” Schritt zum ersten Mal die 100 betritt“ aber nicht. Im täglichen Leben unterscheidet man ja auch sinnvolle und sinnlose Anleitungen: Vergleiche Am Kaufhaus links abbiegen“ mit Fünf Querstraßen vor ” ” der Arnimallee rechts abbiegen“. Die Definition Stoppzeit“ sieht recht technisch aus. Wirklich ist es gewöh” nungsbedürftig, mit diesem Begriff exakt zu arbeiten. Er hat sich aber als maßgeschneidert herausgestellt, wenn man das Thema Entscheidungen treffen“ an” gemessen modellieren möchte. Hier noch einige Bemerkungen: 1. Es ist sinnvoll, sich – zum Kennenlernen der Definition – von einigen Tatsachen zu überzeugen: • Abzählbare Suprema und Infima von Stoppzeiten sind wieder Stoppzeiten. • Mit τ ist auch τ + n Stoppzeit, τ − n aber – plausibler Weise – im allgemeinen nicht. • Ist τ eine Stoppzeit, so ist Fτ := {E ∈ E | E ∩ {τ ≤ t} ∈ Ft für alle t} eine σ-Algebra: Die σ-Algebra der τ -Vergangenheit. 2. Es sind fast ausschließlich solche τ von Interesse, bei denen {τ = ∞} eine Nullmenge ist. 3. Gibt es auch noch einen an (Ft ) adaptierten Prozess (Xt ), so wird der gestoppte Prozess (Xtτ )t so definiert: Xtτ (ω) ist gleich Xt (ω) für t ≤ τ (t) und gleich Xτ (ω) (ω) sonst. Ohne Zusatzbedingungen kann dann nicht gezeigt werden, dass die Xtτ wirklich Zufallsvariable sind. Hinreichend ist zum Beispiel, dass T = {tk | k ∈ N} abzählbar ist. Dann ist nämlich {Xtτ ≤ a} schreibbar als [ {τ = tk } ∩ {Xtk ≤ a} ∪ {t ≤ τ } ∪ {Xt ≤ a} . tk <t Ganz analog führt man die durch Stoppen gemäß τ entstehende Zufallsvariable X τ ein. Es ist X τ (ω) := Xτ (ω) (ω), falls τ (ω) < ∞. Auf {τ = ∞} ist X τ nicht definiert. Das macht aber nichts, wenn das – wie in den meisten Fällen – nur eine Nullmenge ist. Wieder muss man durch Zusatzbedingungen sicherstellen, dass die so definierte Abbildung messbar ist. 8 KAPITEL 1. VORBEREITUNGEN 1.4 Bedingte Erwartungen In der modernen Wahrscheinlichkeitstheorie wird – wie schon im vorigen Abschnitt gesagt – Information“ über einen Wahrscheinlichkeitsraum (Ω, E, P) als ” Unter-σ-Algebra von E“ interpretiert. ” Sei nun E0 eine Teil-σ-Algebra von E und Y : Ω → R eine integrierbare Zufallsvariable. Die bedingte Erwartung von Y |E0 für E0 ∈ E0 ist doch R Y dP/P(E ), und das soll übersichtlich – gleichzeitig für alle E0 – codiert 0 E0 werden. 1.4.1 Definition Eine Funktion φ heißt bedingte Erwartung von Y unter der Voraussetzung E0 , wenn gilt: • φ ist E0 -messbar. • Für alle E0 ∈ E0 ist R E0 Y dP = R E0 φ dP. Fundamental wichtig ist dann der 1.4.2 Satz Zu Y existiert eine bedingte Erwartung, und diese Funktion ist – bis auf mögliche Abänderung auf einer E0 -Nullmenge – eindeutig bestimmt. Wir bezeichnen sie mit E(Y | E0 ). Beweis: R Das folgt schnell aus dem Satz von Radon-Nikodym den wir auf ν : E0 7→ E0 Y dP anwenden. Man mache sich klar, wie E(Y | E0 ) in Spezialfällen aussieht, insbesondere, wenn E0 von endlich vielen Atomen erzeugt wird. Varianten: 1. Falls E0 durch eine oder mehrere Zufallsvariable erzeugt ist, schreiben wir E(Y | X) oder E(Y | Y) oder E(Y | Y1 , . . . , Yn ). 2. Ist A ein Ereignis, so setzen wir P(A | E0 ) := E(χA | E0 ): das ist die natürliche Verallgemeinerung der bedingten Erwartung. Aus dem Satz ergibt sich noch eine wichtige Beweisstrategie: Wenn man zeigen soll, dass eine vorgelegte Funktion ψ (fast sicher) gleich E(Y | E0 ) ist, so reicht es, zwei Tatsachen nachzuprüfen: 1. ψ ist E0 -messbar. 2. Für alle E0 ∈ E0 ist R E0 ψ dP = R E0 Y dP. Nach dem Satz muss dann ψ = E(Y | E0 ) sein. Es ist mit dieser Strategie fast trivial zu zeigen, dass Y 7→ E(Y | E0 ) eine lineare Abbildung ist. Es gibt noch andere wichtige Eigenschaften: 1.4.3 Satz (i) Ist X E0 -messbar, so ist E(XY | E0 ) = XE(Y | E0 ). 1.4. BEDINGTE ERWARTUNGEN 9 (ii) Es gelte E1 ⊂ E2 . Dann ist E E(Y | E2 ) | E1 = E(Y | E1 ). (iii) Ist Y unabhängig von E0 3 , so ist E(Y | E0 ) = E(Y ). (iv) Es sei D0 ein schnittstabiles Mengensystem mit Ω ∈ D, so dass E0 die von σ-Algebra ist. Ist dann φ eine E0 -messbare Funktion und gilt R D0 erzeugte R φ dP = Y dP für alle D0 ∈ D0 , so ist φ = E(Y | E0 ). D0 D0 Beweis: (i) Es ist zu zeigen, dass XE(Y | E0 ) E0 -messbar ist und der Integralbedingung genügt. Der erste Teil ist klar, da Produkte messbarer Funktionen messbar sind. P Für den zweiten Teil approximiere X durch eine Treppenfunktion i ai χAi mit ai ∈ R und disjunkten Ai bis auf ε. Dann ist für E0 ∈ E0 Z Z X XY dP ≈ ( ai χAi )Y dP E0 E0 = X i Z ai χAi Y dPi E0 i = X Z ai Y dP Ai ∩E0 i = X Z E(Y | E0 ) dP ai Ai ∩E0 i = X Z χAi E(Y | E0 ) dP ai E0 i Z = E0 X ( ai χAi )E(Y | E0 ) dP i Z ≈ XE(Y | E0 ) dP. E0 (Hier war wichtig, dass Ai ∩E0 ∈ E0 .) Für ε → 0 wird die Approximation immer besser, und das zeigt Z Z XY dP = XE(Y | E0 ) dP. E0 E0 (ii) E(Y | E1 ) ist sicher E1 -messbar. Sei noch E1 ∈ E1 , wir müssen zeigen, dass Z Z E(Y | E2 ) dP = E(Y | E1 ) dP. E1 E1 R Das ist aber klar, denn beide Integrale stimmen mit E1 Y dP überein. (Hier wird bei der Auswertung des linken Inttegrals ausgenutzt, dass E1 ∈ E2 ) 3Y ist also von allen χE0 mit E0 ∈ E0 unabhängig. 10 KAPITEL 1. VORBEREITUNGEN (iii) Zunächst erinnern wir daran, dass E(W Z) = E(W )E(Z) für unabhängige Zufallsvariable W, Z. Nun zum Beweis. Die konstante Funktion E(Y ) ist sicher E0 -messbar. Sie genügt auch der Integralbedingung: Z E(Y ) dP = E(χE0 )E(Y ) E0 = E(χE0 Y ) Z = χE0 Y dP ZΩ = Y dP. E0 (iv) Das System D aller D ∈ E0 mit Z Z φ dP = Y dP D D ist offensichtlich ein Dynkinsystem. Es enthält D0 und muss deswegen nach 1.2.2 mit E0 übereinstimmen. Kapitel 2 Markovprozesse I In diesem Abschnitt werden Markovprozesse eingeführt und charakterisiert. 2.1 Was ist ein Markovprozess? 2.1.1 Definition (Xt ) heißt ein Markovprozess (genauer: Markovprozess in Bezug auf (Ft )), wenn gilt: Ist t < t0 und B eine Borelmenge in R, so ist P(Xt0 ∈ B | Ft ) = P(Xt0 ∈ B | Xt ). Dabei ist für Ereignisse E die bedingte Wahrscheinlichkeit P(E | Ft ) als die Funktion E(χE ) | Ft ) erklärt. Anders ausgedrückt: Um Prognosen über Xt0 abzugeben, ist die Information Ft (also insbesondere die Vorgeschichte des Prozesses bis t) genauso gut wie die in Xt enthaltene Information. Bemerkungen: 1. Ist (Ft ) die natürliche Filtration, so ist dazu äquivalent: Für tn < tn−1 · · · t1 < t < t0 ist P(Xt0 ∈ B | Xtn , . . . , Xt1 , Xt ) = P(Xt0 ∈ B | Xt ). Dazu ist nur zu beachten, dass [ σ(Xt1 , . . . , Xtn , Xt ) n∈N,tn <tn−1 ···t1 <t ein schnittstabiler Erzeuger von σ({Xs | s ≤ t}) ist. Das Ergebnis folgt dann aus Satz 1.4.3(iv). 2. Äquivalent ist auch: Für jede integrierbare Xt0 -messbare Funktion g, also für jede Funktion der Form h(Xt0 ), gilt E(g | Ft ) = E(g | Xt ). 11 12 KAPITEL 2. MARKOVPROZESSE I Das liegt daran, dass messbare Funktionen durch Linearkombinationen von charakteristischen Funktionen zu Mengen des Typs {Xt0 ∈ B} approximiert werden können. Es gilt sogar viel mehr. Nicht nur für die Prognose von Xt0 , sondern für die Prognose der ganzen t-Zukunft ist bei Markovprozessen die Xt -Information gleichwertig zur Ft -Information. Genauer: 2.1.2 Satz Es sei (Xt ) ein Markovprozess. (i) Ist t < t1 < · · · < tn und sind B1 , . . . , Bn Borelmengen, so gilt P Xt1 ∈ B1 , . . . , Xtn ∈ Bn | Ft = P Xt1 ∈ B1 , . . . , Xtn ∈ Bn | Xt . (ii) Es sei A ein Ereignis der t-Zukunft, also ein Element von σ{Xs | s ≥ t} (diese σ-Algebra werden wir mit Zt bezeichnen). Dann gilt P A | Ft = P A | Xt . Beweis: (i) Wir beginnen mit drei Vorbemerkungen: • Ist X eine Zufallsvariable und ist eine weitere Zufallsvariable Y σ(X)messbar, so gibt es eine Borelfunktion g mit Y = g ◦ X. (Umgekehrt stimmt das natürlich auch.) • χ{X∈B} = χB ◦ X (klar). • Es seien E1 ⊂ E2 σ-Algebren und Y eine Zufallsvariable. Ist dann E(Y | E2 ) E1 -messbar, so ist E(Y | E2 ) = E(Y | E1 ) (klar). Seien nun die ti , Bi vorgegeben. P(Xt1 ∈ B1 , . . . , Xtn ∈ Bn | Ft ) = E((χB1 ◦ Xt1 ) · · · (χBn ◦ Xtn ) | Ft ) = E E(χB1 ◦ Xt1 · · · χBn ◦ Xtn | Ftn−1 ) | Ft Das gilt nach Satz 1.4.3.(ii). Die Ftn−1 -messbaren Funktionen können nach vorn gezogen werden: = E (χB1 ◦ Xt1 ) · · · (χBn−1 ◦ Xtn−1 ))E(χBn ◦ Xtn | Ftn−1 ) | Ft , und die innen stehende bedingte Erwartung ist wegen der Markov-Eigenschaft gleich E(χBn ◦ Xtn | Xtn−1 ) , kann also als g(Xtn−1 ) geschrieben werden: = E (χB1 ◦ Xt1 ) · · · (χBn−1 ◦ Xtn−1 )g(Xtn−1 ) | Ft . Ganz ähnlich (auf Ftn−2 bedingen, Markoveigenschaft ausnutzen, als h(Xtn−2 ) schreiben) wird der Ausdruck zu E (χB1 ◦ Xt1 ) · · · (χBn−2 ◦ Xtn−2 )h(Xtn−2 ) | Ft , 2.1. WAS IST EIN MARKOVPROZESS? 13 und nach endlich vielen Schritten landen wir bei = E g̃(Xt1 ) | Ft für eine geeignete Borelfunktion g̃. Wegen der Markoveigenschaft ist das gleich = E g̃(Xt1 ) | Xt , die Ausgangsfunktion ist also Xt -messbar und stimmt deswegen nach Vorbemerkung mit P(Xt1 ∈ B1 , . . . , Xtn ∈ Bn | Xt ) überein. (ii) Das ist relativ einfach. Sei nämlich D das System der A aus der Zukunftsσ-Algebra Zt , für die die Behauptung stimmt. Das ist ein Dynkin-System, das nach (i) den ∩-stabilen Erzeuger {Xt1 ∈ B1 , . . . , Xtn ∈ Bn }, t ≤ t1 < · · · < tn , Bi Borel von Zt enthält. Damit ist D = Zt wie behauptet (vgl. 1.2.2). Hier noch eine hinreichende Bedingung: 2.1.3 Satz Es sei (Xt )t≥0 ein reellwertiger stochastischer Prozess. Für 0 ≤ t < t0 sei Xt0 − Xt von Ft := σ{Xs | s ≤ t} unabhängig1 . Dann ist (Xt ) ein Markovprozess zu (Ft )t≥0 . Beweis: Es ist zu zeigen, dass P(Xt0 ∈ C | Ft ) = P(Xt0 ∈ C | Xt ) für 0 ≤ t < t0 und Borelmengen C ⊂ R. Es sei 0 ≤ t < t0 . Als Vorbereitung betrachten wir Borelmengen A und B in R. Dann ist, mit S := Xt0 − Xt , P(S ∈ A, Xt ∈ B | Ft ) = = = = = E(χS∈A,Xt ∈B | Ft ) E(χS∈A χXt ∈B | Ft ) χXt ∈B E(χS∈A | Ft ) χXt ∈B E(χS∈A ) χXt ∈B P(S ∈ A). Dabei haben Satz 1.4.3 ausgenutzt (Xt ist Ft -messbar, und χS∈A ist von Ft unabhängig). Ganz genauso zeigt man, dass auch die Gleichung P(S ∈ A, Xt ∈ B | Xt ) = χXt ∈B P(S ∈ A) gilt. Die Gleichheit von P((S, Xt ) ∈ ∆ | Ft ) und P((S, Xt ) ∈ ∆ | Xt ) gilt also für alle Mengen ∆ der Form A × B. Die Gesamtheit aller dieser ∆ ist ein 1 Man spricht von unabhängigen Zuwächsen. 14 KAPITEL 2. MARKOVPROZESSE I Dynkinsystem, und die A × B bilden einen durchschnittsstabilen Erzeuger der Borelmengen des R 2 : So folgt, dass P((S, Xt ) ∈ ∆ | Ft ) = P((S, Xt ) ∈ ∆ | Xt ) für alle Borelmengen ∆ ⊂ R 2 gilt. Nun sei C eine Borelmenge in R. Wir setzen ∆C := {(x, y) | x + y ∈ C}. Dann ist P(Xt0 ∈ C | Ft ) = = = = P(Xt + S ∈ C | Ft ) P((Xt , S) ∈ ∆C | Ft ) P((Xt , S) ∈ ∆C | Xt ) P(Xt0 ∈ C | Xt ). Damit ist der Satz vollständig bewiesen. 2.2 Ein Charakterisierungssatz Ein Prozess ist genau dann ein Markovprozess, wenn Zukunft und Vergangen” heit unter der Bedingung der Gegenwart unabhängig voneinander sind“. Genauer: 2.2.1 Theorem: Es sei (Xt )t∈T ) ein stochastischer Prozess, der zu einer Filtration (Ft ) adaptiert ist. Dann gilt: (Xt ) ist genau dann ein Markovprozess (in Bezug auf (Ft )), wenn für alle alle t ∈ T , alle A ∈ Ft und alle B ∈ Zt (das ist die σ-Algebra σ{Xs | s ≥ t}) gilt: P(A ∩ B | Xt ) = P(A | Xt )P(B | Xt ). Beweis: (Hier folgen wir dem Aufbau aus dem Buch von Ash: “Probability”.) Sei zunächst (Xt ) ein Markovprozess, A ∈ Ft und B ∈ Zt . Dann schließen wir so (Begründungen finden sich unten): P(A | Xt )P(B | Xt ) = E(χA | Xt )E(χB | Xt ) = E χA E(χB | Xt ) | Xt = E χA E(χB | Ft ) | Xt = E E(χA χB | Ft ) | Xt = E(χA χB | Xt ) = P(A ∩ B | Xt ). Wir haben ausgenutzt: • Messbare Funktionen können in die bedingte Erwartung hineingezogen werden (Satz 1.4.2). 2.2. EIN CHARAKTERISIERUNGSSATZ 15 • Die Markov-Eigenschaft. • Das Bilden der bedingten Erwartung in zwei Stufen kann zu einem Schritt zusammengezogen werden (Satz 1.4.3). Nun sei umgekehrt die relative Unabhängigkeitsbedingung des Theorems vorausgesetzt. Wir müssen die Markoveigenschaft zeigen, in Wirklichkeit beweisen wir ein bisschen mehr (vgl. Satz 2.1.2(ii)). Wir zeigen nämlich sogar: Für A ∈ Zt ist P(A | Ft ) = P(A | Xt ). Dazu ist zu beweisen, dass für B ∈ Ft die Gleichung Z Z P(A ∩ B) = χA dP = P(A | Xt ) dP B B gilt. Das kann mit den eben verwendeten Schlussweisen so gezeigt werden (im dritten Schritt wird die Voraussetzung ausgenutzt): Z P(A ∩ B) = χA∩B dP Ω Z = P(A ∩ B | Xt ) dP ZΩ = P(A | Xt )P(B | Xt ) dP ZΩ = E(χA | Xt )E(χB | Xt ) dP Ω Z = E χB E(χA | Xt ) | Xt dP ZΩ = χB E(χA | Xt ) dP ZΩ = E(χA | Xt ) dP B Z = P(A | Xt ) dP B Falls (Ft ) die natürliche Filtration ist, so hat das Theorem noch eine überraschende Konsequenz : Zukunft und Vergangenheit sind völlig symmetrisch! Falls zum Beispiel T das Intervall [ 0, t0 ] ist, so ist der rückwärts durchlaufene Prozess (also (Xt0 −t )t∈T ) ebenfalls ein Markovprozess. 16 KAPITEL 2. MARKOVPROZESSE I Kapitel 3 Markovketten Die Struktur von Markovprozessen kann recht kompliziert sein. Am weitesten kann die Theorie entwickelt werden, wenn nur diskrete Zeitpunkte betrachtet werden und die Werte des Prozesses in einer endlichen (oder abzählbaren) Menge liegen. Man spricht dann von Markovketten, die wichtigsten Definitionen und einige grundlegende Ergebnisse findet man in den Abschnitten 3.1 und 3.21 . Die Theorie wird im Fall diskret-wertiger Zufallsvariablen wesentlich schwieriger, wenn man von diskreter zu kontinuierlicher Zeit übergeht. In Abschnitt 3.3 soll kurz skizziert werden, welchen Zusammenhang es zu Halbgruppen gibt und wie man das globale Verhalten durch einen infinitesimalen Erzeuger beschreiben kann. 3.1 Die wichtigsten Definitionen Markovketten: Definition und Beispiele Sei S eine endliche oder abzählbare Menge, die Elemente werden wir Zustände nennen. Es wird bequem sein, sich S als {1, . . . , s} (falls die Anzahl der Elemente von S gleich s ist) oder als N vorzustellen. Zufallsspaziergänge sind Markovprozesse. Man kann auf recht naive Weise einen Zufallsspaziergang definieren: • Starte irgendwo auf S. Genauer: Es ist ein Wahrscheinlichkeitsmaß auf S vorgegeben, und die Startposition wird entsprechend dieses Maßes ausgesucht. Beachte, P dass man dazu nur (pi )i∈S angeben muss, für die pi ∈ [ 0, 1 ] (alle i) und i pi = 1 gilt. • Die jeweils nächste Position wird wie folgt gefunden. Befindet man sich zum Zeitpunkt n in i ∈ S, so wähle die Position bei n + 1 gemäß den 1 Hier gibt es nur eine Kurzfassung, sie soll die Untersuchungen des nächsten Kapitels vorbereiten. Alles steht ausführlicher in meinem Buch über Markovketten “Introduction to Markov Chains”, wir kürzen es hier mit ItMC ab. 17 18 KAPITEL 3. MARKOVKETTEN (n) (n) vorgegebenen Wahrscheinlichkeiten (pij )j∈S . (Es ist also pij ≥ 0 für alle P (n) j, und es gilt j pij = 1.) Kurz: Durch die Vorgabe eines stochastischen Vektors (pi )i∈S und von stocha(n) stischen Matrizen P (n) = (pij )i,j∈S wird auf naive Weise ein Zufallsspaziergang definiert. Das kann man auch mathematisch etwas präziser einführen: • Man verschaffe sich Zufallsvariable X0 , Yi,n , i ∈ S, n = 1, 2, . . . auf einem geeigneten Wahrscheinlichkeitsraum (Ω, E, P). Sie sollen unabhängig sein und es soll gelten: (n) P(X0 = i) = pi ; P(Yi,n = j) = pij für alle i, j, n. • X0 ist schon definiert, und die X1 , X2 , . . . entstehen induktiv. Angenommen, Xn ist schon konstruiert. Dann wird Xn+1 dadurch erklärt, dass diese Zufallsvariable auf Xn = i gleich Yi,n+1 ist. Aufgrund der Konstruktion ist offensichtlich, dass der jeweils nächste Schritt nur von der gegenwärtigen Position abhängt, und deswegen liegt ein Markovprozess vor. Umgekehrt geht das auch, jeder Markovprozess mit Werten in S in diskreter Zeit entsteht auf diese Weise. Sei (Xn )n∈N 0 so ein Prozess. Wir definieren pi := (n) P(X0 = i) und pij := P(Xn+1 = j | Xn = i). Dann ist (Xn ) gleichwertig zu (n) demjenigen Prozess, der naiv durch die (pi )i∈S und die (pij )i,j∈S definiert ist. Hier sind einige technische Feinheiten weggelassen worden. Es kann zum Beispiel vorkommen, dass ein Zustand i nie erreicht wird. Dann sind die pi,j gar nicht definiert (ihre Definition spielt allerdings auch keine Rolle). In vielen Fällen ist es so, dass die P (n) nicht von n abhängen: Alle P (n) sind gleich einer stochastischen s × s-Matrix P . Man spricht dann von einer homogenen Markovkette, und auf solche Situationen werden wir uns beschränken2 . Der ganze Prozess ist also durch einen s-dimensionalen stochastischen Vektor und eine stochastische s × s-Matrix erklärt. Um ein Gefühl für die Situation zu bekommen, ist es wichtig, dass man trainiert, die folgenden beiden Übersetzungen umzusetzen: 2 Im Fall S = N sind unendliche stochastische Matrizen zu betrachten. Da alle auftretenden 0 Reihen absolut konvergent sind, gibt es bei den algebraischen Manipulationen keine Schwierigkeiten. Diese Bemerkung gilt auch im Folgenden: Wenn nicht ausdrücklich das Gegenteil betont wird, ist auch der Fall S = N 0 zugelassen. 3.1. DIE WICHTIGSTEN DEFINITIONEN 19 (n) • Gegeben seien die (pi )i∈S und die (pij )i,j∈S . Wie kann man sich dann den typischen“ Zufallsspaziergang vorstellen? ” • Man beobachte sehr häufig“ einen Markovprozess. Welche Rückschlüsse ” (n) auf die (pi )i∈S und die (pij )i,j∈S lässt das zu? Es folgen einige typische Beispiele: 0. Auch die Einheitsmatrix ist stochastisch. Der zugehörige Zufallsspaziergang“ ” ist nicht wirklich spannend. 1. Der gleichverteilte Zufallsspaziergang auf {1, . . . , s}. Da sind alle Einträge der Matrix gleich 1/s. 2. Der reflektierende Zufallsspaziergang auf {1, . . . , s}. Hier ist 0 1 0 ··· 0 0 0 a2 b2 c2 · · · 0 0 0 0 a3 b3 · · · 0 0 0 P = . .. .. .. .. .. , .. . . . . . 0 0 0 · · · as−1 bs−1 cs−1 0 0 0 ··· 0 1 0 wobei ai , bi , ci ≥ 0 für i = 2, . . . , s−1 und ai + bi + ci = 1. 2. Der absorbierende Zufallsspaziergang auf {1, . . . , s}. Mit ai , bi , ci wie eben ist diesmal 1 0 0 ··· 0 0 0 a2 b2 c2 · · · 0 0 0 0 a3 b3 · · · 0 0 0 P = . . . . . .. .. .. .. .. .. . 0 0 0 · · · as−1 bs−1 cs−1 0 0 0 ··· 0 0 1 . 4. Der zyklische Zufallsspaziergang auf {1, . . . , s}. Diesmal sind die ai , bi , ci für alle i gegeben, und P wird so erklärt: b1 c1 0 · · · 0 0 a1 a2 b2 c2 · · · 0 0 0 0 a3 b3 · · · 0 0 0 P = . .. .. .. .. .. . .. . . . . . 0 0 0 · · · as−1 bs−1 cs−1 cs 0 0 · · · 0 as bs 5. Sei G ein endlicher Graph, jede Ecke soll mit mindestens einer anderen verbunden sein. Starte dann an einer Ecke, die gemäß einer Wahrscheinlichkeitsverteilung (pi )i∈G ausgewählt wird. Wähle im jeweils nächsten Schritt unter 20 KAPITEL 3. MARKOVKETTEN denjenigen Ecken gleichverteilt eine aus, die von der aktuellen Position aus erreichbar sind. 6. Allgemeiner können Markovketten durch gerichtete und gewichtete Graphen veranschaulicht werden. Nachstehend sehen wir einen absorbierenden und einen zyklischen Zufallsspaziergang: u YH H H * HHHH j u H u 1/2 1/2 1/2 u u u u u - u 6 6 1/2 1/2 1/2 1/2 1/2 1 1 6 6 ? ? u u Y H H HH * HH H j u H alle eingezeichneten pij = 1/2 6. Auf S = N0 starte in 0. Dann geht es mit Wahrscheinlichkeit p um einen Schritt nach rechts, mit Wahrscheinlichkeit 1−p wird die Position nicht verändert. 7. Der klassische Zufallsspaziergang betrifft S = Z. Mit gleicher Wahrscheinlichkeit geht es um einen Schritt nach rechts oder links. In naheliegender Weise kann das auf Z d ausgedehnt werden. Analog dazu haben die Beispiele 1 bis 4 d-dimensionale Varianten. 8. Fasst man die Töne einer (vollständigen oder pentatonischen) Tonleiter als Zustände auf, so kann man die Zufallsspaziergänge auch durch Kompositionen“ ” hörbar machen. Grundlegende Definitionen Wie in allen mathematischen Theorien stellt sich nach und nach heraus, welche Begriffe fundamental sind. Bei den Markovketten sind es die folgenden: Beschreibung mit linearer Algebra Was beim Start passiert, ist klar: Die verschiedenen Zustände i werden mit Wahrscheinlichkeit pi eingenommen. Was ist nach einem Schritt passiert, wie groß sind die P(X1 = i)? Nach dem Satz von der totalen Wahrscheinlichkeit ist das gleich X X P(X1 = i | X0 = j)P(X0 = j) = pji pj . j j > Man muss also nur den Zeilenvektor (p1 , . . . , ps ) von rechts (!) mit P multiplizieren3 , die Komponenten sind dann die P(X1 = i). (Das geht im Fall abzählbarer S übrigens genau so.) 3 Der Vektor steht also links. Das ist gewöhnungsbedürftig, denn meist werden Vektoren als Spaltenvektoren von rechts an eine Matrix multipliziert. 3.1. DIE WICHTIGSTEN DEFINITIONEN 21 Die gleiche Idee kann man auch mehrfach anwenden: Die Wahrscheinlichkeiten P(Xn = i) sind gerade die Einträge des Zeilenvektors (p1 , . . . , ps )> P n . Auf diese Weise kommt die lineare Algebra ins Spiel Invariante Teilmengen Welche Bereiche in S kann der Prozess erreichen? Eine nichtleere Teilmenge C von S heißt invariant, wenn gilt: einmal in C, immer in C. Formal wird das so definiert: Für i ∈ C und j ∈ / C soll stets pij = 0 gelten. In den Beispielen sind die invarianten Teilmengen leicht zu identifizieren. Der Prozess heißt irreduzibel , wenn es außer S keine invarianten Teilmengen gibt. Einige einfache Eigenschaften sind leicht zu verifizieren: Vereinigungen und nichtleere Durchschnitte sind wieder invariant; im Fall endlicher S gibt es minimale invariante Teilmengen4 ; verschiedene minimale invariante Mengen sind disjunkt usw. Angenommen, C ist invariant in S = {1, . . . , s}. Ohne Einschränkung ist C die Menge {1, . . . , s0 }, und P hat dann die Form ∗ ··· ∗ 0 ··· 0 .. .. .. .. . . . . ∗ ··· ∗ 0 ··· 0 ∗ ··· ∗ ∗ ··· ∗ . . .. .. .. .. . . . ∗ ··· Allgemeiner, wenn C1 , . . . , Cr die P wie folgt geschrieben werden: P1 0 0 P2 .. .. . . 0 0 ∗ ∗ ∗ ∗ ··· ∗ minimalen invarianten Teilmengen sind, kann 0 ··· 0 ··· .. . 0 0 .. . 0 ··· ∗ ··· 0 Pr ∗ ∗ 0 0 .. . 0 0 .. . ; 0 ∗ (3.1) dabei sind die Pρ die stochastische Matrizen, die zu den Einschränkungen des Prozesses auf Pρ gehören, und “0” bezeichnet hier eine Matrix, für die alle Einträge Null sind. (Beachte: Im endlichen Fall gibt es immer gewisse C, die ∗-Matrizen können aber evtl. fehlen. Erreichbarkeit Für i, j ∈ S schreiben wir i → j, falls ein Weg von i nach j möglich ist, wenn also für ein geeignetes n ≥ 0 der (i, j)-Eintrag in P n strikt positiv ist. (Da n = 0 zugelassen ist, gilt stets i → i.) Falls i → j und j → i gilt, sagen wir, dass i und j kommunizieren und schreiben dafür i ↔ j“. ” 4 Für unendliche S stimmt das nicht: Im obigen Beispiel 6 sind alle Mengen {k, k + 1, . . .} invariant, es gibt aber keine kleinste. 22 KAPITEL 3. MARKOVKETTEN Es folgt das erste nicht ganz triviale Ergebnis: Satz 3.1.1 (i) “↔” ist eine Äquivalenzrelation. (ii) Ist C ⊂ S minimal und invariant, so kommunizieren je zwei Zustände in C. (iii) Die Kette ist genau dann irreduzibel, wenn je zwei Zustände kommunizieren. Beweis: (i) ist klar, für den Beweis von (ii) braucht man schon einen kleinen Trick. Es ist doch zu zeigen, dass i → j für beliebige i, j ∈ C. Sei j ∈ C. Definiere C 0 als die Menge der i ∈ C, die niemals nach j kommen. Man zeigt leicht, dass C 0 invariant ist. Es ist eine echte Teilmenge von C (denn j ∈ / C 0 ), also die leere Menge. Der Rest ist klar. Die Periode eines Zustands Hier soll präzisiert werden, was es heißt, dass ein Zustand nur zu gewissen ” Zeiten“ erreichbar ist. Als Beispiel betrachten wir einen zyklischen Zufallsspaziergang auf {1, . . . , 12}, der immer deterministisch um zwei Schritte weitergeht. Wenn man dann irgendwo startet, so wird der gleiche Zustand nach 6, 12, . . . Schritten wieder eingenomen. Die präzise Definition ist recht schwerfällig. Sei i ∈ S, wir nehmen an, dass es ein k > 0 gibt, so dass der (i, i)-Eintrag von P k strikt positiv ist: Es ist also möglich, nach k Schritten von i nach i zu kommen. Wir betrachten die Menge ∆i aller k mit dieser Eigenschaft, nach Voraussetzung ist das eine nichtleere Teilmenge von N. Die Periode von i ist dann der größte gemeinsame Teiler von ∆i also das Maximum derjenigen Zahlen, die alle k ∈ ∆ teilen. Die Kette heißt aperiodisch, wenn ihre Periode gleich 1 ist. Beliebige Perioden p für Zustände i sind möglich. Beachte, dass das nicht bedeutet, dass man von i nach i in l · p Schritten für jedes l kommt. Recht leicht ist zu sehen, dass i und j die gleiche Periode haben, wenn i ↔ j gilt. Insbesondere haben alle Zustände in einer minimalen invarianten Teilmenge die gleiche Periode. Beweisidee: Es seien d bzw. d0 die Periode von i bzw. j, und wir kommen in k Schritten von i nach j und in k0 Schritten von j nach i. Dann ist offensichtlich k + k0 ∈ ∆i sowie k + k0 + l ∈ ∆i für jedes l ∈ ∆j . Also teilt d die Zahl k + k0 und alle k + k0 + l. d teilt also alle l ∈ ∆j , und so folgt d|d0 . Aus Symmetriegründen gilt auch d0 |d, und das zeigt d = d0 . Rekurrenz und Transienz (k) Wir wollen den Begriff i → j etwas quantifizieren. Sei fij die Wahrscheinlichkeit, erstmals in genau k Schritten von i nach j zu kommen (k = 1, 2, . . .). P∞ (k) ∗ Wir setzen fij := k=1 fij . Wenn diese Zahl positiv ist, gilt also i → j, und für i 6= j gilt auch die Umkehrung. Wir sagen, dass i rekurrent ist, wenn fii∗ = 1 gilt. Andernfalls heißt i transient. Ist S endlich, so sind alle i in minimalen invarianten Teilmengen rekurrent. Umgekehrt gilt das in endlichen Ketten auch: Liegt i in keiner minimalen invarianten Teilmenge, so ist i transient5 . 5 Beweis in ItMC. 3.1. DIE WICHTIGSTEN DEFINITIONEN 23 Wir kommen nun zum Phänomen der Gedächtnislosigkeit. Zur Illustration betrachten wir zunächst eine Kette, die zwischen den Zuständen 0 und 1 hin und her springt. Die stochastische Matrix ist also 0 1 . 1 0 Auch nach 1000 Schritten lässt sich noch sagen, ob die Kette in 0 oder 1 gestartet wurde. Meistens ist es jedoch anders. Betrachten wir etwa 0 1 0 0 1/3 1/3 1/3 0 P = 0 1/3 1/3 1/3 . 0 0 1 0 Das ist eine Variante eines reflektierenden Zufallsspaziergangs: Der Spaziergänger legt mit einer gewissen Wahrscheinlichkeit eine Pause ein. Hier sind einige Potenzen von P : 3 3 3 0 1 1 5 2 1 , P2 = 9 1 2 5 1 0 3 3 3 15 30 30 6 1 10 35 26 10 , P4 = 10 26 35 10 81 6 30 30 15 861 2460 2460 780 1 820 2501 2420 820 . P8 = 6561 820 2420 2501 820 780 2460 2460 861 Schon bei P 8 sind die Zeilen fast gleich“, und das bedeutet, dass es (fast) völlig ” egal ist, auf welchem Zustand gestartet wurde: Die Wahrscheinlichkeiten für die Position nach 8 Schritten sind fast identisch. Man spricht vom Phänomen der Gedächtnislosigkeit. Es folgt einer der Hauptsätze der Theorie: Satz 3.1.2 S sei endlich, und die Kette sei aperiodisch und irreduzibel6 . (i) Die Matrizen P k konvergieren gegen eine stochastische Matrix W , in der alle Zeilen identisch sind: Sie stimmen mit π > überein, wobei π ein stochastischer Vektor ist. (ii) π ist der eindeutig bestimmte stochastische Vektor, für den π > P = π > gilt. π > ist also linker Eigenvektor zum Eigenwert Eins. Beweis: Der Beweis ist schwierig, er macht wesentlich von einem grundlegenden Ergebnis der Erneuerungstheorie Gebrauch. 6 Man sagt dann auch, dass sie ergodisch ist. 24 KAPITEL 3. MARKOVKETTEN Seien (p0 , p1 , . . .) und (f0 , f1 , . . .) nichtnegative Zahlen. Es sei p0 = 1 und f0 = 0, und es gelten die folgenden Gleichungen: pk = fk + p1 fk−1 + · · · + pk−1 f1 , k = 1, 2, . . . . Weiter sei f1 + f2 + · · · = 1, und der größtePgemeinsame Teiler der k mit fk > 0 sei gleich Eins. Dann sind die pk gegen 1/ kfk konvergent7 . (Einzelheiten in Kapitel 7 von ItMC.) Bemerkung: Das π = (πi ) aus dem Satz heißt die Gleichgewichtsverteilung der Kette. Sie hat die folgende Interpretation: Wird die Kette so gestartet, dass die einzelnen Zustände mit Wahrscheinlichkeit πi ausgewählt werden, so ist die Verteilung nach k Schritten (k beliebig) genau die gleiche. Das liegt an dem weiter oben erläuterten Zusammenhang zur linearen Algebra und der Tatsache π> P k = π> . 3.2 Die Struktur von endlichen Markovketten Mit den vorstehenden Begriffen lässt sich die Struktur beliebiger endlicher Markovketten analysieren. Gegeben seien also S = {1, . . . , s} und eine stochastische s × s-Matrix P . • Schreibe S als disjunkte Vereinigung C1 ∪ · · · ∪ Cr ∪ T , wobei die Cρ die minimalen invarianten Mengen sind. T (die Menge der transienten Zustände) kann dabei die leere Menge sein. • Die i ∈ T landen mit Wahrscheinlichkeit Eins in irgendeinem Cρ , dort bleiben sie dann auch. Zu den ρ gehören Absorptionswahrscheinlichkeiten pi,ρ , die sich mit Hilfe linearer Algebra bestimmen lassen. (Vgl. Kapitel 5 in ItMC.) • Fixiere nun ein Cρ und betrachte die Einschränkung von P auf Cρ : Das ist die Matrix Pρ := (pij )i,j∈Cρ . Alle i ∈ Cρ haben die gleiche Periode l unter Pρ . Wir betrachten nun die Kette mit Zustandsraum Cρ und stochastischer Matrix Pρl . Jetzt haben alle Zustände Periode Eins. Cρ zerfällt in (bzgl. Pρl ) minimale invariante Teilmengen, darauf ist Pρl dann ergodisch Kurz: Wenn man transiente Zustände und ergodische Ketten beherrscht, kann man die Struktur beliebiger Markovketten vollständig beschreiben. 3.3 Homogene Markovketten in kontinuierlicher Zeit In diesem Abschnitt soll beschrieben werden, welche neuen Phänomene sich ergeben, wenn statt t ∈ N 0 als Zeitpunkte“ alle t ∈ R + zugelassen sind. S = ” 7 Hier wird 1/∞:=0 gesetzt. 3.3. HOMOGENE MARKOVKETTEN IN KONTINUIERLICHER ZEIT 25 {1, . . . , s0 } sei wieder ein endlicher Zustandsraum8 . Wir skizzieren hier, wie man homogene Markovketten auf verschiedene Weisen beschreiben kann. Eine naive Vorüberlegung Es gibt eine naheliegende Möglichkeit, von diskreter Zeit zu kontinuierlicher Zeit überzugehen. Dazu seien eine stochastische Matrix P und eine Startverteilung vorgegeben und (Xn )n∈N 0 sei der zugehörige S-wertige Markovprozess. Warum kann man dann nicht einfach konstant ergänzen: Liegt t in [ n, n + 1 [, so soll Xt := Xn sein. Die Kette springt“ also immer an den ganzzahligen ” Zeitpunkten auf den neuen Zustand. Dann ist (Xt )t≥0 offensichtlich ein Markovprozess. Es ist aber die Homogenität verloren gegangen. Im diskreten Fall war das stochastische Verhalten beim Übergang von i nach j zum Zeitpunkt n ∈ N 0 (nach n + 1) bei der vorliegenden Situation von n unabhängig. Für (Xt )t≥0 stimmt das offensichtlich nicht mehr: Die Wahrscheinlichkeiten für den Übergang von i nach j zwischen den Zeitpunkten t und t + s können sehr unterschiedlich sein: Liegen t, t + s im gleichen [ n, n + 1 [, ist alles deterministisch, andernfalls kann es stochastische Sprünge geben. Da wir hier Homogenität erhalten wollen, müssen wir etwas sorgfältiger argumentieren Homogene Markovketten in kontinuierlicher Zeit Wir betrachten einen S-wertigen Markovprozess (Xt )t≥0 . Die Xt sind an eine Filtration (Ft )t≥0 adaptiert, und stets gilt für 0 ≤ s < s0 und j ∈ S: P(Xs0 = j | Fs ) = P(Xs0 = j | Xs ). Nun ist P(Xs0 = j | Xs ) auf den Mengen {Xs = i} konstant, der Wert dort ist P(Xs0 = j | Xs = i). Wenn diese Zahl nur von i, j, s0 − s (und nicht von i, j, s, s0 ) abhängt, sprechen wir von einer homogenen Markovkette in kontinuierlicher Zeit. Um pathologisches Verhalten auszuschließen, soll noch vorausgesetzt werden, dass die Pfade t 7→ Xt (ω) für alle ω von rechts stetig sind. Von Ketten zu Wahrscheinlichkeitsfunktionen Wenn so eine Kette vorliegt, kann man doch für i, j ∈ S und t > 0 definieren: pt (i, j) := P(Xs+t = j | Xs = i); dabei kann s nach Voraussetzung völlig beliebig gewählt werden. Dann gilt der P Satz 3.3.1 (i) j pt (i, j) = 1 für alle t und i. 8 Wir bezeichnen in diesem Unterabschnitt die Anzahl der Elemente von S mit s (statt mit 0 s), da wir den Buchstaben s“ als Zeitparameter verwenden werden. Große Teile der Theorie ” sind übrigens auf abzählbares S übertragbar. Es gibt aber eine Reihe von neuen technischen Schwierigkeiten, z.B., weil dann gewisse Summationsreihenfolgen im Allgemeinen nicht mehr vertauschbar sind. 26 KAPITEL 3. MARKOVKETTEN P (ii) pt+s (i, j) = k pt (i, k)ps (k, j) für alle t, s, i, j (Chapman-Kolmogoroff-Gleichung). (iii) limt→0+ pt (i, i) = 1 für alle i. Beweis: (i) ist nach der Definition klar und (ii) folgt aus dem Satz von der totalen Wahrscheinlichkeit. Zum Beweis von (iii) fixiere ein i. Mit Ωin bezeichnen wir die Menge der ω, für die der bei i startende Pfad t 7→ Xt (ω) auf [ 0, 1/n ] den Wert i hat. Es ist dann nach Voraussetzung Ω die aufsteigende Vereinigung der Ωin , also gilt P(Ωin ) → 1. Beachte noch, dass pt (i, i) ≥ P(Ωin ) für t ≤ 1/n. Markovhalbgruppen Mit den vorstehenden Bezeichnungen ist Pt := (pt (i, j))i,j∈S eine stochastische s0 ×s0 -Matrix für jedes t, und die Chapman-Kolmogoroff-Gleichung besagt, dass Pt+s = Pt Ps für s, t ≥ 0 gilt. Auch gilt P0 = Id, und t 7→ Pt ist stetig bei 0. Man spricht dann von einerMarkov-Halbgruppe. Für das weitere Vorgehen erinnern wir an die elementare Analysis: Ist φ : R + → R eine stetige Funktion mit der Eigenschaft φ(0) = 1 und φ(s + t) = φ(s)φ(t) (alle s, t ≥ 0), so gibt es ein α mit φ(t) = eαt (alle t). Das α kann aus φ durch α = log φ(1) oder durch α = φ0 (0) berechnet werden. Ein analoges Ergebnis gilt für Markovhalbgruppen, und deswegen ist es nicht sehr überraschend, dass die Ableitung von t 7→ Pt bei t = 0 von Interesse ist. Dass die e-Funktion ins Spiel kommt, kann man wie folgt einsehen. Mal angenommen, man weiß schon, dass t 7→ Pt bei 0 differenzierbar mit Ableitung Q ist. Für beliebiges t > 0 und großes“ n ist dann ” t/n so klein, dass Pt/n gut durch Id + (t/n)Q approximiert werden kann, und folglich ist n Pt = Pt/n+···+t/n = Pt/n ≈ (Id + tQ n ) ≈ etQ . n Wir wollen allgemein die Struktur von stetigen Operatorhalbgruppen beschreiben. Für unsere Zwecke reicht es, den folgenden Satz zu beweisen: Satz 3.3.2 t 7→ Tt sei eine Abbildung, die jedem t ≥ 0 eine s0 × s0 -Matrix zuordnet. Es gelte Tt+s = Tt Ts für alle s, t sowie limt→0 Tt = Id = T0 . Dann existiert Tt − Id A := lim t→0 t (die rechtsseitige Ableitung bei Null), und es gilt Tt = eAt für alle t. Beweis: Wegen der Stetigkeit bei Null gibt es ein ε > 0, so dass ||Tt0 || ≤ 2 für t0 ∈ [ 0, ε ] (wir arbeiten mit der Operatornorm für Matrizen). Sei nun t > 0 beliebig. Für t/ε ≤ n ≤ 1 + t/ε ist t/n ≤ ε und folglich ||Tt || ≤ ||Tt/n ||n ≤ 2n ≤ 2(21/ε )t . Die Norm wächst also höchstens exponentiell, die Tt sind insbesondere auf jedem Intervall [ 0, R ] beschränkt. 3.3. HOMOGENE MARKOVKETTEN IN KONTINUIERLICHER ZEIT 27 Ebenfalls schnell ergibt sich die lokal gleichmäßige Stetigkeit. Ist ε > 0 vorgegeben, wähle δ > 0 so, dass ||Id − Tt0 || ≤ ε für t0 ≤ δ. Sind dann s, t vorgelegt mit 0 ≤ s ≤ t ≤ R und t − s ≤ δ, so ist ||Tt − Ts || = ||Ts (Tt−s − Id)|| ≤ ||Ts ||ε ≤ Cε, wenn C eine Normschranke der Ts auf [ 0, R ] ist. Wir kommen nun zur Differenzierbarkeit. Setze Tt x − x existiert}. t→0 t ∆ := {x ∈ R s0 | lim Das ist offensichtlich ein Unterraum des R s0 . Wir behaupten, dass er dicht ist. Dann wäre ∆ = R s0 , die Operatoren (Tt − Id)/t wären damit punktweise und folglich auch bezüglich der Norm gegen eine Matrix A konvergent. Aufgrund der Halbgruppeneigenschaft würde sich allgemeiner Tt0 = ATt ergeben: d Tt+h − Tt Th − Id Tt = lim = lim Tt = ATt . h→0 h→0 dt h h Aus der Theorie der Systeme linearer Differentialgleichungen weiß man, dass dieses System die eindeutig bestimmte Lösung Tt = eAt hat, wenn die Anfangsbedingung T0 = Id erfüllt sein soll. Der Satz wäre damit vollständig bewiesen. s0 Zeige R t also noch, dass ∆ dicht liegt. Sei dazu x ∈ R und t > 0. Definiere xt := 0 Ts x ds/t. Dann gilt • xt ∈ ∆. Für h > 0 ist nämlich 1 (Th xt − xt ) h = = = = Z t Z t 1 Th Ts x ds − Ts x ds ht 0 0 Z t Z t 1 Th+s x ds − Ts x ds ht 0 0 Z t+h Z t 1 Ts x ds − Ts x ds ht h 0 Z t+h Z h 1 Ts x ds − Ts x ds . ht t 0 (Dabei haben wir ausgenutzt, dass lineare stetige Operatoren unter des Integral gezogen werden können.) Wenn nun h gegen Null geht, sind beide Summanden konvergent: Z 1 1 t+h Ts x ds = Tt x, lim h→0 t t t Z 1 h 1 lim Ts x ds = x. h→0 t 0 t Das zeigt xt ∈ ∆. 28 KAPITEL 3. MARKOVKETTEN • Für t → 0 geht xt gegen x. Also liegt ∆ dicht im R n . (Die Theorie der Operatorhalbgruppen auf beliebigen – nicht notwendig endlich dimensionalen – Räumen ist im Buch Funktionalanalysis“ von Dirk Werner ” dargestellt.) Hier noch ein alternativer, etwas direkterer Beweis nach einer ähnlichen Strategie (von D. Werner). • Zeige wie eben, dass limh→0 ist. Rt Ts ds /t. Th Xt − Xt /h existiert und gleich (Tt − Id)/t • Fixiere t > 0 und definiere Xt := 0 • Ist t klein genug, so ist Xt nahe bei Id und deswegen invertierbar. Multipliziere die eben gefundene Gleichung von rechts mit Xt−1 . So folgt lim h→0 Th − Id 1 = (Tt − Id)Xt−1 . h t Das zeigt – diesmal direkt – die Differenzierbarkeit der Halbgruppe bei Null. Der infinitesimale Erzeuger Für unseren Spezialfall bedeutet der vorstehende Satz, dass Q = lim t→0+ Pt − Id = (qij )i,j∈S t existiert. Man spricht von der Q-Matrix des Prozesses. Die Diagonale wird eine wichtige Rolle spielen, man setzt ci := −qi,i . Satz 3.3.3 (i) Die Einträge qij für i 6= j liegen in R + . P (ii) j qij = 0 für alle i. Beweis: Für i 6= j sind die (i, j)-Einträge von Pt − Id in R + . Deswegen ist auch der (i, j)-Eintrag des Limes der (Pt − Id)/t größer oder gleich Null. Zum Beweis von (ii) beachte, dass alle Komponenten von Pt (1, . . . , 1)> gleich 1 für alle t sind. Deswegen müssen (nach Differentiation) alle Komponenten von Q(1, . . . , 1)> verschwinden. Zusammen heißt das also: Aus den Pt ergibt sich eine Q-Matrix (Zeilensumme Null, Komponenten außerhalb der Diagonalen in R + ). Vom infinitesimalen Erzeuger zur Markovkette Sei nun Q eine beliebige Q-Matrix. Wir definieren Pt := etQ und behaupten: Satz 3.3.4 Die (Pt )t≥0 sind eine Markov-Halbgruppe. Beweis: Die Gruppeneigenschaft und die Stetigkeit bei Null sind klar, es ist noch zu zeigen, dass alle Pt stochastische Matrizen sind. 3.3. HOMOGENE MARKOVKETTEN IN KONTINUIERLICHER ZEIT 29 Es ist Q(1, . . . , 1)> nach Voraussetzung der Nullvektor, und deswegen ist Pt (1, . . . , 1)> der Vektor (1, . . . , 1)> : Die Zeilensumme von Pt ist jeweils gleich Eins. Die Komponenten von Pt liegen auch in R + : Für festes t und große n sind alle Komponenten von Id + tQ/n nichtnegativ, das gilt dann auch für (Id + tQ/n)n , und das approximiert besser und besser (mit n → ∞) etQ . Aus Q kann man also die Pt = (pt (i, j))i,j∈S zurückgewinnen. Der Prozess (Xt ) lässt sich wie folgt konstruieren: • Starte in irgendeinem i ∈ S. • Bleibe dort für eine exponentialverteilte Wartezeit zum Parameter ci = −qii . • Springe P danach zu einem j 6= i, und zwar zu j0 mit Wahrscheinlichkeit qj0 / j6=i qj . • Usw: Bleibe dort für eine exponentialverteilte Wartezeit zum Parameter cj0 = −qj0 j0 , usw. Fazit Für die Beschreibung von homogenen Markovketten in kontinuierlicher Zeit gibt es im Fall endlicher Zustandsräume drei gleichberechtigte Möglichkeiten, nämlich • Als Prozess (Xt )t≥0 , ein homogener Markovprozess. • Als Markovhalbgruppe (Pt )t≥0 . • Durch die Q-Matrix. Ähnlich wie im diskreten Fall kann man nun die Eigenschaften der einzelnen Zustände und des Verhalten der Kette aus den Pt oder der Matrix Q ablesen. (S. z.B. im Buch von Liggett, Kapitel 2, insbesondere Abschnitt 2.6.) 30 KAPITEL 3. MARKOVKETTEN Kapitel 4 Optimales Stoppen auf Markovketten Das Problem soll an zwei Beispielen illustriert werden. Beispiel 1: Stellen Sie sich das folgende Spiel vor: • Es gibt die Spielfelder 0, 1, 2, . . ., Ihr Spielstein steht auf Feld 0. • Jetzt wird gewürfelt, entsprechend der Augenzahl rücken Sie vor. • Nach jedem Wurf haben Sie die Möglichkeit, aufzuhören und ausgezahlt zu werden: tausend Mal die Augenzahl des Feldes, auf dem Sie stehen. • Wenn Sie allerdings über die 5 hinauskommen, gibt es gar nichts. Wann sollte man bei diesem Spiel aufhören, um den Erwartungswert des Gewinns zu maximieren? Wie soll ich mich verhalten, wenn ich mich auf Feld i befinde: aufhören oder weitermachen? • Für i = 5 ist der Fall klar: aufhören, denn der nächste Zug verliert garantiert. Der Gewinn ist dann 5000 Euro. • Mal angenommen, ich bin auf Feld 4 und entscheide mich fürs Stoppen: Dann beträgt der Gewinn 4000 Euro. Im Fall des Weitermachens komme ich mit Wahrscheinlichkeit 1/6 auf Feld 5, wo mich 5000 Euro erwarten, mit Wahrscheinlichkeit 5/6 gibt es aber gar nichts. Der erwartete Gewinn beträgt also 5000/6 Euro. Man sollte also besser nicht weiterspielen. • Ähnlich ist die Analyse im Fall i = 3: Stoppen bringt 3000 Euro, weiterspielen dagegen nur (4000 + 5000)/6 = 1500 Euro. Nicht weiterspielen! • Bei i = 2 ist es egal: 2000 sichere Euro beim Stoppen gegen zu erwartende (3000 + 4000 + 5000)/6 = 2000 beim Weiterspielen. 31 32 KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN • Klar ist dann auch, dass man es bei i = 1 noch (mindestens) einmal versuchen sollte: 1000 Euro gegen 2000 + 3000 + 4000 + 5000 =≈ 2333 Euro. 6 • Und man sollte auf jeden Fall spielen: Sofortiges Stoppen in Position 0 liefert gar nichts, andernfalls ist der erwartete Gewinn in jedem Fall positiv. Zusammen: Probiere es noch einmal, wenn der erste Wurf eine 1 oder eine 2 ist, andernfalls stoppe! Beispiel 2: Auch diesmal haben Sie einen Würfel. Sie dürfen bis zur ersten 6 würfeln und jederzeit vorher stoppen. Dann erhalten Sie das zuletzt gewürfelte Ergebnis (mal tausend, in Euro). Bei der 6 ist das Spiel zu Ende. Wie sieht hier die optimale Strategie aus? Es ist plausibel, dass es ein i0 ∈ {1, . . . , 5} geben wird, so dass die Strategie lautet: Stoppe, wenn der letzte Wurf in {i0 , . . . , 5} lag, andernfalls spiele weiter. Wie sollte man i0 wählen? Der maximal beim Weiterspielen zu erzielende Erwartungswert werde mit Mi0 bezeichnet. • Was passiert bei i0 = 5? Befinde ich mich schon bei 5, so ist der Gewinn 5000. In allen anderen Fällen soll ich noch einmal würfeln. Mit Wahrscheinlichkeit 4/6 wird das fortgesetzt und ich erhalte M5 . Mit Wahrscheinlichkeit 1/6 erreiche ich die 5 und erhalte 5000. Das liefert die Gleichung 4 1 M5 + 5000 = M5 . 6 6 Es ist also M5 = 2500. • Was passiert bei i0 = 4? Eine ähnliche Überlegung führt auf 3 1 M4 + (4000 + 5000) = M4 ; 6 6 es folgt M4 = 3000. (Das ist schon besser als M5 !) • i0 = 3 führt auf 2 1 M3 + (3000 + 4000 + 5000) = M3 , 6 6 also M3 = 3000. • i0 = 2 ist ungünstiger, denn 1 1 M1 + (2000 + 3000 + 4000 + 5000) = M1 6 6 führt auf M1 = 14.000/5 = 2800. 4.1. DIE PRÄZISIERUNG DER PROBLEMSTELLUNG 33 • Was ist mit i0 = 1? Da ist immer nach dem ersten Wurf zu stoppen. Der Erwartungswert ist 15.000 1000 + 2000 + 3000 + 4000 + 5000 = = 2500; 6 6 Fazit: Stoppe, sobald Du eine Zahl in {3, 4, 5, 6} gewürfelt hast. Die Lösungswege waren recht unterschiedlich. In diesem Kapitel geht es um optimale Strategien für allgemeine derartige Situationen. 4.1 Die Präzisierung der Problemstellung Gegeben sei ein endlicher Zustandsraum S, auf ihm ist durch eine stochastische Matrix P eine Markovkette definiert, gestartet wird in x0 . Das gibt Anlass zu einem Markovprozess, den wir mit (Xn )n≥0 bezeichnen wollen. Dabei seien die Xn auf einem Wahrscheinlichkeitsraum (Ω, E, P) definiert. Zusätzlich gibt es eine Gewinnfunktion“ f : S → R (die auch negative ” Werte haben kann). Der Prozess läuft, man kann jederzeit Stopp!“ sagen, und ” wenn sich der Prozess gerade in x befindet, erhält man f (x) Euro. Ist diese Zahl allerdings negativ, muss man etwas zahlen. In den Beispielen lag folgende Situation vor: Beispiel 1: Hier kann S als {0, 1, 2, 3, 4, 5, 6} gewählt schen Matrix 0 0 1/6 1/6 1/6 1/6 1/6 0 1/6 1/6 1/6 1/6 B 0 B 0 0 1/6 1/6 1/6 B 0 B 0 0 0 1/6 1/6 B 0 @ 0 0 0 0 0 1/6 0 0 0 0 0 0 werden mit der stochasti1/6 2/6 3/6 4/6 5/6 1 1 C C C C; C A und f (i) := 1000 · i für i < 6 und f (6) = 0. Beispiel 2: Es ist S = {1, 2, 3, 4, 5, 6}, 0 1/6 1/6 1/6 B 1/6 1/6 1/6 B B 1/6 1/6 1/6 B B 1/6 1/6 1/6 @ 1/6 1/6 1/6 0 0 0 die stochastische Matrix lautet 1 1/6 1/6 1/6 1/6 1/6 1/6 C C 1/6 1/6 1/6 C C, 1/6 1/6 1/6 C 1/6 1/6 1/6 A 0 0 1 und f ist wie vorstehend. Was muss man tun, um den erwarteten Gewinn zu maximieren oder wenigstens sehr nah“ am optimalen Wert zu sein? ” Präziser lässt sich das so ausdrücken. Sei (Fn )n≥0 die natürliche Filtration zu (Xn ). Welche Stoppzeit τ : Ω → N 0 ∪ {∞} sollte man wählen, damit gilt: • τ ist fast sicher endlich. 34 KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN • Definiert man Xτ : Ω → R durch ω 7→ Xτ (ω) (ω), so ist der Erwartungswert1 von f (Xτ ) optimal (oder wenigstens nahezu optimal). Es ist alles andere als klar, wie man sich verhalten sollte. Eine offensichtliche Lösung gibt es allerdings im Fall ergodischer Ketten: Da der Prozess jeden Zustand (sogar beliebig oft) erreicht, muss man nur warten, bis man ein x0 mit f (x0 ) = maxx f (x) =: M erreicht hat. Für die zugehörige Stoppzeit τ ist Xτ konstant gleich x, und so wird sicher der optimale Wert M für die Auszahlung erreicht. Hier wollen wir eine Lösung des Problems herleiten. Überraschender Weise lässt sich das Optimum exakt realisieren und nicht nur mit beliebiger Genauigkeit. 4.2 Superharmonische Funktionen Sei u : S → R eine Funktion, sie soll als Auszahlungsfunktion interpretiert werden. Wenn ich mich gerade in x befinde und mich auszahlen lasse, erhalte ich u(x). Und der Erwartungswert der Auszahlung ist X pxy u(y), y∈S wenn ich das erst nach dem nächsten Schritt mache. Die Funktion heißt superharmonisch2 , wenn Warten eher ungünstig ist, wenn also X pxy u(y) ≤ u(x) y∈S für alle x gilt. (Beachte: Es müsste eigentlich superharmonisch in Bezug auf ” (pxy )“ heißen.) Sicher ist jede konstante Funktion superharmonisch, und es lässt sich leicht zeigen, dass das Infimum von superharmonischen Funktionen (falls es punktweise definiert werden kann) auch diese Eigenschaft hat. Sei U eine nichtleere Familie von superharmonischen Funktionen und g ihr punktweise definiertes Infimum. Nun sei i ∈ S und u ∈ U. Es ist dann u(j) ≥ g(j) für jedes j, es folgt also X u(i) ≥ pij u(j) j ≥ X pij g(j). Und da das für jedes u gilt, zeigt das auch g(i) ≥ P j pij g(j). 1 Bevor man sich um den Erwartungswert kümmert, muss natürlich gezeigt werden, dass Xτ messbar ist. 2 Manchmal heißen solche Funktionen in der Literatur auch exzessiv . 4.2. SUPERHARMONISCHE FUNKTIONEN 35 Insbesondere ist die Funktion fˆ : S → R, definiert durch fˆ(x) := inf{u(x) | u superharmonisch, u ≥ f } für jedes f : S → R superharmonisch. fˆ heißt die superharmonische Majorante von f . Beim symmetrischen absorbierenden Zufallsspaziergang auf {0, . . . , n0 }ist eine Funktion genau dann superharmonisch, wenn u(x) ≥ u(x−1)+u(x+1) /2 für x = 1, . . . , n0−1 gilt, wenn die Funktion also diskret konkav“ ist. Und fˆ ist ” dann so etwas wie die konkave obere Einhüllende. Als Vorbereitung für das Hauptergebnis dieses Kapitels benötigen wir noch ein Resultat, das zwar plausibel ist, das sich aber nur überraschend aufwändig beweisen lässt: Ist die Auszahlungsfunktion superharmonisch, so ist längeres Warten immer ungünstiger als kürzeres Warten. (Die Präzisierung mit Hilfe des Begriffs Stoppzeit“ folgt gleich.) ” Lemma 4.2.1 Ist E ∈ σ(X0 , . . . , Xn−1 ), so gilt P(Xn = xn , Xn−1 = xn−1 , E) = pxn−1 ,xn P(Xn−1 = xn−1 , E). Beweis: Ist E von der speziellen Form {X0 = y0 , . . . , Xn−2 = yn−1 }, so ist diese Aussage im Fall xn−1 6= yn−1 trivialerweise richtig (beide Seiten der Gleichung sind Null) und andernfalls eine Umformulierung der Markoveigenschaft: P(Xn = xn | Xn−1 = xn−1 , Xn−2 = yn−2 , . . . , X0 = y0 ) = = P(Xn = xn | Xn−1 = xn−1 ) = pxn−1 ,xn . Beachte noch dass ein beliebiges E ∈ σ(X0 , . . . , Xn−1 ) disjunkt aus Ereignissen dieses Typs zusammengesetzt werden kann. Längere Stoppzeiten sind ungünstiger als kürzere. Wir zeigen das zunächst für den Spezialfall von nahe beieinander liegenden“ Stoppzeiten: ” Lemma 4.2.2 Es sei x0 ∈ S, wir betrachten den bei x0 startenden Prozess. Ist u : S → R superharmonisch und sind τ, σ fast sicher endliche Stoppzeiten mit τ ≤ σ ≤ τ + 1, so gilt E u(Xτ ) ≥ E u(Xσ ) . 36 KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN Beweis: Wir beginnen mit der rechten Seite: X P(σ = k, Xk = x)u(x) E u(Xσ ) = x∈S, k∈N 0 X = P(σ = τ = k, Xk = x)u(x) + x∈S, k∈N 0 X + P(σ = k, τ = k − 1, Xk = x)u(x) x∈S, k∈N =: A. Die Mengen {σ = k, τ = k − 1 Xk = x} zerfallen disjunkt in die Teilmengen {σ = k, τ = k − 1, Xk−1 = y, Xk = x} mit y ∈ S. Dabei liegt das Ereignis {σ = k, τ = k − 1, Xk−1 = y} in σ(X0 , . . . , Xk−1 ), denn diese Menge kann auch als {σ ≥ k, τ = k − 1, Xk−1 = y} geschrieben werden, und {σ ≥ k} ist das Komplement von {σ ≤ k − 1}. Und folglich gilt wegen Lemma 4.2.1: P({σ = k, τ = k−1, Xk−1 = y, Xk = x}) = P({σ = k, τ = k−1, Xk−1 = y)py,x . Die obige Rechnung kann also wie folgt fortgesetzt werden (wobei jetzt ausgenutzt wird, dass u superharmonisch ist): X A = P(σ = τ = k, Xk = x)u(x) + x∈S, k∈N 0 X + P({σ = k, τ = k − 1, Xk−1 = y)py,x u(x) k∈N, x,y∈S ≤ X P(σ = τ = k, Xk = x)u(x) + x∈S, k∈N 0 X + P({σ = k, τ = k − 1, Xk−1 = y)u(y) k∈N, y∈S Jetzt ändern wir in der zweiten Summe noch den Laufindex von k zu k − 1 und bezeichnen y in x um: X = P(σ = τ = k, Xk = x)u(x) + x∈S, k∈N 0 + X P({σ = k + 1, τ = k, Xk−1 = x)u(x). k∈N 0 , y∈S Und da {τ = k} die disjunkte Vereinigung der Mengen {τ = σ = k} und {τ = k, σ = k + 1} ist, geht es weiter mit X = P(τ = k, Xk = x)u(x) x∈S, k∈N 0 = E u(Xτ ) . 4.3. DIE OPTIMALE LÖSUNG 37 Damit ist alles gezeigt. Länger Warten ist immer schlechter: Lemma 4.2.3 Es sei x0 ∈ S, wir betrachten den bei x0 startenden Prozess, eine superharmonische Funktion u : S → R und fast sicher endliche Stoppzeiten τ, σ. Ist dann τ ≤ σ, so gilt E u(Xτ ) ≥ E u(Xσ ) . Beweis: Definiere Stoppzeiten τn für n ∈ N durch τn := min{σ, max{τ, n}}. Dann gilt τn ≤ τn+1 ≤ τn + 1 und folglich wegen des vorigen Lemmas E u(Xτn ) ≥ E u(Xτn+1 ) . Da die τn punktweise fast sicher gegen σ konvergieren und alle auftretenden Funktionen durch maxx |u(x)| beschränkt sind, konvergieren die E u(Xτn ) nach dem Satz von Lebesgue gegen E u(Xσ ) . Wegen τ0 = τ ist damit alles gezeigt. 4.3 Die optimale Lösung Sei x ∈ S und τ : Ω → N 0 eine fast sicher endliche Stoppzeit für den bei x startenden Prozess. Wir bezeichnen mit Gxτ den Erwartungswert von f (Xτx ). Dabei ist (Xnx ) der stochastische Prozess, der durch die stochastische Matrix bei Start in x erzeugt wird. Von Interesse ist dann v(x) := sup Gxτ , τ wobei τ die zulässigen Stoppzeiten durchläuft. Die so definierte Funktion v : S → R heißt die Funktion des optimalen Gewinns. Bemerkungen: 1. Beachte, dass im hier vorliegenden Fall endlicher Zustandsräume v sicher durch maxx f (x) beschränkt ist. v(x) = ∞ kann also nicht vorkommen. 2. Wird nicht deterministisch bei x gestartet, sondern mit einer Wahrscheinlichkeitsverteilung ν, so ist auch dann der optimale zu erwartende Gewinn leicht auszurechnen: X v(x)ν({x}). x Wir werden nun zeigen: • v = fˆ. 38 KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN • Sei ∆ die (offensichtlich nicht leere) Menge {x | f (x) = fˆ(x)} und τx∆ die Stoppzeit des ersten Eintritts in ∆ bei Start in x. Dann ist τx∆ eine fast sicher endliche Stoppzeit, und es gilt v(x) = Gxτ∆ für jedes x. Damit sieht x eine optimale Strategie so aus: Warte, bis zum ersten Mal ∆ erreicht ist, stoppe dann sofort. Und mit Wahrscheinlichkeit 1 wird ∆ auch wirklich gestoppt. • fˆ kann rekursiv sehr schnell mit beliebiger Genauigkeit berechnet werden. v = fˆ Lemma 4.3.1 v ist superharmonisch, und v ≥ f . Folglich gilt v ≥ fˆ. Beweis: Sei ε > 0. Wähle zu x ∈ S Stoppzeiten τx zu dem bei x startenden Prozess, die jeweils v(x) bis auf ε approximieren: Gxτx ≥ v(x) − ε. Und nun sei x0 ∈ S. Eine neue Stoppzeit für den bei x0 startenden Prozess wird so definiert: Gehe auf jeden Fall einen Schritt, danach orientiere Dich – je nachdem, auf welches x der erste Schritt geführt hat – an τx . Die Gewinnerwartung für diese Stoppzeit (die wieder fast sicher endlich ist) ist dann offensichtlich X X px0 ,x Gxτx ≥ px0 ,x v(x) − ε. x x Folglich gilt v(x0 ) ≥ X px0 ,x v(x) − ε, x und da ε beliebig war, folgt v(x0 ) ≥ Satz 4.3.2 Es gilt v = fˆ. P x px0 ,x v(x). Beweis: Eine Ungleichung wurde schon im vorigen Lemma gezeigt. Für die andere ist zu zeigen: Ist u superharmonisch mit u ≥ f , so ist u(x0 ) ≥ E f (Xτ ) für jede Stoppzeit zu dem bei x0 startenden Prozess, die fast sicher endlich ist. Sei τ so eine Stoppzeit. Lemma 4.2.3 (angewendet auf die Stoppzeiten 0 und τ ) impliziert E u(Xτ ) ≤ u(x0 ), und damit gilt auch E f (Xτ ) ≤ u(x0 ) Alle τx∆ sind fast sicher endlich Lemma 4.3.3 Alle τx∆ sind fast sicher endlich Beweis: Wir fixieren ein x0 ∈ S und lassen den Prozess in x0 starten. Falls x0 ∈ ∆ gilt, ist nichts zu beweisen, da sofort gestoppt wird. Sei also x0 ∈ / ∆. Wir wollen zeigen, dass A := {kein Xn liegt in ∆} eine Nullmenge ist. Dazu wird eine Zahl δ > 0 so gewählt, dass v(x) − δ ≥ f (x) für alle x ∈ /∆ gilt. 4.3. DIE OPTIMALE LÖSUNG 39 Sei nun τ eine (zu dem bei x0 startenden Prozess gehörige) fast sicher endliche Stoppzeit. Es folgt Z E f (Xτ ) = f (Xτ ) dP Ω Z Z = f (Xτ ) dP + f (Xτ ) dP. Ω\A A Auf A ist die Funktion f (Xτ ) nach Konstruktion durch v − δ abschätzbar, auch gilt f ≤ v. Folglich können wir die Rechnung mit Z Z ≤ v(Xτ ) dP + v(Xτ ) dP − δP(A) Ω\A A Z = v(Xτ ) dP − δ P(A) Ω ≤ v(x0 ) − δ P(A) fortsetzen, wobei wir im letzten Schritt Lemma 4.2.3 (mit τ und 0) und die Tatsache ausgenutzt haben, dass v superharmonisch ist. Gehen wir zum Supremum über alle zulässigen τ über, so folgt v(x0 ) ≤ v(x0 ) − δ P(A). Also muss P(A) = 0 gelten. Stoppen gemäß τx∆ ist optimal Nun folgt das Hauptergebnis dieses Kapitels: Theorem 4.3.4 Durch τx∆ wird der bestmögliche Erwartungswert realisiert, und insbesondere ist das Supremum in der Definiton von v(x) ein Maximum: v(x) = E f (Xτx∆ ) für alle x. Beweis: Sei φ(x) := E f (Xτx∆ ) . Wir werden zeigen: • φ ist superharmonisch. • φ ≤ v. • φ ≥ v. Damit wäre dann die Behauptung bewiesen. a) φ ist superharmonisch. Beweis dazu: Wir fixieren x0 , lassen den Prozess dort starten und definieren eine Stoppzeit τ ∗ durch min{n ≥ 1 | Xn ∈ ∆}. 40 KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN (Der Unterschied zu τx∆0 : Bei τx∆0 wird das Minimum über die n ∈ N 0 mit Xn ∈ ∆ gebildet.) Offensichtlich ist τ ∗ ≥ τx∆0 . Wir analysieren zunächst den ersten Schritt. Mit Wahrscheinlichkeit px0 ,x ist der Prozess danach in x ∈ S. Und ab hier stoppen wir ihn gemäß τy∆ : Das entspricht genau τ ∗ . Zusammen mit Lemma 4.2.3 (für τx∆0 und τ ∗ und die superharmonische Funktion fˆ) ergibt sich: φ(x0 ) = E f (Xτx∆ ) 0 = E fˆ(Xτx∆ ) 0 ≥ E fˆ(Xτ ∗ ) = E f (Xτ ∗ ) X = px0 ,x E f (Xτx∆ ) x∈S = X px0 ,x φ(x). x∈S Hier wurde ausgenutzt, dass τx∆ und τ ∗ auf ∆ stoppen: Dort ist f = fˆ. b) φ ≤ v. Beweis dazu: Das ist aufgrund der Definition von v klar, denn φ ist durch eine Stoppzeit entstanden. c) φ ≥ v. Beweis dazu: Wir müssen nur zeigen, dass φ ≥ f gilt, denn da φ superharmonisch ist, wäre dann auch φ ≥ fˆ = v. Auf ∆ ist sicher f = φ, es fehlt noch der Nachweis für die x ∈ / ∆. Falls einmal φ(x) < f (x) für so ein x wäre, wählen wir x0 so, dass f (x0 ) − φ(x0 ) größtmöglich ist. Dann sind wir sicher, dass φ + f (x0 ) − φ(x0 ) die Funktion f majorisiert. Da φ + f (x0 ) − φ(x0 ) superharmonisch ist, heißt das φ + f (x0 ) − φ(x0 ) ≥ fˆ = v, insbesondere also f (x0 ) = φ(x0 ) + f (x0 ) − φ(x0 ) ≥ v(x0 ). Das aber würde x0 ∈ ∆ bedeuten, ein Widerspruch. Wie berechnet man fˆ? Die vorstehenden Ergebnisse sind nur dann anwendbar, wenn man fˆ kennt. Im nachstehenden Satz wird ein Verfahren vorgestellt, mit dem man diese Funktion sehr schnell mit beliebiger Genauigkeit berechnen kann: 4.3. DIE OPTIMALE LÖSUNG 41 Satz 4.3.5 Definiere Funktionen un : S → R induktiv durch u1 := f , uP n+1 := max{un , P un }; dabei ist für eine Funktion u die Funktion P u durch x 7→ y pxy u(y) erklärt. Es ist dann f ≤ u1 ≤ u2 ≤ · · · , und lim un (x) = fˆ(x) für alle x. Beweis: Es ist klar, dass f ≤ u1 ≤ u2 ≤ · · · . Da die un durch maxx f (x) beschränkt sind, existiert U := lim un . Wir zeigen, dass U = fˆ gilt. Sei u superharmonisch mit u ≥ f . Wir behaupten, dass u ≥ un für alle n ist. Für n = 1 ist das klar. Sei u ≥ un . Dann ist auch P u ≥ P un , wegen u ≥ P u (nach Voraussetzung) ist also u ≥ P un . Damit ist auch u ≥ un+1 , und es folgt u ≥ U . Da das für alle u gilt, haben wir fˆ ≥ U bewiesen. Als nächstes zeigen wir, dass U superharmonisch ist, dass also U ≥ P U gilt. Das folgt mit Hilfe der Stetigkeit der Abbildung u 7→ P u so: P U = P (lim un ) = lim P un ≤ lim un+1 = U. Da U ≥ f gilt, muss damit auch U ≥ fˆ sein. 42 KAPITEL 4. OPTIMALES STOPPEN AUF MARKOVKETTEN Kapitel 5 Die Brownsche Bewegung Die Brownsche Bewegung ist einer der wichtigsten stochastischen Prozesse. Der Name rührt daher, dass der Botaniker Robert Brown (1827) die irreguläre Bewegung kleinster Teilchen (Blütenpollen) unter dem Mikroskop studierte. Später gab es – teils abenteuerliche – Erklärungsversuche. Die wichtigsten Punkte der dann folgenden Entwicklung sind: • Der Franzose Louis Bachelier verwendete die Brownsche Bewegung als mathematisches Modell für Kursentwicklungen an der Börse. • Albert Einstein berechnete, wie sich kleine Teilchen bewegen müssten, wenn sie von noch (viel) kleineren Teilchen angestoßen werden: Es ergibt sich eine Brownsche Bewegung, und man kann nachprüfbare Aussagen über den Ort der Teilchen gewinnen. Das wurde einige Jahre später auch wirklich verifiziert, und damit war der Physikerstreit über die Welt im Kleinen – Elementarteilchen oder Kontinuum? – im Wesentlichen für die Korpuskulartheorie entschieden. • In den zwanziger Jahren zeigte Norbert Wiener, dass sich die Existenz der Brownschen Bewegung streng beweisen lässt. • Daraufhin zeigte sich immer mehr die fundamentale Bedeutung dieses stochastischen Prozesses. Im Jahr 2006 gab es eine Fieldsmedaille für Ergebnisse dazu (Wendelin Werner, ICM in Madrid). 5.1 Brownsche Bewegung: Definition / Existenz Hier die Definition: Definition Ein Prozess (Xt )t≥0 (wo Xt : Ω → R) heißt Brownsche Bewegung, wenn gilt: • X0 = 0. • Für jedes ω ist t 7→ Xt (ω) stetig. 43 44 KAPITEL 5. DIE BROWNSCHE BEWEGUNG • Für alle 0 = t0 < t1 < · · · tn sind die Zufallsvariablen Xti+1 − Xti , i = 0, . . . , n − 1 unabhängig. • Für alle s < t ist Xt − Xs N (0, t − s)-verteilt. Es ist alles andere als offensichtlich, dass es solche Prozesse gibt. Es dauerte auch bis in die zwanziger Jahre des vorigen Jahrhunderts, bis Norbert Wiener einen exakten Konstruktionsbeweis gab1 . Es folgen zwei Beispiele für mögliche Konstruktionen. Konstruktion 1: Als Ω wählt man einfach den Raum C [ 0, +∞ [. Die Xt : Ω → R werden für t ≥ 0 als Auswertungen definiert: Xt : ω → ω(t), und E soll die von den Xt erzeugte σ-Algebra sein. Dann werden – egal, welches Maß wir auf E definieren – alle Xt Zufallsvariable sein, und die Pfade sind automatisch stetig. Schwieriger ist es, das richtige Maß zu finden. Dazu verfährt man wie folgt: • Bette C [ 0, +∞ [ in R [ 0,∞ [ ein. Dieser Raum wird mit der Produkt-σAlgebra versehen: Damit sind die Auswertungen automatisch messbar. • Schreibe die Randverteilungen entsprechend dem Wunschprogramm Brown” sche Bewegung“ vor. Prüfe dann nach, dass die Verträglichkeitsbedingung aus dem Satz von Kolmogoroff erfüllt ist. • Wende den Satz von Kolmogoroff an. • Zeige, dass – bis auf eine Nullmenge – alle Pfade stetig sind, es also eine natürliche Einschränkung auf C [ 0, +∞ [ gibt. Konstruktion 2: Hier ist die Konstruktion des Maßraumes (Ω, E, P) einfach“: ” Es ist irgendein Wahrscheinlichkeitsraum, auf dem abzählbar viele unabhängige standardnormalverteilte Zufallsvariable ξij (i, j ∈ N 0 ) definiert sind2 . Es geht dann so weiter: 1. Schritt: Wir definieren eine erste Approximation an die Brownsche Bewegung (1) so, dass sie sich zu den Zeitpunkten t ∈ N 0 richtig verhält: Es ist X0 = 0, (1) Xk (ω) := ξ1,1 + · · · + ξ1,k (1) für k ∈ N, und für die t ∈ [ k, k + 1 ] wird Xt (ω) durch lineare Interpolation erklärt. (1) Dann ist (Xt )t ein Prozess mit stetigen Pfaden, der für ganzzahlige Zeitpunkte schon das Gewünschte leistet. (2) 2. Schritt: Nun soll (Xt ) erklärt werden, und zwar so, dass gilt: 1 Die Brownsche Bewegung wurde damals allerdings schon seit einigen Jahrzehnten erforscht, zu nennen sind hier insbesondere Bachelier (1900, Finanzmathematik) und Einstein (1905, Korpuskulartheorie). Auch heute ist wohl vielen Ingenieuren nicht einsichtig, dass man sich um einen Existenzbeweis bemühen muss, denn “sie kommt doch offensichtlich in der Natur vor”. 2 Dass das geht, ist auch nicht trivial: Hier braucht man den Satz von Carathéodory. In der elementaren Stochastik hatten wir das den Klonsatz“ genannt. ” 5.1. BROWNSCHE BEWEGUNG: DEFINITION / EXISTENZ 45 • Der Prozess hat stetige Pfade, und auf 0.5·N 0 ist es eine richtige“ Brown” sche Bewegung. (2) • Xt (1) stimmt auf N 0 mit Xt überein. (1) (2) Wir übernehmen dazu die Definition der Xk für die k ∈ N, definieren Xt für die t = k + 0.5 geschickt“ und interpolieren dann wieder linear. ” Das Hauptproblem liegt in der geschickten Wahl der Zwischenpunkte. Es läuft im Wesentlichen auf die folgende Frage hinaus: Gegeben sei ein N (0, 1)-verteiltes X. Wie muss man Y definieren, so dass Y und X − Y unabhängig sind und sowohl Y als auch X − Y N (0, 1/2)-verteilt sind? Die Antwort: Verschaffe Dir ein N (0, 1)-verteiltes Z, dass von X unabhängig ist und definiere dann Y := (X + Z)/2. Es ist dann X − Y = (X − Z)/2, und: • Da Y, X − Y aus X, Z durch eine orthogonale Transformation entstanden sind, handelt es sich wieder um unabhängige Normalverteilungen. Diese Tatsache spielt auch in der Statistik eine fundamentale Rolle. • Y und X − Y sind N (0, 1/2)-verteilt (klar). In unserem Fall nehmen wir die benötigten Y ’s aus dem ξ-Reservoir. Der Rest ist im Wesentlichen Routine. 2., 3., . . . Schritt: Es geht mit der gleichen Idee weiter: (3) verfeinert“ Xk , und nun stimmt alles (1/4)N 0 . ” (4) verfeinert“ Xk , und nun stimmt alles (1/8)N 0 . ” • Xk • Xk (2) (3) • ... (r) • Xk (r−1) verfeinert“ Xk ” , und nun stimmt alles (1/2r−1 )N 0 . Finale: Nun endlich kann die Brownsche Bewegung definiert werden. Die Idee: (r) Xt (ω) := lim Xt (ω). r Ganz so einfach ist es leider nicht. Erstens ist die Konvergenz nicht klar, und zweitens würde punktweise Konvergenz nicht ausreichen, um die Stetigkeit der Pfade zu garantieren. Deswegen muss sorgfältiger argumentiert werden. Eine geschickte Anwendung des Lemmas von Borel-Cantelli zeigt, dass für die ω außerhalb einer Null(r) menge N die Funktionen t 7→ Xt (ω) sogar gleichmäßig auf Kompakta konvergieren. Man geht dann von Ω zu Ω \ N über, definiert darauf die Xt , und das ist dann wirklich eine Brownsche Bewegung. Nachspiel: Es ist manchmal handlicher, auf dem Raum C := C [ 0, +∞ [ zu arbeiten. Das kann leicht erreicht werden: 46 KAPITEL 5. DIE BROWNSCHE BEWEGUNG • Definiere X : Ω → C durch ω 7→ (t 7→ Xt (ω)). Diese Abbildung ist wohldefiniert und eine Zufallsvariable, wenn man C mit der σ-Algebra der Borelmengen (kompakt-offene Topologie) versieht. • C wird mit dem Wahrscheinlichkeitsmaß PX versehen. • Xt0 : C → R wird durch ω 0 7→ ω 0 (t) erklärt. • Dann ist – wie sich fast von allein beweist – (Xt0 ) eine Brownsche Bewegung. 5.2 Brownsche Bewegung: Eigenschaften Aus Satz 2.1.3 folgt unmittelbar, dass die Brownsche Bewegung ein Markovprozess ist3 . Wir werden uns in diesem Abschnitt ausführlich um die Pfade der Brownschen Bewegung kümmern, sie haben sehr überraschende Eigenschaften. Selbstähnlichkeit und Zeitumkehr Die Brownsche Bewegung hat verschiedene Aspekte der Selbstähnlichkeit. Bei richtiger Skalierung sieht sie überall gleich“ aus, man kann sie rückwärts ” laufen lassen und beliebig vergrößern. Genauer: Satz 5.2.1 Es sei (Bt )t≥0 eine Brownsche Bewegung (mit Bt : Ω → R). Dann gilt: (i) Für jedes t0 > 0 ist (Bt0 +t − Bt0 )t≥0 eine Brownsche Bewegung. (ii) Für jedes a > 0 ist (Ba2 t /a)t≥0 eine Brownsche Bewegung. (iii) Entfernt man aus Ω eine geeignete Nullmenge und definiert man dann Y0 := 0 und Yt := tX1/t , so ist (Yt )t≥0 eine Brownsche Bewegung. Beweis: (i) und (ii) sind fast klar, die Aussagen folgen aus bekannten Eigenschaften der Normalverteilung4 . Bei (iii) muss man nur dafür sorgen, dass die Stetigkeit bei Null garantiert ist, die anderen Aussagen sind leicht einzusehen5 . Insbesondere erfüllt (Yt ) im Bereich t > 0 alle Bedingungen an eine Brownsche Bewegung. 3 Beachte: Ist – im Fall 0 ≤ t < t – die Zufallsvariable S := X − X von allen Zuwächsen t0 t 0 Xt1 − X0 , Xt2 − Xt1 , . . . , Xtn − Xtn−1 unabhängig für 0 < t1 < · · · < tn = t, so ist S auch von den Xt1 , . . . , Xtn unabhängig. Wie üblich folgt dann mit einem Dynkinsystem-Argument, dass S von σ{Xs | s ≤ t} unabhängig ist. 4 Man sollte sich an die folgenden Tatsachen erinnern: Sind X und Y unabhängige Zufallsvariable, wobei X N (0, σ12 )-verteilt und Y N (0, σ22 )-verteilt ist, so ist aX N (0, a2 σ12 )-verteilt und X + Y N (0, σ12 + σ22 )-verteilt. 5 Für die Verteilung der Zuwächse muss man die vorige Fußnote und die Gleichung 1 1 (t − s)2 + s2 ( − ) = t − s t t s ausnutzen. 5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN 47 Für die Stetigkeit bei Null der Pfade von Yt ist zu zeigen, dass Xt /t für t → ∞ fast sicher gegen Null geht. Das ist plausibel, denn Xt ist N (0, t) verteilt, sollte √ also in der Regel“ nicht wesentlich größer als t sein. Als Hilfsmittel benötigen ” wir die Ungleichung von Kolmogoroff: Sind W1 , . . . , Wr unabhängige und identisch verteilte Zufallsvariable mit existierender Varianz und Erwartungswert Null und definiert man Zm := W1 + · · · + Wm für m = 1, . . . , r, so gilt für a > 0 P(max |Zm | ≥ a) ≤ σ 2 (Zr )/a2 . m (Beweis: Der Beweis ist sehr aufwändig. Man findet ihn zum Beispiel in meinem Skript zur Wahrscheinlichkeitstheorie, Seite 95.) Die Interpretation: Ist Zm die Position eines Spaziergängers im mten Schritt, so wird durch die Ungleichung die Wahrscheinlichkeit abgeschätzt, dass irgendwann zwischen dem ersten und dem r-ten Schritt das Intervall [ −a, a ] verlassen wurde. Im Fall r = 1 ist die Ungleichung gerade die Tschebycheff-Ungleichung. Sei Ñ die Menge der ω ∈ Ω, für die Yt (ω) für t → 0 nicht gegen Null geht. Ziel: Das ist eine Nullmenge6 . Wir fixieren ein δ > 0 und betrachten für n ∈ N die Rasterpunkte“ ” δk n ∆n := { n | 1 ≤ k ≤ 2 }. 2 S Dann gilt ∆1 ⊂ ∆2 ⊂ · · · , und n ∆n liegt dicht in ] 0, δ ]. Wir wenden die Kolmogoroffungleichung für die Zuwächse der Y -Variablen an: Für festes n sei r := 2n und Wm := Y(m+1)/2n − Ym/2n , m = 0, . . . , r − 1. Dann ist – mit den Bezeichnungen der Ungleichung – Zm = Ym/2n , und wegen σ 2 (Z2n ) = δ erhalten wir für jedes a > 0 P(max |Yt | ≥ a) ≤ t∈∆n δ . a2 Da das für jedes n gilt, haben wir auch P( max |Yt | ≥ a) ≤ 0<t≤δ δ a2 bewiesen. Setze nun δ = 1/l und wende die vorstehenden Überlegungen für a = 1/k an: k2 . P({ max |Yt | ≥ 1/k}) ≤ l 0<t≤1/l 6 Die Messbarkeit macht wegen der Stetigkeit keine Probleme, man kann ja Ñ als [\ { max |Yt | ≥ 1/k} k l 0<t≤1/l schreiben, und das Maximum von |Yt | ist genau dann größer als 1/k, wenn es bei einer rationalen Zahl größer als 1/k wird. 48 KAPITEL 5. DIE BROWNSCHE BEWEGUNG T Folglich ist l {max0<t≤1/l |Yt | ≥ 1/k} für jedes k eine Nullmenge, und damit hat auch Ñ als Vereinigung dieser Mengen Maß Null. Variation und quadratische Variation Wieder sei (Bt ) eine Brownsche Bewegung. Für t > 0 betrachten wir das Pk Supremum der Zahlen i=1 |Bti (ω) − Bti−1 (ω)|, wobei beliebige Zerlegungen 0 = t0 < · · · < tk = t zugelassen sind. Dieses Supremum wird mit Vt (ω) bezeichnet, man spricht von der Variation auf [ 0, t ]. Jedes Vt ist wieder eine Zufallsvariable, Vt (ω) misst die bis zur Zeit t zurückgelegte Weglänge des Pfades s 7→ Bs (ω). Bezeichnet man für eine Zerlegung Z : 0 = t0 < · · · < tk = t von [ 0, t ] mit δ(Z) := max |ti+1 − ti | die maximale Zerlegungslänge, so lässt sich leicht Pk zeigen, dass man Vt (ω) Grenzwert der Folge i=1 |Bti (ω) − Bti−1 (ω)| ist, wenn die zugehörigen δ(Z) gegen Null gehen7 . Ganz analog wird die quadratische Variation Qt definiert. Für eine Zerlegung Pk Z : 0 = t0 < · · · < tk = t von [ 0, t ] sei QZ (ω) := i=1 |Bti (ω) − Bti−1 (ω)|2 . Qt (ω) soll dann der Grenzwert der QZn (ω) für irgendeine Zerlegungsfolge sein, für die δ(Zn ) gegen Null geht. Dass das existiert, wird gleich gezeigt werden. Satz 5.2.2 (i) Wir behaupten erstens: Sind Zn Zerlegungen mit δ(Zn ) → 0, so geht die Folge (QZn ) im L2 -Sinn gegen t: Die Erwartungswerte der Zufallsvariablen sind gleich t, und die Erwartungswerte von (QZn − t)2 gehen gegen Null. P Und zweitens: Ist sogar δ(Zn ) < ∞, so gehen die QZn fast sicher gegen t. (ii) Fast sicher ist Qt = t. (iii) Fast sicher ist Vt = ∞. Beweis: (i) Ist Z beliebig, so ist doch wegen der Unabhängigkeit der Zuwächse und der Linearität des Erwartungswerts (und da Bti − Bti−1 N (0, ti − ti−1 )verteilt ist) E(QZ ) k X = E( |Bti − Bti−1 |2 ) i=1 = X E(|Bti − Bti−1 |2 ) X = (ti − ti−1 ) = t. Um die Varianz auszurechnen, schreiben wir QZ − t als X 7 Hier (Bti − Bti−1 )2 − (ti − ti−1 ) . ist an die Stetigkeit der Pfade zu erinnern. 5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN 49 Weil sich Varianzen bei unabhängigen Zufallsvariablen addieren, folgt X 2 E (QZ − t)2 = E (Bti − Bti−1 )2 − (ti − ti−1 ) X = 2 (Bti − Bti−1 )2 − 1) . (ti − ti−1 ) (ti − ti−1 )2 E Aber die Zufallsvariable (Bti − Bti−1 )/(ti − ti−1 ) ist für alle i N (0, 1)-verteilt, die Rechnung kann also – mit einer Konstanten C – durch X ≤C (ti − ti−1 )2 fortgesetzt werden. Nun ist aber sicher X X (ti − ti−1 )2 ≤ δ(Z) (ti − ti−1 ) = tδ(Z), und das beweist den ersten Teil von (i). Für den zweiten wenden wir die Tschebycheff-Ungleichung an. Ist ε > 0 vorgelegt, so ist doch P({|QZ − t| > ε}) ≤ σ 2 (QZ ) . ε2 Lassen sich die δ(Zn ) aufsummieren, so folgt wegen der vor wenigen Zeilen bewiesenen Ungleichung σ 2 (QZn ) ≤ Ctδ(Zn ), dass X P({|QZn − t| > ε}) < ∞ n gilt. Aufgrund des Lemmas von Borel-Cantelli liegt also ein ω fast sicher in nur endlich vielen {|QZn − t| > ε}, und das beweist die fast sichere Konvergenz der QZn gegen t. (ii) Das wurde in (i) mitbewiesen, da ein L2 -Limes fast sicher eindeutig bestimmt ist. (iii) Es sei ω so gegeben, dass die Variation von s 7→ Bs (ω) auf [ 0, t ] endlich, etwa gleich K ist. Sei ε > 0 beliebig. Wir wählen δ > 0 so klein, dass für δ(Z) ≤ δ stets folgt: Alle |Bti (ω) − Bti−1 (ω)| sind ≤ ε. Das geht wegen der gleichmäßigen Stetigkeit. Es folgt dann: X X (Bti (ω) − Bti−1 (ω) )2 ≤ max |Bti (ω) − Bti−1 (ω) | |Bti (ω) − Bti−1 (ω) | i ≤ εK. Folglich ist Qt (ω) = 0, und das passiert nur auf einer Nullmenge. Die Pfade sind nirgendwo differenzierbar ... 50 KAPITEL 5. DIE BROWNSCHE BEWEGUNG In Bezug auf die Differenzierbarkeit sind die Pfade äußerst pathologisch. Das ist auch plausibel, denn im Fall differenzierbarer Pfade wäre sicher die Markoveigenschaft verletzt. Hier die ganze Wahrheit: Satz 5.2.3 Es sei (Bt )t≥0 eine auf Ω definierte Brownsche Bewegung. Wir definieren Teilmengen L und D von Ω durch die folgende Vorschrift: • L ist die Menge derjenigen ω, für die der Pfad s 7→ Bs (ω) an irgendeiner Stelle einer Lipschitzbedingung nach rechts“ genügt. Dabei bedeutet die ” Aussage f genügt bei t0 einer Lipschitzbedingung nach rechts“, dass es ” K, ε > 0 so gibt, dass |f (t0 + t) − f (t0 )| ≤ Kt für alle t ∈ [ 0, ε ]. • D ist die Menge der ω, für die der Pfad s 7→ Bs (ω) an irgendeiner Stelle eine rechtsseitige Ableitung besitzt: Für mindestens ein t0 existiert lim h→0+ Bt0 +h − Bt0 h in R. Es gilt dann D ⊂ L, und es gibt eine Nullmenge N ⊂ Ω mit L ⊂ N . (Das muss so kompliziert formuliert werden, da nicht garantiert werden kann, dass L messbar ist.) Kurz: Fast sicher sind Pfade der Brownschen Bewegung nirgendwo differenzierbar. Beweis: Die Inklusion D ⊂ L ist leicht einzusehen, den zweiten Teil beweisen wir in mehreren Schritten. Schritt 1: Genügt eine Funktion f : [ 0, δ ] → R einer Lipschitzbedingung nach rechts bei 0 auf [ 0, δ ], so gilt |f (t) − f (s)| ≤ 2Kδ für alle s, t. Beweis dazu: Das folgt leicht mit Hilfe der Dreiecksungleichung (Vergleich mit f (0)). Schritt 2: Ist X N (0, 1)-verteilt, so ist P({|X| ≤ a}) ≤ 2a für alle a ≥ 0. Beweis dazu: Klar, da die Dichtefunktion durch 1 beschränkt ist. Schritt 3: Hier führen wir einige Definitionen ein. Es sei n ∈ N und 0 ≤ k ≤ n2n . Zn,k sei dann die Zufallsvariable max{|B(k+1)/2n − Bk/2n |, |B(k+2)/2n − B(k+1)/2n |, |B(k+3)/2n − B(k+1)/2n |}. Mit En,k,ε bezeichnen wir das Ereignis {Zn,k ≤ ε}. Da die Zuwächse unabhängig sind, gilt wegen Schritt 2: P(En,k,ε ) ≤ (2 · 2n/2 ε)3 ; beachte, dass die B(i+1)/2n − Bi/2n N (0, 2−n )-verteilt sind. 5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN 51 Schritt 4: Wir setzen nun Yn := min0≤k≤n2n −3 Zn,k . Dann ist P(Yn ≤ ε) die Wahrscheinlichkeit dafür, dass ein Pfad irgendwo“ auf [ 0, n ] auf dem 2−n ” Gitter nur wenig schwankt“. Sn2n −3 ” Wir definieren Fn,ε := {Yn ≤ ε}. Es ist dann klar, dass Fn,ε ⊂ k=0 En,k,ε , und folglich gilt P(Fn,ε ) ≤ n2n (2 · 2n/2 ε)3 . −n Schritt 5: Wir T setzen jetzt εn := n2 . Dann geht P(Fn,εn ) gegen Null, und deswegen ist n≥n0 Fn,εn eine Nullmenge für jedes n0 . Damit ist auch N := [ \ Fn,εn n0 n≥n0 eine Nullmenge: Das ist die Menge, von der wir L ⊂ N zeigen wollen. Schritt 6: L ⊂ N Beweis dazu: Es sei ω ∈ L. Es gibt also t0 , K, δ, so dass |Bt0 +s (ω)−Bt0 (ω)| ≤ Ks für 0 ≤ s ≤ δ. Wähle n0 so groß, dass vier Punkte aus dem 2−n0 -Gitter in [ t0 , t0 + δ ] fallen8 . Wir richten es dabei so ein, dass k k+1 k+2 k+3 k−1 < t0 ≤ n0 < n0 < n0 < n0 ≤ t0 + δ. 2 n0 2 2 2 2 Die t0 + i/2n0 sind für i = 0, 1, 2, 3 höchstens um 4/2n0 von t0 entfernt, und deswegen gilt wegen Schritt 1: |B(i+1)/2n0 (ω) − Bi/2n0 (ω)| ≤ 8K/2n0 . Damit ist auch Yn0 (ω) ≤ 8K/2n0 . Für Zahlen n mit n ≥ n0 ergeben sich die gleichen Abschätzungen, und wenn wir n0 ≥ K annehmen, heißt das, dass ω in Fn,εn liegt. Zusammen: Es gibt ein n0 , so dass ω ∈ Fn,εn für alle n ≥ n0 ist. Und folglich ist ω ∈ N . ... nicht einmal Hölderstetig für Exponenten > 0.5 ... Zur Erinnerung: Eine Funktion f : [ a, b ] → R heißt Hölderstetig zum Exponenten γ, wenn für eine geeignete Konstante K stets |f (s) − f (t)| ≤ K|s − t|γ gilt. (Diese Definition ist für 0 < γ sinnvoll, für γ > 1 wird die Bedingung allerdings nur von den konstanten Funktionen erfüllt.) Das ist eine natürliche Verallgemeinerung der Lipschitzbedingung, die dem Fall γ = 1 entspricht. Die Bedingung besagt, dass f an jeder Stelle höchstens so schnell wie xγ bei Null wächst, insbesondere muss f dann stetig sein. Je kleiner γ ist, um so mehr kann f explodieren“. ” Für die Brownsche Bewegung ist 0.5 die kritische Grenze. Wir zeigen in den nächsten Sätzen, dass die Brownsche Bewegung nirgendwo Hölderstetig zu Exponenten > 0.5 und fast sicher Hölderstetig zu Exponenten < 0.5 ist. 8 Das heißt: 2−n0 ≤ δ/4. Es soll auch n0 2n0 > t0 sein. 52 KAPITEL 5. DIE BROWNSCHE BEWEGUNG Satz 5.2.4 Es sei (Bt ) eine Brownsche Bewegung. Für γ > 0.5 gilt dann fast sicher: Es gibt kein Intervall [ a, b ] mit a < b, so dass s → 7 Bs (ω) auf [ a, b ] Hölderstetig zum Exponenten γ ist. Beweis: Sei H ⊂ Ω die Menge der ω, für die so eine Hölderbedingung erfüllt ist. Ziel: H ist eine Nullmenge. Etwas allgemeiner als oben definieren wir die quadratische Variation auch für Teilintervalle: Q[ a,b ] bezeichnet die quadratische Variation der Brownschen Bewegung auf [ a, b ]. Wie oben kann man dann leicht zeigen, dass die Zufallsvariablen X (Bti − Bti−1 )2 fast sicher gegen b − a gehen, wenn wir Zerlegungen Z von [ a, b ] betrachten, für die die δ(Z) so schnell gegen Null konvergieren, dass sie sogar aufsummierbar sind. Sei N die Menge der ω, für die Q[ a,b ] (ω) = 0 ist für irgendein nichttriviales Intervall mit rationalen Endpunkten. Das ist sicher eine Nullmenge, denn fast sicher ist diese Zahl gleich b − a > 0, und es geht nur um abzählbar viele Bedingungen. Wir wollen zeigen, dass H ⊂ N ist. Sei dazu ω ∈ H, der zu ω gehörige Pfad erfülle auf [ a, b ] (nichttrivial, rationale Endpunkte) die Hölderbedingung. Dann gilt doch für eine Zerlegung von [ a, b ]: X X (Bti − Bti−1 )2 ≤ K 2 |ti − ti−1 |2γ X = K2 |ti − ti−1 |2γ−1 |ti − ti−1 | 2γ−1 X ≤ K 2 δ(Z) |ti − ti−1 | 2γ−1 = K 2 δ(Z) (b − a). Und wenn die Z eine Zerlegungsfolge durchlaufen, so dass die δ(Z) schnell genug gegen Null gehen, geht die linke Seite gegen Q[ a,b ] (ω), die rechte gegen Null (da 2γ − 1 > 0). Folglich liegt ω in N . Wir beweisen noch ein weitergehendes Ergebnis, eine Verschärfung von Satz 5.2.3: Satz 5.2.5 Es sei (Bt ) eine Brownsche Bewegung und γ > 0.5. Mit H bezeichnen wir jetzt die Menge der ω, für die t 7→ Bt (ω) an irgendeiner Stelle t0 nach rechts Hölderstetig mit Exponent γ ist. Das soll bedeuten: Es gibt ein δ > 0 und ein K, so dass |Bt0 +s − Bt0 | ≤ Ksγ für alle |s| ≤ δ gilt. Dann gibt es eine Nullmenge mit H ⊂ N . Beweis: Zunächst sei bemerkt, dass das eine weitreichende Verschärfung von Satz 4.2.4 ist. Der Beweis ist eine Modifikation des Beweises von Satz 5.2.3. 5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN 53 Schritt 1: Es sei f : [ 0, δ 0 ] → R Hölderstetig nach rechts zum Exponenten γ (Konstante: K). Für s, t ∈ [ 0, δ 0 ] ist dann |f (s) − f (t)| ≤ 2Kδ 0γ . Beweis dazu: Das ist wieder klar durch Vergleich mit f (0). Schritt 2: Es folgen wieder Definitionen. Wir fixieren diesmal ein r ∈ N, das erst später festgelegt wird. Zn,k ist wieder eine Zufallsvariable: diesmal das Maximum der Zahlen |B(k+i+1)/2n − B(k+i)/2n |, i = 0, . . . , r − 1. (Im obigen Beweis war r = 3.) Auch diesmal ist En,k,ε das Ereignis {Zn,k ≤ ε}, und wegen der Unabhängigkeit der Zuwächse ist P(En,k,ε ) ≤ (2 · 2n/2 ε)r . Schritt 3: Wir setzen jetzt Yn := min0≤k≤n2n −3 Zn,k und Fn,ε := {Yn ≤ ε}. Es gilt P(Fn,ε ) ≤ n2n (2 · 2n/2 ε)r . Schritt 4: Jetzt wird εn festgelegt: εn := n2−γn . Dann ist P(Fn,εn ) ≤ n2n (2 · 2n/2 n2−γn )r = 2r n1+r 2n(1+r(0.5−γ)) . Da γ > 0.5 gilt, können wir r so groß wählen, dass 1 + r(0.5 − γ) negativ ist. Dann ist die Reihe über die P(Fn,εn ) wieder endlich, und es folgt, dass [ \ N := Fn,εn n0 n≥n0 eine Nullmenge ist. Schritt 5: Es ist H ⊂ N . Beweis dazu: Sei ω ∈ H. Wir wählen t0 , K, δ so, dass |Bt0 +s − Bt0 | ≤ Ksγ für 0 ≤ s ≤ δ. Nun wird n0 festgesetzt, so groß, dass für n ≥ n0 • n > t0 und n > 2K(r + 1)γ . • Für ein geeignetes k ist k−1 k k+r < t0 ≤ n ≤ ≤ t0 + δ. 2n 2 2n Schritt 1, mit δ 0 = (r + 1)/2n , garantiert dann, dass |Bt0 +(i+1)/2n (ω) − Bt0 +i/2n (ω)| ≤ 2K(r + 1)γ 2−nγ ≤ εn 54 KAPITEL 5. DIE BROWNSCHE BEWEGUNG für i = 1, . . . , r. Damit ist Zn,k (ω) ≤ εn und folglich ω ∈ Fn,εn , und das bedeutet ω ∈ N. ... aber immerhin Hölderstetig für Exponenten < 0.5 Satz 5.2.6: Es sei γ < 0.5. Dann gilt fast sicher: Es gibt zu jedem ω und jedem t0 ein positives δ 0 , so dass t 7→ Bt (ω) Hölderstetig zum Exponenten γ auf [ t0 , t0 + δ 0 ] ist. Der Beweis wird etwas später geführt, das Ergebnis soll aus dem folgenden Stetigkeitssatz von Kolmogoroff 9 folgen: Satz 5.2.7: Es sei (Xt )t≥0 ein reellwertiger Prozess mit stetigen Pfaden. Es gebe positive Zahlen α, β, c, so dass stets gilt: E(|Xt − Xs |β ) ≤ c|s − t|1+α . Für jedes γ < α/β sind dann die Pfade von (Xt ) fast sicher Hölderstetig zum Exponenten γ. Beweis: Es reicht der Nachweis für (Xt )0≤t≤1 , der allgemeine Fall kann dann durch Herausnehmen abzählbar vieler Nullmengen darauf zurückgeführt werden. Aus Bequemlichkeit nehmen wir auch c = 1 an, was leicht durch Übergang zu Xt /c1/β erreicht werden kann. Sei δ > 0, es wird später festgesetzt. Für n ∈ N sei ∆n die Menge der i/2n mit i ∈ N, 0 ≤ i ≤ 2n . Schritt 1: Ist δ klein genug, so gilt für fast alle ω, dass für genügend große n die folgende Ungleichung erfüllt ist: |Xi/2n (ω) − Xj/2n (ω) ≤ |(i − j)/2n |γ , falls 0 ≤ i ≤ j ≤ 2n und j − i ≤ 2δn . Das ist schon die gesuchte Hölderbedingung auf den ∆n , allerdings wird der Gültigkeitsbereich für wachsende n immer winziger. Beweis dazu: Die Markovungleichung garantiert, dass P(|Y | > a) ≤ E(|Y |β )/aβ für a > 0. Für uns bedeutet das: P(|Xi/2n − Xj/2n | > |i − j| γ |i − j| 1+α−βγ ) ≤ . n 2 2n Ist Fn das Ereignis, dass es irgendwelche i, j mit 0 ≤ i ≤ j ≤ 2n und j − i ≤ 2δn gibt, so können wir P(Fn ) so abschätzen: P(Fn ) ≤ 2n 2δn 2δn 1+α−βγ , 2n 9 In einer anderen Version als der nachstehenden wird ausgesagt, dass (X ) eine gleicht t wertige Variante mit stetigen Pfaden hat. Dieser Teil des Satzes ist hier nicht interessant, da wir uns für Eigenschaften der Brownschen Bewegung interessieren, und das ist die Stetigkeit schon sichergestellt. 5.2. BROWNSCHE BEWEGUNG: EIGENSCHAFTEN 55 denn die Anzahl der zu berücksichtigenden Paare kann durch 2n 2δn abgeschätzt werden. Der rechte Ausdruck ist aber gerade 2nρ , mit ρ := (1 + δ) − (1 + α − βγ)(1 − δ), und da 1 + α − βγ strikt positiv ist, lässt sich δ so wählen, dass ρ negativ ist. Mit ε := −ρ ist also P(Fn ) ≤ 2−εn , und das garantiert, dass ein ω fast sicher in nur endlich vielen Fn liegt. Das ist gerade die Behauptung. Schritt 2: Wir werden zeigen, dass für ein ω, das in nur endlich vielen Fn liegt, eine γ-Hölderbedingung erfüllt ist. Genauer: Es sei ω ∈ / Fn für n ≥ n0 , wir setzen f (t) := Xt (ω). Wir behaupten, dass es eine Konstante K so gibt, dass |f (r) − f (q)| ≤ K|r − q|γ für alle r, q ∈ [ 0, 1 ] mit q ≤ r und r − q ≤ 2−(1−δ)n0 . Beweis dazu: Da f stetig ist, reicht es, das für eine dichte Teilmenge zu beweisen. Wir nehmen an, dass r, q in einem ∆n mit n ≥ n0 liegen. Wir wählen ein m ≥ n mit der folgenden Eigenschaft: 2−(m+1)(1−δ) ≤ r − q ≤ 2−m(1−δ) . Anschließend suchen wir Punkte aus ∆m , die möglichst nahe“ bei q und r ” liegen: i j j+1 i−1 <q≤ m < m ≤r< m . m 2 2 2 2 • Wie groß kann |f (j/2m ) − f (i/2m )| werden? Es ist doch (j − i)/2m ≤ r − q ≤ 2−(1−δ)m . Damit ist 0 ≤ j − i ≤ 2mδ , und es folgt (wegen ω ∈ / Fm ) |f (j/2m ) − f (i/2m )| ≤ 2mδ γ . 2m • Wie groß kann |f (j/2m ) − f (r)| werden? Das Argument ist wirklich trickreich. Schreibe r als j/2m plus endlich viele 0 Summanden der Form a/2m , wobei gilt: a ∈ {0, 1}, m0 > m, und jedes m0 tritt höchstens einmal auf. Man findet diese Summanden, wenn man für die Zahl 2m r − j ∈ [ 0, 1 ] die Darstellung im Dualsystem ausrechnet. Wegen der Dreiecksungleichung, da die m0 > m sind und da jeder Summand nur einmal auftritt, ist |f (j/2m ) − f (r)| durch eine Summe aus Termen (2−(m+s) )γ über gewisse s > 1 abzuschätzen. Schätzen wir weiter ab, indem wir alle s berücksichtigen, folgt |f (j/2m ) − f (r)| ≤ C1 2−mγ mit einer nur von γ abhängigen Konstanten. 56 KAPITEL 5. DIE BROWNSCHE BEWEGUNG • Wie groß kann |f (i/2m ) − f (q)| werden? Das geht analog: ≤ C1 2−mγ . Und nun das Finale. Die vorstehenden Überlegungen zeigen, dass |f (r) − f (q)| ≤ 2−γm(1−δ) + 2C1 2−mγ , und das muss durch C2 |r − q|γ abgeschätzt werden. Wegen 2−(m+1)(1−δ) ≤ r − q ist |r − q|γ ≥ 2−γ(m+1)(1−δ) , und deswegen reicht es zu zeigen, dass 2−γm(1−δ) + 2C1 2−mγ ≤ C2 2−γ(m+1)(1−δ) für ein geeignetes C2 . Das wird genau dann gelten, wenn 2mδγ + 2C1 ≤ C2 2−γ(1+δ) 2mδγ . Damit ist klar, dass das für genügend große C2 garantiert werden kann: C2 muss nur so groß sein, dass 1 + 21−n0 δγ C1 ≤ C2 2−γ(1−δ) . Es folgt nun der Beweis von Satz 5.2.3 √ . Sei n ∈ N und X eine N (0, 1)verteilte Zufallsvariable. Für s < t ist t − sX so verteilt wie Bt − Bs , und deswegen gilt √ E(|Bt − Bs |2n ) = E(| t − sX|2n ) = E(|X|2n )|t − s|n . Folglich sind mit C = E(|X|2n ), β = 2n und α = n − 1 die Voraussetzungen des vorigen Satzes erfüllt. Die Hölderstetigkeit kann damit für alle γ < (n − 1)/(2n) garantiert werden, und da n beliebig groß gewählt werden kann, ist der Beweis für alle γ < 0.5 geführt. Kapitel 6 Stochastische Integrale und stochastische Differentialgleichungen Der Ausgangspunkt ist die folgende Problemstellung. Wenn sich ein Prozess gemäß einer Differentialgleichung entwickelt, so ist die lokale Änderung in einem kleinen“ Zeitintervall durch ” dZ(t) = f (Z(t), t)dt gegeben, man schreibt das kurz als Z 0 (t) = f (Z(t), t). In vielen Fällen gibt es aber eine Zufallsstörung“: Während des kleinen“ Zeitintervalls dt wird dZ(t) ” ” zusätzlich durch einen mehr oder weniger abgeschwächten Zufallseinfluss modifiziert. Modelliert man den normalisierten Zufall im Zeitraum [ t, t + dt ] durch dBt := Bt+dt − Bt für eine Brownsche Bewegung (Bt ), so kann man zu dZ(t) = f (Z(t), t)dt + g(Z(t), t)dBt übergehen; g ist folglich dafür verantwortlich, wie stark der Zufallseinfluss ist. Das ist eine stochastische Differentialgleichung. In diesem Kapitel soll präzisiert werden, was das bedeutet. 6.1 Riemann-Stieltjes-Integrale Rb Das übliche“ Integral a f (x) dx kann doch als Fläche zwischen dem Graphen ” von f und der x-Achse interpretiert werden. Alternativ kann man sich auch vorstellen, dass die Wegstückchen“ dx mit einer Wichtung f (x) versehen und ” dann aufsummiert werden: Das Integral wird durch X f (xi )(xi+1 − xi ) 57 58KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN approximiert, wobei die xi eine feine“ Unterteilung von [ a, b ] bilden. ” Nun gibt es eine Modifikation. Die Wegstückchen werden auch noch gewichtet, und zwar durch die Zuwächse einer Funktion g. Der Zielwert soll also durch X f (xi ) g(xi+1 ) − g(xi ) , die Riemann-Stieltjes-Summe, angenähert werden. Der vorstehende Fall ist darin enthalten, man muss nur g(x) = x setzen. Der jetzige Ansatz ist aber viel allgemeiner. Ist zum Beispiel g eine Treppenfunktion, die bei c um Eins springt und ist f stetig, so ist die entsprechende Summe nahe bei f (c), wenn die Unterteilung fein ist. Hier die wichtigsten Fakten zu diesem Ansatz: • Ist f stetig und g von beschränkter Variation1 , so gibt es eine Zahl R ∈ R mit der folgenden Eigenschaft: Wenn gegen P die maximale Zerlegungslänge Null geht, so konvergieren die f (xi ) g(xi+1 ) − g(xi ) gegen R. Man Rb schreibt statt R dann a f (x) dg(x), das ist das Riemann-Stieltjes-Integral . Beweisskizze für die Existenzaussage: 1. Schritt: P Ist Z : x0 = a < x1 < · · · < xn = b eine Zerlegung von [ a, b ], so schreibe IZ := f (xi ) g(xi+1 ) − g(xi ) . Zeige zunächst: Ist Z̃ eine Verfeinerung von Z (es gibt also mehr Zerlegungspunkte) und schwankt f auf jedem Zerlegungsintervall von Z um höchstens ε, so ist |IZ − IZ̃ | ≤ εV (g). 2. Schritt: Sind Z, Z̃ Zerlegungen und schwankt f auf jedem Zerlegungsintervall von Z und Z̃ um höchstens ε, so ist |IZ −IZ̃ | ≤ 2εV (g). Zum Beweis betrachte die gemeinsame Verfeinerung. 3. Schritt: Geht für die Zerlegungsfolge (Zn ) die maximale Zerlegungslänge gegen Null, so ist (IZn ) eine Cauchyfolge in R und folglich konvergent. Hier ist der zweite Schritt mit der Tatsache zu kombinieren, dass stetige Funktionen auf [ a, b ] gleichmäßig stetig sind. 4. Schritt: Der vorstehende Limes ist unabhängig von (Zn ). Sind nämlich (Zn ) und (Z̃n ) zulässige Zerlegungsfolgen, so betrachte Z1 , Z̃1 , Z2 , Z̃2 , . . .. auch diese Folge ist zulässig. Folglich konvergiert IZ1 , IZ̃1 , IZ2 , IZ̃2 , . . ., und die Folgen (IZn ) und (IZ̃n ) sind Teilfolgen.) • Dieses Integral hat Linearitätsund Stetigkeitseigenschaften: R R die üblichen R R (f1 + f2 ) dg = f1 dg + f2 dg, | f dg| ≤ ||f ||max V (g), . . . (V (g) soll die Variation von g bezeichnen.) • Mehr ist nicht zu erwarten: Wenn das Integral für alle stetigen f erklärt R werden kann und f 7→ f dg stetig ist, so ist g von beschränkter Variation. • Dieser Ansatz ist sehr allgemein: Für alle endlichen Rregulären“R Maße µ ” auf [ a, b ] gibt es eine monotone Funktion g, so dass f dµ = f dg für alle stetigen f gilt. P bedeutet: Es gibt ein M ∈ R, so dass i |g(xi+1 )−g(xi )| ≤ M für alle Unterteilungen a = x1 < · · · < xn = b von [ a, b ]. Das Supremum der links stehenden Zahlen heißt die Variation von g, diese Zahl wird hier mit V (g) bezeichnet. 1 Das 6.2. ITO-ISOMETRIE 59 Aus den vorstehenden Überlegungen scheint sich eine Motivation zu ergeben, wie man das in der Einleitung beschriebene Problem, in dem dBt auftrat, lösen RT könnte: Ist (Yt )t≥0 ein Prozess, so könnte man doch 0 Yt (ω) dBt (ω) pfadweise als Riemann-Stieltjes-Integral definieren: X Yti (ω) Bti+1 − Bti für Unterteilungen von [ 0, T ] berechnen und dann zum Limes übergehen, wobei die maximale Zerlegungslänge gegen Null geht. Doch leider ist dieser klassische Lösungsversuch für das vorliegende Problem zum Scheitern verurteilt, denn die Pfade der Brownschen Bewegung haben fast sicher keine endliche Variation (vgl. Satz 5.2.2(iii)). Es geht mit einer neuen Idee aber doch, das behandeln wir im nächsten Abschnitt. 6.2 Das stochastische Integral für stochastische Treppenfunktionen, die Ito-Isometrie Wie kann man es aber besser machen? Die Lösung ist das Ito-Integral, es wurde von Kiyoshi Ito (1915 – 2008) vorgeschlagen2 . Die Idee kann so beschrieben werden: Angenommen, man möchte für Objekte x eine Definition f (x) einführen, die auf direktem Weg mathematisch unsinnig ist. Dann kann man so vorgehen: • Zeige, dass für die x in einer Teilklasse T alles gut geht. • Setze die Definition dann mit Hilfe der Stetigkeit auf den Abschluss T − von T fort: f (x) := lim f (xn ), wobei xn → x. Dazu muss natürlich eine geeignete Topologie vorliegen, und die Definition muss von der zufälligen Wahl der Folge xn unabhängig sein. Beispiele, in denen man genau so verfährt, sind: 1. Die Definition von ax für a > 0 und x ∈ R. (Es geht natürlich auch einfacher mit Hilfe der Exponentialfunktion: ax := exp(x log a).) 2. Die Definition der Fortsetzung von linearen stetigen Abbildungen von einem normierten Raum auf seine Vervollständigung. 3. Die L2 -Fourier-Transformation. Und hier soll die Idee zur Definition des stochastischen Integrals eingesetzt werden. 2 Erst in den letzten Jahren ist klar geworden, dass Wolfgang Döblin (1915 –1945) schon früher einen ähnlichen Ansatz vorgeschlagen hatte. 60KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN Für unsere Zwecke ist die folgende Variante dieser Technik genügend allgemein3 . Lemma 6.2.1 Es seien (M, d) und (M 0 , d0 ) metrische Räume. Von M 0 setzen wir voraus, dass dieser Raum vollständig ist. Ist dann M0 eine dichte Teilmenge von M und f : M0 → M 0 eine Lipschitzabbildung, so gibt es genau eine stetige Fortsetzung F : M → M 0 von f auf M . Zusatz 1: Falls f eine Isometrie ist, so auch F . Zusatz 2: Sind M und M 0 normierte Räume und ist f linear, so ist auch F linear. Beweis: Sei x ∈ M , wir schreiben x = lim xn . (xn ) ist eine Cauchyfolge, wegen der Lipschitzbedingung ist dann auch (f (xn )) eine Cauchyfolge. Setze F (x) := lim f (xn ). (Dieser Limes existiert wegen der Vollständigkeit). Es ist dann leicht einzusehen: • F (x) ist unabhängig von (xn ) definiert. • F (x) = f (x) für x ∈ M0 . • F genügt der gleichen Lipschitzbedingung wie f . Zusatz 1 folgt aus der Stetigkeit der Norm und Zusatz 2 aus der Stetigkeit der Addition. Und damit ist alles gezeigt. Wir beginnen mit zwei stochastischen Prozessen, einer ist die Brownsche Bewegung: (Yt )t≥0 und (Bt )t≥0 . Beide sollen auf dem gleichen Raum (Ω, E, P) definiert sein. (Yt )t≥0 spielt die Rolle des sich bewegenden Teilchens, wobei die Bewegung durch die Zufallseinflüsse (Bt ) gestört ist. Deswegen ist plausibel, dass Yt nur durch die Bs mit s ≤ t beeinflusst ist, oder anders ausgedrückt: Bezeichnet (Ft ) die von den (Bt ) erzeugte natürliche Filtration, so ist (Yt ) adaptiert, d.h. stets ist Yt Ft -messbar. RT Wir werden nun versuchen, für solche Situationen dem Integral 0 Yt dBt für alle T > 0 einen Sinn zu geben. Das soll mit Hilfe von Lemma 2.6.1 realisiert werden. Wir fixieren ein T > 0 und definieren Prozesse. RT 0 Yt dBt zunächst für ganz einfache“ ” Definition 6.2.2: Ein Prozess (Yt )0≤t≤T mit Y0 = 0 heißt elementar , wenn es eine Zerlegung 0 = t0 < t1 < · · · < tk = T von [ 0, T ] und Zufallsvariable Yi0 , i = 0, . . . , k − 1 so gibt, dass gilt: • Yi0 ist Fti -messbar für alle i. 3 Nicht viel schwieriger ist ein entsprechendes Ergebnis einzusehen, wenn statt der LipschitzBedingung eine Hölder-Stetigkeitsbedingung oder auch nur die gleichmäßige Stetigkeit gefordert wird. 6.2. ITO-ISOMETRIE 61 • Yt = Yi0 auf ] ti , ti+1 ] für i = 0, . . . , k − 1. Das kann man auch geschlossen schreiben: k−1 X Yt = Yi0 χ] ti ,ti+1 ] (t). i=0 Der Prozess startet also in Null, dann wird sofort auf Y00 umgeschaltet, ab t1 springt der Prozess auf Y10 usw. Dabei ist Y00 einfach eine Zahl, Y10 muss sich aus dem Verhalten von Bt auf [ 0, t1 ] ergeben4 , Y20 aus dem Verhalten von Bt auf [ 0, t2 ] usw. Wir fassen die auf [ 0, T ] definierten elementaren Prozesse (Yt ) als Abbildungen Y : [ 0, T ] × Ω, (t, ω) 7→ Yt (ω) auf. Es ist dann fast trivial einzusehen, dass die Gesamtheit dieser Prozesse einen linearen Raum bildet, wenn man die Linearstruktur des Raumes R [ 0,T ]×Ω übernimmt. Schwieriger ist die richtige Wahl der Norm für diese Funktionen. Wir werden mit der L2 -Norm arbeiten. Zugelassen sind also ab sofort nur noch Funktionen, die messbar bezüglich der Produkt-σ-Algebra auf [ 0, T ] × Ω sind und deren Quadrat ein endliches Integral hat (Produktmaß aus Lebesguemaß und P). Pk−1 Um zu erreichen, dass eine elementare Funktion i=0 Yi0 χ] ti ,ti+1 ] (s) diese Eigenschaft hat, muss man nur verlangen, dass alle Yi0 zu L2 (Ω, P) gehören, dass also die Varianz dieser Zufallsvariablen existiert. Wir schreiben das so: Z 1/2 0 ||Yi ||Ω := |Yi0 (ω)|2 (ω) dP(ω) < ∞. Ω Dann gehört die zugehörige elementare Funktion Y wirklich zum Raum L2 ([ 0, T ] × Ω), und die Norm ist auch leicht auszurechnen: Z ||Y ||2[0,T ]×Ω = |Y |2 d(λ[ 0,T ] ⊗ P) [ 0,T ]×Ω Z Z = Yt2 dP dλ(t) [ 0,T ] = X Ω ||Yi0 ||2 (ti+1 − ti ). i Nun soll das zugehörige stochastische Integral betrachtet werden. Es ist plausibel, das für elementare Prozesse durch X IY := Yi0 (Bti+1 − Bti ) 4 Zum Beispiel: Y 0 (ω) := 5, wenn max t≤t1 Bt (ω) > 1, und Null sonst. Nicht zulässig wäre 1 zum Beispiel die Definition: Y10 (ω) := 3, wenn maxt≤T +1 Bt (ω) > 8, und π sonst 62KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN zu definieren. Das ist eine auf Ω definierte Zufallsvariable. Um mit Normen arbeiten zu können, sollte sie im L2 (Ω) liegen, doch das kann nicht garantiert werden. Deswegen schränken wir den Bereich der betrachteten Prozesse weiter ein und betrachten nur noch beschränkte Yi0 . Dann ist die Norm ||IY ||Ω = 1/2 E[(IY )2 ] sicher endlich, und bemerkenswerter Weise wird sich gleich zeigen, dass Y 7→ IY eine lineare Isometrie ist. Das ist die Ito-Isometrie, die Grundlage der stochastischen Integration. Zunächst fassen wir die bisherigen Schritte auf dem Weg zum stochastischen Integral zusammen: • Wir fixieren T > 0 und betrachten Prozesse (Yt )0≤t≤T . Sie sollen die Form Pk−1 Yt = i=0 Yi0 χ] ti ,ti+1 ] (t) haben, wobei die ti eine Zerlegung von [ 0, T ] bilden. • Yi0 ist jeweils Fti -messbar (natürliche Filtration zu (Bt )), und aus technischen Gründen betrachten wir vorläufig nur elementare Prozesse, bei denen alle Yi0 beschränkt ist. Die Menge der so entstehenden Y ist ein Unterraum von L2 ([ 0, T ] × Ω): Das lässt sich leicht ausrechnen. Er soll für die nächsten Untersuchungen mit V bezeichnet werden. P • Wir definieren dann IY := Yi0 (Bti+1 − Bti ) für Y ∈ V . Es ist offensichtlich, dass Y 7→ IY eine lineare Abbildung ist. Und hier der Schlüsselsatz“: ” Satz 6.2.3: Mit den vorstehenden Definitionen gilt ||Y ||[ 0,T ]×Ω = ||IY ||Ω (Ito-Isometrie). Beweis: Es ist praktisch, mit den Quadraten der Normen zu rechnen. Das P Quadrat der linken Seite haben wir schon bestimmt: ||Yi0 ||2Ω (ti+1 − ti ). Das 2 P 0 Quadrat der rechten Seite ist der Erwartungswert von Yi (Bti+1 − Bti ) . Ein typischer Summand dieser quadrierten Summe hat nach Ausmultiplizieren die Form Yi0 (Bti+1 − Bti )Yj0 (Btj+1 − Btj ). Wir betrachten zwei Fälle: Fall 1: i 6= j Sei etwa i < j. In diesem Fall ist Yi0 (Bti+1 − Bti )Yj0 Ftj -messbar und folglich von Btj+1 − Bji unabhängig. Da alle auftretenden Erwartungswerte existieren5 , der Erwartungswert für Produkte unabhängiger Zufallsvariablen multiplikativ ist und E(Btj+1 − Bji ) = 0 gilt, verschwindet der Erwartungswert dieses Summanden. 5 Deswegen hatten wir sicherheitshalber die Beschränktheit der Yi0 vorausgesetzt. 6.2. ITO-ISOMETRIE 63 Fall 2: i = j Jetzt ist der Erwartungswert von Yi02 (Bti+1 − Bti )2 zu ermitteln. Wieder wegen der Unabhängigkeit ist das gleich E(Yi02 )E((Bti+1 − Bti )2 ). Dabei ist der erste Faktor gleich ||Yi0 ||2Ω , der zweite gleich der Varianz von Bti+1 − Bti , also gleich ti+1 − ti . Und damit ist alles gezeigt. Es ist also Y 7→ IY eine lineare Isometrie von V nach L2 (Ω), und wir können Lemma 6.2.1 anwenden. Damit kann die Definition auf V − fortgesetzt werden (Abschluss im L2 ([ 0, T ] × Ω).) Das ist dann das Ito-Integral. Es wäre natürlich gut, etwas genauer zu wissen, welche Funktionen man dadurch erreicht hat. Es folgt eine Beschreibung: Satz 6.2.4: Sei (Yt )0≤t≤T ein Prozess, der – aufgefasst als Abbildung auf [ 0, T ] × Ω – messbar und quadratintegrabel ist. Dann gilt: (Yt ) gehört genau dann zu V − , wenn gilt: Für fast alle t ist Yt quadratintegrabel Ft -messbar. Damit gilt: Sind alle Yt quadratintegrabel und ist stets Yt Ft -messbar, so ist das Ito-Integral erklärt. Der Wert des Integrals – es ist eine Zufallsvariable auf Ω, die wir mit Z T Yt dBt 0 bezeichnen werden –, kann wie folgt bestimmt werden: • Finde Yn ∈ V mit ||Y − Yn || → 0. • Berechne die Zufallsvariablen IYn ∈ L2 (Ω). • Die Folge der (IYn ) ist in L2 (Ω) konvergent, der Limes ist das Ito-Integral RT Yt dBt . 0 Beweis: Eine Richtung ist klar: Auch im Abschluss bleibt die Adaptiertheit erhalten, und die Yt müssen nach dem Satz von Fubini fast sicher quadratintegrabel sein. Etwas aufwändiger ist die Umkehrung, dazu soll es nur eine Beweisskizze geben. Schritt 1: Die Behauptung stimmt, wenn Y beschränkt ist und stetige Pfade hat. Beweis dazu: Y sei vorgelegt. Yn ∈ V wird wie folgt definiert. Wir unterteilen (n) [ 0, T ] in n + 1 gleiche Teile: ti = iT /n, i = 0, . . . , n + 1. Setze, mit Yi := Yin , Yn := X (n) Yi χ] ti ,ti+1 ] . i Wegen der (gleichmäßigen) Stetigkeit der Pfade konvergieren die Yn punktweise gegen Y , aufgrund der Beschränktheit dann auch im L2 ; hier wird der Satz von der dominierten Konvergenz wichtig. Schritt 2: Die Behauptung stimmt, wenn Y stetige Pfade hat. 64KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN Beweis dazu: Betrachte Y [n] : Alles, was oberhalb (bzw. unterhalb) n (bzw. −n) liegt wird als n (bzw. −n) definiert. Wegen Schritt 1 liegen diese Zufallsvariablen in V − , und sie konvergieren (wieder nach dem Satz von der dominierten Konvergenz) gegen Y . Schritt 3: Die Behauptung stimmt für alle Y , die adaptiert sind. Beweis dazu: Hier ist es wesentlich, dass die stetigen Funktionen im L2 dicht liegen. Die Approximationen können dabei durch ein Faltungsintegral definiert werden, dadurch kann man sicherstellen, dass sie auch adaptiert sind. Wenn man weiß, wie ein Integral definiert ist, ist noch lange nicht klar, wie man es ausrechnet. In der elementaren Analysis etwa Rkostet es große Mühe, 1 allein aufgrund der Integraldefinition zu beweisen, dass 0 x2 dx = 1/3 gilt. Hier ist es ganz ähnlich: Es geht zwar manchmal, aber es ist extrem mühsam. In der Analysis wurde alles viel einfacher mit dem Hauptsatz der Differentialund Integralrechnung, hier spielt die Ito-Formel (die wir im nächsten Kapitel behandeln werden) eine ähnliche Rolle. Als typisches und eher abschreckendes Beispiel behandeln wir das Integral Bt dBt . Als Vorbereitung benötigen wir das 0 Pk−1 Lemma 6.2.4: Ist Y = i=0 Yi0 χ] ti ,ti+1 ] (t) elementar und sind die Yi0 und die Yi0 Bt quadratintegrabel, so ist Y ∈ V − , und es gilt RT Z T Yt dBt = 0 k−1 X Yi0 (Bti+1 − Bti ). i=0 Beweis: Das beweist man wieder durch geeignete Approximation: Die Yi0 werPk−1 [n] [n] den bei ±n abgeschnitten“: Yi . Die i=0 Yi χ] ti ,ti+1 ] approximieren Y , und ” Pk−1 die Bilder unter der Integrationsabbildung approximieren i=0 Yi0 (Bti+1 −Bti ). Dabei spielt der Satz von der majorisierten Konvergenz wieder eine wichtige Rolle. Nach dieser Vorbereitung behandeln wir ein erstes nichttriviales Beispiel: RT Satz 6.2.5: 0 Bt dBt = (BT2 − T )/2. Beweis: Für n ∈ N wird der Prozess Y [n] durch [n] Yt := n−1 X BiT /n χ] i/n,(i+1)T /n ] i=0 erklärt. Aufgrund des vorigen Satzes liegen die Y [n] in V − und ihr Ito-Integral P ist leicht berechenbar: i BiT /n (B(i+1)T /n − Bi/n T ). Schritt 1: Y [n] → (Bt )t∈[ 0,T ] . 6.2. ITO-ISOMETRIE 65 Beweis dazu: Wir berechnen den Erwartungswert des Abstandsquadrats: ||Y [n] − (Bt )t∈[ 0,T ] ||2 T Z Z Ω = = Z (BiT /n − Bt )2 dP dt Ω (i+1)T /n (t − i0 /n) dt iT /n X 1 T2 i 2 = (i+1)T /n iT /n XZ i = 0 XZ i [n] |Yt (ω) − Bt (ω)|2 dt dP = 2 n2 T . 2n Da das gegen Null geht ist Y [n] → (Bt )t∈[ 0,T ] bewiesen. RT Schritt 2: 0 Y [n] dBt → (BT2 − T )/2. Beweis dazu: Wenn man für das Integral die Definition einsetzt, so ist das Abstandsquadrat zwischen Folge und rechter Seite gleich Z 2 BT2 − T X An := − BT i/n (BT (i+1)/n − BT i/n ) dP . 2 Ω i Eine längliche Rechnung wird zeigen, dass An = iT T 2 X iT (i + 1)T − − , 2 n n n i RT und da die rechte Summe eine Riemannsumme zur Berechnung von 0 xdx ist, gilt An → 0 wie behauptet. Teilschritt 2.1: Ist X N (0, 1)-verteilt, so ist E(X 4 ) = 3. Es folgt dann: Ist Y N (0, d)-verteilt, so ist E(Y 4 ) = 3d2 . Insbesondere ist also E(BT4 ) = 3T 2 . 2 2 Beweis dazu: Schreibe den hier auftretenden Integranden x4 e−x /2 als x3 xe−x /2 = uv 0 und führe dann eine partielle Integration aus. So folgt Z 2 3 E(X 4 ) = √ x2 e−x /2 dx, 2π R und das ist gerade das Dreifache der Varianz von X. √ Der Zusatz ist klar, denn Y hat die gleiche Verteilung wie dX. Teilschritt 2.2: Wir nennen die Zufallsvariablen unter dem Integral in der Definition von An jetzt S1 − S2 − S3 . S1 = BT /2, S2 = T /2 (eine Konstante), und S3 ist die Summe. An ist dann der Erwartungswert von (S1 − S2 − S3 )2 , und deswegen müssen wir uns um sechs verschiedene Erwartungswerte kümmern. S1 S1 : Das ist in Teilschritt 2.1 vorbereitet: E(S12 ) = 3T 2 /4. 66KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN S1 S2 : Da die Varianz von BT gleich T ist, folgt E(S1 S2 ) = T 2 /4 0 − S1 S3 : Das ist der schwierigste Teil, wir setzen Bi0 := BiT /n und ∆i B := Bi+1 0 Bi . Dann ist X E(S1 S3 ) = E(BT2 Bi0 ∆i B) i = X 2 0 E (BT − Bi+1 ) + ∆i B + Bi0 Bi0 ∆i B. i Wenn wir das Quadrat ausmultiplizieren, so entstehen fast nur Produkte der Form ZW , wobei die Zufallsvariablen unabhängig sind und mindestens eine von beiden Erwartungswert Null hat. Deswegen ist dieser Anteil am Erwartungswert Null. (Beispiel: E(Bi03 ∆i B) = 0.) Einzig die Bi02 (∆i B)2 liefern einen Beitrag, nämlich T 2 (i/n) (i + 1)/n − i/n ; beachte, dass sie zweimal auftreten. Zusammen heißt das, dass E(S1 S3 ) = T 2 X i i+1 i . . n n n i S2 S2 : Das ist leicht, da S2 konstant ist: E(S22 ) = T 2 /4. S2 S3 : Der Erwartungswert von S3 ist gleich Null, da jeweils BT i/n von (BT (i+1)/n − BT i/n ) unabhängig ist und die Faktoren Erwartungswert Null haben. Da S2 , S3 unabhängig sind, folgt E(S2 S) = 0. S3 S3 : In Analogie zum Beweis der Ito-Isometrie 6.2.3 (Ausmultiplizieren, Fallunterscheidung nach gleichen bzw. verschiedenen Indizes) folgt E(S3 S3 ) = T 2 X i n i i+1 i − . n n Es ist Zeit für das Finale. An ist der Erwartungswert von S12 + S22 + S32 − 2S1 S2 − 2S1 S3 + 2S2 S3 und folglich gleich X i T2 − T2 2 n i wie behauptet. i+1 i − n n Schlussbemerkungen 1. Ohne große Mühe sind für das Ito-Integral gewisse Eigenschaften nachweisbar, RT die bei einem Integrationsprozess zu erwarten sind. So ist Y 7→ 0 Yt dBt linear, R T R t0 R T und es gilt 0 = 0 + t0 für 0 < t0 < T . 6.2. ITO-ISOMETRIE 67 2. In der Regel R t ist Y als Prozess für t ≥ 0 gegeben, und deswegen kann man durch Jt := 0 Ys dBs einen neuen Prozess (Jt )t≥0 erzeugen. Jedes Jt ist nur bis auf eine Nullmenge eindeutig bestimmt, und deswegen muss man recht genau argumentieren, wenn man Eigenschaften des ganzen Prozesses untersuchen möchte. Die Lösung besteht natürlich darin, mit ein für allemal gewählten Ap[n] proximationen (Yt )t≥0 zu arbeiten, deren Einschränkungen auf jedes Intervall [ 0, t ] zur Berechnung des Ito-Integrals verwendet werden können. Dann folgt: • (Jt )t≥0 ist wieder ein adaptierter Prozess. • Hat (Yt ) fast sicher stetige Pfade, so lässt sich Jt so konstruieren, dass auch dieser Prozess fast sicher stetige Pfade hat. • (Jt )t≥0 ist ein Martingal: E(Jt1 |FT ) = JT für t1 > T . 3. Doch wie kann man mit dem Ito-Integral numerisch arbeiten, wie kann man es visualisieren? Das ist ein wichtiger Punkt, der im Rahmen dieser Vorlesung nur angerissen werden kann6 . Zunächst wird an eine entsprechende Situation aus der elementaren Analysis + erinnert. ist, wie verschafft man sich ein Bild von R t Wenn f : R → R stetig t 7→ 0 f (s)ds? Das ist sehr einfach7 : Lege eine kleine“ Schrittweite h fest und ” definiere rekursiv x0 := 0, xk+1 := xk +f (kh)h. Dann ist xk eine Approximation R kh von 0 f (s) ds, denn xk ist gerade eine Riemannsumme zum Integral von f auf [ 0, kh ]. Und diese Idee kann hier übertragen werden, es heißt dann das Verfahren von Euler-Maruyama. Danach erhält R t man einen ”typischen“ Pfad des stochastischen Integrals, also t 7→ Jt (ω) = 0 Ys (ω) dBs (ω) wie folgt: • Bereite einen Zufallsgenerator Z vor, der N (0, 1)-erzeugte Ausgaben liefert. • Setze x0 := 0 (das Integral), b0 := 0 (die Brownsche Bewegung) und y0 := 0 (der Y -Pfad). • Bestimme eine genügend kleine“ Schrittweite h. ” √ • Für das update verfahre wie folgt. Zunächst ist bk+1 = bk + hZ und xk+1 = xk + yk (bk+1 − bk ). Und dann ist yk+1 auszurechnen, das soll eine Approximation von Y(k+1)h (ω) sein, und da der Prozess adaptiert ist, sollte dieser Wert irgendwie durch die y1 , . . . , yk und die b0 , . . . , bk+1 ausgedrückt werden können. Ist es berechtigt zu erwarten, auf diese Weise realistische Bilder der Pfade t 7→ Jt (ω) zu erhalten? Eine erste Analyse identifiziert zwei Fehlerquellen. Die 6 Es ist zu bemerken dass es bei der Visualisierung von chaotischen Prozessen und in der Fraktaltheorie ganz ähnliche Probleme wie hier gibt. 7 Formal geht es um das Euler-Verfahren für die Differentialgleichung y 0 = f, y(0) = 0. 68KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN erste kommt – wie in der elementaren Analysis – dadurch zustande, dass stetige Funktionen durch Werte an diskreten Stellen approximiert werden. Da ist zu hoffen, dass der Fehler bei genügend kleinem h kontrollierbar bleibt. Die zweite Fehlerquelle liegt in der Tatsache, dass das Ito-Integral nicht pfadweise, sondern nur durch eine Approximation im quadratischen Mittel definiert ist. Anders ausgedrückt: Wir haben eine Situation vor uns, bei der für die beteiligten Zufallsvariablen R, S (Approximation und wirkliches Ito-Integral) sichergestellt ist, dass E((R − S)2 ) klein“ ist. Dann ist auch |R − S|(ω) in der Regel“ klein, ” ” es kann aber (mit kleiner Wahrscheinlichkeit) große Abweichungen geben. Die Moral: Das, was man auf dem Bildschirm sieht, ist üblicher Weise nur mit großer Wahrscheinlichkeit, aber nicht hundertprozentig sicher, eine gute Approximation des wirklichen Prozesses. 4. Wie fast immer in der Mathematik kann man alles viel allgemeiner machen, wenn man die Idee verstanden hat. Tatsächlich haben wir von der Brownschen Bewegung nur gewisse Eigenschaften ausgenutzt: Dieser Prozess ist ein Martingal, die Pfade sind stetig usw. Deswegen ist es nicht wirklich überraschend, dass das stochastische Integral viel allgemeiner definiert werden kann. Das soll hier aber nicht weiterverfolgt werden. Rt 5. Man beachte die folgende Feinheit: Nur 0 Ys dBs (ω) ist ein sinnvoller AusRt druck, nicht aber 0 Ys (ω)dBs (ω). So kann man es nur für elementare Prozesse machen. Anders ausgedrückt: Das stochastische Integral ist ausdrücklich nicht pfadweise definiert. 6.3 Das stochastische Integral / stochastische Differentialgleichungen Der Ausgangspunkt dieses Kapitels war das Problem, dem Ausdruck f (Zt , t)dt + g(Zt , t)dBt (er soll gleich dZt sein) einen Sinn zu geben. Der zweite Summand war problematisch, durch das Ito-Integral ist dieses Problem gelöst. Das ist aber nur in der Integralfassung sinnvoll, und deswegen definieren wir: Definition 6.3.1: f, g seien stetige Funktionen (von einer offenen Teilmenge des R 2 nach R). Weiter seien (Yt ), (Zt ) stochastische Prozesse und (Bt ) eine Brownsche Bewegung. Diese Prozesse sind für t ≥ 0 auf einem Raum (Ω, E, P) definiert. Es wird vorausgesetzt, dass auch (Yt ) und (Zt ) stetige Pfade haben. (Ft ) bezeichnet die natürliche Filtration zu (Bt ), und wir setzen voraus, dass (Yt ) und (Zt ) adaptiert sind. (i) Wir sagen, dass die stochastische Differentialgleichung dYt = f (Zt , t)dt + g(Zt , t)dBt erfüllt ist, wenn für alle t ≥ 0 die Gleichung Z t Z t Yt (ω) = Y0 (ω) + f (Zs (ω), s) ds + ( Zt dBt )(ω) 0 0 6.3. STOCHASTISCHE DIFFERENTIALGLEICHUNGEN 69 fast sicher gilt8 . Man vermeidet also ausdrücklich, von dBt , der “Ableitung der Brownschen Bewegung” zu sprechen9 (ii) Konsequenterweise bedeutet deswegen, dass (Zt ) der Differentialgleichung dZt = f (Zt , t)dt + g(Zt , t)dBt genügt, dass man für t ≥ 0 die Gleichung Z t Z t Zt dBt )(ω) f (Zs (ω), s) ds + ( Zt (ω) = Z0 (ω) + 0 0 fast sicher garantieren kann. Wie kann man heuristisch Lösungen finden? Dazu ist nur das zu erweitern, was wir am Ende des vorigen Abschnitts ausgeführt haben: Es folgt eine Beschreibung des Euler-Maruyama-Verfahrens zum Auffinden von pfadweisen Lösungen von stochastischen Differentialgleichungen. Lösungen von dZt = f (Zt , t)dt + g(Zt , t)dBt , Z0 = Z 0 findet man wie folgt. • Wähle eine ausreichend kleine Schrittweite h. • Erzeuge eine Zufallszahl z0 , die wie Z 0 verteilt ist. N steht für die Simulation einer N (0, 1)-verteilten Zufallsvariablen. • Definiere rekursiv (zk ) wie folgt: √ zk+1 := zk + f (zk , kh)h + g(zk , kh) hN. Dann ist – mit hoher Wahrscheinlichkeit – die Folge (zk ) eine gute Approximation an einen möglichen Pfad der Lösung der vorgelegten stochastischen Differentialgleichung. Existenz- und Eindeutigkeitssätze Es ist aus theoretischen Gründen interessant, ob man die Existenz von Lösungen stochastischer Differentialgleichungen garantieren kann. Schon in der nicht-stochastischen Theorie muss man gewisse Voraussetzungen machen um zu vermeiden, dass die Lösungen “explodieren”. Bemerkenswerter Weise kommt man auch im stochastischen Fall mit ähnlich einfachen Voraussetzungen ans Ziel: Satz 6.3.2: Die Funktionen f und g seien stetig und linear beschränkt: Es gelte |f (x, t)| + |g(x, t)| ≤ C(1 + |x|) für ein geeignetes C und alle x ∈ R, 0 ≤ t ≤ t0 . Außerdem gelte eine Lipschitzbedingung in der Raum-Komponente: |f (x, t) − f (y, t)| + |g(x, t) − g(y, t)| ≤ D|x − y| 8 Das erste Integral ist ein gewöhnliches Riemann-Integral. gibt es eine eigene, schwierige Therorie: die Theorie des “weißen Rauschens”. 9 Dazu 70KAPITEL 6. STOCHASTISCHE INTEGRALE/DIFFERENTIALGLEICHUNGEN (D geeignet, alle x, y). Dann gibt es für vorgelegtes Z 0 im Wesentlichen genau eine Lösung der stochastischen Differentialgleichung dZt = f (Zt , t)dt + g(Zt , t)dBt , Z0 = Z 0 für 0 ≤ t ≤ t0 . Beweis: Die Existenz wird wie beim Satz von Picard-Lindelöf bewiesen. Man (0) definiert induktiv Prozesse durch Zt := Z 0 und (k+1) Zt 0 Z := Z + t f (Zs(k) , s) ds 0 Z + t g(Zs(k) , s) dBs 0 für 0 ≤ t ≤ t0 . Es lässt sich dann zeigen, dass die (Z (n) ) gegen eine Lösung der Differentialgleichung konvergieren. Für den Beweis der Eindeutigkeit sei φ(t) := ||Zt − Z̃t || der Abstand zur Zeit t für zwei potenzielle Lösungen. Man zeigt dann, dass Z t φ(t) ≤ A φ(s)ds 0 für eine geeignete Konstante A und alle t gilt. Das impliziert, dass φ identisch verschwindet. Kapitel 7 Die Ito-Formel Wir wissen nun, was ein stochastisches Integral (oder, fast gleichwertig, die Lösung R einer stochastischen Differentialgleichung) ist. Wir haben auch am Beispiel Bt dBt gesehen, dass es extrem schwierig sein kann, ein Integral konkret auszuwerten. Das ist damit ganz ähnlich wie in der elementaren Analysis. Dringend erforderlich sind damit Methoden, diese Situation zu verbessern, und das wichtigste Ergebnis in diesem Zusammenhang ist die Ito-Formel. Sie besagt, dass Funktionen von stochastischen Integralen wieder stochastische Integrale sind, und wenn man das geschickt anwendet, kann man viele konkrete Rechnungen ganz leicht erledigen. 7.1 Neue stochastische Integrale aus bekannten stochastischen Integralen Wir wollen die Idee durch ein Beispiel aus der elementaren Analysis motivieren. f sei eine Funktion und F ein Integral“: ” Z t F (t) = x0 + f (s) ds. 0 Nun ist eine stetig differenzierbare Funktion g : R 2 → R vorgelegt, wir definieren F̃ durch F̃ (t) := g t, F (t) , und wir fragen uns, ob auch F̃ ein Integral“ ist. ” Rt Behauptung: Es ist F̃ (t) = x̃0 + f˜(s) ds, wobei 0 • x̃0 = g(0, x0 ). • ∂g ∂g f˜(s) = (s, F (s)) + f (s) s, F (s) . ∂s ∂x Beweis dazu: Sei H(t) die rechte Seite der Gleichung in der Behauptung. Dann ist sicher H(0) = g(0, x0 ), und das stimmt mit F̃ (0) überein. Wir zeigen noch, 71 72 KAPITEL 7. DIE ITO-FORMEL dass die Ableitungen von H und F̃ übereinstimmen, womit die Behauptung dann bewiesen wäre. Das ist aber leicht einzusehen, denn nach bekannten Sätzen sind beide Ableitungen bei t gleich f˜(t). Beachte insbesondere die folgende Formel, die sich aus der mehrdimensionalen Kettenregel ergibt: dφ d dφ φ f (t), g(t) = f (t), g(t) f 0 (t) + f (t), g(t) g 0 (t); dt dx dy dabei haben wir die Variablen in φ als φ(x, y) geschrieben. Wenn wir also vorhaben, einen Katalog von Stammfunktionen anzulegen, so könnten wir aufgrund dieses Ergebnisses so verfahren: • Bestimme auf irgendeine Weise eine Stammfunktion, zeige also zum Beispiel, dass Z t t4 F (t) = 7 + =7+ s3 ds; 4 0 hier ist also x0 = 7 und f (s) = s3 . • Wähle irgendeine Funktion in s und x, etwa g(s, x) := s2 + 4sx + 1. • In diesem Fall ist F̃ (t) = g(t, F (t)) = t2 + t5 + 28t + 1. • Bestimme (∂g/∂s)(s, x) = 2s + 4x und (∂g/∂x)(s, x) = 4s. • Ermittle damit f˜(s) = 2s + 4(s4 /4 + 7) + s3 s = 2s + 5s4 + 28. • Berechne x̃0 = g(0, x0 ) = 1. • Unsere Behauptung liefert, dass t2 + t5 + 1 + 28t = 1 + Z t (2s + 5s4 + 28) ds. 0 • Und wenn irgend jemand eine Stammfunktion zu 2s + 5s4 + 28 braucht, so haben wir das schon vorbereitet. Ähnlich bescheiden ist der Anspruch der Ito-Formel. Mit ihr können stochastische Integrale sozusagen auf Vorrat“ gelöst werden. Ob das im gerade in” teressierenden Fall hilft, ist dann Glückssache, und viel Erfahrung wird sicher hilfreich sein. 7.2 Die Ito-Formel In Definition 6.3.1 hatten wir sehr allgemein den Begriff stochastisches Integral“ ” eingeführt. Wir gehen nun zu einer etwas kompakteren Schreibweise über: • (Bt ) sei eine Brownsche Bewegung, und die Prozesse (Ut ) und (Yt ) seien an die natürliche Filtration adaptiert: Wir setzen voraus, dass sie stetige Pfade haben. 7.2. DIE ITO-FORMEL 73 • (Xt )t≥0 sei das zugehörige stochastische Integral (X0 gibt den Startwert an): Fast sicher gilt Z t Z t Ys dBs (ω). Xt (ω) = X0 (ω) + Us (ω)ds + 0 0 Man beachte dabei, dass das ω beim rechten Integral außen steht, denn es ist nicht pfadweise definiert. Nun sei g(t, x) eine dreimal stetig differenzierbare Funktion. Wir setzen (Xt ) darin ein, betrachten also den Prozess X̃t := g(t, Xt ) : Ω → R. Der nachstehende Satz garantiert, dass auch (X̃t ) ein stochastisches Integral ist: Satz 7.2.1 (Ito-Formel, 1951): Definiere (mit den vorstehenden Bezeichnungen) eine Zufallsvariable und Prozesse durch X̃0 := g(0, X0 ). Ũs := ∂g 1 ∂g ∂2g (s, Xs ) + Us g(s, Xs ) + Ys2 2 (s, Xs ). ∂s ∂x 2 ∂x ∂g Ỹs := Ys (s, Xs ). ∂x Dann ist (X̃t )t das zu (Ũt )t , (Ỹt )t gehörige stochastische Integral: Z t Z t Ỹs dBs (ω). Ũs (ω)ds + X̃t (ω) = X̃0 (ω) + 0 0 Beweis: Es ist offensichtlich, dass die Prozesse (Ũt )t und (Ỹt )t adaptiert sind. Nun sei t > 0 fest vorgegeben. Wir wollen X̃t berechnen und dabei die auftretenden Integrale durch gute Approximationen ersetzen. Dazu erinnern wir zunächst an die Taylorformel: Ist (t0 , x0 ) vorgelegt und sind h, y sehr klein“, ” so kann g(t0 + h, x0 + y) − g(t0 , x0 ) gut durch Pt h + Px y + 1 Ptt h2 + 2Ptx hy + Pxx y 2 2 approximiert werden. Dabei bezeichnen die P die verschiedenen partiellen Ableitungen von g bei (t0 , x0 ), z.B. ist Ptx = (∂ 2 g/∂t∂x)(t0 , x0 ). Der Fehler ist ein klein-o-Quadrat der Abweichung. Wir geben eine sehr feine“ Unterteilung 0 = t0 < · · · < tm = t von [ 0, t ] ” vor. Die Idee: Wir wollen so approximieren, dass der Fehler mit maxi |ti+1 − ti | gegen Null geht. Es ist X̃t = g(t, Xt ) = g(0, X0 ) + m−1 X j=0 g(tj+1 , Xtj+1 ) − g(tj , Xtj ) ; 74 KAPITEL 7. DIE ITO-FORMEL das ist einfach eine Teleskopsumme. Die Summanden werden nun mit der Taylorformel approximiert, so werden sich nach und nach die Terme ergeben, die bei der Berechnung des stochastischen Integrals zu den Ũ , Ỹ auftreten. Wir approximieren: g(tj+1 , Xtj+1 ) − g(tj , Xtj ) = ∂g (tj , Xtj )(tj+1 − tj ) + (:= δj1 ) ∂s ∂g + (tj , Xtj )(Xtj+1 − Xtj ) + (:= δj2 ) ∂x ∂2g +0.5 2 (tj , Xtj )(tj+1 − tj )2 + (:= 0.5δj3 ) ∂s ∂2g + (tj+1 − tj )(Xtj+1 − Xtj ) + (:= δj4 ) ∂s∂x ∂2g +0.5 2 (tj , Xtj )(Xtj+1 − Xtj )2 + (:= 0.5δj5 ) ∂x +Restglied. Nebenbei haben wir die einzelnen Summanden als δjk definiert, dabei ist k natürlich kein Exponent. Das Restglied ist dabei jeweils (für jedes j) ein klein-o von |Xtj+1 − Xtj | + |tj+1 − tj |. P Was approximiert j δjk , k = 1, . . . , 5? Wir behandeln diese Summen einzeln für die verschiedenen k, eine Beweiskritik folgt im Anschluss. Rt P 1 δj : Diese Summe tritt als Riemannsumme auf, wenn man 0 (∂g/∂s)(s, Xs ) ds P 1 berechnet. δ approximiert also den ersten Summanden, der bei der BerechRt j nung von 0 Ũs ds zu berücksichtigen ist. P 2 δj : Es ist doch Z tj+1 Xtj+1 − Xtj = Z tj+1 Us ds + tj Ys dBs , tj und wenn wir annehmen, dass tj+1 − tj klein genug ist, dürfen wir δj2 wegen der Stetigkeit von ∂g/∂x durch Z tj+1 Z tj+1 ∂g ∂g (s, Xs )Us ds + (s, Xs )Ys dBs ∂x ∂x tj tj approximieren. Summieren wir über alle j, so erhalten wir wieder einige derjenigen Summanden, die bei der Berechnung des stochastischen Integrals aus Ũ und Ỹ auftreten: der zweite von Ũs und der zu Ỹs . (Es fehlt also nur noch der dritte aus der Integration gegen Ũs ). P 3 δj : Setzt man M := das Maximum der auftretenden Zahlen |∂ 2 g/∂s2 (tj , Xtj )|, so ist | X X δj3 | ≤ M max |tj+1 − tj | (tj+1 − tj ) = tM max |tj+1 − tj |. j 7.2. DIE ITO-FORMEL 75 Das geht gegen Null mit max |tj+1 − tj | → 0. P 4 P δj : Hier argumentieren wir ähnlich. | δj4 | ist abschätzbar durch die Zahl M 0 t max |Xtj+1 − Xtj |, wobei M 0 das Maximum der |(∂ 2 g/∂s∂x)(tj , Xtj )| ist. Und dieser Ausdruck geht wegen der Stetigkeit der t 7→ Xt (ω) gegen Null. P 5 P 5 δj : Wir behaupten, dass δj den noch fehlenden Summanden in der approximativen Berechnung des Ũ -Ỹ -Integrals approximiert: X δj5 ≈ X Yt2j j ∂2g (tj , Xj )(tj+1 − tj ). ∂x2 Der Beweis wäre dann – bis auf Nachbesserung der Feinheiten – geführt. Zunächst setzen wir für den Faktor Xtj+1 − Xtj in δj5 die folgende Approximation ein: Xtj+1 − Xtj ≈ Utj (tj+1 − tj ) + Ytj (Btj+1 − Btj ). Das ist aufgrund der Integraldefinition gerechtfertigt. Definiere nun gj := (∂ 2 g/∂x2 )(tj , Xj ), ∆j t := tj+1 − tj und ∆j B := Btj+1 − Btj . Dann ist δj5 ≈ gj Ut2j (∆j t)2 + 2gj Utj (∆j t)(∆j B) + gj Yt2j (∆j B)2 . δj5 in drei Summen, die wir gesondert behandeln P 1. Da ist zunächst j gj Ut2j (∆j t)2 . Diese Summe geht gegen Null, das Argument P 3 ist so wie im Fall von δj . P 2.Als nächstes untersuchen wir j gj Utj (∆j t)(∆j B). Auch das geht gegen Null, P 4 man kopiere den Beweis für δj . P 2 2 3. Es bleibt noch j gj Ytj (∆j B) zu untersuchen, wir behaupten, dass das P 2 durch j gj Ytj ∆j t approximiert werden kann. Dazu rechnen wir wieder den Erwartungswert des Quadrats der Differenz aus: X 2 E gj Yt2j ((∆j B)2 ) − ∆j t . Damit zerfällt P Mit den schon mehrfach angewandten Techniken reduziert sich das auf m Summanden, mit Aj := gj Yt2j erhalten wir X E A2j ((∆j B)2 ) − ∆j t 2 = X = X j E(A2j )E (∆j B)4 − 2(∆j t)(∆j B)2 + (∆j t)2 j E(Aj ) 3(∆j t)2 − 2(∆j t)2 + (∆j t)2 j = 2 X j E(Aj )(∆j t)2 . 76 KAPITEL 7. DIE ITO-FORMEL Dabei haben wir die früher bewiesene Gleichung E(Bt4 ) = 3t2 ausgenutzt. Damit sind wir fertig, denn es wurde schon mehrfach bemerkt, dass derartige Ausdrücke gegen Null gehen. Beweiskritik: Obwohl der Beweis recht umfangreich war, sind einige Punkte noch ergänzungsbedürftig: • Eigentlich müsste das Restglied in der Taylorformel noch berücksichtigt werden: Dieser Fehler ist – bei beliebigem ε – von der Größenordnung P ε( (∆j t)2 + (∆j B)2 ) und konvergiert deswegen gegen Null. • Bei den Argumenten wären punktweise Konvergenz und L2 -Konvergenz zu unterscheiden. Der Grenzübergang unter dem Integral müsste noch durch den Satz von der majorisierten Konvergenz gerechtfertigt werden. • ... Schlussbemerkung: Mit einer Faustregel kann man sich die Itoformel leicht merken: • Berechne dX̃t mit einer Taylorformel zweiter Ordnung für g: dX̃t = ∂g ∂g 1 ∂2g ∂2g ∂2g dt + dXt + (dt)2 + 2 dtdXt + 2 (dXt )2 . 2 ∂t ∂x 2 ∂t ∂t∂x ∂x • Setze für dXt den Wert Ut dt + Yt dBt ein. • Ersetze alle (dt)2 und alle dtdBt durch 0 und alle (dBt )2 durch dt. 7.3 Anwendungen der Ito-Formel Es folgen einige Anwendungen. 1. Falls g in Wirklichkeit nicht von s abhängt, vereinfacht sich die Itoformel. Das gilt insbesondere dann, wenn es nur um das stochastische Integral geht, wenn also U = 0 ist: Rt Ist Xt = 0 Ys dBs , so gilt für zweimal stetig differenzierbares f : R → R: Z Z t 1 t 2 00 f (Xt ) = f (0) + Y f (Xs ) ds + Ys f 0 (Xs ) dBs . 2 0 s 0 2. Sicher ist richtig, dass Bt = Bt3 = Rt Z 0 0 t 1 dBs . Wir wählen f (x) := x3 und erhalten 1 6Bs ds + 3 2 Z 0 t Bs2 dBs . 7.3. ANWENDUNGEN DER ITO-FORMEL Auf diese Weise ergibt sich Z t Bs2 dBs = 0 Bt3 − 3 77 Z t Bs ds. 0 Rt 3. Wir beginnen wieder mit Bt = 0 1 dBs , es ist also Us = 0 und Ys = 1. Diesmal arbeiten wir mit g(s, x) := (x2 − s)/2. Das führt zu Ũs = −1/2 + 1/2 = 0 und Ỹs = Bs : Z t Bt2 − t = Bs dBs . 2 0 Man vergleiche das mit dem Aufwand, den wir im Beweis von Satz 6.2.5 führen mussten. 4. Sucht man eine Lösung für das Wachstum-Modell mit Störung, also für dNt = rNt dt + αNt dBt , so erhält man mit der Ito-Formel: 2 Nt = N0 e(r−α /2)t+αBt . Rt 2 Man muss die Ito-Formel nur auf Bt = 0 1 dBs und g(t, x) := e(r−α /2)t+αx anwenden. Es folgt: Durch die stochastische Störung wird die Bewegung quasi gedämpft. Es lässt sich übrigens zeigen, dass E(Nt ) = E(N0 )ert , die Erwartungswerte entwickeln sich also so wie im nicht-stochastischen Fall. 78 KAPITEL 7. DIE ITO-FORMEL Kapitel 8 Monte-Carlo-Verfahren zur Lösung stochastischer Differentialgleichungen In diesem Abschnitt soll skizziert werden, wie stochastische Differentialgleichungen zur Lösung partieller Differentialgleichungen benutzt werden. Es handelt sich um Monte-Carlo-Methoden, man muss also sehr oft“ simulieren, und die ” Ergebnisse erhält man nur approximativ und mit hoher Wahrscheinlichkeit ” soundso genau“. 8.1 Partielle Differentialgleichungen Die Problemstellung ist die folgende: Es ist D ⊂ R n gegeben, und man sucht eine Funktion f : D → R, die eine gewisse Gleichung erfüllt, in der die partiellen Ableitungen von f vorkommen und für die außerdem noch eine oder mehrere Zusatzbedingungen erfüllt sind. Hier zur Illustration einige typische Beispiele: • Wärmeleitungsgleichung: Es soll f : R + × R → R so gefunden werden, dass ∂f /∂t = ∂ 2 f /∂x2 im Bereich t > 0. Zusätzlich soll f (0, x) = f0 (x) (alle x) für eine vorgegebene Funktion f0 sein. • Potentialgleichung: D ⊂ R n sei beschränkt, und f0 : ∂D → R sei vorgegeben. Man sucht ein stetiges f : D → R, das auf dem Rand mit f0 übereinstimmt und im Innern von D der Gleichung ∂2f ∂2f + · · · + =0 ∂x21 ∂x2n genügt. Wie lassen sich solche Differentialgleichungen mit Monte-Carlo-Verfahren behandeln? 79 80 KAPITEL 8. MONTE-CARLO-VERFAHREN 8.2 n-dimensionale stochastische Differentialgleichungen Bisher hatten wir Prozesse (Xt )t≥0 mit Xt : Ω → R behandelt. Die Theorie ist ganz ähnlich, wenn man zu Xt : Ω → R n übergeht. Genauer: 2 • Es sei Ut : Ω → R n und Yt : Ω → R n ; jedes Yt (ω) soll also eine n × nMatrix sein. • Weiter sei (Bt )t≥0 eine n-dimensionale Brownsche Bewegung mit unabhängigen Komponenten. • Dann kann man wieder die stochastische Differentialgleichung dXt = Ut dt + Yt dBt , X0 = x0 betrachten. Die Lösung ist Z Xt = X0 + t Z Us ds + 0 t Ys dBs , 0 wobei das zweite Integral komponentenweise als Ito-Integral zu interpretieren ist. Auch dafür lassen sich Existenz- und Eindeutigkeitssätze beweisen, und es gibt eine n-dimensionale Variante der Ito-Formel. Die mehrdimensionale Itoformel“ soll hier nur für einen Spezialfall for” muliert werden: • Gegeben sei eine genügend glatte“ Funktion g : R n → R. Wir ” betrachten X̃t := g(Xt ), wobei Xt wie vorstehend ist. • Dann ist dX̃t = n X ∂g i=1 ∂xi • Es ist dXi durch (Ut )i dt + dXi + P 1 X ∂2g dXi dXj . 2 i,j ∂xi ∂xj k (Yt )ik d(Bt )k auszudrücken. 2 • Und dann ist zu vereinfachen: Alle (dt) , alle dt d(Bt )i und alle d(Bt )i d(Bt )j für i 6= j sind Null, und (d(Bt )i )2 = dt für alle i. • Wenn man dann alles zusammenfasst, ergibt sich: dX̃t = X ∂g i ∂xi (Ut )i + X ∂g X 1 X ∂2g (Yt Yt> )ij dt+ (Yt )ik d(Bt )k . 2 ij ∂xi ∂xj ∂xi i k 8.3. STOPPEN VON STOCHASTISCHEN PROZESSEN 8.3 81 Stoppen von stochastischen Prozessen Wir beginnen mit zwei Vorbereitungen. Dazu betrachten wir zunächst noch einmal die eindimensionale Situation: dXt = Ut dtR + Yt dBt . Eine wichtige Rolle t spielte die Definition des stochastischen Integrals 0 Ys dBs . Diese Definition soll nun verallgemeinert werden. Gegeben sei eine fast sicher endliche Stoppzeit τ . Zunächst nehmen wir an, dass sie durch ein T > 0 beschränkt ist. Wir definieren Zufallsvariable Ytτ durch Ytτ := Yt χτ ≤t . (Ys wird also auf Null gesetzt, sobald gestoppt wird.) Der Prozess (Ytτ )t ist wieder adaptiert, denn Yt und {τ ≤ t} sind stets Ft -messbar. Und deswegen können wir definieren: Z τ Z T Ys dBs := Ys dBs . 0 0 Für unbeschränkte τ wird dieses Integral – falls existent – als Limes der Zahlen R min{n,τ } Ys dBs erklärt. 0 R t Als zweite Vorbereitung bestimmen wir den Erwartungswert von Ito-Integralen Y dBs . Wir behaupten, dass er stets gleich Null ist. Für elementare Prozesse 0 s folgt das aus der Tatsache, dass stets Yi0 unabhängig von Bti+1 −Bti ist und deswegen der Erwartungswert von Yi0 (Bti+1 − Bti ) verschwindet. Und für beliebige Prozesse folgt die Behauptung durch Grenzübergang. Nun sei wieder (Xt )t≥0 ein Prozess wie im vorstehenden Abschnitt. Wir lassen ihn bei x0 starten. Weiter seien vorgegeben: • Eine fast sicher endliche Stoppzeit τ : Der Prozess zum Beispiel dann gestoppt, wenn er den Rand einer vorgegebenen Kugel trifft, die x0 enthält. • Eine genügend glatte“ Funktion g : R n → R. Das ist so etwas wie eine ” Wichtungsfunktion. Wir interessieren uns für den g-Wert zum Zeitpunkt des Stoppens, also für g(Xτ ). Über den Erwartungswert lässt sich etwas sagen: Satz 8.3.1 Wir definieren einen Prozess (Zt ) auf Ω durch Zt (ω) := n X i=1 00 (Ut )i (ω) ∂g 1X ∂2g (Xt (ω)) + (Yt (ω)Yt> (ω))ij (Xt (ω)). ∂xi 2 i,j ∂xi ∂xj Wenn wir die Pfade von (Zt ) bis zur Stoppzeit aufintegrieren, entsteht eine Zufallsvariable W : Z τ (ω) W (ω) = Zs (ω) ds. 0 82 KAPITEL 8. MONTE-CARLO-VERFAHREN Der Erwartungswert von g(Xτ ) ist dann gleich g(x0 ) + E W . Beweis: Wenn man die n-dimensionale Ito-Formel anwendet, folgt Z g(Xt ) = x0 + t Zs ds + 0 Z tX 0 (As )i d(Bs )i , i wobei (At ) ein vektorwertiger adaptierter Prozess ist. Ersetzen wir t durch τ und berechnen Erwartungswerte, so fällt der zweite Teil aufgrund unserer Vorbereitung weg, und so ergibt sich die Behauptung. 8.4 Die Dynkin-Formel Wir betrachten nun Lösungen stochastischer Differentialgleichungen. (Xt ) soll ein R n -wertiger Prozess sein, der die stochastische Differentialgleichung dXt = b(Xt ) dt + σ(Xt ) dBt erfüllt. Dabei ist b : R n → R n , und σ ordnet jedem x ∈ R n eine n × n-Matrix zu. Wir definieren im Interesse einer übersichtlicheren Formulierung einen Differentialoperator wie folgt (f soll dabei eine genügend glatte“ Funktion sein): ” X X 1 ∂2f ∂f (x) + (σσ > )ij (x) (x). Df (x) := bi (x) ∂xi 2 i,j ∂xi ∂xj i Satz 8.3.1 lässt sich dann so formulieren: Satz 8.4.1 (Dynkin-Formel): Ist τ eine fast sicher endliche Stoppzeit, so ist für glatte f Z τ E f (Xτ ) = f (x0 ) + E (Df )(Xs ) ds . 0 8.5 Monte-Carlo-Methoden für partielle Differentialgleichungen Die Grundidee besteht darin, die Dynkin-Formel für solche Funktionen zu nutzen, für die Df = 0 ist, die also Lösung der entsprechenden partiellen Differentialgleichung sind. Dann vereinfacht sich die Dynkinformel zu E f (Xτ ) = f (x0 ), 8.5. MONTE-CARLO-METHODEN FÜR PARTIELLE DIFFERENTIALGLEICHUNGEN83 und man kann so hoffen, f (x0 ) als Erwartungswert zu bestimmen, falls man die f (Xτ ) kennt. Die wesentlichen Ideen kann man schon am eindimensionalen Fall erklären. Uns interessiert eine Lösung des Problems 1 f : [ c, d ] → R, bf 0 + σ 2 f 00 = 0, f (c) = γ, f (d) = δ, 2 dabei sind b, σ : [ c, d ] → R Funktionen. Wir sind auch in der Lage, eine Lösung der stochastischen Differentialgleichung dXt = b(Xt )dt + σ(Xt )dBt zu simulieren. Mal angenommen, die Theorie der Differentialgleichungen garantiert, dass es genau eine Lösung f unseres Problems gibt. Für jede Stoppzeit τ ist dann aufgrund der Dynkinformel E f (Xτ ) = f (x0 ), wobei wir Prozesse betrachten, die bei x0 ∈ ] c, d [ starten. Wenn wir τ als Austritt aus [ c, d ] wählen, können wir die linke Seite durch Simulation bestimmen: Tritt der Prozess bei c aus, ist doch f (Xτ ) = γ, bei Austritt bei d gilt f (Xτ ) = δ. Verfahre also wie folgt: • Fixiere x0 ∈ ] c, d [, wir wollen f (x0 ) ermitteln, wobei f die eindeutig bestimmte Lösung des Problems bezeichnet. • Lasse sehr oft“, etwa n Mal, den Prozess bei x0 starten. Er trete etwa n1 ” Mal in c und n2 Mal in d aus [ c, d ] aus. • Unsere Approximation an E(f (Xτ )) und damit an f (x0 ) ist damit die Zahl n1 γ + n2 δ . n Allgemeiner – bei n Veränderlichen sieht das typische Verfahren so aus: • Man möchte eine partielle Differentialgleichung Df = 0 in einem beschränkten Gebiet D lösen. Für die Lösung f sollen die Randwerte vorgegeben sein: Es gibt eine Funktion f0 : ∂D → R, es soll f |∂D = f0 sein; dabei wurde f stetig auf den Rand von D fortgesetzt. Es gibt hoffentlich ein theoretisches Ergebnis, das Existenz und Eindeutigkeit der Lösung sichert. • Wähle, falls möglich, Funktionen b, σ, so dass D gerade derjenige Differentialoperator ist, den wir in Abschnitt 8.3 mit Hilfe von b und σ konstruiert haben. 84 KAPITEL 8. MONTE-CARLO-VERFAHREN • Wir wollen f punktweise ermitteln, dazu fixieren wir ein x0 ∈ D. Wir bezeichnen die zu b, σ gehörige Lösung der stochastischen Differentialgleichung, die bei x0 startet, mit (Xt ). • Nun simulieren wir Xt : Wir lassen den Prozess so lange laufen, bis er den Rand von D an einer Stelle y trifft. f0 (y) wird notiert. • Und dann wissen wir: f (x0 ) ist der Erwartungswert der f0 (y), also approximativ der Mittelwert sehr vieler“ Messungen. ” Bevor wir uns um Beispiele kümmern, soll auf einige grundsätzliche Probleme im Zusammenhang mit diesem Verfahren hingewiesen werden. • Wie kann man denn viele“ Pfade mit vertretbarem Zeitaufwand so lange ” simulieren, bis sie auf den Rand von D treffen? Bei der Brownschen Bewegung ist es noch relativ einfach. Lege eine größtmögliche Kugel um x0 in D. Wähle gleichverteilt einen Punkt aus. Setze mit diesem Punkt auf gleiche Weise fort. So lange, bis ein Punkt gefunden wurde, der sehr nahe“ am Rand von D liegt. Das Verfahren ist deswegen ” gerechtfertigt, weil alle Punkte des Randes einer Kugel um x0 die gleiche Wahrscheinlichkeit haben, als erste erreicht zu werden, wenn die Brownsche Bewegung bei x0 startet. • Was heißt denn sehr oft simulieren“? Dazu müsste man eigentlich Infor” mationen über die Varianz derjenigen Zufallsvariablen haben, für die man den Erwartungswert berechnet. • Natürlich kann man von den Funktionen b und σ ausgehen und dann den Differentialoperator bilden, den man mit der hier beschriebenen Methode behandeln kann. Wichtiger ist natürlich die umgekehrte Fragestellung: Der Differentialoperator D ist gegeben, und man möchte b und σ so bestimmen, dass der hier auftretende Operator gerade der Operator D ist. Wir kümmern uns zunächst um die letzte Fragestellung. Der allgemeine lineare Differentialoperator zweiter Ordnung für reellwertige Funktionen auf dem R n hat die Form Df = α(x)f + X i=1 βi (x) X ∂f ∂2f (x) + γij (x) (x). ∂xi ∂xi ∂xj i,j Notwendige Bedingungen für die Anwendbarkeit der hier vorgestellten Methoden sind also sicherlich, dass α die Nullfunktion und die Matrix (γij (x))ij für alle i, j positiv semidefinit ist (sie soll ja als σ(x)σ > (x) geschrieben werden.) Diese Bedingungen sind aber auch schon hinreichend. So lassen sich also leicht Anwendungsbeispiele finden. Es folgen noch Bemerkungen zur Potentialgleichung, das ist ein berühmtes Anwendungsbeispiel (vgl. Abschnitt 8.1). Definiert man nämlich b = 0 und die Funktion σ an jeder Stelle als die Einheitsmatrix, so ist D wirklich der zur 8.5. MONTE-CARLO-METHODEN FÜR PARTIELLE DIFFERENTIALGLEICHUNGEN85 Potentialgleichung gehörige Differentialoperator1 . Die zugehörige stochastische Differentialgleichung ist die vektorwertige Gleichung dXt = dBt , die Lösung ist damit ein n-Tupel von unabhängigen Brownschen Bewegungen. Im eindimensionalen Spezialfall lässt sich noch eine interessante Folgerung ziehen. Da geht es um 0.5f 00 = 0 auf [ 0, a ], und die Randwerte f (0) = α, f (a) = β sind vorgegeben. Die Lösung ist leicht explizit angebbar: f (x) = α + (β − α)x/a. Andererseits kann man sie doch punktweise so ermitteln: • Wähle ein x ∈ ] 0, a [ und lasse dort eine Brownsche Bewegung starten. Warte, bis sie aus dem Intervall austritt. Das möge mit Wahrscheinlichkeit p bei Null und mit Wahrscheinlichkeit 1 − p bei a passieren. Der f -Wert bei x muss dann pα + (1 − p)β sein. Und so schließen wir, dass p = (a − x)/a. 1 Wegen des Faktors 1/2 bei σσ > sollten wir besser die mit 0.5 multiplizierte Potentialgleichung untersuchen. 86 KAPITEL 8. MONTE-CARLO-VERFAHREN Kapitel 9 Finanzmathematik: einige grundlegende Begriffe Seit vergleichsweise kurzer Zeit hat sich ein neues mathematisches Gebiet etabliert: die auf stochastischen Methoden beruhende Finanzmathematik. Auslöser war sicher die zunehmende Bedeutung von Optionsgeschäften, bei deren Behandlung neue mathematische Verfahren eingesetzt werden mussten. Heute arbeiten Hunderte von Mathematikern daran, Risiken abzuschätzen und Preise von Optionen auszurechnen. In diesem Kapitel sollen einige grundlegende Begriffe eingeführt werden, die zum Verständnis der Ausführungen rund um die Black-Scholes-Formel wichtig sind. Wir behandeln hier: • Einige Grundbegriffe: Was sind Optionen, was ist Arbitrage? • Wie modelliert man Aktienkurse? • Wie kann man den Preis für eine Option berechnen? Wir zeigen das am Beispiel der europäischen Call-Option, zur Herleitung der Black-ScholesFormel im nächsten Kapitel werden wir die Ito-Formel anwenden. 9.1 Die Bank, Optionen und Arbitrage Aktien und die Bank Beim einfachsten Modell gibt es eine Börse und die Bank . An der Börse werden Aktien A1 , . . . , An gehandelt, der jeweilige Preis zur Zeit t sei Si (t). Diese Funktionen sind stochastische Prozesse. Bei der Bank hingegen gibt es keine Überraschungen. Es gibt einen Zinssatz r, und wenn man K Euro für t Zeiteinheiten anlegt, gibt es Kert Euro zurück. Der Einfachheit halber nehmen wir an, dass auch für das Borgen von Geld der Zinssatz gleich r ist. 87 88KAPITEL 9. FINANZMATHEMATIK: EINIGE GRUNDLEGENDE BEGRIFFE Was sind Optionen? Optionen sind Geschäfte, die man mit der Bank abschließt, um Risiken abzusichern. Hier ein Beispiel. Jemand hat einen Weinberg, nach der Ernte möchte er die Trauben verkaufen. Üblicherweise bekommt er K Euro pro Zentner. Da seine Kalkulation darauf beruht, möchte er sichergehen, dass das in diesem Herbst auch so sein wird. Er möchte deswegen einen Vertrag mit der Bank schließen, der folgenden Inhalt hat: Sollte der Einkaufspreis beim vereinbarten Zeitpunkt nur bei K 0 < K liegen, gleicht das die Bank durch eine Zahlung von K − K 0 aus. Im Fall K 0 ≥ K hat die Bank keine Verpflichtungen. Das ist ein Beispiel für eine europäische Put-Option. K heißt dabei der Strike-Preis. Als zweites Beispiel betrachten wir jemanden, der dringend am 1. Januar des nächsten Jahres 10.000 Dollar braucht, um seine Angestellten in den USA auszuzahlen. Üblicherweise bekommt man 10.000 Dollar für K Euro. Es gäbe ein Problem, wenn der Kurs bei K 0 > K läge. Deswegen wäre ein Vertrag hilfreich, bei dem in diesem Fall die Bank die Differenz K 0 −K übernimmt. So ein Vertrag entspricht einer europäischen Call-Option mit Strike-Preis K. Statt Dollar zu kaufen, könnte es auch um ein beliebiges anderes Gut gehen, wichtig ist nur, dass es um zukünftige Preise zu einem festen Zeitpunkt geht. Noch einmal etwas formaler: • Der Wert einer europäischen Call-Option zum Strike-Preis K zum Zeitpunkt T in der Zukunft ist max{ST −K, 0}, wobei ST der Wert des Gutes, auf das sich die Option bezieht, zum Zeitpunkt T ist. • Der Wert einer europäischen Put-Option zum Strike-Preis K zum Zeitpunkt T in der Zukunft ist max{K −ST , 0}, wobei ST der Wert des Gutes, auf das sich die Option bezieht, zum Zeitpunkt T ist. Bemerkung: Bei europäischen Optionen passiert also erst zum Zeitpunkt T etwas. Im Unterschied dazu kann man bei amerikanischen Optionen jederzeit (zwischen heute und T ) die Einlösung verlangen. Wenn ich zum Beispiel eine amerikanische Call-Option habe, werde ich die dann schon vor T bei t0 realisieren, wenn mir St0 besonders hoch zu sein scheint und möglicherweise bald wieder fällt. Was ist Arbitrage? Über das Stichwort Arbitrage muss man zwei Dinge wissen: 1. Die Definition: Arbitrage ist die Möglichkeit, risikolos einen Gewinn zu machen. Wenn zum Beispiel in Rotterdam der Dollar für 0.80 Euro verkauft wird und sich in Kapstadt Käufer für 0.90 Euro finden, so gäbe es Arbitrage: 10 Millionen Dollar in Rotterdam kaufen und in Kapstadt verkaufen. Gewinn: eine Million Euro. 2. Arbitrage gibt es nicht1 . Das ist so etwas wie ein Naturgesetz der Finanzmärkte, vergleichbar etwa dem zweiten Hauptsatz der Thermodynamik ( Es gibt kein ” 1 Auf Englisch heißt das übrigens No free lunch.“ ” 9.1. DIE BANK, OPTIONEN UND ARBITRAGE 89 Perpetuum Mobile“). Dieses Prinzip ist eine Erfahrungstatsache, die allerdings nur im Wesentlichen“ richtig ist. Tatsächlich gibt es minimale Abweichungen ” der Wechselkurse, die kurzzeitig von den Banken für Arbitrage-Gewinne ausgenutzt werden können. Hier zwei Beispiele, wie das Arbitrage-Prinzip angewendet wird. Heute sei der Zeitpunkt t, und irgendjemand hat ein kompliziertes Portfolio zusammengestellt, das zu einem Zeitpunkt T in der Zukunft mit Sicherheit M Euro abwirft. Wir behaupten, dass das heute exakt zu M e−r(T −t) Euro verkauft werden muss. Hier die Begründung: 1. Es kann nicht billiger sein. Falls es irgendjemand zum Preis N < M e−r(T −t) anbieten würde, könnte ich mir N Euro von der Bank borgen und es kaufen. Zum Zeitpunkt T bekomme ich dann M Euro, und die Bank will von mir N er(T −t) Euro für das geborgte Geld haben. Da N er(T −t) < M ist, habe ich einen risikolosen Gewinn gemacht: Widerspruch, denn Arbitrage gibt es nicht. 2. Es kann nicht teurer sein. Angenommen, man kann das Portfolio auch für N > M e−r(T −t) verkaufen. Dann trete ich als Verkäufer auf: Ich nehme die N Euro und bringe sie auf die Bank. Zum Zeitpunkt T sind daraus N er(T −t) Euro geworden. Das ist mehr als M , ich kann also meinen Vertrag erfüllen und es bleibt noch etwas übrig. Wieder Arbitrage, wieder ein Widerspruch. Eine typische Anwendung dieser Technik ist der 9.1.1 Satz von der Put-Call-Parität: Wir betrachten ein Gut ( underly” ing“). Zum Zeitpunkt T – jetzt sind wir bei t – interessieren wir uns für eine Call- und eine Put-Option, beide zum Strike-Preis K. Sind dann Ct bzw. Pt die heutigen Preise für diese Optionen und ist unser Gut heute St wert, so muss St + Pt − Ct = Ke−r(T −t) gelten. Beweis: Wir stellen uns ein Portfolio St + Pt − Ct zusammen: Wir kaufen eine Aktie und eine Put und treten als Verkäufer eines Calls auf. Dann warten wir T ab: • Angenommen, ST ≥ K. Wir verkaufen die Aktie und zahlen – als Verpflichtung aus unserer Call-Option – den Betrag ST − K an den Käufer unseres Calls. Uns bleiben K Euro. • Was ist, wenn ST < K? Dann aktivieren wir unsere Put-Option, daraus erhalten wir K − ST Euro. Zusammen mit der Aktie sind das auch wieder K Euro. Kurz: In jedem Fall haben wir bei T exakt K Euro. Deswegen muss der Preis des Portfolios nach dem vorstehenden Argument gleich Ke−r(T −t) sein. Wegen dieses Satzes reicht es, sich um – zum Beispiel – Call-Optionen zu kümmern. Der Preis für Put-Optionen liegt dann fest. 90KAPITEL 9. FINANZMATHEMATIK: EINIGE GRUNDLEGENDE BEGRIFFE 9.2 Binomialmodelle, die Black-Scholes-Welt Wie modelliert man die Entwicklung des Preises einer Aktie? Bezeichne den Preis zur Zeit t mit St . Wie wird sich der in einem Zeitintervall ∆ t verändern? Zur Motivation einer sinnvollen Modellierung gibt es zwei Vorüberlegungen: • Es ist sicher sinnvoll, die relativen und nicht die absoluten Preisänderungen zu betrachten, da die absoluten Preis sehr unterschiedlich sind und deswegen ein Vergleich zwischen verschiedenen Aktien nur schwer möglich wäre. • Die Preisentwicklung besteht aus einem deterministischen und einem stochastischen Anteil: Wenn irgendeine Industrie im Trend ist, steigt die zugehörige Aktie mit Sicherheit, und dazu gibt es noch den unberechenbaren Zufall, der allerdings je nach Aktie einen mehr oder weniger starken Einfluss hat. Auf diese Weise gelangt man zu dem folgenden Modell: Man verschaffe sich eine Zufallsvariable X mit Erwartungswert Null und Varianz Eins. Das ist der pro Zeiteinheit wirkende Zufall. Für zwei Zahlen m (für den Trend) und σ (für die Stärke des Zufallseinflusses2 ) setzt man dann an: √ ∆S = m ∆ t + σ ∆t. S Und je nachdem, ob man diskret oder kontinuierlich modelliert, gelangt man zum Binomialmodell oder zur Black-Scholes-Welt. Das Binomialmodell Hier interessiert man sich nur für die Preise zu den Zeitpunkten t0 , t0 + ∆ t, t0 + 2∆t usw.; dabei ist ∆ t eine positive Zahl. Man startet bei St0 , von da ausgehend entwickelt sich ein Binomialbaum. Mit Wahrscheinlichkeit p bzw. 1 − p steigt bzw. fällt der Wert der Aktie, von S0 := St0 (Zeit t0 ) auf Su ( up“) ” bzw. Sd ( down“) bei t1 = t0 + ∆t. Von da aus verzweigt die Kursentwicklung ” wieder, dann noch einmal usw. Es entsteht ein (üblicherweise von links nach rechts) wachsender Baum. Manchmal ist er geschlossen: up-down“ liefert den ” gleichen Wert wie down-up“. ” Wir wollen nun zeigen, wie man in so einem Fall Werte für Optionen ausrechnen kann. Als Beispiel wählen wir eine europäische Call-Option zum Strike-Preis K, wir interessieren uns zunnächst für die erste Masche, die Option soll also bei t1 eingelöst werden. Der Wert der Option bei t1 ist Cu = max{Su − K, 0} bzw. Cd = max{Sd − K, 0}, je nachdem, ob der Kurs gestiegen oder gefallen ist. Uns interessiert der Preis C0 bei t0 . Wir behaupten: Der Preis muss gleich Ct0 = 2 Der Cu − Cd −r∆t Cu − Cd St0 + Cu − Su e Su − Sd Su − Sd Fachausdruck ist Volatilität. 9.2. BINOMIALMODELLE, DIE BLACK-SCHOLES-WELT 91 sein. Zum Beweis benutzen wir ein Arbitrage-Argument. Setze B := Cu − diese Zahl stimmt mit Cd − Cu − Cd Su , S u − Sd Cu − Cd Sd S u − Sd überein. Daraus folgt, mit ∆ := (Cu − Cd )/(Su − Sd ), dass ein Portfolio der Form C − ∆S bei t1 garantiert den Wert B haben wird. Also muss es heute wegen des Verbots von Arbitrage3 den Wert Be−r∆t haben: Ct0 − ∆St0 = Be−r∆t . Das ist gerade die Behauptung. Ganz analog kann man beliebige Optionen behandeln, bei denen der Auszahlungswert eine Funktion von St1 ist. Nun kann man auch komplizierte Situationen durch Rückwärtsrechnen untersuchen. Wir nehmen an, dass die Option bei t0 + k∆t fällig wird. • Starte bei den Maschen ganz rechts, die die Entwicklung zwischen t0 + (k − 1)∆t und t0 + k∆t beschreiben. Bei t0 + k∆t ist der Wert der Option bekannt, und mit dem eben vorgestellten Argument ermitteln wir ihn bei den Zeitpunkten t0 + (k − 1)∆t. • Danach berechne die Werte bei den Verzweigungen der Maschen, die von t0 + (k − 2)∆t nach t0 + (k − 1)∆t führen. • Und so weiter: Schließlich haben wir den Wert bei t0 ermittelt. Das Verfahren ist sehr flexibel, es lässt sich auch für zeit-abhängige Volatilitäten verwenden. Damit die Bank keine Verluste macht, muss sie das für die Option eingenomme Geld immer in sichere Portfolios umschichten: Sie braucht ein Portfolio C − ∆S, um von Kursschwankungen unabhängig zu sein. Und das kann bei jedem Zeitschritt t0 + i∆t ein anderes sein. Man spricht von ∆-hedging (to hedge: hegen, pflegen). Die Black-Scholes-Welt Wird ∆ t immer kleiner, so wird St für alle Zeitpunkte t ≥ t0 einen sinnvollen Wert haben: (St )t≥t0 ist dann ein stochastischer Prozess. Er muss der Bedingung d St = m dt + σBt St 3 Vgl. Abschnitt 9.1. 92KAPITEL 9. FINANZMATHEMATIK: EINIGE GRUNDLEGENDE BEGRIFFE genügen, wir haben die Brownsche Bewegung als Modell für den normalisierten Zufallseinfluss eingesetzt. Anders ausgedrückt: (St ) genügt der stochastischen Differentialgleichung d St = m St dt + σSt dBt . Diese Differentialgleichung haben wir aber schon gelöst, es ergibt sich St = St0 exp(m − σ2 )t + σ Bt , 2 die geometrische Brownsche Bewegung. Man spricht bei diesem Modell von der Black-Scholes-Welt. Der Vorteil besteht darin, dass gut bekannte Objekte wie die Normalverteilung und die Brownsche Bewegung auftreten. Der Nachteil (der erst recht spät erkannt wurde): Die Normalverteilung fällt zu schnell“ ab, das Auftreten großer Abweichun” gen wird unterschätzt. Deswegen versucht man verstärkt, die Normalverteilung durch Verteilungen zu ersetzen, die größere Abweichungen zulassen ( fat tails“). ” Kapitel 10 Finanzmathematik: die Black-Scholes-Formel In diesem Kapitel soll eine berühmte Formel der Finanzmathematik hergeleitet werden, die Black-Scholes-Formel . Es ist nicht übertrieben, die Entdeckung dieser Formel als den Beginn der modernen Finanzmathematik zu bezeichnen. Wie beschreiben in Abschnitt 10.1 das Problem, in Abschnitt 10.2 wird es auf eine partielle Differentialgleichung zurückgeführt (Black-Scholes-Gleichung), und in Abschnitt 10.3 wird die Lösung explizit angegeben. 10.1 Die Problemstellung: Bewertung von Optionen Allgemein stellt sich das Problem so dar: • Wir betrachten eine spezielle Aktie, deren Preisentwicklung durch den Prozess (St ) beschrieben wird. Wir haben das durch St = S0 exp (m − σ2 )t + σBt 2 modelliert. • Zu irgendeinem Zeitpunkt T in der Zukunft möchten wir φ(ST ) ausgezahlt bekommen. Dabei ist φ eine von der Situation abhängige Funktion. Zum Beispiel ist φ(s) = max{s − K, 0} bei einer Call-Option zum Strike-Preis K. • Wir wollen einen Vertrag abschließen, der genau das leistet. Das Problem besteht nun darin, jetzt (o.E. ist das t = 0) einen fairen Preis für dieses Geschäft auszuhandeln. 93 94KAPITEL 10. FINANZMATHEMATIK: DIE BLACK-SCHOLES-FORMEL Als Nomenklatur vereinbaren wir: Wenn das Geschäft zu einem Zeitpunkt t ∈ [ 0, T ] abgeschlossen wird, so soll der faire Preis Vt genannt werden, das ist ein stochastischer Prozess1 . Es wird angenommen, dass man Vt als V (t, St ) für eine geeignete Funktion V schreiben kann, dass Vt also nur von t und St abhängt (nicht also – z.B. – von der Entwicklung der Aktie in den letzten Wochen). Eigentlich sind wir nur an V0 = V (0, S0 ) interessiert, und es ist offensichtlich, dass VT = V (T, ST ) = φ(ST ) gelten muss. Wie kann die Funktion V (·, ·) ermittelt werden? 10.2 Die Black-Scholes-Gleichung (St ) genügt doch der stochastischen Differentialgleichung dSt = St m dt + σSt dBt . Wir wollen nun die Ito-Formel anwenden. Mit den Bezeichnungen aus Abschnitt 7.2 gilt: • Xt entspricht unserem St , Yt ist mSt und Zt ist σSt . • Die Funktion g ist in unserem Fall durch V (·, ·) zu ersetzen. Das, was X̃t genannt wurde, ist unser Vt . • Aufgrund der Ito-Formel genügt (Vt ) der stochastischen Differentialgleichung dVt = Ỹt dt + Z̃t dBt , wobei Ỹt , Z̃t explizit angegeben werden können: Ỹt = ∂V ∂V 1 ∂2V (t, St ) + (t, St )mSt + (t, St )σ 2 St2 , ∂t ∂s 2 ∂s Z̃t = ∂V (t, St )σSt . ∂s Fasst man alles zusammen, folgt dVt = ∂V ∂V σ 2 St2 ∂ 2 V ∂V (t, St ) + mSt (t, St ) + (t, St )dBt . (t, St ) dt + σSt ∂t ∂s 2 ∂s2 ∂s (Um das richtig zu interpretieren, sollte man noch einmal zur Herleitung der Ito-Formel zurückblättern. V ist als Funktion in zwei Veränderlichen t, s aufzufassen, damit sind die partiellen Ableitungen zu berechnen. Und dann ist jedes s durch St zu ersetzen.) Nun werden wir ein lokales Arbitrageargument verwenden, das ist der Schlüssel zur Herleitung der Black-Scholes-Gleichung. 1 V “ steht für value“. ” ” 10.2. DIE BLACK-SCHOLES-GLEICHUNG 95 Fixiere dazu einen Zeitpunkt t0 und betrachte für eine Zahl ∆ ein Portfolio der Form Vt − ∆ · St . Die Zahl ∆ soll so bestimmt werden, dass der Zufall bei t0 ausgeschaltet ist, dass also der Faktor bei dBt verschwindet. Die stochastische Differentialgleichung für Vt − ∆St kann leicht bestimmt werden: d(Vt − ∆St ) = ∂V ∂V σ 2 St2 ∂ 2 V (t, St ) − ∆mSt dt + (t, St ) + mSt (t, St ) + 2 ∂t ∂s 2 ∂s ∂V +σSt (t, St ) − ∆ dBt ∂s Der Zufall ist folglich bei t0 eliminiert, falls ∂V (t0 , St0 ) = ∆ ∂s gilt. In diesem Fall wird sich Vt − ∆St für ein sehr kleines“ Zeitintervall dt ” deterministisch entwickeln, der Wertzuwachs zwischen t0 und t0 + dt wird σ 2 St20 ∂ 2 V ∂V ∂V (t0 , St0 ) + mSt0 (t0 , St0 ) + (t0 , St0 ) − ∆mSt0 dt, 2 ∂t ∂s 2 ∂s also (wegen der Definition von ∆) σ 2 St20 ∂ 2 V ∂V (t0 , St0 ) + (t0 , St0 ) dt 2 ∂t 2 ∂s betragen. 0 Eine sichere Auszahlung M nach t0 Zeiteinheiten muss aber M e−rt kosten2 , sonst gäbe es Arbitrage: Vgl. das Argument vor Satz 9.1.1. Oder, anders ausgedrückt, aus M (heute) wird nach t0 Zeiteinheiten bei einer deterministischen 0 Anlage immer M ert , die Wertsteigerung ist also bei kleinem“ t0 gleich M rt0 . In ” unserem Fall bedeutet das: Die Wertsteigerung des Portfolios, also von Vt − ∆St zwischen t0 und t0 + dt, ist gleich (Vt0 − ∆St0 )r dt. Und diese Zahl ist gleich σ 2 St20 ∂ 2 V ∂V (t0 , St0 ) + (t0 , St0 ) dt. 2 ∂t 2 ∂s Wenn wir nun noch dt kürzen, die Definition von ∆ einsetzen, von t0 zu t übergehen und für St die neutrale Variable s einsetzen, erhalten wir die folgende partielle Differentialgleichung für V : ∂V σ 2 s2 ∂ 2 V ∂V + + rs − rV = 0. ∂t 2 ∂s2 ∂s Das ist die Black-Scholes-Differentialgleichung. Gesucht ist eine Lösung, die auch noch der Randbedingung V (T, s) = φ(s) für alle s genügt. 2 Mit r bezeichnen wir weiterhin den Zinssatz. 96KAPITEL 10. FINANZMATHEMATIK: DIE BLACK-SCHOLES-FORMEL 10.3 Die Black-Scholes-Formel In manchen Fällen, wenn φ nicht zu kompliziert ist, lässt sich V explizit angeben. Wir konzentrieren uns hier auf die Formel für den Fall von europäischen Calls, wenn also φ(s)) = max{s−K, 0} ist. Das wird dann die berühmte Black-ScholesFormel sein. (Wegen der Put-Call-Parität 9.1.1 haben wir damit dann auch eine eine Formel für Puts gefunden.) Statt V (t, s) schreiben wir nun C(t, s), um daran zu erinnern, dass wir Calls behandeln. Es geht also um die Gleichung ∂C σ 2 s2 ∂ 2 C ∂C + rs + − rC = 0 ∂t 2 ∂s2 ∂s mit der Randbedingung C(T, s) = max{s − K, 0}. Die Lösung wird dadurch gefunden werden, dass wir das Problem auf ziemlich trickreiche Weise in die Wärmeleitungsgleichung transformieren. An diese partielle Differentialgleichung soll zunächst erinnert werden. Unter der Wärmeleitungsgleichung versteht man die Gleichung ∂u ∂2u = , ∂τ ∂x2 die für alle τ > 0 und alle x ∈ R erfüllt sein soll. Zusätzlich soll u zu einer stetigen Funktion auf R + × R ergänzbar sein und der Bedingung u(0, x) = u0 (x) für x ∈ R für eine vorgegebene Funktion u0 genügen. Die Interpretation: Ein unendlich langer Stab hat zur Zeit τ bei x die Temperatur u(τ, x). Zur Zeit 0 ist die Temperatur durch die Funktion u0 vorgegeben, und man möchte wissen, wie sie sich im Lauf der Zeit entwickelt. Das führt, wie von Joseph Fourier zu Beginn des 19. Jahrhunderts gezeigt wurde, auf unsere Wärmeleitungsgleichung (jedenfalls dann, wenn man die auftretenden Materialkonstanten zu Eins normiert). Die Lösung kann explizit angegeben werden. Sie lautet: Definiere u(τ, x) für τ = 0 durch u0 (x) und für die positiven τ durch Z 2 1 u(τ, x) := √ u0 (s)e−(x−s) /4τ ds. 4πτ R (Man sieht schon, dass es möglicherweise einen Zusammenhang zur Normalverteilung geben wird.) Zurück zur Black-Scholes-Gleichung. Sie soll durch geeignete Transformationen auf die Wärmeleitungsgleichung zurückgeführt werden3 .Bei einer ersten 3 Das ist so ähnlich wie bei quadratischen Gleichungen: Da transformiert man ja auch x2 + px + q = 0 durch y := x − p/2 zu einer Gleichung des Typs y 2 = A. 10.3. DIE BLACK-SCHOLES-FORMEL 97 Transformation gehen wir wie folgt zu neuen Koordinaten über: s = Kex , t = T − τ , C = Kv(τ, x). σ 2 /2 Das soll folgendes bedeuten: Statt einer Differentialgleichung für C wollen wir eine für v erhalten, die hoffentlich leichter lösbar ist. Raum- und Zeitkoordinaten werden dabei mittransformiert. Das man es ausgerechnet so versucht, ist wohl nur für diejenigen nachvollziehbar, die schon oft Differentialgleichungen umtransformiert haben. Wie kann man die Differentialgleichung für v erhalten? Dazu muss man sich an Ergebnisse aus der Theorie der Funktionen in mehreren Veränderlichen erinnern. Da gilt doch – als Verallgemeinerung der Kettenregel der elementaren Analysis die Formel Jf ◦g (x) = Jf (g(x))Jg (x) für Jacobimatrizen, und wenn dann insbesondere Funktionen A(x, y), B(s, t), C(s, t) vorgegeben sind und man an A(B(s, t), C(s, t)) interessiert ist, so folgt ∂A ∂B ∂A ∂C ∂A(B(s, t), C(s, t)) = (B(s, t), C(s, t)) (s, t)+ (B(s, t), C(s, t)) (s, t), ∂s ∂x ∂s ∂y ∂s und eine entsprechende Formel gilt für die partielle Ableitung nach t. Alles wird etwas einfacher, wenn B nur von s und C nur von t abhängt (so eine Situation wird bei uns vorliegen). Unser Ziel ist zu zeigen, dass ∂v ∂2v ∂v = + (k − 1) − kv ∂τ ∂x2 ∂x gilt, wobei k := 2r/σ 2 ist. Um das nachzuweisen, rechnen wir nach und nach die auftretenden Summanden aus und benutzen dann die Tatsache, dass C der Black-Scholes-Gleichung genügen soll. ∂C/∂t. Da wir das durch Beziehungen zwischen den Variablen τ, x ausdrücken wollen, müssen wir die Transformation (τ, x) 7→ (t, s) zunächst invertieren: x = log(s/K), τ = σ2 (T − t). 2 So erhalten wir ∂C ∂v ∂v σ 2 =K =K (− ) . ∂t ∂t ∂τ 2 ∂C/∂s. ∂C ∂v ∂v 1 =K =K . ∂s ∂s ∂x s 98KAPITEL 10. FINANZMATHEMATIK: DIE BLACK-SCHOLES-FORMEL ∂ 2 C/∂s2 . ∂2C ∂s2 ∂ ∂C ∂s ∂s ∂ ∂v 1 = K ∂s ∂x s ∂v 1 ∂2v 1 − . = K 2 2 ∂x s ∂x s2 = Wenn nun C der Black-Scholes-Gleichung genügt und wir die partiellen CAbleitungen durch v ausdrücken, so folgt ∂v ∂2v ∂v = + (k − 1) − kv; ∂τ ∂x2 ∂x dabei haben wir – wie schon angekündigt – die Abkürzung k := 2r/σ 2 eingesetzt. Umgekehrt gilt das auch: Wenn v diese Differentialgleichung löst, so löst C die Black-Scholes-Gleichung. Durch Transformation ist also eine einfachere Gleichung entstanden, die der Wärmeleitungsgleichung schon sehr ähnlich sieht. Es fehlt allerdings noch etwas: Wie transformieren sich die Zusatzbedingungen? Beachte • Zu t = T gehört τ = 0. • Wenn C(T, s) = s − K ist, heißt das, das Kv(0, x) = Kex − K gilt, also v(0, x) = ex − 1. (Ähnlich für die Null.) Und daraus schließen wir: v soll neben der Differentialgleichung auch die Bedingung v(0, x) = max{ex − 1, 0} erfüllen. Aus einer Bedingung am Ende der Laufzeit ist so eine Bedingung am Anfang geworden. Das liegt daran, dass bei Übergang von t zu τ die neue Zeit“ ” τ rückwärts läuft. Nun gibt es noch eine zweite Transformation, um wirklich zur Wärmeleitungsgleichung zu kommen. Wir definieren eine neue Funktion u durch u(τ, x) = eαx+βτ v(τ, x) mit noch freien Konstanten α, β: Die sollen so gewählt werden, dass für u die Wärmeleitungsgleichung entsteht. Wir argumentieren so: ∂u ∂τ ∂u ∂x ∂2u ∂x2 ∂v , ∂τ ∂v = αeαx+βτ v + eαx+βτ , ∂x = βeαx+βτ v + eαx+βτ = eαx+βτ α2 v + 2αeαx+βτ ∂v ∂2v + 2 . ∂x ∂x 10.3. DIE BLACK-SCHOLES-FORMEL 99 Folglich ist ∂u ∂2u = ∂τ ∂x2 äquivalent zu ∂v ∂2v ∂v = α2 v + 2α + 2. ∂τ ∂x ∂x Wir wählen nun zunächst α so, dass 2α − (k − 1) = 0. Dann dürfen wir die zwei Summanden rechts durch ∂v/∂τ + kv ersetzen. Die Funktion ∂v/∂τ kann man kürzen, wir erhalten die Bedingung βv = α2 v + kv. Anders ausgedrückt: Wenn wir auch noch β = α2 + k wählen, ist das erfüllt, dann genügt u der Wärmeleitungsgleichung (vorausgesetzt, v hatte die vorige Differentialgleichung erfüllt). Und was wird aus der Nebenbedingung? v(0, x) = max{ex −1, 0} wird, wenn wir zu u bei τ = 0 übergehen, zu βv + u(0, x) = = = = = eαx v(0, x) max{ex − 1, 0} max{eαx (ex − 1), 0} max{ex(1+α) − eαx , 0} max{e(k+1)x/2 − e(k−1)x/2 , 0}. Nun können wir u explizit angeben, die Anfangsbedingung u0 haben wir gerade eben ausgerechnet. Und nun muss alles wieder rückgängig gemacht werden: Aus u wird v und anschließend C. Da verweise ich für die technischen Einzelheiten auf das Buch von P. Wilmott et al.: The Mathematics of Financial Derivatives, Kapitel 5. Hier ist das Endergebnis, die Black-Scholes-Formel zur Bewertung von europäischen Call-Optionen zum Strike-Preis K: • Setze 1 N (x) := √ 2π Z x 2 e−t /2 dt −∞ für x ∈ R. (Das ist die Verteilungsfunktion der Standardnormalverteilung.) • Für t ∈ [ 0, T [ und S > 0 sei d± := log(S/K) + (r ± σ 2 /2)(T − t) √ . σ T −t • Dann ist C(t, St ) = St N (d+ ) − Ke−r(T −t) N (d− ) (Zum Kennenlernen lässt sich schnell nachprüfen, dass wirklich C(T, ST ) = max{ST − K, 0}. Beachte dazu: Ist ST > K bzw. ST < K, so ist d+ = d− = +∞ bzw. d+ = d− = −∞.) 100KAPITEL 10. FINANZMATHEMATIK: DIE BLACK-SCHOLES-FORMEL Es ist zu betonen, dass für die Bank die Arbeit erst anfängt. Sie muss – im Idealfall in kontinuierlicher Zeit – ein Portfolio Ct − ∆St bereithalten, wo ∆ = (∂C/∂s)(t, St ). Damit wird lokal der Zufall ausgeschaltet. Dieses Verfahren heißt auch im kontinuierlichen Fall ∆-hedging.