Stochastische Prozesse Prof. Dr. H.R. Lerche Abteilung für Mathematische Stochastik Universität Freiburg März 2014 Inhaltsverzeichnis 1 Martingale 1.1 Definitionen und Eigenschaften . . . . . . . . . . . . . 1.2 Beispiele für Martingale . . . . . . . . . . . . . . . . . 1.3 Weitere Eigenschaften . . . . . . . . . . . . . . . . . . 1.4 Martingale als faire Spiele . . . . . . . . . . . . . . . . 1.5 Nichtexistenz günstiger Spielsysteme . . . . . . . . . . 1.6 Das Optional Sampling Theorem . . . . . . . . . . . . 1.7 Einige Anwendungen des Optional Sampling Theorems . . . . . . . 1 1 2 4 5 6 8 10 . . . . . . 15 15 16 19 25 28 30 . . . . . . . . 35 35 37 39 41 44 45 47 49 4 Zentrale Grenzwertsätze 4.1 Der zentrale Grenzwertsatz für identisch verteilte Zufallsvariablen . . . . . . . 4.2 Grenzwertsätze für Folgen unabhängiger Zufallsvariablen . . . . . . . . . . . . 4.3 Gleichverteilung auf stetigen Funktionen (ein Ausblick) . . . . . . . . . . . . 55 55 56 61 2 Martingalkonvergenzsätze 2.1 Die Upcrossing Ungleichung . . . . . . . . . . . . . . 2.2 Konvergenzsätze . . . . . . . . . . . . . . . . . . . . 2.3 Gleichgradige Integrierbarkeit . . . . . . . . . . . . . 2.4 Weitere Beispiele zu den Martingalkonvergenzsätzen 2.5 Die Doobsche Ungleichung . . . . . . . . . . . . . . . 2.6 Kakutanis Alternative für unendliche Produktmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Charakteristische Funktionen und schwache Konvergenz 3.1 Definitionen und Eigenschaften . . . . . . . . . . . . . . . . 3.2 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Der Eindeutigkeitssatz für charakteristische Funktionen . . 3.4 Die Umkehrformel . . . . . . . . . . . . . . . . . . . . . . . 3.5 Die Taylorentwicklung einer charakteristischen Funktion . . 3.6 Das Momentenproblem . . . . . . . . . . . . . . . . . . . . . 3.7 Schwache Konvergenz . . . . . . . . . . . . . . . . . . . . . 3.8 Der Stetigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii INHALTSVERZEICHNIS 5 Unendlich teilbare Verteilungen 63 5.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.2 Beispiele für unendlich teilbare Verteilungen . . . . . . . . . . . . . . . . . . . 63 5.3 Eine Charakterisierung unendlich teilbarer Verteilungen . . . . . . . . . . . . 64 5.4 Die Lévy–Khinchin Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.5 Stabile Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.6 Beispiele für stabile Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.7 Die Lévy–Khinchin Formel für stabile Verteilungen . . . . . . . . . . . . . . . 67 6 Existenz von stochastischen Prozessen 69 6.1 Gaußsche und Markovsche Prozesse . . . . . . . . . . . . . . . . . . . . . . . . 69 6.2 Der Konsistenzsatz von Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . 73 RI 6.3 Konstruktion einer Brownschen Bewegung auf . . . . . . . . . . . . . . . 76 6.4 Konstruktion der Brownschen Bewegung nach P. Lévy . . . . . . . . . . . . . 80 7 Pfadeigenschaften der Brownschen Bewegung 87 7.1 Das Gesetz vom iterierten Logarithmus . . . . . . . . . . . . . . . . . . . . . 87 7.2 Variation und quadratische Variation . . . . . . . . . . . . . . . . . . . . . . . 99 8 Die Starke Markov-Eigenschaft 8.1 Das Optional Stopping Theorem im stetigen Fall und einige Überschreitungswahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 103 8.2 Die Starke Markov-Eigenschaft für einen allgemeinen Wahrscheinlichkeitsraum 106 8.3 Das Reflexionsprinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 8.4 Die starke Markov-Eigenschaft auf C[0, ∞) . . . . . . . . . . . . . . . . . . . 112 8.5 Anwendung auf die k-dimensionale Brownsche Bewegung . . . . . . . . . . . 118 9 Zur Brownschen Bewegung mit Drift 125 A Die mehrdimensionale Normalverteilung 133 B Historische Bemerkungen 137 B.1 Einsteins Überlegungen zur Brownschen Bewegung . . . . . . . . . . . . . . . Literaturverzeichnis 139 143 Kapitel 1 Martingale Im Folgenden betrachten wir Martingale, Submartingale und Supermartingale. Das sind spezielle Folgen von Zufallsvariablen, die man als faire, günstige bzw. ungünstige Spiele interpretieren kann. 1.1 Definitionen und Eigenschaften Wir werden unseren Betrachtungen einen Wahrscheinlichkeitsraum (Ω, F, P ) und ein Intervall I von Z ∪ {−∞, ∞} zugrundelegen. Wird nichts anderes gesagt, so sind alle auftretenden Folgen von Zufallsvariablen auf (Ω, F, P ) definiert und auftretende σ-Algebren sind Unter σ-Algebren von F. Definition 1.1 Sei (Xn )n∈I ein Folge von Zufallsvariablen und sei (Fn )n∈I eine Folge von Unter σ-Algebren von F. 1) (Fn )n∈I heißt Filtrierung, falls die Fn aufsteigend sind, d.h. Fn ⊂ Fn+1 für alle n ∈ I. 2) (Xn )n∈I heißt adaptiert bezüglich (Fn )n∈I , falls Xn Fn -messbar ist für alle n ∈ I. Definition 1.2 Sei (Fn )n∈I eine Filtrierung und sei (Xn )n∈I eine Folge (Fn )n∈I -adaptierter Zufallsvariablen. 1) (Xn , Fn )n∈I heißt Submartingal, falls EXn+ für alle n ∈ I endlich ist und für alle m, n ∈ I mit m < n gilt, dass Xm ≤ E(Xn | Fm ). 2) (Xn , Fn )n∈I heißt Supermartingal, falls EXn− für alle n ∈ I endlich ist und (−Xn , Fn )n∈I ein Submartingal ist, also für alle m, n ∈ I mit m < n gilt, dass Xm ≥ E(Xn | Fm ). 3) Die Folge (Xn , Fn )n∈I heißt Martingal, falls sie sowohl ein Sub- als auch ein Supermartingal ist. Wenn klar ist, welche Filtration zugrundeliegt, schreiben wir anstatt (Xn , Fn )n∈I auch oft nur (Xn )n∈I oder noch kürzer einfach X. 1 2 Kapitel 1: Martingale Bemerkung 1.3 1) Es gilt genau dann E(Xn | Fm ) = Xm (bzw. ≤, bzw. ≥) für alle m < n, ∫ ∫ wenn A Xn dP = A Xm dP (bzw. ≤, bzw. ≥) für alle m < n und alle A ∈ Fm . 2) Enthält I weder −∞ noch +∞, so gilt E(Xn | Fm ) = Xm (bzw. ≤, bzw. ≥) für alle m < n, genau dann wenn E(Xn+1 | Fn ) = Xn für alle n ∈ N. Beweis: Zu 2): Für m < n gilt E(Xn | Fm ) = E(E(Xn | Fn−1 ) | Fm ) = E(Xn−1 | Fm ) = · · · = E(Xm | Fm ) = Xm . Die Aussagen mit ≤ und ≥ folgen analog. 1.2 2 Beispiele für Martingale 1.2.1 Summen unabhängiger Zufallsvariablen Sei (Yi )i∈IN eine Folge unabhängiger Zufallsvariablen mit E| Yk | < ∞ und EYk = 0 für alle ∑ k ≥ 1. Sei X0 := 0, Xn := ni=1 Yi , F0 := {Ø, Ω} und Fn := σ(Y1 , . . . , Yn ) für n ≥ 1. Dann ist (Xn , Fn )n≥0 ein Martingal. Beweis: E(Xn | Fn−1 ) = E(Xn−1 | Fn−1 ) + E(Yn | Fn−1 ) = Xn−1 + EYn = Xn−1 . 2 Man sieht, dass (Xn , Fn )n≥0 im Falle EYk > 0 ein Submartingal ist, während sich für EYk < 0 ein Supermartingal ergibt. 1.2.2 Produkte unabhängiger Zufallsvariablen Sei (Zi )i∈IN ein Folge nichtnegativer, unabhängiger Zufallsvariablen mit EZk = 1 für alle ∏ k ∈ IN. Sei Z0 := 1, F0 := {Ø, Ω} und Xn = nk=1 Zk sowie X0 := 1. Außerdem sei Fn := σ(Z1 , . . . , Zn ). Dann ist (Xn , Fn )n≥0 ein Martingal. Beweis: Für alle n ∈ IN gilt E(Xn | Fn−1 ) = E(Xn−1 Zn | Fn−1 ) = Xn−1 E(Zn | Fn−1 ) = Xn−1 EZn = Xn−1 . Wie man sieht, ergibt sich für EZk < 1 ein Supermartingal. 2 1.2. Beispiele für Martingale 1.2.3 3 Von integrierbaren Zufallsvariablen erzeugte Martingale Sei Y eine Zufallsvariable mit E| Y | < ∞ und sei (Fn )n≥0 eine Filtrierung sowie Xn := E(Y | Fn ). Dann ist (Xn , Fn )n≥0 ein Martingal. Beweis: Für alle n ∈ IN gilt E(Xn | Fn−1 ) = E(E(Y | Fn ) | Fn−1 ) = E(Y | Fn−1 ) = Xn−1 . 2 1.2.4 Stochastische Exponentiale Sei (Yi )i∈IN eine Folge unabhängiger, identisch verteilter Zufallsvariablen. Es existiere ein λ > 0, sodass ϕ(λ) := EeλY1 endlich ist. Sei Xn := n ∏ eλYi eλ(Y1 +···+Yn ) = . ϕ(λ)n ϕ(λ) i=1 Sei F0 = {Ø, Ω}, Fn := σ(Y1 , . . . , Yn ) für n ≥ 1 und X0 := 1. Dann ist (Xn , Fn )n≥0 als Spezialfall von 2) ein Martingal. 1.2.5 Dichteprozesse Sei (Fn )n∈IN eine Filtrierung und seien Q1 und Q2 Wahrscheinlichkeitsmaße auf F. Seien Q1n := Q1 |Fn und Q2n := Q2 |Fn mit der Eigenschaft Q1n ≪ Q2n und sei Xn := dQ1n /dQ2n die Radon-Nikodym Ableitung von Q1n bezüglich Q2n , d.h., für alle A ∈ Fn gilt Q1n (A) = ∫ 2 2 A Xn dQn . Dann ist (Xn , Fn )n≥1 ein Martingal bezüglich Q . Beweis: Für alle m, n ≥ 1 mit m < n und für alle A ∈ Fm gilt: ∫ ∫ 2 Xm dQ = A 1.2.6 A Xm dQ2m = Q1m (A) ∫ 1 Xn dQ2 . = Q (A) = A 2 Ein rückläufiges Martingal Das folgende Beispiel werden wir später nutzen, um das starke Gesetz der großen Zahlen zu beweisen. Sei (Yi )i∈IN eine Folge unabhängiger, identisch verteilter Zufallsvariablen mit ∑ E| Y1 | < ∞. Sei Sn := ni=1 Yi , X−n := Sn /n und F−n := σ(Sm : m ≥ n). Dann gilt E(Y1 | F−n ) = Sn /n. Beweis: Für alle n ≥ 1 und alle k ∈ {1, . . . , n} gilt E(Y1 | F−n ) = E(Yk | F−n ). Dies sieht man wie folgt: Wegen Übung Nr. 4 gilt E(Yk | F−n ) = E(Yk | σ(Sn )) für k ∈ {1, . . . , n}. Da die Yi identisch verteilt sind, gilt ∫ {Sn ∈B} Yk dP = ∫ {Sn ∈B} Y1 dP für alle B ∈ B, das heißt E(Y1 | F−n ) = E(Y1 | σ(Sn )) = E(Yk | σ(Sn )) = E(Yk | F−n ) für k ∈ {1, . . . , n}. Damit folgt nE(Y1 | F−n ) = n ∑ k=1 ( E(Yk | F−n ) = E n ∑ k=1 ) Yk | F−n = E(Sn | F−n ) = Sn . 2 4 Kapitel 1: Martingale 1.3 Weitere Eigenschaften Als nächstes zeigen wir die Jensensche Ungleichung für bedingte Erwartungen. Lemma 1.4 Sei ϕ : IR −→ IR eine konvexe Funktion und X eine Zufallsvariable mit Eϕ(X) < ∞. Dann gilt ϕ(E(X | G)) ≤ E(ϕ(X) | G) P -fast sicher. Beweis: Mit Hilfe der Jensenschen Ungleichung für Erwartungen folgt ϕ(EX) ≤ Eϕ(X), also EX < ∞. Wegen der Konvexität von ϕ existiert zu x0 ∈ IR ein λ ∈ IR mit ϕ(x) ≥ ϕ(x0 ) + λ(x − x0 ) für alle x ∈ IR. Sei h eine Version von E(X | G). Dann ist ϕ(X) ≥ ϕ(h) + λh (X − h), wobei λh eine G-messbare Abbildung ist. Bildet man nun E( · | G), so ist E(ϕ(X) | G) ≥ E(ϕ(h) | G) + E(λh (X − h) | G) = ϕ(h) + λh (E(X | G) − h) = ϕ(h), 2 da der zweite Term gleich Null ist. Lemma 1.4 zeigt wie man aus gegebenen Submartingalen neue konstruieren kann. Lemma 1.5 Sei (Xn , Fn )n∈I ein Submartingal und ϕ eine monoton wachsende, konvexe Funktion mit Eϕ(Xn0 )+ < ∞ für ein n0 ∈ I. Dann ist (ϕ(Xn ), Fn )n∈I,n≥n0 ein Submartingal. Beweis: Wende Lemma 1.4 an. 2 Bemerkung 1.6 Ist (Xn , Fn )n∈I in Lemma 1.5 ein Martingal, so reicht es aus, ϕ als konvex vorauszusetzen. Beispiel 1.7 Sei (Xn , Fn )n∈I ein Martingal. Dann gelten die folgenden Eigenschaften: 1) (| Xn |, Fn )n∈I ist ein Submartingal, denn die Funktion x 7→ | x | ist konvex. 2) Ist EXn2 für alle n ∈ I endlich, so ist (Xn2 , Fn )n∈I ein Submartingal, da die Funktion x 7→ x2 konvex ist. 3) Sei (Xn , Fn )n∈I ein Submartingal. Dann ist auch (max{Xn , a}, Fn )n∈I ein Submartingal. Insbesondere ist (Xn+ , Fn )n∈I ein Submartingal. Beweis: Zu 3): Für alle m, n ∈ I mit m < n gilt E(max{Xn , a} | Fm ) ≥ E(Xn | Fm ) ≥ Xm und E(max{Xn , a} | Fm ) ≥ E(a | Fm ) = a. 2 1.4. Martingale als faire Spiele 1.4 5 Martingale als faire Spiele Im Folgenden werden wir sehen, dass sich Martingale (Submartingale bzw. Supermartingale) als faire (günstige bzw. ungünstige) Spiele interpretieren lassen. Definition 1.8 Sei (Xn , Fn )n∈IN ein Martingal und (Vn , Fn )n∈IN vorhersehbar, d.h., Vn ist Fn−1 -messbar für jedes n ∈ IN . Sei (V · X)0 := 0 und (V · X)n := n ∑ Vi (Xi − Xi−1 ) i=1 für n ∈ IN. Dann heißt ((V · X)n , Fn )n∈IN0 Martingaltransformierte von X bezüglich V . Für die Martingaltransformierte gibt es eine einfache anschauliche Deutung: Nehmen wir an, dass das Martingal ein Spiel beschreibt und dass Xn die Anzahl der gewonnenen abzüglich der verlorenen Spiele nach n Wiederholungen ist, (Xn −Xn−1 ) ist dann der Ausgang des n-ten Spiels). Weiterhin sei Vn der Einsatz im n−ten Spiel (Vorhersehbarkeit ist hier eine natürliche Annahme, da der Einsatz vor dem Zeitpunkt n gemacht werden muss). Dann ist (V · X)n der Gesamtgewinn nach n Spielen. Lemma 1.9 Ist (Vn )n∈IN durch ein k ∈ IR beschränkt, das heißt |Vn | ≤ k für alle n ∈ IN, und vorhersehbar und ist (Xn , Fn )n∈IN ein Martingal, so ist auch ((V · X)n , Fn )n∈IN ein Martingal. Ist Vn zusätzlich für alle n ∈ IN nichtnegativ und ist (Xn , Fn )n∈IN ein Super- bzw. Submartingal, so ist auch ((V · X)n , Fn )n∈IN ein Super- bzw. Submartingal. Beweis: Für alle n ∈ IN gilt: E((V · X)n | Fn−1 ) − (V · X)n−1 = E((V · X)n − (V · X)n−1 | Fn−1 ) = E(Vn (Xn − Xn−1 ) | Fn−1 ) = Vn E(Xn − Xn−1 | Fn−1 ). Wegen = 0 : E(Xn − Xn−1 | Fn−1 ) ≥ 0 : ≤0: falls (Xn , Fn )n∈IN ein Martingal falls (Xn , Fn )n∈IN ein Submartingal falls (Xn , Fn )n∈IN ein Supermartingal folgt die Behauptung. 1.4.1 2 Interpretation und Beispiele für Spielsysteme Sei (Zn )n∈IN eine Folge von unabhängig, identisch verteilten Bernoulli-Variablen mit P (Zn = 1) = p und P (Zn = −1) = 1−p =: q. Man interpretiert Zn = 1 als Gewinn im n-ten Spiel und entsprechend Zn = −1 als Verlust. Sei Fn := σ(Z1 , . . . , Zn ). Darüber hinaus sei Vn der Einsatz im n-ten Spiel, sodass wir annehmen dürfen, dass Vn vorhersehbar ist, denn der Einsatz wird vor dem n-ten Spiel nur unter Kenntnis der ersten n − 1 Spiele festgelegt. Sei Xn := ∑ ∑ Z1 + · · · + Zn mit der Konvention X0 := 0 und sei Wn := ni=1 Vi Zi = ni=1 Vi (Xi − Xi−1 ) die 6 Kapitel 1: Martingale Martingaltransformierte von X bezüglich V . Dies ist dann der Gesamtgewinn nach n Spielen. Dann gilt: E(Wn − Wn−1 | Fn−1 ) = Vn E(Xn − Xn−1 | Fn−1 ) = Vn E(Zn | Fn−1 ) = Vn EZn . Ist Vn strikt positiv, so folgt > 0 Vn EZn falls p > q, d.h. (Xn , Fn )n∈IN ist Submartingal = 0 falls p = q, d.h. (Xn , Fn )n∈IN ist Martingal < 0 falls p < q, d.h. (Xn , Fn )n∈IN ist Supermartingal. Man kann somit ein Martingal als faires Spiel, ein Submartingal als günstiges und ein Supermartingal als ungünstiges Spiel ansehen. Als Beispiel betrachten wir das Petersburger Paradoxon: Wir definieren V1 := 1 und Vn := 2n−1 falls Z1 = −1, . . . , Zn−1 = −1 0 sonst Dies heißt, man verdoppelt stets seinen Einsatz, bis zum ersten Gewinn. Außerdem nehmen wir an, das Spiel sei fair, d.h. P (Zi = +1) = P (Zi = −1) = 1/2. Nun überlegt man sich leicht, dass Wn = 1 ist, wenn n der erste Zeitpunkt ist, zu dem man gewinnt. Wir haben also eine Spielstrategie gefunden, mit der wir immer gewinnen und das nach endlich vielen Spielen, wie wir jetzt sehen werden. Definieren wir nämlich T := min{ n ≥ 1 : Wn = 1 }, so gilt P (T = k) = P ({ Z1 = −1 } ∩ · · · ∩ { Zk−1 = −1 } ∩ { Zk = 1 }) = ∑ ( )k 1 2 . ∑ ∞ k Damit ist ET = ∞ k=1 kP (T = k) = k=1 k(1/2) < ∞. Das heißt, im Mittel tritt nach endlich vielen Spielen ein Gewinn ein. Weshalb ist es aber trotzdem nicht ratsam, diese Strategie zu verwenden? Das Problem ist, dass man, um zu gewinnen, ein unendlich großes Spielkapital benötigt, denn es gilt: EVT = ∞ ∑ k=1 1.5 Vk P (T = k) = ∞ ∑ k=1 2 k−1 ( )k 1 2 ∞ ∑ 1 = k=1 2 = ∞. Nichtexistenz günstiger Spielsysteme Bis einschließlich Beispiel 5.13 dient im Folgenden das Buch „Probability with Martingales“ von D. Williams als Grundlage. Wir wollen uns nun folgendem Problem zuwenden: Falls (Xn , Fn )n∈IN ein Martingal ist und T eine Stoppzeit, unter welchen Voraussetzungen gilt dann EXT = EX0 ? Dass Voraussetzungen nötig sind, zeigt schon das Beispiel des Petersburger Paradoxon, bei dem EWT = 1 ̸= 0 = EW0 gilt. Als weiteres Beispiel betrachten wir die symmetrische 1.5. Nichtexistenz günstiger Spielsysteme 7 Irrfahrt: Sei (Xn )n∈IN eine Folge von unabhängig, identisch verteilten Bernoulli-Variablen mit ∑ P (Xi = 1) = P (Xi = −1) = 1/2 und sei X0 := 0. Außerdem sei Sn := ni=1 Xi , S0 := 0 und T := min{ n : Sn = 1 }. Dann ist EST = 1, aber ES0 = 0. Satz 1.10 Sei (Xn , Fn )n∈IN ein Martingal und T eine Stoppzeit. Dann ist (XT ∧n − X0 , Fn )n∈IN ein Martingal mit Erwartungswert 0. Insbesondere gilt EXT ∧n = EX0 für alle n ∈ IN. (T ) Beweis: Sei Vn (T ) := 1l{ T ≥n } . Dann ist Vn Fn−1 -messbar, denn { Vn(T ) = 0 } = { T < n } = { T ≤ n − 1 } ∈ Fn−1 und { Vn(T ) = 1 } = { Vn(T ) = 0 }c ∈ Fn−1 . Nach Lemma 1.9 ist ((V (T ) · X)n , Fn )n∈IN ein Martingal. Wegen (V (T ) · X)n = n ∑ (T ) Vi (Xi − Xi−1 ) = i=1 n ∑ 1l{ T ≥i } (Xi − Xi−1 ) = XT ∧n − X0 i=1 2 folgt die Behauptung. Satz 1.11 (Die Nichtexistenz eines günstigen Spielsystems) Sei X ein Martingal, dessen Zuwächse | Xn − Xn−1 | durch ein k1 ∈ IR beschränkt sind und sei V ein vorhersehbarer Prozess, der durch eine Konstante k2 ∈ IR beschränkt ist. Ferner sei T eine Stoppzeit mit ET < ∞. Dann ist E(V · X)T = 0. Unter den Voraussetzungen aus Satz 1.11 kann man also den Gesamtgewinn eines Spiels durch ändern des Spielsystems nicht verbessern. Wir werden später noch eine Verallgemeinerung diese Satzes kennenlernen. Beweis: Nach Satz 1.10 wissen wir, dass ( ∗ ) E(V · X)T ∧n = E(V · X)0 = 0 gilt. Außerdem ist ∧n T T∑ ∑ Vk (Xk − Xk−1 ) ≤ k2 | Xk − Xk−1 | ≤ k1 k2 T. | (V · X)T ∧n | = k=1 k=1 Da limn→∞ (V · X)T ∧n = (V · X)T , folgt mit dem Satz von der majorisierten Konvergenz, da ET < ∞ ist, dass limn→∞ E(V · X)T ∧n = E(V · X)T . Die Behauptung ergibt sich nun mit ( ∗ ). 2 Bemerkung 1.12 Satz 1.11 mit V = 1 wird auch als Optional Stopping Theorem bezeichnet. Siehe auch den folgenden Satz 1.15. 8 Kapitel 1: Martingale Beispiel 1.13 (Die ABRACADABRA-Aufgabe) Jede Sekunde tippe ein Affe einen von 26 möglichen Buchstaben. Wie lange braucht der Affe im Mittel bis er das Wort „ABRACADABRA”’ getippt hat? Sei T die Zeit (in Sekunden), die der Affe benötigt. Wir werden sehen, dass ET = 26 + 264 + 2611 gilt. Für den Beweis werden wir das Optional Stopping Theorem (nach D. Williams) verwenden. Dazu betrachten wir das Problem als ein faires Spiel: Zu den Zeitpunkten n ∈ IN setzt ein Spieler einen Euro darauf, dass der Affe als ersten Buchstaben ein A schreibt. Wenn er gewinnt, erhält er 26 Euro und setzt diese im zweiten Spiel darauf, dass der Affe B tippt. Gewinnt er, so bekommt er 262 Euro ausgezahlt, usw. Verliert der Spieler, so ist das Spiel für ihn beendet. Das Spiel ist insgesamt beendet, wenn erstmals das Wort „ABRACADABRA“ erscheint. Wir kommen nun zum zugehörenden Formalismus: Für n ∈ IN sei Yn,i := 1l {i-ter Buchstabe vom n-ten Spieler richtig getippt} , 1/26, falls i ≥ 12 Wir nehmen an, dass die Yn,i unabhängig sind mit P (Yn,i = 1) = des n-ten Spielers nach l Buchstaben ist gegeben durch Zn,l := l ∏ (26Yn,i ) = i=1 falls i ≤ 11 1 26 für i ≤ 11. Der Gewinn 26l , falls die ersten l Buchstaben richtig sind 0, falls einer der ersten l Buchstaben falsch ist Nach Beispiel 1.2.2 ist Zn,l in l ein Martingal bezüglich σ(Yn,1 , . . . , Yn,l ). Sei Wn die Auszah∑ lung nach der n-ten Spielrunde. Dann ist Wn = n−1 l=0 Zn−l,l+1 . Die Folge (Wn − n)n∈IN ist bezüglich Fn := σ(Yk,i : k + i ≤ n + 1) ein Martingal. Sei T := min{n ∈ IN : Wn ≥ 2611 } der erste Zeitpunkt, zu dem das Wort „ABRACADABRA“ erscheint. Wie man sich leicht überlegt, ist ZT,1 = 26, ZT −3,4 = 264 und ZT −10,11 = 2611 . Alle anderen ZT −i,i+1 sind identisch null. Es ergibt sich WT = 26 + 264 + 2611 . Darüber hinaus folgt mit dem Optional Stopping Theorem E(WT − T ) = 0. Damit gilt ET = EWT = 26 + 264 + 2611 . 1.6 Das Optional Sampling Theorem Wir wollen nun die recht starken Voraussetzungen von Satz 1.11 abschwächen. Es ist klar, dass man für die Gültigkeit von EXT = EX0 fordern muss, dass E| XT | < ∞ ist. Allerdings ist diese Bedingung nicht ausreichend, wie das Beispiel der symmetrischen Irrfahrt zeigt. Der folgende, zentrale Satz gibt uns eine zweite Bedingung, die zusammen mit E| XT | < ∞ hinreichend ist. Satz 1.14 (Optional Sampling Theorem) Sei (Ti )i∈IN eine Folge von Stoppzeiten mit 1 ≤ T1 ≤ T2 ≤ T3 ≤ . . . Sei (Xn , Fn ; n ∈ IN) ein Submartingal. Es gelte: 1) E|XTk | < ∞ für alle k ∈ IN. 1.6. Das Optional Sampling Theorem 2) lim inf N →∞ ∫ + {Tk >N } XN 9 dP = 0 für alle k ∈ IN. Dann ist (XTk , FTk ; k ∈ IN) ein Submartingal. Dabei definieren wir für eine Stoppzeit T die σ-Algebra FT = {A ∈ F : A ∩ {T = k} ∈ Fk für k ∈ IN} . Ist (Xn , Fn ; n ≥ 1) ein Martingal und gilt anstelle von 2) die Bedingung 2′ ) lim inf N →∞ ∫ {Tk >N } |Xn | dP =0 so ist (XTk , FTk ; k ≥ 1) ein Martingal. Der Beweis ergibt sich mit folgenem Satz 1.15. Die Aussage über das Martingal folgt, wenn man beachtet, dass jedes Martingal Sub- und Supermartingal ist und das Negative eines Supermartingals ein Submartingal ist. Satz 1.15 Sei (Xn , Fn ; n ≥ 1) ein Submartingal und seien S und T endliche Stoppzeiten mit E|XS | < ∞ und E|XT | < ∞. Gilt ∫ lim inf N →∞ {T >N } + XN dP = 0 , so gilt E(XT | FS ) ≥ XS auf {T ≥ S} P -fast sicher. Insbesondere für S ≡ 1 gilt EX1 ≤ EXT . Beweis: Wir zeigen, dass für jedes A ∈ FS gilt EXT 1lA∩{T ≥S} ≥ EXS 1lA∩{T ≥S} . Wir benutzen folgende Schreibweise: I(A, T ≥ S) := 1lA∩{T ≥S} . Es reicht für jedes n ≥ 1 zu zeigen: EXT I(A, T ≥ S, S = n) ≥ EXS I(A, T ≥ S, S = n) oder mit B := A ∩ {S = n} ausgedrückt, EXT I(B, T ≥ n) ≥ EXn I(B, T ≥ n) . Dies folgert man so. Sei N ≥ n. Durch Iteration erhält man EXn I(B, T ≥ n) = EXn I(B, T = n) + EXn I(B, T > n) ≤ EXn I(B, T = n) + E(E(Xn+1 | Fn )I(B, T > n)) = EXn I(B, T = n) + EXn+1 I(B, T ≥ n + 1) = EXT I(B, n ≤ T ≤ n + 1) + EXn+1 I(B, T > n + 1) ≤ EXT I(B, n ≤ T ≤ n + 1) + EXn+2 I(B, T ≥ n + 2) .. . ≤ EXT I(B, n ≤ T ≤ N ) + EXN I(B, T > N ) 10 Kapitel 1: Martingale Da E|XT | < ∞ ist folgt dass lim EXT I(B, n ≤ T ≤ N ) existiert (wegen majorisierter N →∞ Konvergenz). Folglich erhält man EXT I(B, T ≥ n) = ≥ lim EXT I(B, n ≤ T ≤ N ) N →∞ lim [EXn I(B, T ≥ n) − EXN I(B, T > N )] N →∞ = EXn I(B, T ≥ n) − lim E(XN I(B, T > N )) N →∞ + ≥ EXn I(B, T ≥ n) − lim EXN I(B, T > N ) N →∞ = EXn I(B, T ≥ n) . 2 Bemerkung 1.16 Im Beispiel der symmetrischen Irrfahrt (Seite 7) ist Voraussetzung 2′ ) aus Satz 1.14 verletzt. Beweis: Mit den Bezeichnungen aus dem Beispiel der symmetrischen Irrfahrt auf Seite 7 folgt: (Sn )n∈IN ist ein Martingal, also ist (| Sn |)n∈IN ein Submartingal (siehe Beispiel 1.7 1)). Sei AN −1 := { S1 = −1, S2 ̸= 0, . . . , SN −1 ̸= 0 }. Dann ist AN −1 ein Element von FN −1 und es gilt AN −1 ⊂ { T > N }. Damit erhalten wir: ∫ { T >N } | SN | dP ≥ ≥ ≥ ∫ AN −1 ∫ AN −2 | SN | dP ≥ ∫ AN −1 | SN −1 | dP ≥ ∫ { S1 =−1 } | SN −1 | dP ∫ AN −2 | SN −2 | dP | S1 | dP = P (S1 = −1) 1 = . 2 Somit ist lim inf N →∞ 1.7 ∫ { T >N } | SN | dP ≥ 1/2. 2 Einige Anwendungen des Optional Sampling Theorems Beispiel 1.17 (Ruin-Problem) Sei (Xi )i∈IN eine Folge unabhängiger, identisch verteilter Zufallsvariablen mit P (Xi = 1) = ∑ p = 1 − P (Xi = −1). Sei Sn := S0 + ni=1 Xi , S0 := k für ein 0 < k < N , F0 := { Ø, Ω } und Fn := σ(X1 , . . . , Xn ). Darüberhinaus bezeichnen wir mit T die Stoppzeit T := min{ n ≥ 1 : Sn ∈ {0, N } }. pk sei durch pk := P (ST = 0) definiert (pk ist dann die Wahrscheinlichkeit, sich bei dem durch (Xi )i∈IN definierten Spiel „zu ruinieren“, wenn man das Kapital k einsetzt). Wir wollen pk berechnen. Sei q := 1 − p. Durch Yn := denn es gilt: ( )Sn q p wird ein Martingal definiert, 1.7. Einige Anwendungen des Optional Sampling Theorems 11 (( ) ) ( ) ( )Xn+1 q Sn q Sn +Xn+1 q E(Yn+1 | Fn ) = E E Fn = p p ( )Sn (( )−1 = q p q p ( ) ) q+ q p p p ( )Sn = q p = Yn . Damit erhalten wir EYn = EY0 = Wegen ( )k q p und EYT = EY0 (Optional Stopping Theorem). ( )N q EYT = P (ST = 0) + P (ST = N ) p folgt ( )k pk = q p 1− = pk + (1 − pk ) ( )N q p ( )N q p ( )N q − für p ̸= q. p Beispiel 1.18 (Waldsche Identität) Sei (ξn )n∈IN eine Folge unabhängiger, identisch verteilter Zufallsvariablen mit E| ξ1 | < ∞. Seien Fn := σ(ξ1 , . . . , ξn ), T eine Stoppzeit bezüglich (Fn )n∈IN mit ET < ∞ und ST := ∑T i=1 ξi (zufällig gestoppte Summe). Man kann sich vorstellen, dass (ξn )n∈IN eine Folge von Schadensfällen (z.B. Unwetterschäden) beschreibt, wobei ξn die Höhe des n-ten Schadens angibt und dass T die Anzahl dieser Schadensfälle (innerhalb eines Jahres) ist. Dann ist EST der mittlere Gesamtschaden. Es gilt EST = Eξ1 ET . Beweis: Wir wollen Satz 1.14 anwenden. Dazu definieren wir uns Xn := Sn − nEξ1 als ein geeignetes Martingal. Dann ist E| Xn | < ∞ für alle n ∈ IN. Es genügt somit, die Voraussetzungen 1) und 2) aus Satz 1.14 für T nachzuprüfen. ∑ n Zu 1): Yn := − nE| ξ1 | definiert ein Martingal. Also folgt mit Satz 1.10, dass i=1 | ξi | ∑ T ∧n EYT ∧n = 0 und damit E i=1 | ξi | = E(T ∧ n)E| ξ1 | gilt. Es ist E T∑ ∧n | ξi | = E i=1 T ∑ | ξi |1l{ T ≤n } + E i=1 n ∑ | ξi |1l{ T >n } ≥ E i=1 T ∑ | ξi |1l{ T ≤n } i=1 und deshalb folgt: ET E| ξ1 | ≥ E(T ∧ n)E| ξ1 | ≥ E T ∑ | ξi |1l{ T ≤n } i=1 −→ E T ∑ i=1 | ξi | für n → ∞ (Satz von der monotonen Konvergenz). 12 Kapitel 1: Martingale Damit ist T T ∑ ∑ E| XT | = E| ST − T Eξ1 | ≤ E ξi + ET E| ξ1 | ≤ E | ξi | + ET E| ξ1 | i=1 i=1 ≤ 2ET E| ξ1 | < ∞. Also folgt 1). Zu 2): Auf {T > N } gilt |XN | = N ∑ |ξi − N Eξ1 | ≤ i=1 N ∑ |ξi | + N E|ξ1 | ≤ i=1 T ∑ |ξi | + T E|ξ1 | i=1 Daraus folgt ∫ {T >N } |XN |dP ≤ ( ∫ {T >N } T ∑ ) |ξi | + T E|ξ1 | dP → 0 für N → ∞, i=1 da nach 1) gilt E T ∑ |ξi | + ET E|ξ1 | < ∞. i=1 Somit ist auch 2) gezeigt. Wir erhalten nun mit Hilfe von Satz 1.15, dass EXT = EX1 = 0 ist und damit EST − ET Eξ1 = 0. 2 Beispiel 1.19 (Die Stoppverteilung der Irrfahrt) Die Folge von Zufallsvariablen (Xi )i∈IN und die σ-Algebren Fn seien wie in Beispiel 1.17 ∑ definiert. Sei Sn := ni=1 Xi und Tb := min{n ∈ IN : Sn ≥ b} für b ∈ IN. Wir setzen q := 1 − p. Dann gilt für alle p ∈ (0, 1): ( Es Tb 1{Tb <∞} = 1− √ 1 − 4pqs2 2qs )b für s ∈ (0, 1]. Beweis: Sei zunächst p ≥ q. Dann ist Tb < ∞ fast sicher. Für z > 0 ist {z Sn /ϕ(z)n , Fn ; n ∈ N} nach Beispiel 1.2.2 ein Martingal, wobei ϕ(z) = Ez X1 = pz + qz −1 ist. Wir werden zeigen, dass das Martingal und die Stoppzeit Tb die zweite Voraussetzung von Satz 1.15 erfüllen (die erste gilt offensichtlich für p ≥ q). Dazu seien s ∈ (0, 1) und z so gewählt, dass ϕ(z) = s−1 ist. (Beachte für z > max(1, pq ) ist φ(z) > 1 für alle 0 < p < 1.) Dann gilt ( ) z Sn (+) E 1 ≤ z b sn P (Tb > n) ≤ z b sn . ϕ(z)n {Tb >n} Da s ∈ (0, 1) ist, konvergiert die rechte Seite für n → ∞ gegen 0. Damit sind alle Voraussetzungen des Optional Sampling Theorems erfüllt und folglich gilt 1=E z STb = z b EsTb , ϕ(z)Tb 1.7. Einige Anwendungen des Optional Sampling Theorems 13 d.h. EsTb = z −b (∗). Nun gilt s−1 = ϕ(z) = pz + qz −1 . Mit w = z −1 ergibt sich daraus 1 = spw−1 + sqw oder äquivalent w = sp + sqw2 . Die einzig sinnvolle Lösung ist ( z −1 =w= 1− √ 1 − 4pqs2 2qs ) . Setzt man dies in (∗) ein, so folgt die Behauptung. ) ( √ 1+ 1−4pqs2 . Schließlich ergibt sich Übrigens gilt auch z = 2ps lim s↑1 d b EsTb = ETb = ds p−q für p > q . Dies ist auch direkt aus der Waldschen Identität (Beispiel 1.18) herleitbar, ebenso wie Var(Tb ) = σ2 b (p − q)3 mit σ 2 = 1 − (p − q)2 . Im Fall von p < q ist Tb = ∞ mit positiver Wahrscheinlichkeit, so dass Satz 1.15 nicht anwendbar ist. Nach Satz 1.10 hat man aber mit Xn = z Sn /ϕ(z)n 1 = EX1 = EXTb ∧n = z b EsTb 1{Tb ≤n} + sn Ez Sn 1{Tb >n} . Wegen (+) konvergiert der zweite Term gegen null. Durch den Übergang n → ∞ erhält man E sTb 1{Tb <∞} = z −b . Damit folgt die gewünschte Aussage auch in diesem Fall. Für s = 1 erhält man mit 1 − 4pq = (2q − 1)2 , so dass P (Tb < ∞) = ( )b p q gilt. 2 Als eine weitere Anwendung des Optional Sampling Theorems zeigen wir eine KolmogorovUngleichung. Satz 1.20 (Maximalungleichung) Sei (Xn , Fn )1≤n≤k ein Submartingal. Dann gilt für jedes b > 0, P ( max Xn > b) ≤ 1≤n≤k Beweis: Setze EXk+ . b min{ j ≤ k : X > b } j T1 := k, falls { j ≤ k : Xj > b } = Ø 14 Kapitel 1: Martingale und T2 := k. Da T1 und T2 beschränkt sind, sind die Voraussetzungen aus Satz 1.15 trivialerweise erfüllt. Wegen { XT1 > b } ∈ FT1 und der Submartingaleigenschaft der Folge (Xn , Fn )1≤n≤k erhalten wir 1 > b}) ≤ b ∫ 1 P ( max Xn > b) = P ({XT1 XT1 dP ≤ 1≤n≤k b {XT1 >b} ∫ ∫ 1 1 = Xk dP ≤ Xk+ dP b {XT1 >b} b 1 = EXk+ . b ∫ {XT1 >b} XT2 dP 2 Beispiel 1.21 (Ein sequentieller Alarmplan) Das im Folgenden beschriebene Verfahren ist eine idealisierte Version eines sequentiellen Versuchsplanes, um Nebenwirkungen bei medizinischen oder pharmazeutischen Behandlungen zu entdecken. Gegeben seien unabhängige identisch verteilte Zufallsvariablen (Xn )n∈IN mit unbekannter Dichte f bezüglich eines Maßes µ. Für die Wahl von f seien die beiden Alternativen p und q möglich. Ziel ist es, ein Verfahren anzugeben, das aufgrund der Beobachtungen (Xn )n∈IN signalisiert, dass f = q eingetreten ist. Dazu nehmen wir zunächst an, dass f = p vorliegt. Falls der Dichtequotient q(X1 ) · · · q(Xn ) Yn = p(X1 ) · · · p(Xn ) aber zu groß wird, entscheiden wir f = q. Formal heißt dies, für a > 0 sei min{n ≥ 1 : Y > a} n Ta := ∞, falls {n ≥ 1 : Yn > a} = Ø Falls Ta < ∞ ist, schließt man auf f = q. Die Stoppzeit Ta ist ein sogenanntes sequentielles Entscheidungsverfahren. Diese haben die besondere Eigenschaft, dass die Zahl der für eine Entscheidung notwendigen Beobachtungen nicht vorab festgelegt ist. Ob das Verfahren beendet wird oder nicht, wird zu jedem Zeitpunkt aufgrund der bis dahin gewonnenen Daten erneut entschieden. Wir werden nun sehen, dass sich durch die Wahl von a die Wahrscheinlichkeit falschen Alarms, d.h. die Wahrscheinlichkeit sich für f = q zu entscheiden, obwohl f = p vorliegt, beschränken lässt. Dazu sei P := pµ und Fn := σ(X1 , . . . , Xn ). Nach Beispiel 1.2.5 ist (Yn )n∈IN bezüglich der Filtrierung (Fn )n∈IN ein Martingal unter dem Maß P . Deshalb folgt mit Satz 1.20 für alle N ∈ IN EYN 1 E|YN | = = . P (Ta ≤ N ) = P ( max Yn > a) ≤ 1≤n≤N a a a Damit gilt für die Wahrscheinlichkeit eines falschen Alarms P (Ta < ∞) = lim P (Ta ≤ N ) ≤ N →∞ 1 . a Kapitel 2 Martingalkonvergenzsätze 2.1 Die Upcrossing Ungleichung Nehmen wir an, dass wir die Werteentwicklung einer Aktie zu den Zeitpunkten n ∈ IN verfolgen und dass wir die Aktie kaufen wollen, sobald sie einen bestimmten Wert r unterschreitet und sie wieder verkaufen, wenn ein Wert s mit s > r überschritten wird. Dann wird unser Gewinn zum Zeitpunkt n größer sein als s − r multipliziert mit der Anzahl der Überschreitungen der Grenzen r und s (jeweils beginnend mit r und endend mit s). Wir fassen diese Betrachtungen in einen formalen Rahmen: Sei (Xn )n∈IN eine Folge reeller Zufallsvariablen und [r, s] ein reelles Intervall. Dann definieren wir die Stoppzeiten T1 und T2 durch T1 := inf{i > 0 : Xi ≤ r} und T2 := inf{i > T1 : Xi ≥ s} und nennen das Intervall (T1 , T2 ] ein Upcrossing. Für k ≥ 2 definieren wir dann induktiv T2k−1 := inf{i > T2k−2 : Xi ≤ r}, T2k := inf{i > T2k−1 : Xi ≥ s} sowie Tk := ∞, falls eine der Mengen leer ist, sodass βn (r, s) := 0 falls T2 > n max{m ∈ IN : T2m ≤ n} sonst gerade die Anzahl der Upcrossings von [r, s] durch die Folge X1 , . . . , Xn ist. Ferner ist β(r, s) := limn→∞ βn (r, s) die Anzahl der Upcrossings von [r, s] durch die Folge (Xn )n∈IN . Ersetzen wir die Folge von Zufallsvariablen (Xn )n∈IN durch eine Folge (an )n∈IN reeller Zahlen, so gilt: Lemma 2.1 Ist β(r, s) < ∞ für alle r, s ∈ Q mit r < s, so existiert lim an , wobei +∞ und n→∞ −∞ als Limiten zugelassen sind. Beweis: Sei a := lim inf n→∞ an und a := lim supn→∞ an . Wir nehmen an, dass a < a. Dann existieren r, s ∈ Q mit a < r < s < a. Aus den Eigenschaften von lim inf und lim sup folgt, dass an ≤ r für unendlich viele n und am ≥ s für unendlich viele m gilt. Damit existieren unendlich viele Upcrossings von [r, s] durch (an )n∈IN . Deshalb ist β(r, s) = ∞, was aber im 2 Widerspruch zur vorausgesetzten Endlichkeit steht. Also ist a = a. 15 16 Kapitel 2: Martingalkonvergenzsätze Satz 2.2 (Upcrossing Ungleichung) Sei X = (Xi , Fi )1≤i≤n ein Submartingal. Dann gilt Eβn (r, s) ≤ E(Xn − r)+ 1 ≤ (EXn+ + |r|) . s−r s−r Beweis: Die Anzahl der Upcrossings von [r, s] durch (Xi )1≤i≤n ist gleich der Anzahl der Upcrossings von [0, s−r] durch das Submartingal (Xi −r)+ 1≤i≤n (für die Submartingaleigenschaft siehe Beispiel 1.7 3)). Wir können deshalb ohne Einschränkung annehmen, dass r = 0 und Xi ≥ 0 ist für alle i ∈ {1, . . . , n}. Sei X0 := 0, F0 := {Ø, Ω} und 1 : ϕi := 0 : ∃m ∈ 2IN0 + 1 : Tm < i ≤ Tm+1 ∃m ∈ 2IN : Tm < i ≤ Tm+1 d.h., ϕi ist genau dann 1, wenn der Index i in einem Upcrossing-Zyklus liegt. Also gilt ∑ s · βn (0, s) ≤ ni=1 ϕi (Xi − Xi−1 ). Wegen ∪ {ϕi = 1} = ({Tm < i} \ {Tm+1 < i}) ∈ Fi−1 m∈2IN0 +1 gilt sEβn (0, s) ≤ E n ∑ ϕi (Xi − Xi−1 ) = i=1 = ≤ = n ∫ ∑ i=1 {ϕi =1} n ∫ ∑ n ∫ ∑ i=1 {ϕi =1} (E(Xi | Fi−1 ) − Xi−1 ) dP (E(Xi | Fi−1 ) − Xi−1 ) dP i=1 n ∫ ∑ (Xi − Xi−1 ) dP (da {ϕi = 1} ∈ Fi−1 ) (Submartingaleigenschaft) (Xi − Xi−1 ) dP = EXn − EX0 i=1 = EXn ≤ EXn+ . Die zweite Ungleichung des Satzes ist offensichtlich. 2.2 2 Konvergenzsätze Bisher konnten wir nur unter der Annahme der stochastischen Unabhängigkeit einer Folge von Zufallsvariablen Aussagen über fast sichere Konvergenz machen (starkes Gesetz der großen Zahlen). Nun werden wir sehen, dass man auf Unabhängigkeit verzichten kann, wenn man stattdessen die Submartingaleigenschaft annimmt. Satz 2.3 (Konvergenzsatz von Doob) Sei (Xn , Fn )n∈IN ein Submartingal mit supn∈IN EXn+ < ∞. Dann existiert X∞ := lim Xn fast sicher. Falls EXn0 > −∞ für ein n→∞ n0 ∈ IN, so ist X∞ integrierbar. 2.2. Konvergenzsätze 17 Beweis: Ziel ist es, in geeigneter Weise die Upcrossing Ungleichung anzuwenden, wobei wir wie im Beweis zu Lemma 2.1 vorgehen werden. Sei X ∗ := lim supn→∞ Xn und X∗ := lim inf n→∞ Xn . Wir nehmen an, dass P (X∗ < X ∗ ) > 0 ist und führen diese Aussage zu einem Widerspruch. Seien r, s ∈ Q mit r < s und B(r, s) := {X∗ < r < s < X ∗ }. Dann ist {X∗ < X ∗ } = ∪ ∗ r,s∈Q B(r, s). Wegen P (X∗ < X ) > 0 existieren somit r, s ∈ Q mit r < s und P (B(r, s)) > 0. Mit Lemma 2.1 folgt, dass limn→∞ βn (r, s) = ∞ auf B(r, s) gilt. Damit ist limn→∞ Eβn (r, s) ≥ limn→∞ E(βn (r, s)1lB(r,s) ) = ∞. Andererseits folgt mit Satz 2.2, dass E(Xn − r)+ < ∞. s−r n∈IN sup Eβn (r, s) ≤ sup n∈IN Das ist aber ein Widerspruch zu limn→∞ Eβn (r, s) = ∞. Somit existiert X∞ fast sicher. Beweisen wir nun die zweite Aussage des Satzes: Sei n0 ∈ IN mit EXn0 > −∞. Aus der Submartingaleigenschaft folgt EXn0 ≤ EXn für alle n ≥ n0 . Damit folgt: E|X∞ | = E lim |Xn | ≤ lim inf E|Xn | n→∞ n→∞ (Lemma von Fatou) ≤ sup E|Xn | = sup (2EXn+ − EXn ) ≤ 2 sup EXn+ − EXn0 n≥n0 n≥n0 n≥n0 < ∞. 2 Korollar 2.4 Sei (Xn , Fn )n∈IN ein nichtnegatives Supermartingal. Dann existiert limn→∞ Xn fast sicher. Ist limn→∞ EXn = 0, so gilt limn→∞ Xn = 0 fast sicher. Beweis: (−Xn , Fn )n∈IN ist ein Submartingal mit supn≥n0 E(−Xn+ ) < ∞. Mit Satz 2.3 folgt die fast sichere Existenz von X∞ := limn→∞ Xn . Sei nun limn→∞ EXn = 0. Dann gilt wegen dem Lemma von Fatou 0 ≤ EX∞ = E lim Xn ≤ lim inf EXn = lim EXn = 0 . n→∞ n→∞ n→∞ 2 Also ist EX∞ = 0 und somit X∞ fast sicher null. Beispiel 2.5 (Ein Submartingal, das fast sicher aber nicht in L1 konvergiert.) Sei (Ω, F, P ) := ([0, 1], B ∩ [0, 1], λ[0,1] ), X1 ≡ 1, 2n−1 : Xn (ω) := 0 : 0≤ω≤ 1 2n−1 sonst F1 := {Ø, Ω} und Fn := σ(X1 , . . . , Xn ). Dann ist (Xn , Fn )n∈IN ein Submartingal. ∫ ∫ Beweis: Sei n ∈ IN. Es ist zu zeigen, dass A Xn+1 dP ≥ A Xn dP für alle A ∈ Fn . Man 1 ]. Es gilt: beachte: Das einzige Intervall in Fn auf dem Xn+1 , Xn ̸= 0 gilt, ist [0, 2n−1 ∫ 0 1 2n−1 ∫ 1 2n Xn+1 dP = 0 ∫ 2n dP = 1 = 0 1 2n−1 Xn dP . 18 Kapitel 2: Martingalkonvergenzsätze 2 Also ist (Xn , Fn )n∈IN sogar ein Martingal mit EXn+ = EXn = 1 für alle n ∈ IN. Damit ist supn∈IN EXn+ = 1 und mit Satz 2.3 folgt, dass limn→∞ Xn fast sicher existiert. Offensichtlich gilt X∞ := limn→∞ Xn = 0 fast sicher, also EX∞ = 0, weshalb die Folge (Xn )n∈IN nicht in L1 gegen X∞ konvergieren kann. Beispiel 2.6 (Ein sequentieller Alarmplan (Fortsetzung von Beispiel 1.21)) Sei (Xn )n∈IN eine Folge unabhängiger, identisch verteilter Zufallsvariablen, deren Bildverteilung die Dichte f bezüglich eines Wahrscheinlichkeitsmaßes µ besitzt. Es soll gelten, dass f = p oder f = q. Ziel ist es, zu entscheiden, ob p oder q vorliegt. Sei a ∈ IR+ . Dann defiq(X1 )···q(Xn ) nieren wir Yn := p(X Sei Fn := σ(X1 , . . . , Xn ). Dann ist (Yn , Fn )n∈IN ein Martingal 1 )···p(Xn ) unter P = pµ mit Erwartungswert 1. Nach dem Konvergenzsatz von Doob existiert Y∞ := limn→∞ Yn fast sicher und es gilt Y∞ = 0. Beweis: Es gilt n 1 1∑ q(Xi ) q(X1 ) lim log Yn = lim log = EP log < 0, n→∞ n n→∞ n p(Xi ) p(X1 ) i=1 q(X1 ) q(X1 ) denn nach der Jensenschen Ungleichung gilt EP log p(X < log EP p(X = 0. Also ist 1) 1) lim log Yn = −∞ n→∞ 2 fast sicher und damit limn→∞ Yn = 0 fast sicher. Beispiel 2.7 (Das Blackwellsche Vorhersageverfahren) Wir betrachten Vorhersageverfahren für eine unendliche 0 − 1 Folge x1 , x2 , . . . Sei yn+1 eine ∑ Vorhersage für xn+1 , wenn x1 , . . . , xn bereits bekannt sind. Seien xn = n1 ni=1 xi die relative ∑ Häufigkeit der Einsen in der Folge x1 , . . . , xn , γi = 1l{yi =xi } und γ n = n1 ni=1 γi die relative Häufigkeit für richtige Vorhersagen bis n. Sei µn = (xn , γ n ) ∈ [0, 1]2 und S = {(x, y) ∈ [0, 1]2 | y ≥ max(x, 1 − x)}. γn S R L µn U wn xn Der Blackwell-Algorithmus funktioniert wie folgt: yn+1 wird mit Hilfe von µn gewählt gemäß 0 yn+1 = falls µn ∈ L 1 falls µn ∈ R 1 mit Wahrscheinlichkeit wn , falls µn ∈ U . 2.3. Gleichgradige Integrierbarkeit 19 Wenn µn im Inneren von S liegt, kann yn+1 beliebig gewählt werden. Sei außerdem y1 = 1. Dann gilt für den Blackwell-Algorithmus: Für jede unendliche 0 − 1 Folge gilt d(µn , S) → 0 für n → ∞ fast sicher. Dabei bedeutet d(µn , S) den euklidischen Abstand von µn zu S. n Beweisskizze: Sei dn = d(µn , S). Für µn ∈ L oder R gilt dn+1 = n+1 dn . Für µn ∈ U hat man ( ) ( n )2 1 (∗) E d2n+1 | Vergangenheit(n) ≤ . d2n + n+1 2(n + 1)2 Für die Details zu (∗) siehe die Arbeit von Lerche-Sarkar (1994): The Blackwell prediction 1 algorithm for infinite 0 − 1 sequences and a generalization. Aus (∗) kann man nun Ed2n ≤ 2n ∑ 1 2 folgern. Nun ist aber (dn + j>n 2j 2 , n ≥ 1) ein Supermartingal dessen Erwartungswert gegen 0 konvergiert, so dass mit Hilfe von Korollar 2.4 d2n → 0 für n → ∞ fast sicher folgt. 2.3 Gleichgradige Integrierbarkeit In Beispiel 2.5 haben wir gesehen, das ein Submartingal, das fast sicher konvergiert, im Allgemeinen nicht in L1 konvergiert. Ziel dieses Abschnitts ist es, eine Bedingung anzugeben, die sowohl fast sichere als auch L1 -Konvergenz impliziert. Ein Beispiel für eine solche Bedingung liefert der Satz von der majorisierten Konvergenz: Ist (Xn )n∈IN eine fast sicher konvergente Folge von Zufallsvariablen, die eine integrierbare Majorante besitzt, so konvergiert sie in L1 . Wir wollen die Voraussetzung der Majorisierbarkeit abschwächen. Lemma 2.8 Sei X eine integrierbare Zufallsvariable. Dann existiert zu jedem ε > 0 ein ∫ δ > 0, sodass für alle F ∈ F mit P (F ) < δ gilt: F |X| dP < ε. Beweis: Wir nehmen an, dass die Aussage falsch ist. Dann existiert ein ε0 > 0, sodass es zu ∫ jedem δ > 0 ein F ∈ F gibt mit P (F ) < δ und F |X| dP ≥ ε0 . Wir können also zu n ∈ IN ∫ ∑ Elemente δn und Fn so wählen, dass n∈IN δn < ∞, P (Fn ) < δn und Fn |X| dP ≥ ε0 gilt. Dann folgt mit dem Lemma von Borel-Cantelli, dass P (H) = 0 mit H := lim supn→∞ Fn . Nach dem Lemma von Fatou gilt ∫ H |X| dP ≥ lim sup n→∞ ∫ ∫ Fn |X| dP ≥ ε0 . Andererseits ist aber H |X| dP = 0 wegen P (H) = 0 und der Integrierbarkeit von X. Damit haben wir einen Widerspruch erhalten. 2 Korollar 2.9 Ist ε > 0 und X eine integrierbare Zufallsvariable, so existiert ein k ∈ IR+ mit ∫ {|X|>k} |X| dP < ε. Beweis: Zu ε > 0 sei δ > 0 wie in Lemma 2.8 gewählt. Außerdem wählt man k so groß, dass E|X| k < δ ist. Dann folgt mit der Markov-Ungleichung P (|X| > k) ≤ E|X| < δ. k 20 Kapitel 2: Martingalkonvergenzsätze Nach Wahl von δ ist somit ∫ {|X|>k} |X| dP 2 < ε. Wir definieren nun den entscheidenden Begriff. Definition 2.10 Eine Klasse C von Zufallsvariablen heißt gleichgradig integrierbar, falls zu ∫ jedem ε > 0 ein kε existiert, sodass {|X|>kε } |X| dP < ε für alle X ∈ C gilt. Bemerkung 2.11 1) Nach Korollar 2.9 sind einelementige Klassen von integrierbaren Zufallsvariablen gleichgradig integrierbar. 2) Ist C gleichgradig integrierbar, so gilt supX∈C E|X| < ∞. Beweis: Für alle X ∈ C gilt E|X| = E|X|1l{|X|>k1 } + E|X|1l{|X|≤k1 } ≤ 1 + k1 . 2 Satz 2.12 Sei C eine Klasse von Zufallsvariablen, für die eine integrierbare Majorante existiert (d.h., es existiert eine integrierbare Zufallsvariable Y mit |X| ≤ Y für alle X ∈ C). Dann ist C gleichgradig integrierbar. ∫ Beweis: Wir müssen zeigen, dass limc→∞ supX∈C {|X|>c} |X| dP = 0. Nach Voraussetzung ist supX∈C |X| integrierbar. Darüberhinaus gilt für alle X ∈ C: ∫ {|Y |>c} Y dP ≥ ∫ { sup |X|>c} Y dP ≥ ∫ X∈C sup |X| dP ≥ ∫ { sup |X|>c} X∈C {|X|>c} |X| dP. X∈C ∫ ∫ Deshalb folgt supX∈C {|X|>c} |X| dP ≤ {supX∈C |X|>c} supX∈C |X| dP . Wegen der Integrierbarkeit von supX∈C |X| geht der rechte Ausdruck für c → ∞ gegen null. 2 Beispiel 2.13 (Eine Klasse, die nicht gleichgradig integrierbar ist) Sei Xn := n1l[0, 1 ] und P := λ[0,1] . Dann ist E|Xn | = EXn = 1 für alle n ∈ IN und ([ n E|Xn |1l{|Xn |>k} = nP 0, n1 ]) = 1 für n > k. Lemma 2.14 Sei C eine Klasse von Zufallsvariablen. Dann ist C genau dann gleichgradig integrierbar, wenn 1) supX∈C E|X| < ∞. 2) Zu jedem ε > 0 existiert ein δ > 0 mit supX∈C P (A) < δ. ∫ A |X| dP < ε für alle A ∈ F mit Beweis: „⇒“: Nach Bemerkung 2.11 2) gilt 1). Es reicht also aus, 2) zu zeigen. Für jede Zufallsvariable X ∈ C, a > 0 und A ∈ F gilt: ∫ A |X| dP = ∫ ∫ X dP + A∩{|X|≤a} A∩{|X|>a} |X| dP ≤ aP (A) + ∫ {|X|>a} |X| dP. 2.3. Gleichgradige Integrierbarkeit Damit folgt: ∫ sup X∈C A 21 |X| dP ≤ aP (A) + sup ∫ X∈C {|X|>a} |X| dP . Ist a hinreichend groß, so wird der zweite Summand der rechten Seite wegen der gleichgradigen ε , so folgt für alle A mit P (A) ≤ δ, dass Integrierbarkeit kleiner als 2ε . Wählt man nun δ := 2a gilt ∫ ε ε |X| dP ≤ a · + = ε. 2a 2 A „⇐“: Nach der Markov-Ungleichung gilt für a > 0: sup P (|X| > a) ≤ X∈C 1 sup E|X|. a X∈C Man wählt deshalb a so groß, dass die rechte Seite kleiner oder gleich δ ist, denn dann folgt ∫ 2 mit 2), dass {|X|>a} |X| dP < ε für alle X ∈ C. Satz 2.12 zeigt, dass der folgende Satz eine Verallgemeinerung des Satz von der majorisierten Konvergenz ist. Satz 2.15 Sei (Xn )n∈IN eine Folge integrierbarer Zufallsvariablen. Dann existiert genau dann eine Zufallsvariable X, sodass (Xn )n∈IN in L1 gegen X konvergiert, wenn 1) (Xn )n∈IN stochastisch gegen X konvergiert, 2) (Xn )n∈IN gleichgradig integrierbar ist. Beweis: „⇐“: Wir zeigen zuerst, dass X integrierbar ist. Wegen 1) existiert eine Teilfolge (Xnj )j∈IN von (Xn )n∈IN , die fast sicher gegen X konvergiert. Deshalb erhalten wir aus 2), Lemma 2.14 und dem Lemma von Fatou, dass E|X| ≤ lim inf E|Xnj | ≤ sup E|Xn | < ∞. j→∞ n∈IN Als nächstes zeigen wir die L1 -Konvergenz. Für ε > 0 gilt: ∫ |Xn − X| dP = ∫ {|Xn −X|≤ε} ≤ε+ |Xn − X| dP + ∫ {|Xn −X|>ε} |Xn | dP + ∫ ∫ {|Xn −X|>ε} {|Xn −X|>ε} |Xn − X| dP |X| dP. Nach 1) gilt limn→∞ P (|Xn − X| > ε) = 0. Deshalb folgt aus Lemma 2.14, dass ∫ {|Xn −X|>ε} |Xn | dP < ε ∫ für genügend große n. Nach Lemma 2.8 gilt auch {|Xn −X|>ε} |X| dP < ε für genügend große n. Also folgt die L1 -Konvergenz. „⇒“: 1) folgt mit Hilfe der Tschebycheffschen Ungleichung. Es reicht also aus, 2) zu zeigen. Dazu sei ein beliebiges ε > 0 vorgegeben. Zu diesem existiert ein n0 ∈ IN, sodass E|Xn −X| < ε ∑ 0 für alle n ≥ n0 . Damit gilt supn∈IN E|Xn | ≤ ni=0 E|Xi |+ε, wobei wir X0 := X gesetzt haben. 22 Kapitel 2: Martingalkonvergenzsätze Um die gleichgradige Integrierbarkeit zu zeigen beachten wir: Für A ∈ F sei µn (A) := ∫ A |Xn | dP . Dann ist µn ein Maß, dass absolut stetig bezüglich P ist. Mit der ε-δ-Formulierung der Dominiertheit folgt, dass ein δn > 0 existiert, sodass für A ∈ F mit P (A) < δn gilt, dass µ (A) < ε ist. Wir setzen δ := min{δn : n ≤ n0 }. Für n ≤ n0 gilt nach Definition von δ, dass ∫n A |Xn | dP ≤ ε. Für A ∈ F mit P (A) < δ und n ≥ n0 : ∫ A |Xn | dP ≤ ∫ A |Xn − Xn0 | dP + ∫ A |Xn0 | dP ≤ E|Xn − Xn0 | + ∫ A |Xn0 | dP ≤ 3ε. Damit folgt aus Lemma 2.14 die gleichgradige Integrierbarkeit der Folge (Xn )n∈IN . 2 Das nächste Lemma wird vor allem im Fall p = 2 häufig verwendet werden. Lemma 2.16 Sei C eine Klasse von Zufallsvariablen. Existiert ein p > 1, sodass E|X|p < A < ∞ für alle X ∈ C, so ist C gleichgradig integrierbar. Beweis: Ist 0 < k < y, so ist y < k 1−p y p für p > 1. Deshalb gilt für k > 0 und X ∈ C: ∫ {|X|>k} Wegen limk→∞ 1 A kp−1 |X| dP ≤ k 1−p ∫ {|X|>k} |X|p dP ≤ 1 k p−1 A. 2 = 0 folgt die Behauptung. Der folgende Satz enthält die für unsere Zwecke wichtigste gleichgradig integrierbare Klasse von Zufallsvariablen. Satz 2.17 Sei X eine integrierbare Zufallsvariable. Dann ist die Klasse {E(X | G) : G ⊂ F Unter σ-Algebra} gleichgradig integrierbar. Beweis: Sei ε > 0. Nach Lemma 2.8 existiert ein δ > 0, sodass mit P (F ) < δ. Sei YG eine Version von E(X | G). Dann gilt ∫ F |X| dP < ε für alle F ∈ F |YG | = |E(X | G)| ≤ E(|X| | G) fast sicher, also E|YG | ≤ E|X| und deshalb supG E|YG | ≤ E|X| < ∞. Sei nun k ∈ IN so groß, dass 1 k E|X| < δ. Dann folgt mit Hilfe der Tschebycheffschen-Ungleichung, dass kP (|YG | > k) ≤ E|YG | ≤ E|X| < kδ. Damit erhalten wir P (|YG | > k) < δ, wobei die Ungleichung nicht von der Wahl von G abhängt. Wegen {|YG | > k} ∈ G folgt: E(|YG |1l{|YG |>k} ) = E(|E(X | G)|1l{|YG |>k} ) ≤ EE(|X|1l{|YG |>k} | G) = E(|X|1l{|YG |>k} ) < ε. Also gilt supG E(|YG |1l{|YG |>k} ) < ε. 2 2.3. Gleichgradige Integrierbarkeit 23 Wir werden jetzt den Doobschen Konvergenzsatz (Satz 2.3) mit der gleichgradigen Integrierbarkeit kombinieren und charakterisieren so Martingale (und Submartingale), die sowohl fast sicher als auch in L1 konvergieren. Wir werden sehen, dass das Martingal in diesem Fall schon (fast sicher) eindeutig durch das Limeselement festgelegt ist, mit der Konsequenz, dass der Raum der gleichgradig integrierbaren Martingale mit demjenigen der integrierbaren Zufallsvariablen identifizierbar ist, wodurch man auf dem Raum der gleichgradig integrierbaren Martingale eine Banachraum-Struktur erhält. Außerdem werden wir aus den folgenden Sätzen schon bekannte folgern können, wie z.B. das 0-1 Gesetz von Kolmogorov, das starke Gesetz der großen Zahlen oder den Satz von Radon-Nikodym. Aus dem folgenden Konvergenzsatz lässt sich das starke Gesetz der großen Zahlen (Satz 1.1) folgern. ∩ Satz 2.18 Sei (Xn , Fn )n≤0 ein Martingal und sei F−∞ := n≥0 F−n . Dann existiert X−∞ := limn→−∞ Xn fast sicher und in L1 . Außerdem ist (Xn , Fn )−∞≤n≤0 ein Martingal. Beweis: Mit Beispiel 1.7 1) folgt, dass (|Xn |, Fn )n≤0 ein Submartingal ist. Damit folgt E|Xn | ≤ E|X0 | < ∞ für alle n ≤ 0. Also gilt supn≤0 E|Xn | ≤ E|X0 |. Die fast sichere Konvergenz zeigt man nun wie im Konvergenzsatz von Doob (Satz 2.3) mit Hilfe der UpcrossingUngleichung (Satz 2.2). Damit existiert X−∞ := limn→−∞ Xn fast sicher. Als nächstes zeigen wir die L1 -Konvergenz. Dazu werden wir mit Hilfe von Satz 2.17 folgern, dass die Folge (Xn )n≤0 gleichgradig integrierbar ist und anschließend Satz 2.15 anwenden. Wegen der Martingaleigenschaft gilt Xn = E(X0 | Fn ) für alle n ≤ 0. Nach Satz 2.17 folgt, dass (Xn )n≤0 gleichgradig integrierbar ist. Es bleibt zu zeigen, dass (Xn , Fn )−∞≤n≤0 ein Martingal ist. Wegen der L1 -Konvergenz ist X−∞ integrierbar. Wir werden zeigen, dass Xn = E(X0 |, Fn ) für alle −∞ ≤ n ≤ 0 gilt. Die Martingaleigenschaft folgt dann mit Beispiel 1.2.3. Da wir schon wissen, dass Xn = E(X0 | Fn ) für alle −∞ < n ≤ 0, reicht es aus zu zeigen, dass X−∞ = E(X0 | F−∞ ). Offensichtlich ist X−∞ F−∞ -messbar. Wegen der L1 -Konvergenz gilt für alle A ∈ F, dass ∫ ∫ limn→∞ A Xn dP = A X−∞ dP ist. Da F−∞ ⊂ Fn für alle −∞ ≤ n ≤ 0, folgt mit der ∫ ∫ Martingaleigenschaft für alle A ∈ F−∞ : A Xn dP = A X0 dP . Deshalb erhalten wir ∫ A ∫ X−∞ dP = lim n→−∞ A ∫ Xn dP = ∫ X0 dP = A A Es gilt also X−∞ = E(X0 | F−∞ ). E(X0 | F−∞ ) dP. 2 Korollar 2.19 (Das starke Gesetz der großen Zahlen) Sei (Yn )n∈IN eine Folge unab∑ hängiger, identisch verteilter Zufallsvariablen mit E|Y1 | < ∞ und sei Sn := ni=1 Yi . Dann gilt limn→∞ Snn = EY1 fast sicher. Beweis: Wir setzen X−n := Sn /n und F−n := σ(Sk : k ≥ n). Nach Beispiel 1.2.6 ist dann (Xn , Fn )n≤−1 ein Martingal und es gilt E(Y1 | F−n ) = Sn /n. Also folgt mit Satz 2.18, dass X−∞ = lim X−n = lim n→∞ n→∞ Sn n 24 Kapitel 2: Martingalkonvergenzsätze fast sicher und in L1 existiert und dass (Xn , Fn )−∞≤n≤−1 ein Martingal ist. Damit erhalten wir Sn EX−∞ = EX−n = E = EY1 . n Nach dem 0-1 Gesetz von Kolmogorov gilt X−∞ = EX−∞ fast sicher (X−∞ ist F−∞ -messbar; F−∞ ist aber gerade die σ-Algebra der terminalen Ereignisse). Damit ist das Korollar bewiesen. 2 Satz 2.20 Sei (Xn , Fn )n∈IN ein gleichgradig integrierbares Submartingal (bzw. gleichgradig integrierbares Martingal). Dann existiert X∞ := limn→∞ Xn fast sicher und in L1 . Darüber∪ hinaus ist (Xn , Fn )1≤n≤∞ , mit F∞ := σ( n∈IN Fn ), ein Submartingal (bzw. Martingal). Beweis: Die Konvergenzen folgen mit Hilfe der Sätze 2.3 und 2.15. Es ist also nur noch die Abschlusseigenschaft zu zeigen. Diese zeigen wir wie in Satz 2.18. Offensichtlich ist X∞ ∫ F∞ -messbar. Außerdem gilt wegen der L1 -Konvergenz für alle A ∈ F: limn→∞ A Xn dP = ∫ ∫ X∞ dP . Aus der Submartingaleigenschaft folgt für alle A ∈ Fn und m < n, dass A Xm dP ≤ A ∫ ∫ ∫ X dP . Also ist die Konvergenz limn→∞ A Xn dP = A X∞ dP isoton und wir erhalten ∫A n ∫ A Xn dP ≤ A X∞ dP für alle A ∈ Fn . Damit ist Xn ≤ E(X∞ | Fn ) für alle n ∈ IN und deshalb ist (Xn , Fn )1≤n≤∞ ein Submartingal. Im Falle eines Martingals ersetze man oben die Ungleichungen durch Gleichungen. 2 Der folgende Martingalkonvergenzsatz von P. Levy ist eine Umkehrung von Satz 2.20. Satz 2.21 Sei Y eine integrierbare Zufallsvariable und sei (Fn )n∈IN eine Filtrierung. Außerdem sei Xn := E(Y | Fn ) und F∞ wie in Satz 2.20 definiert. Dann konvergiert die Folge (Xn )n∈IN fast sicher und in L1 gegen E(Y | F∞ ). Beweis: Beispiel 1.2.3 und Satz 2.17 zeigen, dass (Xn , Fn )n∈IN ein gleichgradig integrierbares Martingal ist. Die Konvergenzen folgen dann mit Satz 2.20. Nennen wir den Limes X∞ , so ∫ ∫ bleibt zu zeigen, dass X∞ = E(Y | F∞ ) ist. Nach Satz 2.20 gilt limn A Xn dP = A X∞ dP für alle A ∈ Fn . Wegen Fn ⊂ F∞ für alle n ∈ IN und der Definition von Xn folgt: ∫ ∫ ∫ A X∞ dP = lim n ∫ ∫ ∫ Xn dP = A Y dP = A A E(Y | F∞ ) dP . ∪ Also gilt A X∞ dP = A E(Y | F∞ ) dP für alle A ∈ n∈IN Fn . Mit dem Eindeutigkeitssatz für Maße erhalten wir dann die Gleichheit auf F∞ und somit X∞ = E(Y | F∞ ) (da X∞ F∞ -messbar ist). 2 Korollar 2.22 (0-1 Gesetz von Kolmogorov) Sei (Xn )n∈IN eine Folge unabhängiger Zu∩ fallsvariablen und sei T := n∈IN Tn , mit Tn := σ(Xk : k ≥ n), die σ-Algebra der terminalen Ereignisse. Dann gilt für alle A ∈ T , dass P (A) ∈ {0, 1}. Beweis: Sei Fn := σ(X1 , . . . , Xn ) und A ∈ T . Dann gilt wegen T ⊂ F∞ nach Satz 2.21 1lA = E(1lA | F∞ ) = lim E(1lA | Fn ). n→∞ 2.4. Weitere Beispiele zu den Martingalkonvergenzsätzen 25 Nun ist A ein terminales Ereignis und damit für jedes n ∈ IN unabhängig von Fn . Es gilt deshalb E(1lA | Fn ) = E1lA = P (A) für alle n ∈ IN. Also folgt P (A) = 1lA , was aber P (A) ∈ {0, 1} impliziert. 2 Korollar 2.23 Sei (Xn , Fn )n∈IN ein Martingal. Es gelte supn∈IN E|Xn |p < ∞ für ein p > 1. Dann existiert X∞ := limn→∞ Xn fast sicher und in L1 und schließt das Martingal ab. Beweis: Die Folge (Xn )n∈IN ist nach Lemma 2.16 gleichgradig integrierbar. Deshalb folgen die Aussagen des Satzes aus Satz 2.20. 2 2.4 2.4.1 Weitere Beispiele zu den Martingalkonvergenzsätzen Der Satz von Radon-Nikodym Wir werden folgenden Spezialfall betrachten: Satz 2.24 (Radon-Nikodym) Sei F eine abzählbar erzeugte σ-Algebra und P sowie Q endliche Maße auf F, sodass Q absolut stetig bezüglich P ist. Dann existiert eine fast sicher ∫ eindeutig bestimmte nichtnegative Zufallsvariable X mit Q(A) = A X dP für alle A ∈ F. Zur Erinnerung sei bemerkt, dass eine σ-Algebra abzählbar erzeugt heißt, wenn eine abzählbare Folge (An )n∈IN von Teilmengen von Ω existiert, sodass F = σ(An : n ∈ IN). Ein Beispiel hierfür ist die Borelsche σ-Algebra auf IRn , denn sie wird von dem System {(−∞, q] : q ∈ Qn } erzeugt. Allgemeiner ist die Borelsche σ-Algebra eines polnischen Raumes abzählbar erzeugt, denn Separabilität ist äquivalent zur Existenz einer abzählbar erzeugten Basis der Topologie des Grundraumes. Wir wenden uns nun dem Beweis des Satzes von Radon-Nikodym zu. Beweis: Die Beweisidee besteht darin, sich in geeigneter Weise ein gleichgradig integrierbares Martingal zu definieren, dessen Abschlusselement gerade eine Dichte von Q bezüglich P ist. ) ( dQ dQ Dabei verwenden wir, dass dP G = E dP G für jede Unter σ-Algebra G von F gilt. Sei (An )n∈IN ein abzählbares Erzeugendensystem für F. Wir setzen Fn := σ(A1 , . . . , An ), dann ∪ ∪ ist n∈IN Fn eine Algebra. Sei F = σ ( n∈IN Fn ). Wir wollen Fn noch etwas anders darstellen. Dazu sei {An,k : k ≤ kn } diejenige Partition von Ω, die von {A1 , . . . , An } erzeugt wird. Dann ∪ ist Fn = { k∈J An,k : J ⊂ {1, . . . , kn }}. Damit können wir eine Abbildung Xn : Ω −→ [0, ∞) definieren durch Q(An,k ) : ω ∈ An,k und P (An,k ) > 0 Xn (ω) := P (An,k ) 0 : ω ∈ An,k und P (An,k ) = 0 Es gilt nun, dass das so definierte Xn Fn -messbar sowie P -integrierbar ist. Als erstes stellen wir fest, dass Xn nur endlich viele Werte annimmt, da die Partition endlich ist. Deswegen ist Xn messbar. 26 Kapitel 2: Martingalkonvergenzsätze Nun gilt: ∫ Xn dP = kn ∫ ∑ k=1 An,k = ∑ Xn dP = {k:P (An,k ∑ Q(An,k ) P (An,k ) P (A ) n,k )>0} Q≪P Q(An,k ) = Q(Ω) < ∞. {k:P (An,k )>0} Somit ist auch die Integrierbarkeit gezeigt. Wir zeigen nun, dass (Xn , Fn )n∈IN ein gleichgradig integrierbares Martingal ist. ∫ 1) Zur Martingaleigenschaft: Wie oben zeigt man, dass Q(A) = A Xn dP für alle A ∈ Fn ist. ∫ Somit ist Xn = dQ ≤ n ist Fm ⊂ Fn , sodass Q(A) = A Xn dP für alle dP Fn fast∫sicher. Für m ∫ A ∈ Fm gilt. Damit folgt A Xm dP = A Xn dP für alle A ∈ Fm . Also ist (Xn , Fn )n∈IN ein Martingal. 2) Zur gleichgradigen Integrierbarkeit: Sei ε > 0. Wir wenden die ε-δ-Formulierung der Dominiertheit an. Diese besagt: Es existiert ein δ > 0, sodass Q(A) < ε für alle A ∈ F mit P (A) < δ. Wählen wir also ein k ∈ IR+ mit Q(Ω) < δ, so folgt mit der Tschebycheffschenk Ungleichung: Q(Ω) EXn = < δ. P (Xn > k) ≤ k k ∫ Wir erhalten deshalb {Xn >k} Xn dP = Q(Xn > k) < ε für alle n ∈ IN, womit die gleichgradige Integrierbarkeit gezeigt ist. Nach Satz 2.20 existiert somit X∞ := limn→∞ Xn fast sicher und in L1 und es gilt für alle ∫ ∫ A ∈ Fn : A Xn dP = A X∞ dP . Ist nun n0 ∈ IN fest und A ∈ Fn0 sowie n ≥ n0 , so folgt wegen der Martingaleigenschaft ∫ Q(A) = ∫ ∪ Xn dP . A Damit ist Q(A) = A X∞ dP für alle A ∈ n∈IN Fn . Mit dem Eindeutigkeitssatz für Maße ∫ ∪ folgt, dass Q(A) = A X∞ dP für alle A ∈ F = σ ( n∈IN Fn ). 2 2.4.2 Ein Beispiel aus der Analysis Im Folgenden werden wir den Hauptsatz der Differential- und Integralrechnung für Lipschitzfunktionen beweisen. Dabei heißt eine Abbildung f : [0, 1] −→ IR Lipschitzfunktion, falls ein L ∈ IR+ existiert mit |f (x) − f (y)| ≤ L|x − y| für alle x, y ∈ [0, 1]. Wie man sieht, sind Lipschitzfunktionen gleichmäßig stetig. Satz 2.25 Ist f : [0, 1] −→ IR eine Lipschitzfunktion, so existiert eine Lebesgue-integrierbare Funktion g mit ∫ f (x) − f (0) = x g(y) dy 0 für alle x ∈ [0, 1]. Man beachte die enge Verwandschaft des folgenden Beweises mit dem von Satz 2.24. Beweis: Wie im Beweis zum Satz von Radon-Nikodym, konstruieren wir uns wiederum ein geeignetes gleichgradig integrierbares Martingal. Dazu sei (Ω, F, P ) := ([0, 1], B[0,1] , λ[0,1] ) und 2.4. Weitere Beispiele zu den Martingalkonvergenzsätzen ξn (x) := ∑2n k−1 k=1 2n 1l{ k−1 ≤x< 2kn } 2n 27 eine Treppenfunktion auf [0, 1] mit Werten in [0, 1]. Die ξn sind monoton wachsend in n. Im Schritt von n nach n+1 werden alle Intervalle { k−1 2n ≤ x < halbiert. Also stimmt Fn := σ(ξ1 , . . . , ξn ) mit σ(ξn ) überein. Wir setzen nun Xn := k 2n } f (ξn (x) + 2−n ) − f (ξn (x)) 2−n und zeigen, dass (Xn , Fn )n∈IN ein gleichgradig integrierbares Martingal ist. 1) Gleichgradige Integrierbarkeit: Wegen der Lipschitzeigenschaft von f existiert eine positive Konstante L mit |f (x) − f (y)| ≤ L|x − y| für alle x, y ∈ [0, 1]. Also ist |Xn | ≤ L für alle n ∈ IN und deshalb ist die Klasse {Xn : n ∈ IN} gleichgradig integrierbar. 2) Die Martingaleigenschaft: Wir wollen E(Xn+1 | Fn ) berechnen. Es gilt: E(Xn+1 | Fn ) = ∫ Xn+1 P (dx | ξn ) ∫ = 2n+1 ∫ = 2n+1 [f (ξn+1 (x) + 2−(n+1) ) − f (ξn+1 (x))] P (dx | ξn ) [f (x + 2−(n+1) ) − f (x)] P ξn+1 (dx | ξn ), wobei P ξn+1 (A | ξn ) := P (ξn+1 ∈ A | ξn ) für alle A ∈ B[0,1] . Nun sind folgende zwei Fälle möglich: (a) ξn+1 (x) = ξn (x) oder (b) ξn+1 (x) = ξn (x) + 2−(n+1) . Sei A ∈ σ(ξn ). Dann ist A eine disjunkte Vereinigung von Intervallen der Länge 1/2n . Wegen 1 ) [ {ξn+1 = ξn } = 0, 2n+1 ∪ [ 2 [ 2n+1 − 2 2n+1 − 1 ) 3 ) , ∪ · · · ∪ , 2n+1 2n+1 2n+1 2n+1 ist dann A∩{ξn+1 = ξn } die Vereinigung der ersten Hälften der Intervalle aus A. Da P = λ[0,1] , folgt P (A ∩ {ξn+1 = ξn }) = 21 P (A). Deshalb ergibt sich mit {ξn+1 = ξn + 2−(n+1) } = {ξn+1 = ξn }c , dass 1 P (ξn+1 = ξn | ξn ) = P (ξn+1 = ξn + 2−(n+1) | ξn ) = . 2 Damit gilt E(Xn+1 | Fn ) = 2 ∫ n+1 = 2n+1 [1 2 [f (x + 2−(n+1) ) − f (x)] P ξn+1 (dx | ξn ) (f (ξn + 2−(n+1) ) − f (ξn )) ] 1 + (f (ξn + 2−(n+1) + 2−(n+1) ) − f (ξn + 2−(n+1) )) 2 = 2n (f (ξn + 2−n ) − f (ξn )) = Xn . Somit ist (Xn , Fn )n∈IN ein Martingal. Mit dem Martingalkonvergenzsatz 2.20 folgt, dass X∞ := limn→∞ Xn fast sicher und in L1 28 Kapitel 2: Martingalkonvergenzsätze existiert, also insbesondere integrierbar ist. Wir setzen g := X∞ . Aus der Abschlusseigenschaft folgt E(g | Fn ) = Xn für alle n ∈ IN. Es gilt: ∫ k 2n Xn dλ = 0 = k−1 ∑ ∫ (i+1)2−n f (ξn + 2−n ) − f (ξn ) dλ 2−n −n i=0 i2 k−1 ∑ (f ((i + 1)2−n ) − f (i2−n )) = f (k2−n ) − f (0). i=0 Andererseits gilt: ∫ k 2n ∫ k 2n Xn dλ = 0 0 ∫ k 2n = E(g | Fn ) dλ (Martingaleigenschaft) ( g(y) dy [ da 0, 0 ∫ ) k) ∈ F . n 2n k n Also folgt f (k2−n ) − f (0) = 02 g(y) dy. Die dyadisch rationalen Zahlen 2kn , 1 ≤ k ≤ 2n + 1, n ∈ IN, liegen dicht in [0, 1]. Zu x ∈ [0, 1] existiert also eine Folge (an )n∈IN dyadisch rationaler Zahlen mit x = limn→∞ an . Damit erhalten wir: f (x) − f (0) = lim (f (an ) − f (0)) (Stetigkeit von f ) n→∞ ∫ an = lim n→∞ 0 ∫ x = g(y) dy g(y) dy (majorisierte Konvergenz). 0 2.5 2 Die Doobsche Ungleichung Der nächste Satz macht eine Aussage über die Vertauschbarkeit von Erwartungswert und Supremum bei Submartingalen. Satz 2.26 (Doobsche Ungleichung) Sei (Xn )n∈IN ein nichtnegatives Submartingal mit supn∈IN EXn2 < ∞. Dann gilt E sup Xn2 ≤ 4 sup EXn2 . n∈IN n∈IN Beweis: Mit der Cauchy-Schwarzschen Ungleichung folgt EXn ≤ (EXn2 )1/2 (E12 )1/2 = (EXn2 )1/2 . Zusammen mit der Voraussetzung supn∈IN EXn2 < ∞ ergibt sich also supn∈IN E|Xn | < ∞. Wir können deshalb den Doobschen Konvergenzsatz 2.3 anwenden und erhalten, dass X∞ := limn→∞ Xn fast sicher existiert und in L1 konvergiert. Seien nun T eine Stoppzeit mit P (T < N ) = 1 für ein N ∈ IN, A ∈ FT (d.h. A ∩ {T = j} ∈ Fj für alle j ∈ IN) und n ≤ N . Dann folgt ∫ A∩{T =n} Xn dP ≤ ∫ XN dP A∩{T =n} (Submartingaleigenschaft). 2.5. Die Doobsche Ungleichung 29 Andererseits gilt ∫ XT dP = A N ∫ ∑ n=1 A∩{T =n} ∫ N ∫ ∑ Xn dP ≤ Xn dP. n=1 A∩{T =n} ∫ Somit erhalten wir A XT dP ≤ A XN dP . Wählen wir speziell T := min{1 ≤ n ≤ N : Xn ≥ λ} mit λ ∈ IR+ und der Konvention T = N , falls die Menge über die das Minimum gebildet wird leer ist. Dann ist XT FT -messbar und damit gilt {XT > a} ∈ FT für alle a ∈ IR+ . Deshalb ∫ ∫ erhalten wir {XT >λ} XT dP ≤ {XT >λ} XN dP . Da {XT > λ} = {max1≤n≤N Xn > λ}, ergibt sich wegen Satz 2.20 (Submartingaleigenschaft mit X∞ ) ∫ λP ( max Xn > λ) = λP (XT > λ) ≤ 1≤n≤N ≤ ∫ ∫ = {XT >λ} {XT >λ} X∞ dP { max Xn >λ} XT dP ≤ ∫ {XT >λ} XN dP (Submartingaleigenschaft) X∞ dP . 1≤n≤N Setzen wir Yn := maxk≤n Xk und X := X∞ , dann gilt λP (Yn > λ) ≤ (∗) ∫ {Yn >λ} X dP . Wir werden nun EYn2 als Lebesgue-Stieltjes Integral schreiben. Dazu sei F (λ) := P (Yn > λ). Dann folgt mit partieller Integration für Lebesgue-Stieltjes Integrale (siehe Bemerkung 2.27) EYn2 = − ≤ ∫ ∫ ∞ 0 ∞ 0 2 (∫ Yn X 0 (∫ ∫ = X ∫ =2 (∗) F (λ) dλ ≤ ∫ = ∫ ∞ λ2 F (dλ) = 0 Yn 0 ∞ ∫ 0 1 2 dλ λ ) 1 2λ dλ λ 1 λ F (λ) dλ2 − lim [λ2 F (λ)]u0 u→∞ (∫ ) {Yn >λ} dP X dP dλ2 (Fubini) ) dP (Rechenregel für Stieltjes-Integrale) XYn dP. Somit erhalten wir mit Hilfe der Cauchy-Schwarzschen Ungleichung: ∥Yn ∥2L2 (P ) = EYn2 ≤ 2 ∫ XYn dP ≤ 2∥X∥L2 (P ) ∥Yn ∥L2 (P ) . Wir können ohne Einschränkung annehmen, dass ∥Yn ∥L2 (P ) > 0 gilt für hinreichend große n, da andernfalls supn∈IN Xn fast sicher null ist und damit die Behauptung trivial wäre. Darüberhinaus ist ∥Yn ∥L2 (P ) < ∞, da ∥Yn ∥L2 (P ) ≤ n ∑ k=1 ∥Xk ∥L2 (P ) ≤ n∥Xn ∥L2 (P ) < ∞. 30 Kapitel 2: Martingalkonvergenzsätze Es folgt deshalb ∥Yn ∥L2 (P ) = ∥ sup Xk ∥L2 (P ) ≤ 2∥X∞ ∥L2 (P ) k≤n ≤ 2 lim inf ∥Xn ∥L2 (P ) n→∞ (Lemma von Fatou) ≤ 2 sup ∥Xn ∥L2 (P ) . n∈IN Mit dem Satz von der monotonen Konvergenz ergibt sich E sup Xn2 ≤ E( sup Xn )2 = ∥Y ∥2L2 (P ) = lim ∥Yn ∥2L2 (P ) ≤ 4( sup ∥Xn ∥L2 (P ) )2 n∈IN n→∞ n∈IN = = 4( sup (EXn2 )1/2 )2 n∈IN 4 sup EXn2 . n∈IN ≤ 4(( sup n∈IN n∈IN EXn2 )1/2 )2 2 Bemerkung 2.27 1) Satz 2.26 ist ein Spezialfall von folgender Aussage: Seien p, q ∈ (1, ∞) mit p1 + 1q = 1 und sei (Xn )n∈IN ein nichtnegatives Submartingal mit supn∈IN ∥Xn ∥Lp (P ) < ∞. Dann gilt ∥ sup Xn ∥Lq (P ) ≤ n∈IN q sup ∥Xn ∥Lp (P ) . q − 1 n∈IN 2) Ist (Xn )n∈IN ein Martingal mit supn∈IN EXn2 < ∞, dann konvergiert (Xn )n∈IN fast sicher und in L2 . Beweis: Mit Lemma 2.16 folgt, dass (Xn )n∈IN gleichgradig integrierbar ist. Also existiert X∞ := limn→∞ Xn nach Satz 2.20 fast sicher und in L1 . Damit ist nur noch die L2 -Konvergenz 2 := lim 2 2 zu zeigen. Offensichtlich gilt X∞ n→∞ Xn fast sicher und nach Satz 2.26 ist supn∈IN Xn integrierbar (der Satz ist anwendbar, da (|Xn |)n∈IN ein nichtnegatives Submartingal ist). Deshalb erhalten wir mit dem Satz von der majorisierten Konvergenz 2 2 E|Xn − X∞ |2 = E(X∞ + Xn2 ) − 2E(Xn X∞ ) = E(X∞ − Xn2 ) −→ 0 für n → ∞ . Die zweite Gleichung folgt wegen der Martingaleigenschaft. 2.6 2 Kakutanis Alternative für unendliche Produktmaße In diesem Abschnitt werden wir uns mit der Frage beschäftigen, wie man zwei gegebenen Produktmaßen P und Q ansieht, ob eines absolut stetig bezüglich dem anderen ist oder ob sie singulär sind. Eine Zerlegung in einen absolutstetigen und einen singulären Teil kann es bei unendlichen Produktmaßen nicht geben. Dabei betrachten wir den Fall, wo P und Q von ∞ der Form P = ⊗∞ i=1 Pi und Q = ⊗i=1 Qi sind. Kakutanis Alternative besagt, dass P und Q entweder äquivalent oder singulär sind. Um diesen Satz zu beweisen, benötigen wir einige Aussagen über Produktmartingale. 2.6. Kakutanis Alternative für unendliche Produktmaße 31 Sei (Yn )n∈IN eine Folge unabhängiger, nichtnegativer Zufallsvariablen mit EYn = 1 für alle ∏ n ∈ IN. Seien M0 := 1, Mn := ni=1 Yi , F0 := { Ø, Ω } und Fn := σ(Y1 , . . . , Yn ). Dann ist 1/2 (Mn , Fn )n≥0 nach Beispiel 1.2.2 ein Martingal. Wir setzen an := EYn . Satz 2.28 Das Martingal (Mn , Fn )n≥0 ist genau dann gleichgradig integrierbar, wenn ∏ an > 0 n∈IN ist. Wir stellen dem Beweis von Satz 2.28 noch eine Bemerkung über konvergente Produkte voran. Sei (cn )n∈IN eine Folge nichtnegativer reeller Zahlen. Dann nennen wir das unendliche Pro∏ ∏ dukt n∈IN cn konvergent, wenn die Folge (Pn )n∈IN der Partialprodukte mit Pn := nk=1 ck ∏ konvergiert. In diesem Fall setzen wir n∈IN cn := limn→∞ Pn . Wir beweisen nun Satz 2.28. Beweis: ( Sei ) ∏n i=1 1/2 Yi ai ∏ n∈IN an > 0. Dann ist an > 0 für alle n ∈ IN. Wir können deshalb Wn := definieren. Offensichtlich ist (Wn , Fn )n≥0 ein nichtnegatives Produktmartingal mit Erwartungswert 1. Deshalb folgt mit Korollar 2.4, dass W∞ := limn→∞ Wn fast sicher existiert. „⇐“: Wir zeigen mit Hilfe von Satz 2.26, dass supn∈IN | Mn | integrierbar ist, was zusammen mit Satz 2.12 die gleichgradige Integrierbarkeit der Folge (Mn , Fn )n≥0 beweist. Es gilt: EWn2 =E n ∏ i=1 ( 1/2 Yi ai )2 (∗) = n ∏ EYi a2i i=1 = n ∏ 1 a2 i=1 i (∗∗) ≤ ( ∞ 1 ∏ )2 < ∞. ai i=1 In (∗) wurde die stochastische Unabhängigkeit der Yn benutzt, während in (∗∗) die Jensensche 1/2 2 Ungleichung verwendet wurde: ai = EYi ≤ (EYi )1/2 = 1. Wir erhalten ( also ) supn∈IN EWn < ∞. Nach Satz 2.26 ist supn∈IN Wn2 somit integrierbar. Da Wn2 = ∏n i=1 Yi a2i ≥ Mn ist, folgt E sup Mn ≤ E sup Wn2 < ∞. n∈IN n∈IN ∏ ∏n „⇒“: Wir nehmen an, n∈IN an = 0 ist. Dann konvergiert die Folge ( i=1 ai )n∈IN gegen ( dass ) 1/2 ∏n Yi null. Da Wn = i=1 ai fast sicher konvergiert und der Limes fast sicher endlich ist (W∞ ∏ ist integrierbar), muss Mn = ni=1 Yi fast sicher gegen null konvergieren. Wäre nun (Mn )n∈IN gleichgradig integrierbar, so hätte M∞ aufgrund von Satz 2.20 die Erwartung 1. Das wäre aber ein Widerspruch zu M∞ = 0 fast sicher. 2 Wir betrachten jetzt den Fall, dass Mn als Dichtequotient zweier Maße P und Q darstellbar ist. Wir erhalten dann eine einfache Interpretation der gleichgradigen Integrierbarkeit der Folge (Mn )n∈IN . Diese ist nämlich gerade äquivalent zur Absolutstetigkeit von Q bezüglich P . 32 Kapitel 2: Martingalkonvergenzsätze Für i ∈ IN seien fi und gi positive Dichten auf IR bezüglich des Lebesguemaßes λ. Sei Xi die ite Projektion von Ω := IRIN auf IR, d.h. Xi (ω1 , ω2 , . . .) = ωi . Außerdem sei F := σ(Xi : i ∈ IN) sowie Fn := σ(X1 , . . . , Xn ). Mit Hilfe des Existenzsatzes von unendlichen Produktmaßen erhalten wir die Existenz und Eindeutigkeit der Produktmaße P und Q auf (Ω, F), unter denen die Xi stochastisch unabhängig sind und die Verteilungen P Xi = fi λ bzw. QXi = gi λ besitzen. ∏ Wir definieren Mn := ni=1 P |Fn ist. Für A ∈ Fn gilt Qn (A) = ∫ ∏ n A i=1 = fi (ωi ) i=1 ∫ ∏ n gi (ωi ) A i=1 fi (ωi ) dQn dP n Dann gilt, dass Mn = gi (ωi ) dω1 · · · dωn ∫ ∏ n n gi (ωi ) ∏ A i=1 = gi (Xi ) fi (Xi ) . mit Qn := Q|Fn sowie P n := (Fubini) fi (ωi ) dω1 · · · dωn = ∫ ∏ n gi (ωi ) A i=1 dP (X1 ,...,Xn ) (ω1 , . . . , ωn ) fi (ωi ) dP n (ω1 , . . . , ωn ) ∫ = Mn dPn . A Wie wir schon in Beispiel 1.2.2 gesehen haben, ist (Mn , Fn )n∈IN ein Martingal. Wir setzen i) Yi := fgii (X (Xi ) . Dann ist (Yn )n∈IN eine stochastisch unabhängige Folge nichtnegativer Zufallsvariablen mit EP Yi = 1, wobei EP den Erwartungsoperator bezüglich P bezeichnet. Darüber 1/2 hinaus sei ai := EP Yi . Dann gilt: ∫ √ ai = gi (Xi ) dP = fi (Xi ) ∫ √ gi (ωi ) fi (ωi ) dωi = fi (ωi ) ∫ √ gi (ωi )fi (ωi ) dωi . Satz 2.29 Folgende Aussagen sind äquivalent: 1) Es gilt Q ≪ P auf F. 2) (Mn , Fn )n∈IN ist ein gleichgradig integrierbares Martingal. 3) Es gilt ∏∞ i=1 ai > 0. Beweis: Wegen Satz 2.28 wissen wir schon, dass die Aussagen 2) und 3) äquivalent sind. Es reicht also zu zeigen, dass das auch für 1) und 2) gilt. 1) ⇒ 2): Sei Q auf F absolutstetig bezüglich P . Dann existiert nach dem Satz von Radon Nikodym eine nichtnegative, F-messbare Funktion ξ mit ξ = dQ dP F . Deshalb gilt für alle n ∈ IN und alle A ∈ Fn , dass ∫ ∫ ∫ Mn dP = Q(A) = A ξ dP = A A E(ξ | Fn ) dP ist. Damit folgt Mn = E(ξ | Fn ). Also ist (Mn )n∈IN nach Satz 2.17 ein gleichgradig integrierbares Martingal. 2.6. Kakutanis Alternative für unendliche Produktmaße 33 2) ⇒ 1): Sei (Mn )n∈IN ein gleichgradig integrierbares Martingal. Dann folgt mit Hilfe von Satz 2.20, dass M∞ := limn→∞ Mn fast sicher und in L1 existiert. Aus der Abschlusseigenschaft ergibt sich E(M∞ | Fn ) = Mn für alle n ∈ IN. Deshalb gilt für alle n ∈ IN und alle A ∈ Fn , dass ∫ ∫ ∫ Q(A) = Mn dP = A A ∫ E(M∞ | Fn ) dP = ∪ A M∞ dP. Damit erhalten wir Q(A) = A M∞ dP für alle A ∈ n∈IN Fn . Aus dem Eindeutigkeitssatz ∫ ∪ ergibt sich wegen F = σ ( n∈IN Fn ), dass Q(A) = A M∞ dP für alle A ∈ F. Also ist Q auf F absolut stetig bezüglich P . 2 Definition 2.30 Zwei endliche Maße µ und ν auf einem Messraum (Ω, F) heißen äquivalent, wenn µ ≪ ν und ν ≪ µ. Wir schreiben dann kurz µ ∼ ν. µ und ν heißen singulär, wenn ein A ∈ F existiert, sodass µ(A) = µ(Ω) und ν(A) = 0. In diesem Fall verwenden wir die Kurzschreibweise µ ⊥ ν. Korollar 2.31 Die Produktmaße P und Q (wie sie nach Satz 2.28 definiert wurden) sind ∏ genau dann äquivalent, wenn n∈IN an > 0 ist. ∏ Beweis: Nach Satz 2.29 ist Q ≪ P äquivalent zu n∈IN an > 0. Wir haben nur noch zeigen, ∏ dass auch P ≪ Q äquivalent ist zu n∈IN an > 0. Sei deshalb P ≪ Q. Nach Satz 2.29 ist das ∏ äquivalent zu n∈IN a′n > 0 mit a′n Aber ∏ ′ n∈IN an = ∏ n∈IN an , a′n = ∫ √ = fn (Xn ) dQ. gn (Xn ) da ∫ √ fn (Xn ) dQ = gn (Xn ) ∫ √ fn (x)gn (x) dx = an . 2 Satz 2.32 (Kakutanis Alternative) Die Produktmaße P und Q (wie in Korollar 2.31) sind entweder äquivalent oder singulär. Beweis: Wir unterscheiden zwei Fälle. ∏ 1. Fall: Es gilt n∈IN an = 0. Wie wir im Beweis zu Satz 2.28 gesehen haben, folgt unter dieser Annahme, dass die Folge der Dichtequotienten (Mn )n∈IN P -fast sicher gegen null konvergiert. Darüber hinaus folgt aus dem Beweis zu Korollar 2.31, dass die Folge (Mn′ )n∈IN definiert durch Mn′ := 1/Mn Q-fast sicher gegen null konvergiert. Also konvergiert die Folge (Mn )n∈IN Q-fast sicher gegen unendlich. Wir definieren A := { limn→∞ Mn = 0 }. Dann folgt P (A) = 1 und Q(A) = 0. Damit sind P und Q singulär. ∏ 2. Fall: Es gilt n∈IN an > 0. Unter dieser Voraussetzung folgt aus Korollar 2.31, dass P und Q äquivalent sind. 2 34 Kapitel 2: Martingalkonvergenzsätze ∞ Korollar 2.33 Produktmaße P := ⊗∞ n=1 P1 und Q := ⊗n=1 Q1 von identischen Kopien P1 bzw. Q1 mit Dichten bezüglich des Lebesguemaßes sind nur dann äquivalent, wenn P1 = Q1 gilt. Beweis: Seien f1 bzw. g1 die Lebesguedichten von P1 bzw. Q1 . Ist P1 ̸= Q1 , so gilt mit positiver Wahrscheinlichkeit bezüglich P1 , dass fg11 ̸= 1 ist. Wir werden zeigen, dass ai := EP1 √ g1 f1 < 1 ist. Dann folgt lim n→∞ n ∏ ai = lim an1 = 0 i=1 n→∞ und somit nach Satz 2.32 die Singularität der Maße P und Q. Wir nehmen an, dass EP1 Es gilt: √ EP1 g1 = f1 ≤ ∫ √ (∫ √ g1 f1 = 1 ist und führen diese Aussage zu einem Widerspruch. g1 dP1 = f1 ∫ √ f1 g1 dλ )1/2 (∫ g1 dλ )1/2 f1 dλ =1 (Cauchy-Schwarzsche Ungleichung). Gleichheit gilt genau dann, wenn f1 und g1 P1 -fast sicher linear abhängig sind. Also existiert ein a ∈ IR mit g1 = af1 P1 -fast sicher. Wegen ∫ 1= ∫ g1 dλ = a f1 dλ = a erhalten wir f1 = g1 P1 -fast sicher. Das ist aber ein Widerspruch zur Voraussetzung P1 (f1 = ̸ g1 ) > 0. 2 Kapitel 3 Charakteristische Funktionen und schwache Konvergenz Im Folgenden werden wir uns mit Grenzwertproblemen beschäftigen, d.h. mit schwach konvergenten Folgen von Zufallsvariablen. Es wird sich zeigen, dass charakteristische Funktionen das geeignete Mittel zur Beschreibung von schwacher Konvergenz darstellen (Stetigkeitssatz für charakteristische Funktionen). 3.1 Definitionen und Eigenschaften Falls im weiteren Verlauf nichts anderes gesagt wird, ist X eine reelle Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P ) mit Verteilung Q und zugehörender Verteilungsfunktion F. Definition 3.1 Die charakteristische Funktion ψ : IR → C von X ist durch ψ(t) = EeitX = E cos(tX) + i E sin(tX) gegeben. Ist Q die Verteilung von X und hat Q eine Dichte g bezüglich des Lebesguemaßes, so ist die charakteristische Funktion von Q gerade die Fouriertransformierte von g ψ(t) = ∫ itx ∫ e Q(dx) = eitx g(x) dx. Hat Q die Verteilungsfunktion F , so schreibt man auch ψ(t) = ∫ itx e F (dx). Es ist bekannt, dass diese folgende Eigenschaft hat: Die Fouriertransformierte einer Faltung ist gleich dem Produkt der Fouriertransformierten der Elemente der Faltung. Damit lässt sich das (schwierigere) Problem der Berechnung einer Faltung auf das (einfachere) Ausrechnen eines Produktes zurückführen. Bemerkung 3.2 Sei f := f1 + if2 : Ω → C eine komplexwertige Funktion mit fi : Ω → IR. Dann gilt: 1) f ist genau dann messbar, wenn f1 und f2 dies sind. 35 36 Kapitel 3: Charakteristische Funktionen und schwache Konvergenz 2) Sind f1 , f2 ∈ L1 (P ), so definiert man das Integral von f bezüglich P als ∫ Ef := ∫ f dP := ∫ f1 dP + i f2 dPX und sagt f ∈ L1C (P ). Wir stellen einige Eigenschaften komplexer Integrale zusammen. Lemma 3.3 1 (P ), so ist f := f − if ∈ L1 (P ) und es gilt 1) Ist f ∈ LC 1 2 C ∫ f dP = ∫ f dP . 2) Die komplexwertige √ Funktion f sei messbar. Dann ist f genau dann ein Element von 1 LC (P ), wenn |f | := f f ∈ L1 (P ) ist. ∫ 3) Für f ∈ L1C (P ) gilt die Ungleichung | f dP | ≤ ∫ |f | dP . Beweis: 1) folgt direkt aus der Definition der Integrierbarkeit komplexwertiger Funktionen. Zu 2): Sei z := a + ib ∈ C. Wegen |a| = |Rez| ≤ r = |z| = √ a2 + b2 ≤ |a| + |b| folgt für eine komplexwertige Funktion f := f1 + if2 : a) |f | ≤ |f1 | + |f2 | und b) |fi | ≤ |f | für i = 1, 2. Ist nun f ∈ L1C (P ), so folgt mit a), dass |f | ∈ L1 (P ) ist. Ist umgekehrt |f | ∈ L1 (P ), so erhalten wir mit b), dass f ∈ L1C (P ). Zu 3): Es ist Ef = ∫ f dP = reiϑ mit r = |Ef | und ϑ = arg(Ef ). Wegen ( ) Re e−iϑ f ≤ e−iϑ f = |f | erhalten wir ( ) |Ef | = r = Ee−iϑ f = E Re e−iϑ f ≤ E|f |. 2 Im Folgenden bezeichnen wir mit M 1 (IR, B) die Menge der Wahrscheinlichkeitsmaße auf (IR, B). Proposition 3.4 Seien P, Pi ∈ M 1 (IR, B) für i ∈ {1, 2}. Dann gilt: 1) Sind a, b ∈ IR mit a ̸= 0 und ist T (x) := ax+b für x ∈ IR, so gilt für die charakteristische Funktion ψP T von P T , dass ψP T (t) = eitb ψP (at). 2) Es ist ψP1 ∗P2 (t) = ψP1 (t)ψP2 (t). Dabei ist P1 ∗ P2 (A) = ∫ IR P1 (A − X) P2 (dx). 3.2. Beispiele 37 Beweis: Zu 1): Für alle t ∈ IR gilt: ∫ ∫ ψP T (t) = e itx T P (dx) = ∫ e it(ax+b) P (dx) = e itb eitax P (dx) = eitb ψP (at). Zu 2): Es ist ψP1 ∗P2 (t) = ∫ eitx P1 ∗ P2 (dx). Deshalb folgt mit der Faltungsformel ∫ ∫ ψP1 ∗P2 (t) = ∫ ∫ e it(y+z) P1 (dy) P2 (dz) = eity eitz P1 (dy) P2 (dz) = ψP1 (t)ψP2 (t). 2 Für die nächste Eigenschaft müssen wir in geeigneter Weise charakteristische Funktionen für Wahrscheinlichkeitsmaße auf Bk mit k ≥ 1 definieren. Dazu sei ⟨·, ·⟩ das euklidische ∑ Skalarprodukt auf IRk , d.h. ⟨x, y⟩ = ki=1 xi yi für alle x = (x1 , . . . , xk ), y = (y1 , . . . , yk ) ∈ IRk . Dann ist die charakteristische Funktion ψQ : IRk → C von Q ∈ M 1 (IRk , Bk ) mit k ≥ 1 durch ∫ ψQ (t) := ei⟨t,x⟩ Q(dx) gegeben. Proposition 3.5 Seien P ∈ M 1 (IRk , Bk ) und Q ∈ M 1 (IRp , Bp ) mit k, p ≥ 1. Dann gilt für s ∈ IRk und t ∈ IRp , dass ψP ⊗Q (s, t) = ψP (s)ψQ (t) ist. Insbesondere sind reellwertige Zufallsvariablen X1 , . . . , Xn genau dann stochastisch unabhängig, wenn ψP (X1 ,...,Xn ) (t1 , . . . , tn ) = ∏n n i=1 ψP Xi (ti ) ist für alle (t1 , . . . , tn ) ∈ IR . Beweis: Es gilt: ∫ ψP ⊗Q (s, t) = = ei⟨(s,t),(u,v)⟩ dP ⊗ Q(u, v) ∫ ∫ ei⟨s,u⟩ ei⟨t,v⟩ P (du) , Q(dv) (Satz von Fubini) = ψP (s)ψQ (t). Die zweite Aussage folgt aus Satz 3.7 (siehe unten). 3.2 3.2.1 2 Beispiele Die charakteristische Funktion der Normalverteilung Ist X eine zu den Parametern µ ∈ IR und σ 2 > 0 normalverteilte Zufallsvariable, so ist auch Y := X−µ normalverteilt und zwar zu den Parametern 0 und 1. Nach Proposition 3.4 1) ist σ itµ ψX (t) = e ψY (σt). 38 Kapitel 3: Charakteristische Funktionen und schwache Konvergenz t2 Wir zeigen jetzt, dass ψY (t) = e− 2 ist. Es gilt ψY (t) = Ee itY =E ∞ ∑ (itY )n n=0 n! = ∞ ∑ (it)n n=0 EY n . n! Für die Momente der Normalverteilung gilt EY n = 0 (( n ) )−1 n! 2n/2 2 ! falls n ungerade falls n gerade Damit erhalten wir ψY (t) = ∞ ∑ (it)2n (2n)! n=0 EY 2n = ∞ ∑ (it)2n (2n)! n=0 (2n)! 2n n! = ∞ ∑ ( 2 )n (−1) n n=0 t 2 n! t2 = e− 2 . ( Somit ist ψX (t) = exp itµ − 3.2.2 t2 σ 2 2 ) . Die charakteristische Funktion der Binomialverteilung Sei X eine Bernoullivariable mit P (X = 1) = p und P (X = 0) = 1 − p = q. Dann ist ψX (t) = EeitX = q + peit . Sind X1 , . . . , Xn unabhängige Bernoullivariablen zum Parameter p und ist Sn := ( )n ist (nach Proposition 3.4 2)) ψSn (t) = q + peit . 3.2.3 ∑n i=1 Xi , so Ein Grenzwertproblem Wir werden nun sehen, wie sich Grenzwertprobleme mit Hilfe von charakteristischen Funktionen lösen lassen. −np . Der Satz von deMoivre-Laplace besagt, dass Sn∗ Sei Sn wie oben definiert. Sei Sn∗ := S√nnpq schwach gegen eine N (0, 1)-verteilte Zufallsvariable konvergiert (das heißt, die zugehörenden Verteilungsfunktionen konvergieren). Wir bestimmen die charakteristische Funktion von Sn∗ : Nach Proposition 3.4 1) gilt ( ψSn∗ (t) = exp −it ( √ √ ) np ψSn q np q )( ( t √ npq ) ( ))n t = exp −it q + p exp i √ npq ( ( ( √ ))n √ ) p q = q exp −it + p exp it . nq np 3.3. Der Eindeutigkeitssatz für charakteristische Funktionen 39 2 Wir entwickeln die Exponentialfunktion in eine Potenzreihe. Es ist ez = 1 + z + z2 + · · · und damit ( ( √ ) √ ) p q q exp −it + p exp it nq np ( ) t2 it t2 √ it √ = p + pq √ − q + · · · + q + pq − √ − p + ··· n 2n n 2n ( ) t2 1 =1− +o . 2n n ( ( ))n t2 t und deshalb gilt limn→∞ ψSn∗ (t) = e− 2 . Wie wir in Also ist ψSn∗ (t) = 1 − 2n + o n1 Abschnitt 3.2.1 gesehen haben, ist die rechte Seite gerade die charakteristische Funktion einer N (0, 1)-verteilten Zufallsvariable. 2 Es stellen sich nun zwei Fragen: t2 1) Ist die Zuordnung P 7→ ψP eindeutig? Das heißt, können wir schließen, dass e− 2 genau die charakteristische Funktion einer N (0, 1)-verteilten Zufallsvariable ist? 2) Folgt aus der Konvergenz der charakteristischen Funktionen limn→∞ ψXn (t) = ψX (t) die schwache Konvergenz von Xn gegen X? Wir werden sehen, dass sich beide Fragen positiv beantworten lassen. Damit haben wir oben den Satz von deMoivre-Laplace aufs neue bewiesen. 3.2.4 Die charakteristische Funktion der Poissonverteilung Sei X eine zum Parameter λ > 0 Poisson-verteilte Zufallsvariable, d.h. P (X = k) = für alle k ∈ IN0 . Dann gilt für alle t ∈ IR: ψX (t) = Ee itX = ∞ ∑ e k itk λ −λ k=0 k! e =e −λ ∞ ( it )k ∑ e λ k=0 k! = e−λ ee it λ ( ( λk −λ k! e )) = exp λ eit − 1 . Das Gesetz der kleinen Zahlen besagt, dass die Binomialverteilung B(n, p) gegen die Possionverteilung pois(λ) konvergiert, falls npn → λ konvergiert. Dies wird durch die Konvergenz der charakteristischen Funktion ausgedrückt. ( 3.3 1 − pn + pn e it )n [ ]n λ(1 + o(1)) = 1− (1 − eit ) n → exp(−λ(1 − eit )) . Der Eindeutigkeitssatz für charakteristische Funktionen Für den Beweis des Eindeutigkeitssatzes für charakteristische Funktionen benötigen wir einen berühmten Hilfssatz. Lemma 3.6 (Parsevalsche Relation) Seien F und G Verteilungsfunktionen mit den charakteristischen Funktionen ψ und γ. Dann gilt: ∫ (PR) ∞ −∞ e −itx ∫ ψ(t) G(dt) = ∞ −∞ γ(y − x) F (dy). 40 Kapitel 3: Charakteristische Funktionen und schwache Konvergenz ∫ ∞ eit(y−x) F (dy). Integriert man über G und wendet den Satz Beweis: Es ist e−itx ψ(t) = −∞ von Fubini an, so erhält man ∫ ∞ −∞ e −itx ∫ ψ(t) G(dt) = ∫ = ∫ = ∫ ∞ ∞ eit(y−x) F (dy) G(dt) −∞ −∞ ∞ (∫ ∞ −∞ ∞ −∞ ) −∞ e it(y−x) G(dt) F (dy) 2 γ(y − x) F (dy). Sei nun speziell G die Verteilungsfunktion von N (0, a−2 ) mit a ∈ IR+ . Dann ist γ(x) = √ ( ) y2 2πϕ xa mit ϕ(y) := √12π e− 2 . Die Parsevalsche Relation schreibt sich deshalb in der Form ∫ ∞ −∞ oder äquivalent (PR) 1 2π ∗ e ∫ −itx √ ∫ ψ(t) a ϕ(at) dt = 2π ∞ −∞ e −itx ( 1 ψ(t) exp − a2 t2 2 ( ∞ y−x ϕ a −∞ ) 1 dt = a ∫ ) F (dy) ( ∞ y−x ϕ a −∞ ) F (dy). Diese Identität verwenden wir nun zum Beweis des nächsten Satzes. Satz 3.7 (Eindeutigkeitssatz für charakteristische Funktionen) Sind F und Fe Verteilungsfunktionen mit derselben charakteristischen Funktion, so ist F = Fe . Beweis: Sei a ∈ IR+ . Für x ∈ IR setzen wir fa (x) := 1 ∫∞ a −∞ ϕ ( y−x a ) 1 ∫∞ a −∞ ϕ ( y−x a ) F (dy) und fea (x) := Fe (dy), wobei ϕ wie in (PR)∗ definiert ist. Nach Voraussetzung ist ψF = ψFe. Deshalb folgt mit (PR)∗ , dass fa = fea ist. Sei Φ die Verteilungsfunktion von N (0, 1) und sei z ∈ IR. Dann gilt: ∫ ( (∫ ( ∞ ) ) 1 y−x fa (x) dx = ϕ F (dy) dx a −∞ −∞ a −∞ ) ) ( ∫ ∞ ( ∫ z 1 y−x = dx F (dy) ϕ a −∞ a −∞ ) ( ∫ ∞ z−y = F (dy). Φ a −∞ Nun ist lima→0 Φ z−y a sierten Konvergenz ∫ ∫ ∞ z ) z = 1l(−∞,z) (y) + 12 δz (y). Deshalb folgt mit dem Satz von der majori( z−y Φ lim a→0 −∞ a ) ∫ ∞ ( ) 1 F (dy) = 1l(−∞,z) (y) + δz (y) F (dy) 2 −∞ 1 = F (z−) + (F (z) − F (z−)), 2 wobei F (z−) := limr↑z F (r) der linksseitige Limes ist. Sei C(F ) die Menge der Stetigkeits∫z stellen von F . Für z ∈ C(F ) gilt lima→0 −∞ fa (x) dx = F (z). Damit ist F (z) = Fe (z) für alle z ∈ C(F ) ∩ C(Fe ). Die Menge ( ( )c C(F ) ∩ C(Fe ) ) ist abzählbar. Wir erhalten deshalb B = σ {(−∞, x] : x ∈ C(F ) ∩ C(Fe )} . Wenden wir den Eindeutigkeitssatz für Maße (siehe 4.10 Wahrscheinlichkeitstheorie Skript) an, so ergibt sich F (z) = Fe (z) für alle z ∈ IR. 2 3.4. Die Umkehrformel 41 Satz 3.8 Sei ψ die charakteristische Funktion der Verteilungsfunktion F . Dann gilt: 1) |ψ(t)| ≤ ψ(0) = 1 für alle t ∈ IR. 2) ψ ist gleichmäßig stetig. 3) Für alle t ∈ IR ist ψ(t) = ψ(−t). 4) ψ ist genau dann reellwertig, wenn F symmetrisch ist (d.h. F (x) = 1 − F (−x) für alle x ≥ 0). Beweis: Zu 1): Für alle t ∈ IR gilt wegen Lemma 3.3 3) ∫ ∫ itx |ψ(t)| = e F (dx) ≤ eitx F (dx) = 1 = ψ(0). Zu 2): Für t, h ∈ IR ist ∫ ∫ ∫ ) ( i(t+h)x itx itx ihx |ψ(t + h) − ψ(t)| = e F (dx) − e F (dx) = e e − 1 F (dx) ∫ ≤ eihx − 1 F (dx). Nun ist 2 ihx − 1 = | cos hx + i sin hx − 1|2 = (cos hx − 1)2 + (sin hx)2 = 2(1 − cos hx). e ( Aus den Additionstheoremen für Sinus und Kosinus erhält man 2(1 − cos hx) = 4 sin hx 2 )2 . Wegen | sin ν| ≤ |ν| für alle ν ∈ IR ergibt sich eihx − 1 ≤ |hx|∧2. Also folgt |ψ(t+h)−ψ(t)| ≤ ∫ (|hx| ∧ 2) F (dx). Damit ist limh→0 |ψ(t + h) − ψ(t)| = 0 und die Konvergenz ist unabhängig von t. ψ ist deshalb gleichmäßig stetig. Zu 3): Für t ∈ IR gilt ∫ ψ(−t) = e−itx F (dx) = ∫ ∫ eitx F (dx) = eitx F (dx) = ψ(t). ∫ Zu 4): „⇐“: Ist F symmetrisch, so ist sin tx F (dx) = 0 für alle t ∈ IR. Somit ist ψ(t) = ∫ cos tx F (dx) und damit reell. „⇒“: Sei X eine nach F verteilte Zufallsvariable. Ist ψX reellwertig, so ist ψ X = ψX . Deshalb folgt mit 3), dass ψX = ψ−X ist. Nach dem Eindeutigkeitssatz 3.7 sind somit die Verteilungen von X und −X identisch, also ist F symmetrisch. 2 3.4 Die Umkehrformel Wegen Satz 3.7 wissen wir, dass Verteilungen eindeutig durch ihre charakteristischen Funktionen bestimmt sind. Es stellt sich deshalb die Frage, wie man bei gegebener charakteristischer Funktion die zugehörende Verteilung bestimmt. 42 Kapitel 3: Charakteristische Funktionen und schwache Konvergenz Satz 3.9 (Umkehrformel) Sei ψ die charakteristische Funktion einer Verteilungsfunktion ∫ F mit |ψ(x)| dx < ∞. Dann hat F eine beschränkte Dichte f und es gilt 1 2π f (x) = ∫ ∞ −∞ e−itx ψ(t) dt. Beweis: Wie im Beweis zu Satz 3.7 setzen wir fa (x) := die Parsevalsche Relation (PR)∗ an. Wir erhalten 1 fa (x) = 2π ∫ ∞ e −∞ −itx 1 ∫∞ a −∞ ϕ ( 1 ψ(t) exp − a2 t2 2 ( y−x a ) F (dy) und wenden ) dt. Seien x1 , x2 ∈ IR mit x1 < x2 . Wegen der Integrierbarkeit von ψ und ( ) −itx 1 2 2 e ψ(t) exp − a t ≤ |ψ(t)| 2 für alle a ∈ IR erhalten wir mit dem Satz von der majorisierten Konvergenz ∫ ∫ x2 lim a→0 x1 x2 ( fa (x) dx = x1 1 2π Andererseits folgt mit dem Satz von Fubini ∫ ∫ ( ∫ ∫ ∞ −∞ e−itx ψ(t) dt ) ( ∞ ) dx. ) y−x F (dy) dx a −∞ x1 ( ) ) ∫ ∞ (∫ x2 y−x 1 ( ϕ = dx F (dy) a −∞ x1 a ) ( )) ∫ ∞ ( ( x1 − y x2 − y −Φ F (dy), = Φ a a −∞ x2 x2 fa (x) dx = x1 1 a ϕ wobei Φ die Verteilungsfunktion Standardnormalverteilung ist. ( ( ) ( der )) x2 −y x1 −y Nun ist lima→0 Φ −Φ = 1l(x1 ,x2 ) (y) + 21 (δx2 (y) − δx1 (y)). Damit ergibt sich a a ∫ lim x2 a→0 x1 ∫ ∞ ) ( 1 1l(x1 ,x2 ) (y) + (δx2 (y) − δx1 (y)) F (dy) 2 −∞ 1 1 = F (x2 −) − F (x1 ) + (F (x2 ) − F (x2 −)) − (F (x1 ) − F (x1 −)). 2 2 fa (x) dx = Somit erhalten wir für alle x1 , x2 ∈ C(F ) mit x1 < x2 , dass lima→0 ist, also F (x2 ) − F (x1 ) = ∫ x2 x1 ( 1 2π ∫∞ −∞ e−itx ψ(t) dt ) ∫ x2 x1 fa (x) = F (x2 ) − F (x1 ) dx. Wir zeigen jetzt, dass kein x ∈ IR existiert mit F (x) − F (x−) > 0. Sei x0 ∈ C(F )c . Dann existiert eine Folge (εn )n∈IN mit εn ↓ 0, sodass x0 − εn , x0 + εn ∈ C(F ) für alle n ∈ IN. Deshalb gilt ) ∫ ∫ x0 +εn ( 1 ∞ −itx e ψ(t) dt dx. F (x0 + εn ) − F (x0 − εn ) = 2π −∞ x0 −εn Mit dem Satz von der majorisierten Konvergenz folgt F (x0 ) − F (x0 −) ) = limεn →0 (F (x0 + ∫ u ( 1 ∫ ∞ −itx εn ) − F (x0 − εn )) = 0. Also ist F (u) − F (v) = v 2π −∞ e ψ(t) dt dx für alle u, v ∈ IR mit v < u. Damit ist f (x) := 1 2π ∫∞ ∫ 1 |f (x)| = 2π −∞ e −itx ψ(t) dt eine Dichte von F . Sie ist beschränkt, denn ∫ ∞ 1 ∞ −itx e ψ(t) dt ≤ |ψ(t)| dt < ∞ 2π −∞ −∞ 3.4. Die Umkehrformel 43 für alle x ∈ IR. 2 Korollar 3.10 Sei ψ die charakteristische Funktion einer Verteilungsfunktion F . Ist ψ eellwertig und nichtnegativ, so ist ψ genau dann integrierbar, wenn F eine beschränkte Dichte hat. Beweis: „⇒“: Ist ψ integrierbar, so besitzt F nach Satz 3.9 eine beschränkte Dichte. „⇐“: F habe eine Dichte f mit 0 ≤ f ≤ M . Dann ergibt die Parsevalsche Relation (PR)∗ für x = 0: 1 2π ∫ ∞ ( 1 ψ(t) exp − a2 t2 2 −∞ ( ) ∫ ∞ 1 y ≤M ϕ dy a −∞ a = M. 0≤ Wäre ψ nicht integrierbar, so wäre lima→0 gleichung widerspricht. 1 2π ) dt = 1 a ∫ ( ) ∞ −∞ ϕ ( ∫∞ y f (y) dy a ) 1 2 2 dt = ∞, was obiger Un−∞ ψ(t) exp − 2 a t 2 Den folgenden Satz werden wir nicht beweisen. Man argumentiert ähnlich wie in Satz 3.9. Satz 3.11 Sei F eine Verteilungsfunktion und ψ die zugehörende charakteristische Funktion. Dann gilt für alle a, b ∈ C(F ) mit a < b 1 F (b) − F (a) = 2π ∫ ∞ −∞ e−ita − e−itb ψ(t) dt. it Bemerkung 3.12 Die Umkehrformel von Satz 3.9 erhält man aus der für F durch Konvergenz des Diffenenzenquotienten, da (e−ita )′ = −it eita ist: F (b) − F (a) b→a b−a f (a) = lim ∫ = lim = ∞ 1 e−ita − e−itb ψ(t) dt 2π it(b − a) b→a −∞ ∫ ∞ −ita −∞ e ψ(t) dt . Satz 3.13 (Plancherelsche Identität) Sei F eine Verteilungsfunktion mit Dichte f und charakteristischer Funktion ψ. Dann ist |ψ|2 genau dann integrierbar, wenn f 2 integrierbar ist. Es gilt dann ∫ ∫ ∞ 1 ∞ |ψ|2 dt. f (y)2 dy = 2π −∞ −∞ Beweis: „⇒“: Seien X1 und X2 unabhängige nach F verteilte Zufallsvariablen. Dann ist |ψ|2 = |ψX1 |2 die charakteristische Funktion der Verteilung von X1 − X2 , denn |ψX1 |2 = ψX1 ψX1 = ψX1 ψ−X1 = ψX1 ψ−X2 = ψX1 −X2 . Die letzte Gleichung gilt nach Proposition 3.4 2). Mit Hilfe der Faltungsformel erhält man die ∫∞ Dichte f 0 von X1 − X2 . Es ist f 0 (x) = −∞ f (y + x)f (y) dy. 44 Kapitel 3: Charakteristische Funktionen und schwache Konvergenz Nach Voraussetzung ist |ψ|2 integrierbar. Wir können deshalb Satz 3.9 anwenden und erhalten 1 ∫∞ −itx |ψ(t)|2 dt. Für x = 0 folgt dann f 0 (x) = 2π −∞ e ∫ ∞ −∞ f (y)2 dy = f 0 (0) = 1 2π ∫ ∞ −∞ |ψ(t)|2 dt. f2 Damit ist integrierbar und es gilt die Plancherelsche Identität. 2 „⇐“: Ist f integrierbar, so gilt: ∫ 0 f (x) = ∞ −∞ (∫ f (y + x)f (y) dy ≤ ∞ −∞ 2 )1/2 (∫ f (y + x) dy ∞ )1/2 2 −∞ f (y) dy = ∥f ∥2L2 (P ) . Also ist f 0 beschränkt und |ψ|2 erfüllt somit die Voraussetzungen von Korollar 3.10. Aus diesem folgt die Integrierbarkeit von |ψ|2 . 2 3.5 Die Taylorentwicklung einer charakteristischen Funktion Der nächste Satz zeigt, dass man eine charakteristische Funktion in eine Taylorreihe entwickeln kann, falls die Momente der zugehörenden Verteilung existieren. Satz 3.14 Sei ψ die charakteristische Funktion einer Verteilungsfunktion F und sei X eine nach F verteilte Zufallsvariable. Dann gilt: 1) Ist E|X|n < ∞ für ein n ∈ IN, so existiert die r-te Ableitung ψ (r) von ψ für jedes r ≤ n ∫ (r) und es ist ψ (r) (t) = (ix)r eitx F (dx) sowie EX r = ψ ir(0) . Die Taylorreihe von ψ um 0 ist dann durch n ∑ (it)r (it)n ψ(t) = EX r + εn (t) r! n! r=0 gegeben mit |εn (t)| ≤ 3E|X|n und limt→0 εn (t) = 0. 2) Ist E|X|n < ∞ für alle n ∈ IN und gilt lim supn→∞ ψ(t) = ∞ ∑ (it)n n=0 n! EX n (E|X|n )1/n n für |t| < = 1 R < ∞, so ist R . e Beweis: Zu 1): ∥X∥Lr (P ) ist wachsend in r, deshalb ist E|X|r < ∞ für alle r ≤ n. ∫ Wir zeigen nun: ψ ′ existiert und ψ ′ (t) = i xeitx F (dx). Dazu betrachten wir den Differenzenquotienten ( ) ψ(t + h) − ψ(t) eihX − 1 itX = Ee . h h Es ist limh→0 e h−1 = ix und eitx e h−1 ≤ |x|. Der Satz von der majorisierten Konvergenz liefert dann die Existenz von ψ ′ und es gilt: ihx ihx ψ(t + h) − ψ(t) ψ (t) = lim = E lim eitX h→0 h→0 h ′ ∫ =i xeitx F (dx). ( eihX − 1 h ) = EiXeitX 3.6. Das Momentenproblem 45 Eine Iteration des Arguments führt zu ψ (r) (t) = ir EX r eitX . Wir bestimmen jetzt das Restglied in der Taylorentwicklung. Für y ∈ IR ist eiy = n−1 ∑ k=0 (iy)k (iy)n + (cos θ1 y + i sin θ2 y) k! n! mit |θi | ≤ 1 für i = 1, 2. Damit ist eitX = n−1 ∑ (itX)k (itX)n + (cos (θ1 tX) + i sin (θ2 tX)) k! n! k=0 und deshalb ψ(t) = EeitX = = n ∑ (it)k k=0 k! n−1 ∑ (it)n (it)k EX k + (EX n + εn (t)) k! n! k=0 (it)n εn (t) n! EX k + mit εn (t) = EX n (cos (θ1 tX) + i sin (θ2 tX) − 1). Also ist |εn (t)| ≤ 3E|X|n und mit dem Satz von der majorisierten Konvergenz folgt limt→0 εn (t) = 0. n 1/n Zu 2): Sei t0 ∈ IR mit 0 < t0 < Re . Dann ist lim supn→∞ (E|X|n ) = R1 < t01e und somit 1/n (E|X|n tn0 ) < 1e . Nach der Stirlingschen Formel ist (n!)1/n asymptotisch gleich lim sup n→∞ √ 1/n −1 n zu n( 2π) e und damit auch zu ne−1 . Also ist ( 1 > lim sup (E|X|n tn0 )1/n n→∞ e E|X|n tn0 = lim sup n n! n→∞ )1/n E|X|n tn 0 n! ( ) E|X|n tn 1/n )1/n . ( Damit existiert ein a > 0 mit lim supn→∞ ten des Limes Superior folgt, dass ∑∞ 0 n! < a < 1. Aus bekannten Eigenschaf- < a ist für fast alle n ∈ IN. Deshalb ist E|X|n tn 0 < ∞. Nach dem Majorantenkriterium für Reihen existiert r ∑ r |t| < |t0 |. Nach 1. ist ψ(t) = nr=0 (it) r! EX + Rn (t) mit n=0 n! n t |Rn (t)| = n! εn (t) ≤ 3 |t|n E|X|n ≤ 3an n! ∑∞ n=0 (it)n n n! EX für für |t| < |t0 | . Damit ist limn→∞ |Rn (t)| = 0 gleichmäßig in t für |t| < |t0 |. Da t0 ∈ IR mit 0 < t0 < Re beliebig gewählt war, folgt die Behauptung. 2 3.6 Das Momentenproblem Im Satz 3.13 2.) wird eine Entwicklung der charakteristischen Funktion in eine Potenzreihe gegeben, bei der die Koeffizienten die Momente der Verteilung sind. In diesem Fall lässt sich 46 Kapitel 3: Charakteristische Funktionen und schwache Konvergenz die charakteristische Funktion mittels analytischer Fortsetzung auf ganz IR fortsetzen und bestimmt damit die Verteilung. Hierbei verwendet man die Entwicklung von ψ(t) um einen neuen Punkt s ̸= 0: ∫ ∞ ∑ (i(t − s))k ∞ k isx ψ(t) = x e F (dx) k! −∞ k=0 für |t − s| < t0 . Dabei ist t0 = R/e von Satz 3.13. Zu den Details siehe Breiman, Probability, S. 182. Man könnte nun meinen, dass die Momente stets die Verteilung festlegen. Dies ist aber im Allgemeinen falsch. Hier ist ein Gegenbeispiel. Wir geben zwei verschiedene Wahrscheinlichkeiten an, die dieselben Momente haben. 1) f (x) = k · e−αx 1l[x,∞)] mit α > 0, 0 < λ < λ 1 2 und k so gewählt, dass f eine WS-Dichte ist. 2) g(x) = k · e−αx (1 + ε sin(βxλ ))1l[x,∞) mit |ε| < 1 und β = α tan(λπ). λ Damit ist g(x) ≥ 0 für x ∈ IR. Es gilt auch ∫ xn sin(βxλ )e−αx dx = 0 λ (+) für alle n ≥ 0. Damit ist g Ws-Dichte und alle Momente von f und g stimmen überein. Zum Beweis von (+) verwenden wir eine Formel über die Γ-Funktion: Für p > 0 und q komplex mit Re q > 0 gilt ∫ ∞ Γ(p) tp−1 e−qt dt = p . q 0 Wir setzen nun in der Formel p = (n + 1)/λ, q = α + iβ und t = xλ . Dann erhalten wir einerseits ∫ ∞ xλ{(n+1)/λ−1} e−(α+iβ)x λxλ−1 dx λ 0 ∫ ∞ = λ ∫0∞ = λ xn e−(α+iβ)x dx λ n −αxλ x e 0 cos(βx )dx − iλ ∫ λ ∞ xn e−αx sin(βxλ )dx λ 0 und andererseits ∫ ∞ 0 ( xλ{(n+1)/λ−1} e−(α+iβ)x λxλ−1 dx = Γ λ n+1 λ ) α(n+1)/λ (1 + i tan(λπ))(n+1)/λ . Wir zeigen nun, dass dieser Ausdruck eine reelle Zahl ist. Damit folgt dann die Behauptung. Nur der Nenner ist von Interesse: (1 + i tan(λπ))(n+1)/λ = (cos(λπ) + i sin(λπ))(n+1)/λ (cos(λπ))−(n+1)/λ = cos((n + 1)π)(cos(λπ))−(n+1)/λ , da sin((n + 1)π) = 0 ist für n ≥ 0. Damit folgt (+). 3.7. Schwache Konvergenz 3.7 47 Schwache Konvergenz Wir kommen nun zur Definition der schwachen Konvergenz. Dazu sei E ein metrischer Raum und E die Borelsche σ-Algebra auf E. Definition 3.15 Seien (Pn )n∈IN und P Wahrscheinlichkeitsmaße auf dem Raum (E, E). Die w Folge (Pn )n∈IN konvergiert schwach gegen P (Bezeichnung: Pn → P ), falls für alle stetigen ∫ ∫ und beschränkten Funktionen f auf E gilt: limn→∞ f dPn = f dP . Wir stellen einige zu Definition 3.15 äquivalente Eigenschaften zusammen. Satz 3.16 Seien (Pn )n∈IN und P Wahrscheinlichkeitsmaße auf (E, E). Dann sind die folgenden Aussagen äquivalent: w 1) Pn → P . 2) Für jede abgeschlossene Menge A ⊂ E gilt lim supn→∞ Pn (A) ≤ P (A). 3) Für jede offene Menge B ⊂ E gilt lim inf n→∞ Pn (B) ≥ P (B). 4) Für Mengen A ∈ E mit P (∂A) = 0 gilt limn→∞ Pn (A) = P (A). Beweis: 1) ⇒ 2): Sei p eine Metrik auf E und A ⊂ E abgeschlossen. Dann definieren wir für x ∈ E: p(x, A) := inf y∈A p(x, y). Für z ∈ IR+ sei g(z) := ( 1 − z falls 0 ≤ z < 1 0 falls z ≥ 1 ) Wir setzen fε (x) := g 1ε p(x, A) und Aε := {x ∈ E : p(x, A) < ε} für ε > 0. Wegen der Abgeschlossenheit von A gilt Aε ↓ A für ε → 0. Für alle ε > 0 ist 1lA ≤ fε ≤ 1lAε ∫ ∫ und fε ist eine stetige, beschränkte Funktion. Damit ist limn→∞ fε dPn = fε dP für alle ε > 0. Wir erhalten deshalb für alle ε > 0: ∫ lim sup Pn (A) = lim sup n→∞ n→∞ 1lA dPn ≤ lim sup n→∞ ∫ ∫ fε dPn = fε dP ≤ ∫ 1lAε dP = P (Aε ). Also folgt mit dem Stetigkeitssatz für Maße lim supn→∞ Pn (A) ≤ limε→0 P (Aε ) = P (A). 2) ⇔ 3): Dies erhält man durch Komplementbildung (eine Menge ist genau dann offen, wenn ihr Komplement abgeschlossen ist). 2) und 3) ⇒ 4): Sei A ∈ E mit P (∂A) = 0 gegeben. Sei B := A \ ∂A das Innere von A und A der Abschluss von A. Wegen P (∂A) = 0 ist P (B) = P (A) = P (A). Mit 2) und 3) folgt 2) 3) lim sup Pn (A) ≤ lim sup Pn (A) ≤ P (A) = P (A) = P (B) ≤ lim inf Pn (B) n→∞ n→∞ ≤ lim inf Pn (A). n→∞ Damit ist limn→∞ Pn (A) = P (A). n→∞ 48 Kapitel 3: Charakteristische Funktionen und schwache Konvergenz 4) ⇒ 1): Sei f eine stetige und beschränkte Funktion. Dann existiert ein M ∈ IR+ mit supx∈E |f (x)| ≤ M . Wir approximieren f durch Treppenfunktionen. Dazu sei ε > 0 und D := {t ∈ IR : P (f = t) > 0}. Wir wählen t0 , . . . , tk+1 ∈ IR mit folgenden Eigenschaften: i) −M = t0 < · · · < tk+1 = M , ii) ti ̸∈ D für i = 0, . . . , k + 1, iii) ti+1 − ti < ε für i = 0, . . . , k. Weil f stetig ist, ist Bi := f −1 ((ti , ti+1 )) offen. Außerdem ist ∂Bi eine Teilmenge von f −1 ({ti }) ∪ f −1 ({ti+1 }). ∑ k+1 Wegen ii) ist i ) = 0. Wir setzen f := i=0 ti 1lBi . Aus der Definition der Bi und aus iii) P (∂B ∑k+1 folgt dann f − i=0 ti 1lBi < ε. Mit 4) erhalten wir nun ∞ ∫ lim n→∞ f dPn = lim n→∞ k+1 ∑ ti Pn (Bi ) = i=0 k+1 ∑ ∫ ti P (Bi ) = f dP. i=0 Somit ergibt sich ∫ ∫ ∫ ∫ ∫ ∫ f dPn − f dP ≤ f dPn − f dPn + f dPn − f dP ∫ ∫ + f dP − f dP ≤ 2 max (ti+1 − ti ) + ε 0≤i≤k (für alle n hinreichend groß) ≤ 3ε. 2 Beispiel 3.17 Man kann sich die Aussagen 2)–4) aus Satz 3.16 leicht veranschaulichen: Seien s, t ∈ IR mit s < t. Setze A := (s, t), P := δt und Pn := δtn mit tn ∈ (s, t) und limn→∞ tn = t. Dann ist lim inf n→∞ Pn (A) = 1 ≥ 0 = P (A). Der folgende Satz zeigt, dass auf (IR, B) die schwache Konvergenz mit der Konvergenz der Verteilungsfunktionen in den Stetigkeitsstellen übereinstimmt. Satz 3.18 Seien (Pn )n∈IN und P Wahrscheinlichkeitsmaße auf (IR, B) und seien (Fn )n∈IN und F die zugehörigen Verteilungsfunktionen. Dann sind die folgenden Aussagen äquivalent: w 1) Pn → P . 2) limn→∞ Fn (x) = F (x) für alle x ∈ C(F ). Beweis: 1) ⇒ 2): Sei x ∈ C(F ). Dann ist P ({x}) = F (x) − F (x−) = 0. Damit ist P (∂(−∞, x]) = 0. Deshalb folgt mit Satz 3.16 4): lim Fn (x) = lim Pn ((−∞, x]) = P ((−∞, x]) = F (x). n→∞ n→∞ 3.8. Der Stetigkeitssatz 49 2) ⇒ 1): Wir werden zeigen, dass Satz 3.16 3) gilt. Dazu sei A ⊂ IR offen. Nach einem Satz ∪ aus der Topologie existiert eine Folge disjunkter, offener Intervalle (Ij )j∈IN mit A = j∈IN Ij . Sei ε > 0 und seien aj , bj ∈ C(F ) mit Ij′ := (aj , bj ] ⊂ Ij und P (Ij ) ≤ P (Ij′ ) + ε2−j für alle j ∈ IN. Dann folgt: lim inf Pn (A) = lim inf n→∞ n→∞ = = = ∞ ∑ ∞ ∑ Pn (Ij ) ∞ (F atou) ∑ ≥ j=1 j=1 lim inf Pn (Ij ) ≥ n→∞ ∞ ∑ j=1 lim inf Pn (Ij′ ) n→∞ lim inf (Fn (bj ) − Fn (aj )) j=1 ∞ ∑ n→∞ (F (bj ) − F (aj )) j=1 ∞ ∑ P (Ij′ ) ≥ j=1 ∞ ( ∑ j=1 (nach Voraussetzung) P (Ij ) − ε 2j ) = ∞ ∑ P (Ij ) − ε j=1 = P (A) − ε. Da ε > 0 beliebig gewählt war, ist P (A) ≤ lim inf n→∞ Pn (A). Damit ist Satz 3.16 3) erfüllt. 2 3.8 Der Stetigkeitssatz Im weiteren Verlauf werden wir den Stetigkeitssatz für charakteristische Funktionen beweisen, also die Aussage, dass aus der Konvergenz von charakteristischen Funktionen gegen eine charakteristische Funktion die schwache Konvergenz der zugehörenden Verteilungsfunktionen folgt. Wir benötigen einige Definitionen und Hilfssätze. Definition 3.19 Eine Familie P von Wahrscheinlichkeitsmaßen auf (E, E) heißt schwach relativ-kompakt, f alls jede unendliche Folge aus P eine Teilfolge besitzt, die schwach gegen ein Wahrscheinlichkeitsmaß konvergiert. Bemerkung 3.20 Eine Folge (Pn )n∈IN von Wahrscheinlichkeitsmaßen konvergiert im Allgemeinen nicht gegen ein Wahrscheinlichkeitsmaß, selbst wenn im Falle (E, E) = (IR, B) die zugehörenden Verteilungsfunktionen punktweise konvergieren. Als Beispiel betrachte man Pn := δn . Dann gilt für die zugehörenden Verteilungsfunktionen: lim Fn (x) = lim Pn ((−∞, x]) = 0 n→∞ n→∞ für alle x ∈ IR. Also ist limn→∞ Fn ≡ 0 und damit keine Verteilungsfunktion. Der Grund dafür liegt darin, dass die Masse der Pn nach unendlich abwandert. Um solche Fälle auszuschließen, definieren wir den Begriff der Straffheit. Definition 3.21 Eine Familie P von Wahrscheinlichkeitsmaßen auf (E, E) heißt straff, falls zu jedem ε > 0 eine kompakte Menge K ⊂ E existiert mit supP ∈P P (K c ) < ε. 50 Kapitel 3: Charakteristische Funktionen und schwache Konvergenz Für jedes ε > 0 konzentriert sich also die Masse aller P ∈ P (bis auf ε) auf einer kompakten Menge. Beispiel 3.22 1) Ist P := {P1 , . . . , Pn } eine endliche Familie von Wahrscheinlichkeitsmaßen, so folgt wegen der inneren Regularität der Maße, dass P straff ist. w 2) Seien (Pn )n∈IN und P Wahrscheinlichkeitsmaße auf (IR, B) mit Pn → P . Dann ist P := {Pn : n ∈ IN} straff. Denn ist ε > 0 und sind a, b ∈ C(F ) mit a < b und P ((a, b]) ≥ 1 − ε, so ist lim Pn ((a, b]) = lim (Fn (b) − Fn (a)) = F (b) − F (a) = P ((a, b]) ≥ 1 − ε. n→∞ n→∞ Damit existiert ein n0 ∈ IN, sodass Pn ((a, b]) ≥ 1 − 2ε für alle n ≥ n0 . Hieraus und aus 1) folgt die Straffheit von P. Satz 3.23 (Prohorov) Sei (E, E) ein polnischer Raum, d.h. metrisch, separabel und vollständig. Eine Familie P von Wahrscheinlichkeitsmaßen auf (E, E) ist genau dann schwach relativ-kompakt, wenn P straff ist. Bemerkung: Die Implikation „⇐“ gilt auch ohne die Annahme der Vollständigkeit. Wir werden Satz 3.23 nur für den Fall (E, E) = (IR, B) beweisen. Dazu benötigen wir eine Definition sowie ein Lemma. Definition 3.24 Eine Funktion G : IR → [0, 1] heißt verallgemeinerte Verteilungsfunktion, falls G monoton wachsend und rechtsseitig stetig ist und G(−∞) ≥ 0 sowie G(∞) ≤ 1 gilt. Mit G bezeichnen wir die Menge dieser Funktionen. Lemma 3.25 (Helly-Bray) Die Menge G ist folgenkompakt,das heißt, zu jeder Folge (Gn )n∈IN in G existiert ein G ∈ G sowie eine Teilfolge (Gnk )k∈IN mit limk→∞ Gnk (x) = G(x) für alle x ∈ C(G). Beweis: Der Beweis verwendet im Wesentlichen das Diagonalfolgenprinzip. Sei T := {xi : i ∈ IN} eine abzählbar dichte Teilmenge von IR. Nach dem Satz von Bolzano-Weierstraß besitzt die beschränkte Folge (Gn (x1 ))n∈IN eine konvergente Teilfolge. Es existieren also eine (1) Teilmenge N1 := {ni : i ∈ IN} und ein g1 ∈ [0, 1] mit limi→∞ Gn(1) (x1 ) = g1 . Wenden i wir dasselbe Argument auf die Folge (Gm (x2 ))m∈N1 an, so erhalten wir eine Teilfolge N2 := (2) {ni : i ∈ IN} ⊂ N1 , sodass limi→∞ Gn(2) (x2 ) = g2 ist mit einem g2 ∈ [0, 1]. Man beachte, i dass nach Konstruktion limi→∞ Gn(2) (x1 ) = g1 ist. Iterieren wir das obige Verfahren, so i (r) erhalten wir schließlich für jedes r ≥ 2 eine Teilfolge Nr := {ni : i ∈ IN} von Nr−1 , sodass limi→∞ Gn(r) (xr ) = gr ist mit einem gr ∈ [0, 1]. Es gilt dann für alle m ≤ r, dass i limi→∞ Gn(r) (xm ) = gm ist. Wir wenden nun das Diagonalfolgenprinzip an, das heißt, wir i e i ) := gi und es sei wählen eine Teilfolge, die für jedes x ∈ T konvergiert: Für xi ∈ T sei G(x (i) N := {ni : i ∈ IN}. Dann gilt für jedes xi ∈ T , dass limm→∞ Gn(m) (xi ) = gi ist. Wir werden m e auf IR fortsetzen. Dazu sei G(x) := inf{G(y) e jetzt G : y ∈ T, y ≥ x}. Wir zeigen: a) Das so definierte G ist eine verallgemeinerte Verteilungsfunktion. 3.8. Der Stetigkeitssatz 51 b) Für x ∈ C(G) gilt limm→∞ Gn(m) (x) = G(x). m Aus a) und b) folgt dann die Behauptung. Zu a): 1) Monotonie: Für x, y ∈ T mit x ≤ y gilt Gn(m) (x) ≤ Gn(m) (y) für alle m ∈ IN. Also m m e e ist G(x) ≤ G(y). Damit folgt für x′ , y ′ ∈ IR mit x′ < y ′ : e e G(x′ ) = inf{G(y) : y ∈ T, y ≥ x′ } ≤ inf{G(y) : y ∈ T, y ≥ y ′ } = G(y ′ ). 2) Rechtsseitige Stetigkeit: Sei x ∈ IR und sei (xk )k∈IN eine fallende Folge mit limk→∞ xk = x. Wir müssen zeigen, dass G(x) = limk→∞ G(xk ) ist. Dazu sei d := limk→∞ G(xk ). Nach Definition von G ist G(x) ≤ d. Wir nehmen nun an, dass G(x) < d ist und führen dies zu einem Widerspruch. e Nach Definition von G existiert ein y ∈ T mit y > x und G(y) < d. Für hinreichend große k gilt x < xk < y. Für diese k gilt auf Grund der Monotonie von G e G(xk ) ≤ G(y) = G(y) < d, also limk→∞ G(xk ) < d = limk→∞ G(xk ), was ein Widerspruch ist. Da die Eigenschaften G(−∞) ≥ 0 und G(∞) ≤ 1 offensichtlich sind, ist a) gezeigt. Zu b): Seien x ∈ C(G) und y ∈ T mit y ≥ x. Dann ist e lim sup Gn(m) (x) ≤ lim sup Gn(m) (y) = G(y). m→∞ m m→∞ m e Also ist lim supm→∞ Gn(m) (x) ≤ inf{G(y) : y ∈ T, y ≥ x} = G(x). Wählen wir x′ ∈ IR und m y ∈ T mit x′ ≤ y ≤ x beliebig, so erhalten wir e G(x′ ) ≤ G(y) = lim Gn(m) (y) = lim inf Gn(m) (y) ≤ lim inf Gn(m) (x). m→∞ m→∞ m m→∞ m m Lassen wir nun x′ aufsteigend gegen x streben, so folgt G(x−) ≤ lim inf m→∞ Gn(m) (x). Damit m ergibt sich wegen x ∈ C(G), d.h. G(x) = G(x−), lim sup Gn(m) (x) ≤ G(x) ≤ lim inf Gn(m) (x). m→∞ m→∞ m m 2 Wir können nun Satz 3.23 für den Fall (E, E) = (IR, B) beweisen. Beweis: Wir zeigen zuerst: Ist P nicht straff, so ist P auch nicht schwach relativ-kompakt. Sei P nicht straff. Dann existiert ein ε > 0, sodass supP ∈P P (I c ) > ε für jedes Intervall I ⊂ IR. Also gibt es zu jedem Intervall In := (−n, n) mit n ∈ IN ein Wahrscheinlichkeitsmaß Pn ∈ P, sodass Pn (Inc ) > ε ist. Wäre P schwach relativ-kompakt, so hätte (Pn )n∈IN eine konvergente w Teilfolge (Pnk )k∈IN mit Pnk → Q, wobei Q ein Wahrscheinlichkeitsmaß ist. Mit Satz 3.16 2) folgt ε ≤ lim sup Pnk (Inc k ) ≤ lim sup Pnk (Inc ) ≤ Q(Inc ) für alle n ∈ IN. k→∞ k→∞ absteigend gegen Ø konvergiert, gilt ε ≤ limn→∞ Q(Inc ) = 0. Dies ist ein Widerspruch Da und damit ist P nicht schwach relativ-kompakt. Inc Sei nun umgekehrt P straff. Sei (Pn )n∈IN eine Folge aus P und (Fn )n∈IN die zugehörende Folge der Verteilungsfunktionen. Nach Lemma 3.25 existieren eine Teilfolge (Fnk )k∈IN und eine 52 Kapitel 3: Charakteristische Funktionen und schwache Konvergenz verallgemeinerte Verteilungsfunktion F mit limk→∞ Fnk (x) = F (x) für alle x ∈ C(F ). Wir zeigen, dass F eine Verteilungsfunktion ist, das heißt, es ist F (−∞) = 0 und F (+∞) = 1 zu zeigen. Dazu sei ein ε > 0 vorgegeben. Sei I = [a, b] ⊂ IR ein Intervall mit supn∈IN Pn (I c ) < ε, also Pn ([a, b]) ≥ 1 − ε für alle n ∈ IN. Wir wählen a′ , b′ ∈ C(F ) mit a′ < a und b′ > b. Dann ist 1 − ε ≤ Pnk ([a, b]) ≤ Pnk ((a′ , b′ ]) = Fnk (b′ ) − Fnk (a′ ) für alle k ∈ IN. Damit folgt ( ) 1 − ε ≤ lim Fnk (b′ ) − Fnk (a′ ) = F (b′ ) − F (a′ ). k→∞ Also ist F (+∞) − F (−∞) = 1 und deshalb F (−∞) = 0 sowie F (+∞) = 1. 2 Korollar 3.26 Sei (Pn )n∈IN eine straffe Folge von Wahrscheinlichkeitsmaßen. Falls jede schwach konvergente Teilfolge gegen dasselbe Wahrscheinlichkeitsmaß P konvergiert, konvergiert auch (Pn )n∈IN schwach gegen P . Beweis: Seien (Fn )n∈IN und F die zu (Pn )n∈IN und P gehörenden Verteilungsfunktionen. Wir nehmen an, dass (Pn )n∈IN nicht schwach gegen P konvergiert und führen diese Aussage zu einem Widerspruch. Nach Annahme existiert ein x0 ∈ C(F ), sodass (Fn (x0 ))n∈IN nicht gegen F (x0 ) konvergiert. Mit Hilfe des Satzes von Bolzano-Weierstraß erhält man dann eine Teilfolge (Fnk (x0 ))k∈IN und ein a ∈ [0, 1] mit limk→∞ Fnk (x0 ) = a und a ̸= F (x0 ). Nun existieren aber nach Satz 3.25 eine Teilfolge (Fnki )i∈IN von (Fnk )k∈IN und eine Verteilungsfunktion G mit limi→∞ Fnki (x) = G(x) für alle x ∈ C(G). Nach Voraussetzung ist F = G. Es gilt somit F (x0 ) = a, was ein Widerspruch ist. 2 Im Folgenden sind alle Wahrscheinlichkeitsmaße auf (IR, B) definiert. Korollar 3.27 Sei (Pn )n∈IN eine straffe Folge von Wahrscheinlichkeitsmaßen und (ψn )n∈IN die Folge der zugehörenden charakteristischen Funktionen. Dann sind folgende Aussagen äquivalent: 1) Die Folge (ψn )n∈IN konvergiert punktweise. 2) Die Folge (Pn )n∈IN konvergiert schwach gegen ein Wahrscheinlichkeitsmaß. w Beweis: 2) ⇒ 1): Sei P ein Wahrscheinlichkeitsmaß, sodass Pn → P . Nach Definition 3.15 gilt ∫ ∫ dann limn→∞ f dPn = f dP für alle stetigen und beschränkten Funktion f . Insbesondere gilt für alle t ∈ IR: ∫ lim n→∞ ∫ cos tx dPn (x) = ∫ cos tx dP (x) und lim n→∞ ∫ sin tx dPn (x) = sin tx dP (x). Damit folgt limn→∞ ψn (t) = ψP (t) für alle t ∈ IR. 1) ⇒ 2): Wegen der vorausgesetzten Straffheit existiert nach Satz 3.23 eine Teilfolge (Pnj )j∈IN w sowie ein Wahrscheinlichkeitsmaß P , sodass Pnj → P für j → ∞. 3.8. Der Stetigkeitssatz 53 Sei (Pn′j )j∈IN eine weitere konvergente Teilfolge von (Pn )n∈IN und Q ein Wahrscheinlichkeitsw maß mit Pn′j → Q. Wegen 1) gilt für alle t ∈ IR ψP (t) = lim ψnj (t) = lim ψn′j (t) = ψQ (t). n→∞ n→∞ Mit Hilfe des Eindeutigkeitssatzes 3.7 folgt P = Q. Nun wende man Korollar 3.26 an. 2 Für den Beweis des Stetigkeitssatzes benötigen wir noch einen Zusammenhang zwischen Straffheit und charakteristischen Funktionen. Lemma 3.28 Sei F eine Verteilungsfunktion mit charakteristischer Funktion ψ. Dann gilt für alle a ∈ IR+ \ {0}: ∫ {x∈IR:|x|>2/a} F (dx) ≤ 1 a ∫ a −a (1 − ψ(t)) dt. Beweis: Es ist 1 a ∫ a 1 (1 − ψ(t)) dt = a −a ∫ a −a ∫ ( = 1 a (∫ ( ∫ a ( −a 1−e itx ) ) dP (x) ) 1 − eitx dt dt ) dP (x) (nach dem Satz von Fubini). Für das innere Integral gilt: 1 a ∫ a −a ( 1−e itx ) ∫ 1 dt = a a 1 (1 − cos tx − i sin tx) dt = a −a ) ( sin ax =2 1− ax ≥ 0. ∫ a −a (1 − cos tx) dt Damit erhalten wir: 1 a ∫ ∫ ( a sin ax 1− ax ) ∫ ( ) sin ax 1− dP (x) ≥ 2 dP (x) (1 − ψ(t)) dt = 2 ax −a {a|x|>2} ) ( ) ( ∫ ∫ 1 1 dP (x) ≥ 2 1− dP (x) ≥2 1− ax 2 {a|x|>2} {a|x|>2} ∫ = {a|x|>2} dP (x). 2 Satz 3.29 (Stetigkeitssatz) Sei (Pn )n∈IN eine Folge von Wahrscheinlichkeitsmaßen und (ψn )n∈ IN die Folge der zugehörenden charakteristischen Funktionen. Der Grenzwert ψ(t) := limn→∞ ψn (t) existiere für alle t ∈ IR und ψ sei stetig in 0. Dann ist ψ die charakteristische Funktion eines Wahrscheinlichkeitsmaßes P , das schwacher Limes der Folge (Pn )n∈IN ist. Beweis: Nach Korollar 3.27 reicht es aus zu zeigen, dass die Folge (Pn )n∈IN straff ist. Dazu verwenden wir Lemma 3.28. 54 Kapitel 3: Charakteristische Funktionen und schwache Konvergenz ∫ a (1 − ψn (t)) dt. Mit dem Satz von der majorisierten Für a > 0 ist Pn ({|x| > 2/a}) ≤ a1 −a ∫ ∫a a 1 Konvergenz folgt limn→∞ a −a (1 − ψn (t)) dt = a1 −a (1 − ψ(t)) dt. Wegen der Stetigkeit von ∫ aε ψ in 0 existiert zu ε > 0 ein aε > 0 mit a1ε −a (1 − ψ(t)) dt < ε/2. Außerdem existiert ein ε nε ∈ IN mit ∫ 1 a ε aε 1 (1 − ψn (t)) dt − aε −aε ∫ aε −aε (1 − ψ(t)) dt < ε/2 für alle n ≥ nε . Also ist Pn ({|x| > 2/aε }) < ε für alle n ≥ nε . Dies zeigt, dass die Folge (Pn )n∈IN straff ist. Damit existiert nach Korollar 3.27 ein Wahrscheinlichkeitsmaß P , sodass die Folge (Pn )n∈IN schwach gegen P konvergiert. Es bleibt zu zeigen, dass ψ die charakteristische Funktion von P ist. Für alle t ∈ IR gilt: ∫ ψ(t) = lim ψn (t) = lim n→∞ n→∞ ∫ e itx dPn (x) = eitx dP (x) = ψP (t). 2 Kapitel 4 Zentrale Grenzwertsätze In diesem Kapitel werden wir die in Kapitel 3 bereitgestellten Hilfsmittel nutzen, um zuerst den zentralen Grenzwertsatz für unabhängige und identisch verteilte Zufallsvariablen zu beweisen. Anschließend werden wir auf die Bedingung der identischen Verteilung verzichten und einen Grenzwertsatz für unabhängige Folgen von Zufallsvariablen herleiten. Dieser wurde 1935 unabhängig voneinander von Lindeberg und Feller gefunden. Er löst das seit Laplace (ca. 1800) offene zentrale Grenzwertproblem für unabhängige Zufallsvariablen. 4.1 Der zentrale Grenzwertsatz für identisch verteilte Zufallsvariablen Satz 4.1 Sei (Xn )n∈IN eine Folge reeller, stochastisch unabhängiger und identisch verteilter ∑ Zufallsvariablen mit EX1 =: µ und 0 < Var X1 =: σ 2 < ∞. Sei Sn := ni=1 Xi . Dann gilt: ( L Sn − nµ √ nσ ) w −→ N (0, 1). Dabei bezeichnet L(Y ) die Verteilung von Y . Beweis: Wir können ohne Einschränkung annehmen, dass µ = 0 ist, andernfalls betrachten wir die Folge (Xn − µ)n∈IN . Wegen der Existenz des ersten und zweiten Moments von X1 lässt sich die charakteristische Funktion ψX1 von X1 nach Satz 3.14 in ein Taylorpolynom zweiten Grades entwickeln. Es gilt: t2 σ 2 + o(t2 ) für alle t ∈ IR. ψX1 (t) = 1 − 2 Damit erhalten wir für alle t ∈ IR: ( lim ψ √Sn (t) = lim ψSn n→∞ nσ n→∞ = lim n→∞ ( √ t nσ ) ( = lim ( n→∞ t2 t2 +o 1− 2n nσ 2 Der Stetigkeitssatz 3.29 liefert nun die Behauptung. 55 ( ψX1 ))n t √ nσ = e−t 2 /2 ))n . 2 56 4.2 Kapitel 4: Zentrale Grenzwertsätze Grenzwertsätze für Folgen unabhängiger Zufallsvariablen Für die nächsten Sätze benötigen wir einige Vorbemerkungen. 2 := Für jedes n ∈ IN seien Xn1 , . . . , Xnn unabhängige Zufallsvariablen mit EXnk = 0, 0 < σnk ∑n ∑ n 2 = 1. Außerdem sei S := Var Xnk und k=1 σnk n k=1 Xnk , Fnk die Verteilungsfunktion von Xnk . Wir formulieren nun den zentralen Grenzwertsatz für unabhängige Zufallsvariablen unter der Lindeberg-Bedingung (L). Unter der Zusatzbedingung (AV), die besagt, dass alle Variablen einer Zeile asymptotisch gleichmäßig klein werden, ist die Lindeberg-Bedingung notwendig für die Gültigkeit des zentralen Grenzwertsatzes. Satz 4.2 (Lindeberg) Ist für jedes ε > 0 die Bedingung (L) lim n→∞ n ∫ ∑ k=1 {x∈IR:|x|>ε} x2 Fnk (dx) = 0 w erfüllt, so gilt L(Sn ) −→ N (0, 1). Anschaulich bedeutet die Aussage (L), dass ein Fehler (z.B. bei einer physikalischen Messung), der sich als Summe vieler kleiner, voneinander unabhängiger Fehler ergibt, asymptotisch normalverteilt ist. Bevor wir den Satz beweisen, noch zwei Folgerungen. Bemerkung 4.3 Satz 4.1 ist ein Spezialfall von Satz 4.2. Denn sei (Xn )n∈IN eine Folge reeller, stochastisch unabhängiger und identisch verteilter Zufallsvariablen mit µ := EX1 , 0 < σ 2 := Var X1 < ∞ und mit Verteilungsfunktion F . ∑ . Dann ist EXnk = 0, nk=1 Var Xnk = 1 und Für k, n ∈ IN definieren wir Xnk := X√kn−µ σ ∑n k=1 Xnk = ∑n Xk −nµ . nσ k=1 √ Wir zeigen nun die Bedingung (L). Sei ε > 0. Dann ist n ∫ ∑ k=1 {x∈IR:|x|>ε} x2 Fnk (dx) = n ∫ ∑ { k=1 ∫ } x−µ >ε x∈IR: √ nσ ( ( x−µ √ nσ )2 F (dx) ) x−µ 2 = F (dx) √ σ > n ε} {x∈IR:| x−µ σ | ) ( X1 − µ 2 { 1l X1 −µ >√n ε} . =E σ σ Mit dem Satz von der dominierten Konvergenz folgt die Behauptung. Korollar 4.4 Sei (Xn )n∈IN eine Folge unabhängiger Zufallsvariablen mit endlichen zweiten ∑ ∑ Momenten. Es sei mk := EXk , σk2 := Var Xk , Sn := nk=1 Xk und vn2 := nk=1 σk2 . Für jedes ε > 0 gelte n [ ] 1 ∑ lim 2 E (Xk − mk )2 1l{|Xk −mk |>εvn } = 0. n→∞ v n k=1 4.2. Grenzwertsätze für Folgen unabhängiger Zufallsvariablen Dann gilt L n ∑ Sn − 57 mk k=1 vn Beweis: Für k, n ∈ IN definiere man Xnk := zu (L). Nun wendet man Satz 4.2 an. w −→ N (0, 1). Xk −mk . vn Dann ist die Voraussetzung äquivalent 2 Die Bedingung (AV) spielt bei den folgenden Überlegungen eine wichtige Rolle. 2 Bedingung (AV): max σnj → 0 für n → ∞. 1≤j≤n Bemerkung 4.5 (L) =⇒ (AV). Dies sieht man so: 2 2 σnj = EXnj 2 ≤ ε2 + EXnj 1{|Xnj |>ε} ≤ ε2 + max E|Xnj |2 1{|Xnj |>ε} j ≤ ε + 2 ∑ 2 EXnj 1{|Xnj |>ε} j Die rechte Seite wird aber beliebig klein unabhängig von j. Beweis von Satz 4.2: Zunächst eine Vorbemerkung: Für t ∈ (−∞, ∞) und n ∈ IN ∪ {0} gilt e − it n ∑ (it)j j=0 (it)n+1 = j! n! ∫ 1 0 eitu (1 − u)n du. Dies folgt leicht mit Induktion, wenn man beachtet, dass gilt (it)n+1 n! ∫ 1 0 eitu (1 − u)n du = (it)n −(it)n + n! (n − 1)! ∫ 0 1 eitu (1 − u)n−1 du. Nun läßt sich die rechte Seite für n = 2 abschätzen durch ∫ (it)3 ∫ 1 |t|3 |t|3 1 itu 2 e (1 − u) du (1 − u)2 du ≤ ≤ 2! 0 2! 0 3! aber auch durch ∫ ∫ 1 (it)2 (it)2 1 itu t2 2 + e (1 − u) du ≤ +t (1 − u) du = t2 . − 2! 1! 0 2 0 Damit ergibt sich 1 |eit − 1 − it + t2 | ≤ min[t2 , |t|3 /6]. 2 58 Kapitel 4: Zentrale Grenzwertsätze Nun zum eigentlichen Beweis. Für t ∈ IR und und ε > 0 seien nun 1 2 Ynj (t) := eitXnj − 1 − itXnj + t2 Xnj 2 2 2 1 2 2 anj (t) := e−σnj t /2 − 1 + σnj t . 2 2 , 1 |tX |3 ]. Dann ist wegen der Vorbemerkung Ynj (t) ≤ min[t2 Xnj nj 6 Somit ergibt sich nun 2 2 itXnj − e−σnj t /2 = Ee |EYnj (t) − anj (t)| [ ] 1 2 4 4 ≤ E t2 Xnj 1{|Xnj |>ε} + |tXnj |3 1{|Xnj |≤ε} + σnj t . 4 Der letzte Term folgt mit einer entsprechenden Abschätzung von anj (t), nur für e−v von eitx . Sei nun s2nj = ∑j 2 i=1 σni und sn0 = 0, sowie S0 = 0 und Snj = 2 /2 anstelle ∑j k=1 Xnk . Dann folgt { { s2nj−1 t2 } s2nj t2 } − E exp itSnj−1 + E exp itSnj + 2 2 ( σ 2 t2 ) { s2nj t2 } nj = E exp itSnj−1 + E exp(itXnj ) − exp − 2 ( σ 2 t2 ) 2 nj ≤ et /2 E exp(itXnj ) − exp − 2 ( ≤ et 2 /2 2 ) 2 /2 2 2 E t2 Xnj 1{|Xnj |>ε} + ε|t|3 Xnj 1{|Xnj |≤ε} + et 2 2 t4 σnj max σnj 1≤j≤n 2 → 0 für n → ∞. Unter der Bedingung (L) folgt nun max1≤j≤n σnj Somit ergibt sich unter Beachtung von s2nj ≤ 1 für alle j 2 itSn − e−t /2 = Ee ] [ n ( ( −t2 /2 ∑ s2nj−1 t2 ) s2nj t2 ) e − exp itSnj−1 + E exp itSnj + 2 2 j=1 ≤ t 2 n ∑ 2 EXnj 1{|Xnj |>ε} + ε|t|3 + o(1). j=1 Der erste Term wird wegen Bedingung (L) beliebig klein, woraus die Aussage folgt. 2 Der nächste Satz zeigt, dass die Bedingung (L) unter der Voraussetzung (AV) notwendig für die Gültigkeit des zentralen Grenzwertsatzes 4.2 ist. Satz 4.6 (Zentraler Grenzwertsatz von Lindeberg–Feller) Ist (Xnk )1≤k≤n, n∈IN Dreiecksschema von Zufallsvariablen wie vor Satz 4.2, die der Bedingung (AV ) genügt, so gilt der zentrale Grenzwertsatz genau dann, wenn Bedingung (L) gilt. 4.2. Grenzwertsätze für Folgen unabhängiger Zufallsvariablen 59 Beweis: Nach Satz 4.2 wissen wir schon, dass die Bedingung (L) hinreichend für die Gültigkeit des zentralen Grenzwertsatzes ist. Nehmen wir deshalb an, dass der zentrale Grenzwertsatz gilt. Sei ψnk (t) := EeitXnk für alle t ∈ IR. Wir zeigen zunächst, dass limn→∞ (max1≤k≤n |ψnk (t) − 1|) = 0 ist. Aus (AV ) folgt mit der Chebycheffschen Ungleichung: limn→∞ (max1≤k≤n P (|Xnk | > ε)) = 0 für alle ε > 0. Wir erhalten damit ∫ |ψnk (t) − 1| = ≤2 ∫ eitx dFnk (x) − 1 ≤ ∫ {|x|>ε} dFnk (x) + ∫ itx e − 1 dFnk (x) {|x|≤ε} ≤ 2P (|Xnk | > ε) + ε|t| |tx| dFnk (x) gleichmäßig in k klein für hinreichend große n. In der zweiten Ungleichung wurde die Abschätzung | eit − 1 | ≤ | t |, t ∈ IR, verwendet. Wir sehen nun, dass zu ε > 0 ein n0 ∈ IN existiert, sodass max1≤k≤n | ψnk (t) − 1 | ≤ ε für alle n ≥ n0 . Somit existiert zu jedem t ∈ IR ein n0 (t) ∈ IN mit max1≤k≤n | ψnk (t) − 1 | ≤ 1/2 für ∑ alle n ≥ n0 (t). Also ist nk=1 log ψnk (t) für alle n ≥ n0 (t) wohldefiniert. Wegen der Gültigkeit ∑ 2 des zentralen Grenzwertsatzes ist limn→∞ nk=1 log ψnk (t) = − t2 . Nach Satz 3.14 können wir ψnk in eine Potenzreihe entwickeln: ψnk (t) = 1 + itEXnk − t2 t2 2 EXnk − εn (t) 2 2 2 mit | εn (t) | ≤ 3EXnk . 2 = σ 2 , gilt Da EXnk = 0 und EXnk nk | ψnk (t) − 1 | ≤ t2 2 3 2 2 2 σnk + t2 σnk = 2σnk t . 2 2 Dies und die Potenzreihenentwicklung des Logarithmus ergibt dann n ∑ | log ψnk (t) − (ψnk (t) − 1) | ≤ k=1 n ∑ | ψnk (t) − 1 |2 ≤ k=1 1≤k≤n 4 = 4t max 1≤k≤n ∑n k=1 | 4 4 4σnk t k=1 2 ≤ 4t4 max σnk Wegen (AV ) gilt limn→∞ n ∑ n ∑ 2 σnk k=1 2 σnk . log ψnk (t) − (ψnk (t) − 1) | = 0 und damit lim n→∞ n ∑ (ψnk (t) − 1) = − k=1 t2 . 2 Eine Folge komplexer Zahlen konvergiert genau dann, wenn Real- und Imaginärteil konvergieren. Deshalb ist lim n→∞ n ∫ ∑ k=1 ( (cos tx − 1) dFnk (x) = lim Re n→∞ n ∑ ) (ψnk (t) − 1) k=1 =− t2 . 2 60 Kapitel 4: Zentrale Grenzwertsätze Sei η > 0. Dann gilt für jedes t ∈ IR ( lim sup n→∞ n t2 ∑ − 2 k=1 = lim sup { | x |≤η } n ∫ ∑ ≤ 2 lim sup n→∞ θ2 2 (1 − cos tx) dFnk (x) k=1 { | x |>η } n ∫ ∑ n→∞ Aus 0 ≤ 1 − cos θ ≤ ) ∫ (1 − cos tx) dFnk (x) dFnk (x) k=1 { | x |>η } ≤ n 2 ∑ σ2 η 2 k=1 nk = 2 . η2 (nach der Chebycheffschen Ungleichung) folgt nun ( n 2 t2 ∑ − ≥ lim sup η2 2 k=1 n→∞ ) ∫ ( { | x |≤η } (1 − cos tx) dFnk (x) ) ∫ n ∑ t2 ≥ lim sup 1 − 2 n→∞ k=1 2 { | x |≤η } ( x dFnk (x) n ∫ ∑ t2 x2 dFnk (x) = lim sup 2 n k=1 {|x|>η} ) . Die obige Gleichung gilt wegen dem Folgenden: 1− n ∫ ∑ k=1 { | x |≤η } x2 dFnk (x) = = = Man erhält: n ∑ 2 σnk − k=1 n ∫ ∑ n ∫ ∑ x2 dFnk (x) − k=1 n ∫ ∑ k=1 { | x |>η } n ∑ 4 ≥ lim sup η 2 t2 n→∞ k=1 x2 dFnk (x) k=1 { | x |≤η } n ∫ ∑ ∫ { | x |>η } k=1 { | x |≤η } x2 dFnk (x) x2 dFnk (x). x2 dFnk (x) ≥ 0. Da t ∈ IR beliebig gewählt ist, existiert der Limes lim n→∞ n ∫ ∑ k=1 { | x |>η } x2 dFnk (x) und hat den Wert 0. Dies gilt für alle η > 0, also ist (L) erfüllt. 2 4.3. Gleichverteilung auf stetigen Funktionen (ein Ausblick) 61 Satz 4.7 (Mehrdimensionaler Zentrale Grenzwertsatz) Seien X1 , X2 , . . . unabhängige identisch verteilte Zufallsvektoren mit Werten in IRk , mit E(X1 ) = µ und Kov(X) = Σ. ∑ Sei Sn = ni=1 Xi . Dann gilt in schwacher Konvergenz. ( Sn − nµ √ L n ) → N (0, Σ) . Zum Beweis verwendet man die Cramer-Wold Device. Siehe Übungen. 4.3 Gleichverteilung auf stetigen Funktionen (ein Ausblick) Sei C[0, 1] = {x | x(·) ist stetige Funktion auf [0, 1]}. Wir definieren ||x||∞ = sup0≤t≤1 |x(t)| und metrisieren C[0, 1] mit d(x, y) = ||x − y||∞ . Unter d ist C[0, 1] separabel und vollständig (aber nicht kompakt). Sei B[0, 1] die Borelsche σ-Algebra auf C[0, 1]. Nun definieren wir Wahrscheinlichkeitsmaße, genauer Gleichverteilungen auf C[0, 1]. (Ω, F, P ) sei ein Wahrscheinlichkeitsraum, auf dem u.i.v. Zufallsvariablen Y1 , Y2 , . . . mit +1 Yi = −1 Sei Sn = ∑n i=1 Yi , mit Wahrscheinlichkeit mit Wahrscheinlichkeit 1 2 1 2 defininiert sind. S0 = 0. Sn n Wir reskalieren den Pfad n 7−→ Sn durch S /√n k Xn (t) := linear dazwischen für t = k/n k = 0, 1, . . . Die Abbildung t ; Xn (t). 0 < t ≤ 1 ist eine zufällige stetige Funktion mit Xn (0) = 0. Die Wahrscheinlichkeit P (Xn (·) = x(·)) = 21n . Sei Pn die Verteilung von Xn (·) unter P . Pn ist Wahrscheinlichkeitsmaß auf (C[0, 1], B[0, 1]). Es stellen sich nun folgende Fragen: 1) Ist (Pn ; n ≥ 1) folgenkompakt? 2) Wenn ja, was ist der Limes der konvergenten Teilfolge? 62 Kapitel 4: Zentrale Grenzwertsätze Nun gilt nach Satz 3.23, dass die Folge (Pn ; n ≥ 1) folgenkompakt ist genau dann wenn (Pn ; n ≥ 1) straff ist, bzw. genau dann wenn gilt: ∀ ε > 0 ∃ Kε ∈ B[0, 1] kompakt mit P (Kε ) ≥ 1 − ε ∀ n. Welches sind die kompakten Mengen in C[0, 1]? Dies liefert das folgende Resultat von ArzelaAscoli: Sei 0 < δ < 1 und Wx (δ) := sup |x(s) − x(t)|. |s−t|<δ Sei A ⊂ C[0, 1]. A ist kompakt genau dann, wenn gilt: a) sup |x(0)| < ∞ x∈A b) lim sup Wx (δ) = 0. δ→0 x∈A In Worten: Die Menge A besteht aus gleichgradig stetigen Funktionen, die in 0 eine beschränkte Menge in IR1 bilden. Satz 4.8 (Pn ; n ≥ 1) ist straff und konvergiert schwach gegen P . P hat folgende Eigenschaften: a) P (X(0) = 0) = 1 b) Sei k ∈ IN. Für 0 ≤ t0 < t1 < . . . ≤ tk = 1 gilt X(ti )−X(ti−1 ) i = 1, . . . , k hat unabhängige Zuwächse. c) X(t) − X(s) ist normalverteilt nach N (0, t − s), falls t > s ist . Bemerkung 4.9 P heißt Wiener-Maß, bzw. X heißt Standard-Brownsche Bewegung. X(·) hat P -f.s. folgende Eigenschaften: t ; X(t)(ω) ist stetig aber nirgends differenzierbar. Hier ist übrigens noch eine stetige nirgends differenzierbare Funktion, die auf Weierstraß zurückgeht: ∞ ∑ sin(100n · x) f (x) = . 100n n=0 Kapitel 5 Unendlich teilbare Verteilungen 5.1 Einführung In diesem Kapitel wollen wir uns der Frage zuwenden, welche die möglichen Grenzverteilungen von Summen unabhängiger Zufallsvariablen sind. Wir werden verschiedene notwendige und hinreichende Bedingungen, unter denen ein Wahrscheinlichkeitsmaß eine Grenzverteilung ist, angeben. Es wird sich zeigen, dass das wesentliche Kriterium darin besteht, dass die Verteilung unendlich teilbar sein muss, das heißt, die zugehörende charakteristische Funktion muss Wurzeln beliebigen Grades besitzen, die wieder charakteristische Funktionen sind. Mittelpunkt dieses Abschnittes ist die Lévy–Khinchin Formel, die eine explizite Darstellung für die charakteristische Funktion einer unendlich teilbaren Verteilung angibt. Definition 5.1 Eine Zufallsvariable X hat eine unendlich teilbare Verteilung, falls für jedes n ∈ IN unabhängige und identisch verteilte Folgen von Zufallsvariablen Xn1 , . . . , Xnn existieren mit L(X) = L(Xn1 + · · · + Xnn ). Anders formuliert: Eine Verteilung P mit charakteristischer Funktion ψ ist genau dann unendlich teilbar, wenn für jedes n ∈ IN eine charakteristische Funktion ψn existiert, sodass ψ = (ψn )n ist. 5.2 Beispiele für unendlich teilbare Verteilungen Die Normalverteilung N (µ, σ 2 ) zu den Parametern µ ∈ IR und(σ 2 > 0 ist unendlich teilbar, ) 1 2 2 denn die zugehörige charakteristische Funktion ist ψ(t) = exp itµ − 2 t σ , sodass für alle ( 2 n ∈ IN durch ψn (t) := exp it nµ − 12 t2 σn ) eine n-te Wurzel gegeben ist. Die Poissonverteilung mit Sprunghöhe x ist unendlich teilbar. Hier ist die charakteristische ( ( itx )) Funktion durch ψ(t) = exp λ e − 1 gegeben mit einem λ > 0. Deshalb ist ψn (t) := ( ( )) λ itx exp n e − 1 eine n-te Wurzel. Die Compound Poissonverteilung hat die charakteristische Funktion ψ(t) = exp j ∑ ( ) λi eitxi − 1 . i=0 63 64 Kapitel 5: Unendlich teilbare Verteilungen Sie ist die charakteristische Funktion einer Zufallsvariablen X, sodass X = X1 + . . . + Xn ist mit Xi unabhängig Poisson-verteilt mit Parameter λi und Sprunghöhe xi . Die Gammaverteilung Γ(α, β) zu den Parametern α, β > 0 ist unendlich teilbar. Sie hat die Dichte −x xα−1 e β f (x) = 1l (x) Γ(α)β α [0,∞) 1 und ihre charakteristische Funktion ist ψ(t) = (1−iβt) α . Eine n-te Wurzel ist somit durch ( ) 1 ψn (t) := (1−iβt)α/n gegeben. Dies ist gerade die charakteristische Funktion von Γ αn , β . Die Cauchy-Verteilung zum Parameter β > 0, deren Dichte die Gestalt f (x) = π(β 2 β + x2 ) hat, ist unendlich teilbar, da ihre charakteristische Funktion ψ(t) = e−β| t | ist und ψn (t) := β e− n | t | deren n-te Wurzel ist (siehe die Übungen!). 5.3 Eine Charakterisierung unendlich teilbarer Verteilungen Definition 5.2 Ein unabhängig und identisch verteiltes Dreiecksschema ist eine Folge (Xnk )1≤k≤n, n∈IN , sodass die Folge (Xnk )1≤k≤n für jedes n ∈ IN aus unabhängigen und identisch verteilten Zufallsvariablen besteht. Der nächste Satz charakterisiert die unendlich teilbaren Verteilungen als die Grenzverteilungen von Summen unabhängiger und identisch verteilter Dreiecksschemata. Satz 5.3 Eine Verteilung ist genau dann unendlich teilbar, wenn sie Grenzverteilung von Summen der Zeilen eines unabhängig identisch verteilten Dreiecksschemas ist. Beweis: „⇒“: Das folgt direkt aus Definition 5.1. „⇐“: Sei (Xnk )1≤k≤n, n∈IN ein unabhängig und identisch verteiltes Dreiecksschema und X eine ∑ w Zufallsvariable, sodass L(Sn ) −→ L(X) gilt, wobei Sn := nk=1 Xnk . Wir werden zeigen, dass L(X) unendlich teilbar ist. Dazu sei ein k ∈ IN beliebig aber fest gewählt. Für m ∈ IN setzen wir n := km. Dann ist Skm = n ∑ Xnℓ = Ym(1) + · · · + Ym(k) ℓ=1 mit Ym(i) := im ∑ Xnl für 1 ≤ i ≤ k. ℓ=(i−1)m+1 w Wegen L(Skm ) −→ L(X) für m → ∞ ist die Folge (L(Skm ))m∈IN straff (siehe Satz 3.23). Da (ℓ) die Folge (Ym )1≤ℓ≤k unabhängig und identisch verteilt ist, gilt für z > 0 und j ∈ { 1, . . . , k }: P (Ym(j) > z)k = k ∏ ℓ=1 P (Ym(ℓ) > z) = P (Ym(1) > z, . . . , Ym(k) > z) ≤ P (Skm > kz). 5.4. Die Lévy–Khinchin Formel 65 (j) (j) Analog erhält man P (Ym < −z)k ≤ P (Skm < −kz). Deshalb ist die Folge (L(Ym ))m∈IN für alle j ∈ { 1, . . . , k } straff. Nach dem Satz von Prohorov 3.23 existiert eine Indexmenge { mℓ : w (j) ℓ ∈ IN } mit L(Ymℓ ) −→ L(Yj ) für ℓ → ∞ und j ∈ { 1, . . . , k }. Dabei sind die Yj identisch (j) (j) (j) verteilt. Dann gilt für ψℓ (t) := EeitYℓ alle j ∈ { 1, . . . , k }, damit folgt lim EeitSkmℓ = lim ℓ→∞ und ψ(t) := EeitY1 , dass limℓ→∞ ψmℓ (t) = ψ(t) für k ∏ ℓ→∞ (j) ψm (t) = ψ(t)k = ψY1 +···+Yk (t). ℓ j=1 Folglich sind Y1 , . . . , Yk unabhängig. Andererseits ist limℓ→∞ EeitSkmℓ = EeitX = ψX (t). Nach dem Eindeutigkeitssatz 3.7 ist L(X) = L(Y1 + · · · + Yk ). Da k ∈ IN beliebig gewählt ist, ist L(X) unendlich teilbar. 2 5.4 Die Lévy–Khinchin Formel Die nachfolgenden Sätze werden wir nicht im Detail beweisen. Der nächste Satz charakterisiert die unendlich teilbaren Verteilungen und gibt eine explizite Formel für deren charakteristische Funktion an. Satz 5.4 (Lévy–Khinchin Formel) Eine Verteilung mit charakteristischer Funktion ψ ist genau dann unendlich teilbar, wenn ψ die folgende Form besitzt: log ψ(t) = iβt − (∗) σ2 2 2 t + ∫∞ ( −∞ eitx − 1 − itx 1+x2 ) 1+x2 x2 ν(dx) Dabei sind β ∈ IR, σ 2 ≥ 0 und ν ist ein endliches Maß auf (IR, B) mit ν({ 0 }) = 0. Beweisskizze: Wir zeigen, dass ψ charakteristische Funktion einer unendlichen teilbaren Verteilung ist. Falls ψ charakteristische Funktion einer Wahrscheinlichkeitsverteilung ist, so ist ψn gegeben durch log ψn = n1 log ψ auch charakteristische Funktion. Damit gilt ψ(t) = (ψn (t))n und die zugehörige Wahrscheinlichkeitsverteilung ist unendlich teilbar. Zeige nun, dass durch (∗) eine charakteristische Funktion gegeben wird. Seien Pn Partitionen von IR in endlich viele Intervalle, so dass die Riemann-Summen gegen das Integral in (∗) konvergieren. Eine approximierende Riemann-Summe ist jn ∑ ( e itxi i=1 ( mit φ(x, t) = eitx − 1 − schreibe ( itxi −1− 1 + x2i itx 1+x2 ) [ 1+x2 . x2 ) 1 + x2i ν(Ii ) ≈ x2i Setze βn = β − gn (t) = exp iβn t − σ /2 t 2 2 ]) ( · exp ∫ φ(x, t)ν(dx) ∑ (ν(Ii )/xi ) und λi = ν(Ii ) i [ ∑ i ( λi e itxi ) −1 ]) . 1+x2i x2i und 66 Kapitel 5: Unendlich teilbare Verteilungen Dann ist gn charakteristische Funktion einer unabhängigen Summe von normal- und Poissonverteilten Zufallsvariablen und damit charakteristische Funktion. Es gilt: lim gn (t) = ψ(t) n für t ∈ IR. Nun ist der Ausdruck von (∗) auch stetig in 0. Denn sup |φ(x, t)| ≤ M x für alle |t| ≤ 1 . ∫ Außerdem gilt φ(x, t) → 0 für t → 0 für alle x. Damit folgt lim φ(x, t)ν(dx) = 0 und t→0 weiter ψ ist stetig in 0. Wegen des Stetigkeitssatzes ist ψ charakteristische Funktion einer Wahrscheinlichkeitsverteilung. 5.5 Stabile Verteilungen Wir betrachten nun spezielle unendlich teilbare Wahrscheinlichkeitsmaße, die stabilen Verteilungen. Definition 5.5 Eine Zufallsvariable X hat eine stabile Verteilung, falls für jedes n ∈ IN unabhängige Zufallsvariablen X1 , . . . , Xn sowie Konstanten an ∈ IR+ und bn ∈ IR existieren, mit L(X) = L(Xi ) für i ∈ { 1, . . . , n } und L(an X + bn ) = L(X1 + · · · + Xn ). Mit Hilfe von charakteristischen Funktionen erhält man folgende Formulierung von Definition 5.5: Eine Verteilung P mit charakteristischer Funktion ψ ist genau dann stabil, wenn zu jedem n ∈ IN Konstanten an ∈ IR+ und bn ∈ IR existieren, sodass ψ(t)n = ψ(an(t)eibn)t ist, für alle n t ∈ IR. Äquivalent, mit Hilfe von F ausgedrückt, heißt das: (F ∗ )n (x) = F x−b . an Der folgende Satz stellt den Hauptgrund für das Interesse an stabilen Verteilungen dar. Satz 5.6 Sei (Xn )n∈IN eine Folge unabhängiger und identisch verteilter Zufallsvariablen. Sei∑ en an ∈ IR+ , bn ∈(IR(und Sn)):= ni=1 Xi . Dann ist eine Verteilung P genau dann Grenzvern , wenn P stabil ist. teilung der Folge L Sna−b n n∈IN 5.6 Beispiele für stabile Verteilungen Die Normalverteilung N (µ, σ 2 ) zu den Parametern µ ∈ IR und σ 2 > 0 ist stabil. Denn ist (Xi )i∈IN eine Folge unabhängiger N (µ, σ 2 )-verteilter Zufallsvariablen, so ist L(X1 + · · · + √ Xn ) = N (nµ, nσ 2 ). Ist also X eine N (µ, σ 2 )-verteilte Zufallsvariable und ist an := n sowie √ bn := (n − n)µ, so ist L(an X + bn ) = L(X1 + · · · + Xn ), was man leicht mit Hilfe der charakteristischen Funktionen und des Eindeutigkeitssatzes 3.7 verifiziert. Die Cauchy-Verteilung zum Parameter β > 0 ist stabil. Sei (Xi )i∈IN eine Folge unabhängiger zum Parameter β > 0 Cauchy-verteilter Zufallsvariablen. Dann ist L(X1 +· · ·+Xn ) = L(nX), denn ψX (t) = exp(−β|t|). 5.7. Die Lévy–Khinchin Formel für stabile Verteilungen 5.7 67 Die Lévy–Khinchin Formel für stabile Verteilungen Der nächste Satz ist der Spezialfall der Lévy–Khinchin Formel für stabile Verteilungen. Satz 5.7 Sei ψ die charakteristische Funktion einer stabilen Verteilung, die nicht die Normalverteilung ist. Dann existieren eine Zahl α ∈ (0, 2) und Konstanten m1 , m2 ∈ IR+ sowie ein β ∈ IR, sodass ∫ ∞( ) itx dx 2 1 + x x1+α 0 ) ∫ 0 ( itx dx eitx − 1 − . + m2 2 1 + x | x |1+α −∞ eitx − 1 − log ψ(t) = itβ + m1 Als Folgerung erhält man: Korollar 5.8 ψ ist genau dann die charakteristische Funktion einer stabilen Verteilung, die nicht die Normalverteilung ist, wenn α ∈ (0, 2), β ∈ IR, δ ≥ 0 und θ ∈ [−1, 1] existieren, sodass ) ( t α log ψ(t) = itβ − δ | t | 1 + iθ G(t, α) |t| tan 1 πα G(t, α) := 2 2 log t mit π Dabei soll 0 0 := 0 gelten. falls α ̸= 1 falls α = 1 68 Kapitel 5: Unendlich teilbare Verteilungen Kapitel 6 Existenz von stochastischen Prozessen 6.1 Gaußsche und Markovsche Prozesse Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und I ⊂ [0, ∞) eine Indexmenge. Wir beschränken uns zunächst auf IR-wertige Prozesse. Die Ausdehnung auf IRk -wertige Prozesse geschieht dann beispielbezogen. Definition 6.1 1) Sei X = (Xt ; t ∈ I) mit Xt F-meßbare Zufallsvariable für t ∈ I. X heißt stochastischer Prozess. Die Abbildung t → Xt (ω) für ω ∈ Ω heißt Pfad des stochastischen Prozesses. 2) Sei {t1 , . . . , tn } ⊂ I. Die Verteilung P (Xt1 ,...,Xtn ) von (Xt1 , . . . , Xtn ) unter P heißt endlichdimensionale Randverteilung von X. Bemerkung 6.2 In der Vorlesung wird der Parameter t stets die Rolle eines Zeitpunktes übernehmen. Man kann I allgemeiner als eine beliebige Indexmenge auffassen. Beispielsweise I = R3 und (x, y, z) 7→ X(x,y,z) (ω) so interpretieren, dass dem Raumpunkt (x, y, z) die zufällig realisierte Temperatur X(x,y,z) (ω) zugeordnet wird. Beispiel 6.3 1. Eine symmetrische Irrfahrt: Zu einer u.i.v. Folge (Yi )i≥1 von Zufallsvariablen mit +1 Yi = −1 definiert Xn := ∑n i=1 Yi , mit W -keit 1/2 mit W -keit 1/2 n ∈ I = {1, 2, 3, . . .} einen stochastischen Prozess. 2. Seien die Zufallsvariablen Ti , i ≥ 1 unabhängig und exponentialverteilt zum Parameter λ ∑ (d.h. P (Ti > t) = e−λt ). Sei S0 = 0 und Sn := ni=1 Ti . Dann definiert Xt := max{n ≥ 0 | Sn ≤ t} einen stochastischen Prozess zur Indexmenge I = R+ . 69 70 Kapitel 6: Existenz von stochastischen Prozessen t 7→ Xt (ω) 3 2 1 T1 (ω) T1 (ω) + T2 (ω) t Definition 6.4 Eine Familie (Ft ; t ∈ I) von Unter-σ-Algebren von F heißt eine Filtrierung zu einem W -Raum (Ω, F, P ), falls für s, t ∈ I, s ≤ t stets Fs ⊂ Ft gilt. Ein stochastischer Prozess (Xt ; t ∈ I) heißt an die Filtrierung (Ft ; t ∈ I) adaptiert, falls Xt Ft -messbar ist für alle t ∈ I. Mit (Xt , Ft ; t ∈ I) bezeichnen wir stets einen an die Filtrierung (Ft ; t ∈ I) adaptierten Prozess. Definition 6.5 Ein stochastischer Prozess (Xt , Ft ; t ≥ 0) heißt Poisson Prozess zum Parameter λ, falls gilt: i) X0 = 0. ii) Für 0 ≤ s < t ist die σ-Algebra σ(Xt − Xs ) unabhängig von Fs . iii) Für 0 ≤ s < t ist (Xt − Xs ) Poisson-verteilt zum Parameter λ(t − s). Poisson Prozesse sind bereits in Stochastik I behandelt worden. Beispiel 6.3.2 gibt eine Konstruktion an. Definition 6.6 Ein stochastischer Prozess (Xt , Ft ; t ∈ I), I ⊂ (0, ∞) heißt Submartingal, falls gilt i) EXt+ < ∞ für alle t ∈ I und ii) E(Xt | Fs ) ≥ Xs für t > s. (Xt , Ft ; t ∈ I) heißt Supermartingal, falls −X Submartingal ist und Martingal, falls (Xt , Ft ; t ∈ I) sowohl Sub- als auch Supermartingal ist. Beispiel 6.7 Sei (Xt , Ft ; t ≥ 0) ein Poisson Prozess mit Intensität λ. Dann sind 1) (Yt , Ft ; t ≥ 0) mit Yt := Xt − λt und 2) (Zt , Ft ; t ≥ 0) mit Zt = Xt2 − λ ∫t 0 (2Xr + 1)dr Martingale. Definition 6.8 Ein stochastischer Prozess X = (Xt , t ≥ 0) heißt Gaußscher Prozess, falls für alle n ≥ 1 und 0 < t1 < · · · < tn der Vektor (Xt1 , . . . , Xtn ) n-dimensional normalverteilt ist. t 7→ µ(t) = EXt heißt Mittelwertfunktion und (t, s) 7→ Γ(t, s) = Kov(Xs , Xt ) heißt Kovarianzfunktion von X. 6.1. Gaußsche und Markovsche Prozesse 71 Definition 6.9 Ein stochastischer Prozess X = (Xt , Ft ; t ≥ 0) heißt Brownsche Bewegung (mit Drift 0), falls i) X0 = 0, ii) für n ≥ 1 und 0 ≤ t0 < t1 < . . . < tn sind Xti − Xti−1 für i = 1, . . . , n stochastisch unabhängig, iii) L(Xt − Xs ) = N (0, t − s) für t > s. Satz 6.10 Ein Gaußscher Prozess X ist genau dann Brownsche Bewegung, wenn die Mittelwertsfunktion µ(t) = 0 und die Kovarianzfunktion Γ(s, t) = s ∧ t ist. Beweis: Zeige zunächst, dass ein Gaußscher Prozess mit µ(t) = 0 und Γ(s, t) = s∧t Brownsche Bewegung ist. Seien t0 < t1 < . . . < tn gegeben mit ti ∈ I. Dann erhält man den Zufallsvektor Z := (Xt1 − Xt0 , . . . , Xt0 − Xtn−1 ) durch lineare Transformation aus (Xt0 , . . . , Xtn ). Letzterer ist nach Definition n-dimensional normalverteilt. Wegen Bemerkung A.2 gilt dies auch für Z. Es bleibt zu zeigen, dass die Zuwächse Zi := Xti − Xti−1 für i = 1, . . . , n unabhängig sind. Nach Korollar A.5 genügt es nachzuweisen, dass Kov((Z1 , . . . , Zn )T ) Diagonalgestalt hat: Sei s < t ≤ v < w, dann ist E(Xt − Xs )(Xw − Xv ) = EXt Xw − EXt Xv − Xs Xw + EXs Xv = t∧w−t∧v−s∧w+s∧v = t−t−s+s = 0. Für t > s gilt außerdem E(Xt − Xs )2 = EXt2 − 2E(X2 Xt ) + EXs2 = t − 2s + s = t − s. Die umgekehrte Richtung: Man erhält aus (Xt0 , Xt1 −Xt0 , . . . , Xtn −Xtn−1 ) durch lineare Transformation (Xt0 , Xt1 , . . . , Xtn ). Die transformierende Matrix ist 1 1 1 .. . 0 .. . 1 1 ... 1 Damit ist (Xt0 , Xt1 , . . . , Xtn ) n-dimensional normalverteilt. Die Kovarianzfunktion ergibt sich für s < t als EXt Xs = E(Xt − Xs )Xs + EXs2 = E(Xt − Xs )EXs + EXs2 = 0+s = s ∧ t. 2 72 Kapitel 6: Existenz von stochastischen Prozessen Im nächsten Abschnitt wollen wir eine Brownsche Bewegung konstruieren. In der Definition 6.9 für die Brownsche Bewegung wurden im Wesentlichen die endlichdimensionalen Randverteilungen des Prozesses festgelegt. Wir werden untersuchen, unter welchen Voraussetzungen man zu einer gegebenen Familie von W -Maßen auf (RI , BI ) einen stochastischen Prozess konstruieren kann, der diese vorgegebenen W -Maße als Randverteilungen besitzt. Beispiel 6.11 1. Brownsche Brücke Sei (Xt ; t ≥ 0) Brownsche Bewegung. Der Prozess Yt = Xt − tX1 heißt Brownsche Brücke und ist ein Gaußscher Prozess mit EYt = 0 und Kov(Ys , Yt ) = s(1 − t). Insbesondere gilt Var(Yt ) = t(1 − t) und Y1 = 0. 2. Der Ornstein-Uhlenbeck Prozess ∫ Sei(Xt ; t ≥ 0) Brownsche Bewegung. Sei Vt = γ 0t e−α(t−u) dXu Dabei ist das Integral der Limes der approximierenden Summen. (Vt ; t ≥ 0) ist ein Gaußscher Prozess mit EVt = 0 und γ2 Kov(Vs , Vt ) = ϱ(e−α(t−s) − e−α(s+t) ) mit ϱ = 2α . Er heißt Ornstein-Uhlenbeck Prozess. ∑ Denn: Vt = lim φ(tk )∆k X wobei ∆k X = Xtk+1 − Xtk . P art. k Die Summe besteht aus unabhängigen normalverteilten Zufallsvariablen. Sie sind demnach normalverteilt, ebenso wie ihr Limes. Um die Kovarianz zu berechnen sei s < t und 0 = t0 < . . . < tn = s < tn+1 < . . . < tm = t. Sei n ∑ Vs ∼ e−α(s−tk ) ∆k X =γ und m ∑ Vt ∼ e−α(t−tk ) ∆k X. =γ k=0 Mit k=0 E(∆k X)(∆j X) = 0 falls k ̸= j folgt näherungsweise EVs Vt ∼ =γ E(∆k X)2 = tk+1 − tk und n ∑ e−α(s+t)+2αtk (tk+1 − tk ) 0 und im Limes 2 −α(s+t) ∫ EVs Vt = γ e t e2αu du . 0 Nun wollen wir uns Markov Prozessen zuwenden. Sowohl Brownsche Bewegung als auch Poisson Prozesse sind Markov Prozesse. Raum- und zeitdiskrete Markov Prozesse haben wir als Markov Ketten schon in Stochastik II kennengelernt. Definition 6.12 (Markov Prozess) Der stochastische Prozess (Xt , Ft ; t ∈ I) heißt Markov Prozess, falls für s ≤ t und A ∈ B gilt P (Xt ∈ A | Fs ) = P (Xt ∈ A | Xs ) oder äquivalent E(f (Xt ) | Fs ) = E(f (Xt ) | Xs ) für alle meßbaren und beschränkten Funktionen f : IR → IR. Die Markov Kerne (oder Übergangskerne) ps,t sind gegeben durch ps,t (Xs , B) = P (Xt ∈ B | Xs ) . 6.2. Der Konsistenzsatz von Kolmogorov 73 Bemerkung 6.13 1) Genau wie bei Martingalen wird die Markoveigenschaft bezüglich einer Filterung (Ft ; t ∈ I) formuliert. Wir setzen im Folgenden jedoch meist Ft = σ(Xs ; s ≤ t) für t ∈ I. 2) Die Übergangskerne sehen wir als reguläre Versionen der bedingten Erwartungen von Xt gegeben Xs an. (Siehe dazu Satz 16.6 aus Wahrscheinlichkeitstheorie). ps,u (x, B) ist die Wahrscheinlichkeit gegeben Xs = x, dass Xu ∈ B ist. Beispiel 6.14 1. Markov Ketten Ein Markov Prozess (Xt ; t ∈ I) mit höchstens abzählbar vielen Zuständen heißt Markov Kette. Ist außerdem I = {0, 1, 2, . . .} so ist der Übergangskern pt,t+1 gegeben durch pt,t+1 (x, y) = P (Xt+1 = y | Xt = x) und pt,t+1 (x, A) = ∑ pt,t+1 (x, y) . y∈A 2. Poisson Prozess Sei (Xt ; t ≥ 0) ein Poisson Prozess mit Intensität λ. Hier sind die Markov-Kerne für x ∈ IN ∪ {0} gegeben als ps,t (x, A) = ∑ e−λ(t−s) k∈A∩{x,x+1,...} (λ(t − s))k−x . (k − x)! 3. Brownsche Bewegung Sei (Xt ; t ≥ 0) eine Brownsche Bewegung. Ihre Markov-Kerne sind gegeben durch 1 ps,t (x, A) = √ 2π(t − s) ∫ ( (y − x)2 exp − 2(t − s) A ) dy . Dann sind (µXt ; t ≥ 0), ((µXt2 − µt); t ≥ 0) und (exp(µXt − µ2 t/2); t ≥ 0) Markov Prozesse. Beispielsweise gilt P (Xu2 − u ≥ x | Ft ) = P ((Xu − Xt )2 + 2(Xu − Xt )Xt + Xt2 ≥ u + x | Ft ) = P ((Xu − Xt )2 + 2(Xu − Xt )Xt + Xt2 ≥ u + x | Xt ) = P (Xu2 − u ≥ x | Xt ) . Bemerkt sei noch, dass in den Beispielen Poisson Prozess und Brownsche Bewegung der Übergangskern nur von t − s abhängt, man sagt zeitlich homogen ist. Die in Stochastik II hergeleiteten Markov Ketten waren auch zeitlich homogen. 6.2 Der Konsistenzsatz von Kolmogorov Notation 6.15 Sei I ⊂ [0, ∞) und RI = {ω = (ωt ; t ∈ I) | ωt ∈ R} die Menge der reellwertigen Funktionen auf I. Eine n-dimensionale Zylindermenge in RI ist eine Menge C mit C = {ω ∈ RI | (ωt1 , . . . , ωtn ) ∈ A} 74 Kapitel 6: Existenz von stochastischen Prozessen mit ti ∈ I für i = 1, . . . , n und A ∈ B n . Weiterhin sei C die Algebra der endlichdimensionalen Zylindermengen und sei BI := σ(C). Sei weiter T = {t∼ = (t1 , . . . , tn ) | ti ∈ I, n ≥ 1} die Menge aller endlichen Tupel aus I (man beachte, dass die Tupel nicht geordnet sein müssen). Für ∼t = (t1 , . . . , tn ) sei Q t ein W -Maß auf (Rn , B n ). ∼ Definition 6.16 Eine Menge {Q t , ∼t ∈ T } von endlich-dimensionalen W -Maßen heißt kon∼ sistent, falls gilt: a) Entsteht ∼s = (ti1 , . . . , tin ) durch Permutation von t = (t1 , . . . , tn ), so gilt für beliebige Ai ∈ B und i = 1, . . . , n Q s (Ai1 × Ai2 × . . . × Ain ) = Q t (A1 × . . . × An ). ∼ ∼ b) Sei n ≥ 1 beliebig. Wenn ∼t = (t1 , . . . , tn ) und ∼s = (t1 , . . . , tn−1 ) sind und A ∈ B n−1 ist, dann ist Q t (A × R) = Q s (A). ∼ ∼ Die Bedingung a) rührt daher, dass wir ungeordnete Tupel (t1 , . . . , tn ) zulassen. Dies dient lediglich zur Vereinfachung der Notation. Wesentlich dagegen ist Bedingung b), die auch Verträglichkeitsbedingung oder Projektionseigenschaft genannt wird. Beispiel 6.17 Sei I = [0, ∞) und X = (Xt ; t ∈ I) ein stochastischer Prozess auf (Ω, F, P ). Für A ∈ B n sei Q t (A) = Q(t1 ,...,tn ) (A) = P ((Xt1 , . . . , Xtn ) ∈ A), ∼ für ∼t = (t1 , . . . , tn ) mit ti ∈ I. Dann ist die Menge {Q t ; ∼t ∈ T } der endlich-dimensionalen ∼ Randverteilungen konsistent. Satz 6.18 (Konsistenzsatz von Kolmogorov) Sei {Q t , ∼t ∈ T } eine konsistente Men∼ ge endlich-dimensionaler W -Maße. Dann existiert ein eindeutig bestimmtes W -Maß Q auf (RI , B I ), so dass gilt, Q t (A) = Q({ω ∈ RI | (ωt1 , . . . , ωtn ) ∈ A}) ∼ für A ∈ B n und ∼t = (t1 , . . . , tn ). Bemerkung 6.19 Das Maß Q wird durch die Q t , ∼t ∈ T auf C festgelegt. C ist Algebra und ∼ damit ist Q durch den Eindeutigkeitssatz festgelegt. Beweis: Für ∼t ∈ T mit ∼t = (t1 , . . . , tn ) setze Q(C) := Q t (A), falls C = {ω ∈ RI | (ωt1 , . . . , ωtn ) ∈ A}. ∼ 6.2. Der Konsistenzsatz von Kolmogorov 75 Dann ist Q eine additive Mengenfunktion auf C mit Q(RI ) = 1. Wir zeigen die Ø-Stetigkeit von Q auf C, denn dann existiert nach dem Fortsetzungssatz eine eindeutige Fortsetzung auf BI . (Zur Erinnerung: Q ist Ø-stetig, falls für jede Folge (Ck ; k ≥ 1) aus C mit Ck−1 ⊂ Ck für alle n k ≥ 1 und mit ∩∞ k=1 Ck = Ø gilt limn→∞ Q(∩k=1 Ck ) = 0.) Wir zeigen dies durch Widerspruch. Sei (Ck ; k ≥ 1) absteigende Folge wie oben. Wir nehmen an, limk→∞ Q(Ck ) = α > 0. Es gilt Ck = {ω ∈ RI | (ωt1 , . . . , ωtmk ) ∈ Amk } mit Amk ∈ B mk , wobei ∼t mk = (t1 , . . . , tmk ). Da Ck+1 ⊂ Ck , ist entweder Amk+1 ⊂ Amk oder ∼t mk+1 ist eine Erweiterung von ∼t mk und Amk+1 ⊂ Amk × Rmk+1 −mk . Somit können wir die Folge (Ck ; k ≥ 1) in eine Folge (Dm ; m ≥ 1) einbetten mit Ck = Dmk . Die Folge (Dm ; m ≥ 1) kann so gewählt werden, dass Dm = {ω ∈ RI | (ωt1 , . . . , ωtm ) ∈ Am } mit Am ∈ B m und Dm+1 ⊂ Dm für alle m ≥ 1 ist. Dann gilt ∩ Ck = k≥1 ∩ Dm = Ø. m≥1 Aus der inneren Regularität von Borel-Maßen auf (Rn , B n ) lässt sich folgern, dass zu Am eine kompakte Menge Km existiert mit Q t m (Am \Km ) < ∼ α . 2m Sei Em := {ω ∈ RI | (ωt1 , . . . , ωtm ) ∈ Km }, dann ist Q(Dm \Em ) = Q t m (Am \Km ) < ∼ α 2m . em := Da (Em , m ≥ 1) i.A. nicht monoton fallend ist, definieren wir die absteigende Folge E ∩m k=1 Ek , m ≥ 1. em = {ω ∈ RI | (ωt , . . . , ωt ) ∈ K fm } mit K fm = (K1 × Rm−1 ) ∩ (K2 × Rm−2 ) ∩ Dann ist E m 1 f fm ) > αm für alle m ≥ 1, denn: . . . ∩ (Km−1 × R) ∩ Km und Km ist kompakt. Es gilt Q t m (K 2 ∼ fm ) = Q(E em ) = Q(Dm ) − Q(Dm \E em ) Q t m (K ∼ = Q(Dm ) − Q(∪m k=1 (Dm \Ek )) ≥ Q(Dm ) − Q(∪m k=1 (Dk \Ek )) ≥α− ∑m α k=1 2k > α2 . fm ̸= Ø für alle m ≥ 1 und wegen der Kompaktheit der K fm folgt ∩m≥1 K fm ̸= Ø und Es folgt K em ̸= Ø. Wir führen diese Argumentation ausführlich durch: somit auch ∩m≥1 E fm für m ≥ 1, dann ist x f1 für alle m ≥ 1. Da K f1 kompakt ist, Sei (x1 , . . . , xm ) ∈ K ∈K 1 (m ) existiert eine konvergente Teilfolge (x k , k ≥ 1) mit Limes x1 ∈ K1 . (m ) (m ) f2 für alle k ∈ N und es existiert wiederum eine konvergente Teilfolge Nun ist (x1 k , x2 k ) ∈ K f2 . mit Limes (x1 , x2 ) ∈ K (m) (m) (m) So fortfahrend erhält man eine Folge (x1 , x2 , . . .) ∈ RN , die in ∩∞ i=1 Ki liegt. Sei nun S = {ω ∈ I e R | ωti = xi , i = 1, 2, . . .}, dann ist S ⊂ Em ⊂ Em ⊂ Dm für alle m ∈ N im Widerspruch zu ∩m≥1 Dm = Ø. 2 76 Kapitel 6: Existenz von stochastischen Prozessen Bemerkung 6.20 1) Durch die Koordinatenabbildungen Xt (ω) := ωt , t ∈ I wird ein stochastischer Prozess (Xt ; t ∈ I) auf dem W -Raum (RI , B I , Q) definiert. Dies ist der sog. kanonische Prozess. Die Verteilungen {Q t ; ∼t ∈ T } sind die endlichdimensionalen Randverteilungen von X: ∼ Q((Xt1 , . . . , Xtn ) ∈ A) = Q t (A) für ∼t = (t1 , . . . , tn ). ∼ Folglich ist Q das Maß, das die vorgegebenen Randverteilungen annimmt. 2) Im der Vorlesung Wahrscheinlichkeitstheorie wurde bereits das Produktmaß auf (IRI , B I ) konstruiert. Siehe dort Satz 10.4. Dieser folgt auch aus dem Konsistenzsatz. Konstruktion einer Brownschen Bewegung auf RI 6.3 Für ω ∈ R[0,∞) setze Xt (ω) = ωt , t ≥ 0. Wegen der Definition der Brownschen Bewegung (6.9) muss die gemeinsame Verteilungsfunktion F von (Xs1 , . . . , Xsn ) für 0 ≤ s1 < . . . < sn wie folgt sein: ∫ F(s1 ,...,sn ) (x1 , . . . , xn ) = (∗) ∫ x1 −∞ ... xn −∞ p(0, y1 ; s1 ) p(y1 , y2 , s2 − s1 ) . . . p(yn , yn−1 ; sn − sn−1 ) dyn . . . dy1 für (x1 , . . . , xn )T ∈ Rn mit p(x, y; t) = √ 1 e− 2πt (y−x)2 2t . Für ∼s = (s1 , . . . , sn ) sei Q s das durch F s ∼ Rn . ∼ (RI , BI ) bestimmte W -Maß auf Der Konsistenzsatz von Kolmogorov liefert nun auf ein Maß Q, unter dem der kanonische Prozess die endlich-dimensionalen Randverteilungen (*) annimmt. Dieser ist offenbar eine Brownsche Bewegung nach Definition 6.9. Die Verträglichkeitsbedingung ergibt sich folgendermaßen: Seien 0 ≤ s1 < s2 < . . . < sn . P (Xs1 ∈ A1 , . . . , Xsn ∈ An ) ∫ ∫ = ... A1 An p(0, y1 ; s1 ) p(y1 , y2 ; s2 − s1 ) . . . p(yn−1 , yn ; sn − sn−1 ) dyn . . . dy1 P (Xs1 ∈ A1 , . . . , Xsi−1 ∈ Ai−1 , Xsi ∈ R, Xsi+1 ∈ Ai+1 , Xsn ∈ An ) ∫ ∫ = ∫ ∫ ... A1 Ai−1 ∫ ∫ = R Ai+1 ∫ ... A1 ∫ ... An ∫ ∫ ... Ai−1 Ai+1 p(0, y1 ; s1 ) . . . p(yn−1 , yn ; sn − sn−1 ) dyn . . . dy1 p(0, y1 ; s1 ) . . . An R p(yi−1 , yi ; si − si−1 ) p(yi , yi+1 ; si+1 − si ) dyi p(yn−1 , yn ; sn − sn−1 ) dyn . . . dyi+1 dyi−1 . . . dy1 6.3. Konstruktion einer Brownschen Bewegung auf RI ∫ ∫ = ∫ ... A1 ∫ ... Ai−1 Ai+1 An 77 p(0, y1 ; s1 ) . . . p(yi−1 , yi+1 ; si+1 − si−1 ) p(yn−1 , yn ; sn − sn−1 ) dyn . . . dyi+1 dyi−1 . . . dy1 = P (Xs1 ∈ A1 , Xsi−1 ∈ Ai−1 , Xsi+1 ∈ Ai+1 , Xsn ∈ An ) . Hierbei wurde die Faltungseigenschaft der Normalverteilung verwendet. Bemerkung 6.21 1. Die vorangegangenen Überlegungen ergeben auch die Konsistenzbedingungen bei zeitlich homogenen Markovschen Übergangskernen. Folglich liefert der Konsistenzsatz die Existenz eines Markov Prozesses. Ein Beispiel ist der Poisson Prozess. 2. Bei Gaußschen Prozessen läßt sich auch die Konsistenzbedingung zeigen (siehe Übungen!.) Es stellt sich nun die Frage, ob wir auch eine Brownsche Bewegung mit stetigen Pfaden konstruieren können. Dies führt zu folgendem Begriff. Definition 6.22 Seien X = (Xt ; t ∈ I) und Y = (Yt ; t ∈ I) stochastische Prozesse auf (Ω, F, P ). Der Prozess X heißt Modifikation von Y , falls P (Xt = Yt ) = 1 für alle t ∈ I. Offensichtlich ist X genau dann ein Modifikation von Y , wenn Y eine Modifikation von X ist. Bemerkung 6.23 1. Ist X Modifikation von Y , so stimmen die endlich-dimensionalen Randverteilungen von X und Y überein: P (Xti = Yti , i = 1, . . . , n) = 1 für alle 0 ≤ t1 < t2 < . . . < tn und alle n ≥ 1. Damit sind die “Verteilungen” von X und Y auf IRI gleich. 2. Im Allgemeinen ist bei Modifikationen das Pfadverhalten verschieden. Beispiel 6.24 Sei X ein stochastischer Prozess auf [0, 1] mit P ({ω | t 7→ Xt (ω) ist stetig auf [0, 1)}) = 1, das heißt, die Pfade von X sind fast sicher stetig. Wir setzen Yt := Xt X +1 t für T ̸= t für T = t, wobei T eine gleichverteilte Zufallsvariable auf [0, 1] sei. Dann gilt P (Xt = Yt ) = P (T ̸= t) = 1 für alle t ∈ [0, 1]. Aber es gilt P ({ω | t 7→ Yt (ω) ist stetig auf [0, 1]}) = 0. Wir werden nun untersuche, wann man zu einem gegebenen Prozess X eine Modifikation Y konstruieren kann, deren Pfade fast sicher stetig sind. 78 Kapitel 6: Existenz von stochastischen Prozessen Satz 6.25 Sei X = (Xt ; 0 ≤ t ≤ T ) ein stochastischer Prozess auf (Ω, F, P ) mit E|Xt − Xs |α ≤ c|t − s|1+β für 0 ≤ s, t ≤ T mit α, β, c > 0. Dann existiert eine Modifikation von X, deren Pfade fast sicher stetig sind. Es gilt für eine N (0, 1)-verteilte Zufallsvariable Y , dass EY 4 = 3 ist. Ist nun X eine Brownsche s Bewegung, so ist L(Xt − Xs ) = N (0, t − s) und somit L( X√t −X ) = N (0, 1). Daher gilt t−s 4 2 E(Xt − Xs ) = 3(t − s) und wir erhalten (mit α = 4, c = 3 und β = 1): Korollar 6.26 Es existiert eine Modifikation der Brownschen Bewegung X = (Xt ; t ∈ [0, T ]) auf (R[0,T ] , B [0,T ] ), deren Pfade fast sicher stetig sind. Beweis von Satz 6.25: O.B.d.A. setzen wir T = 1. Für ε > 0 liefert die ChebyshevUngleichung 1 c P (|Xt − Xs | > ε) ≤ α E|Xt − Xs |α ≤ α |t − s|1+β . ε ε Daraus folgt für s → t die stochastische Konvergenz von Xs → Xt . −γn mit 0 < γ < β/α in die Ungleichung ein und Wir setzen t = 2kn , s = k−1 2n und ε = 2 erhalten ( ) P |Xk/2n − X(k−1)/2n | ≥ 2−γn ≤ c2−n[(1+β)−αγ) und weiter ( P max |Xk/2n − X(k−1)/2n | ≥ 2 −γn 1≤k≤2n ) n ≤ 2 ∑ P (|Xk/2n − X(k−1)/2n | ≥ 2−γn ) k=1 n ≤ 2 c · 2−n[(1+β)−αγ] ≤ c · 2−n(β−αγ) . Damit gilt ∑ ( P n≥1 max |Xk/2n − X(k−1)/2n | ≥ 2 −γn ) 1≤k≤2n <∞ und wegen Borel-Cantelli gilt P (Ω∗ ) = 1 für ∗ { Ω = max |Xk/2n − X(k−1)/2n | < 2 −γn 1≤k≤2n ∗ } für n ≥ n (ω) mit geeignetem n∗ : Ω → IN. Wir unterteilen die Menge D der dyadischen Zahlen. Sei D= ∪ Dm mit Dm = {k/2m | k = 0, 1, . . . , 2m } . m≥1 Für ω ∈ Ω∗ und für alle m > n > n∗ (ω) gilt (Beweis siehe unten) (**) |Xs (ω) − Xt (ω)| ≤ 2 m ∑ j=n+1 2−γj , falls t, s ∈ Dm und 0 < t − s < 2−n . 6.3. Konstruktion einer Brownschen Bewegung auf RI 79 Für alle s, t ∈ D existiert n ≥ n∗ (ω) mit 2−(n+1) < t − s < 2−n und es gilt |Xs (ω) − Xt (ω)| ≤ 2 · ∞ ∑ 2−γj = 2 · j=n+1 Folglich ist für ω ∈ (***) 2−(n+1)γ 2 ≤ |t − s|γ . −γ 1−2 1 − 2−γ Ω∗ |Xs (ω) − Xt (ω)| ≤ 2 ∗ |t − s|γ , falls t, s ∈ D und |t − s| < 2−n (ω) , γ 1−2 das heißt, X ist auf den dyadischen Zahlen D gleichmäßig stetig. Da die dyadischen Zahlen dicht in [0, 1] liegen, lässt sich X(ω) für ω ∈ Ω∗ stetig auf [0, 1] fortsetzen. Ausführlich geschrieben bedeutet dies, wir definieren für ω ∈ Ω∗ e t (ω) := X Xt (ω), falls t ∈ D, Xsn (ω), falls t ∈ [0, 1]\D. slim n →t sn ∈D e t (ω) = 0 für alle t ∈ [0, 1]. Für ω ∈ / Ω∗ setzen wir X Die Fortsetzung ist wohldefiniert, da für sn , sm ∈ D wegen (**) für n, m groß genug |Xsn (ω) − Xsm (ω)| ≤ K · |sn − sm |γ e gilt; also ist (Xsn (ω))n≥1 für sn → t eine Cauchy-Folge in IR. Nun gilt auch (∗∗) für X. e eine Modifikation von X ist. Wir zeigen nun, dass X e t (ω) = Xt (ω) für ω ∈ Ω∗ , dass X e t = Xt fast sicher ist. Für t ∈ [0, 1]\D Für t ∈ D gilt mit X sei (sn )n≥1 ⊂ D mit sn → t für n → ∞. Dann folgt Xsn → Xt stochastisch und nach Kone t fast sicher. struktion gilt Xsn → X Wählen wir nun eine Teilfolge von (sn )n≥1 , so dass Xsni → Xt fast sicher konvergiert, so folgt e t ) = 1. mit der Eindeutigkeit des Limes P (Xt = X Wir weisen nun durch Induktion über m ≥ n die Ungleichung (**) nach. Ist m = n+1 und t−s < 2−n , so ist t = k ·2−m und s = (k −1)2−m und (**) gilt offensichtlich, da ω ∈ Ω∗ . Denn ist t = k · 2−(n+1) und s = l · 2−(n+1) , so ist t − s < 2−n gleichbedeutend mit k/2 − l/2 < 1 und somit k − l ≤ 1. Sei (**) für m = n + 1, . . . , M − 1 nachgewiesen und sei s, t ∈ DM mit s < t. Wir setzen t1 = max{u ∈ DM −1 ; u ≤ t} und s1 = min{u ∈ DM −1 ; u ≥ s}, dann gilt s < s1 < t1 < t und s1 − s ≤ 2−M sowie t − t1 ≤ 2−M . Wegen ω ∈ Ω∗ gilt |Xs1 (ω) − Xs (ω)| ≤ 2−γM und |Xt1 (ω) − Xt (ω)| ≤ 2−γM sowie |Xt1 (ω) − ∑ −1 −γj Xs1 (ω)| ≤ 2 · M , letzteres nach Induktionsannahme. Mit der Dreiecksungleichung j=1 2 folgt nun (**) für m = M . 2 Bemerkung 6.27 Wegen (***) gilt P sup e s (ω) − X e t (ω)| |X ∗ 0<t−s<2−n (ω) s,t∈[0,1] γ wird als Stetigkeitsmodul bezeichnet. |t − s|γ ≤ 2 = 1. 1 − 2−γ 80 Kapitel 6: Existenz von stochastischen Prozessen Ausblick: Ist X eine Brownsche Bewegung, so gilt E(Xt − Xs )2n ≤ Kn · (t − s)n wegen der Momentengleichung EY 2k = (2k)! , falls Y N (0, 1) verteilt ist. Daher gilt für das Stetigkeits2k k! modul γ der Brownschen Bewegung 0 < γ < 12 . Später werden wir einen Satz kennenlernen, der das Stetigkeitsmodul der Brownschen Bewegung noch genauer charakterisiert. Anschaulich bedeutet 0 < γ < 1/2 für die Brownsche Bewegung folgendes: Die starke Fluktuation der Pfade verbleibt – für infinitesimal kleine Zeitabstände – ungefähr zwischen den Graphen der Wurzelfunktion (siehe Abbildung 6.1). x1/2 Pfad einer Brownshen Bewegung PSfrag replaements Startpunkt −x1/2 Abbildung 6.1 Bisher haben wir eine relativ abstrakte Konstruktion der Brownschen Bewegung kennengelernt: Der Konsistenzsatz von Kolmogorov liefert über die Einstein-Formel für die endlichdimensionalen Randverteilungen ein Maß P auf (R[0,∞) , B I ), unter dem der kanonische Prozess eine Brownsche Bewegung nach Definition 6.9 ist. Die Momentenbedingung (Satz 6.25) liefert uns die Existenz einer stetigen Modifikation. Wir wählen nun eine “konkretere” Konstruktion der Brownschen Bewegung mit stetigen Pfaden, bei der die Pfade sukzessive festgelegt werden. 6.4 Konstruktion der Brownschen Bewegung nach P. Lévy Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und ξk,n , 1 ≤ k ≤ 2n , n ≥ 0 seien u.i.v. nach N (0, 1) verteilte Zufallsvariablen. Wir konstruieren die Brownsche Bewegung, indem wir sie sukzessive auf allen dyadischen Zahlen festlegen. 0. Schritt: X0 (t) := t ξ1,0 1. Schritt: X1 (0) := X0 (0) = 0, X1 (1) := X0 (1); X1 ( 1/2) := X0 ( 1/2) + ( 1/2) ξ1,1 . Für t ∈ (0, 1/2) und t ∈ ( 1/2, 1) setzen wir X1 (t) durch lineare Interpolation fest. 6.4. Konstruktion der Brownschen Bewegung nach P. Lévy 81 (n+1). Schritt: Sei Xn (t), 0 ≤ t ≤ 1 bereits definiert, dann setzen wir für 0 ≤ l ≤ 2n , 2l Xn+1 ( 2n+1 ) := Xn ( 2ln ) k k ) = Xn ( 2n+1 )+ Xn+1 ( 2n+1 1 n 2 2 +1 für k ungerade, k < 2n+1 . ξk,n+1 l , l = 0, . . . , 2n+1 } durch lineare Interpolation. Wie oben definieren wir Xn+1 (t) für t ̸∈ { 2n+1 Die Prozesse Xm für m ≥ n stimmen also alle auf den dyadischen Zahlen 2kn , k = 0, . . . , 2n überein. Wir zeigen nun, dass die Zuwächse an gerade diesen Stellen bereits die Eigenschaften der Zuwächse von Brownschen Bewegungen besitzen. Für n gegen ∞ konvergiert diese Folge von Prozessen, wie wir sehen werden, gegen eine Brownsche Bewegung mit stetigen Pfaden. k Behauptung 6.28 Für 0 ≤ k < 2n sind die Zuwächse Xn ( k+1 2n ) − Xn ( 2n ) unabhängig und normalverteilt mit Mittelwert 0 und Varianz 1/2n . Beweis (durch Induktion über n): Es ist X1 (1) = X0 (1) nach N (0, 1) verteilt. Die Zufallsvariablen X1 ( 1/2) und X1 (1) − X1 ( 1/2) sind stochastisch unabhängig, denn X1 ( 1/2) = 1/2 X1 (1) + 1/2 ξ1,1 = 1/2 (ξ1,0 + ξ1,1 ) es ist und X1 (1) − X1 ( 1/2) = 1/2 X1 (1) − 1/2 ξ1,1 = 1/2 (ξ1,0 − ξ1,1 ), also ist Y1 = X1 ( 1/2) X1 (1) − X1 ( 1/2) = 1/2 1/2 1/2 − 1/2 2-dimensional normalverteilt. Für die Kovarianzmatrix gilt ξ1,1 2 + E ξ 2 ) (E ξ 2 − E ξ 2 ) 1 (E ξ1,0 1,1 1,0 1,1 = 2 2 2 2 ) 4 (E ξ1,0 − E ξ1,1 ) (E ξ1,0 + E ξ1,1 Kov(Y1 ) = ξ1,0 1 1 0 , 2 0 1 hat also Diagonalgestalt und nach Korollar A.5 sind die Komponenten unabhängig und nach N (0, 1/2) verteilt. Induktionsschritt: Wir schreiben L für die Verteilung und argumentieren etwas symbolisch. ( ( ) ( ) ) k−1 L Xn+1 n+1 − Xn+1 ; 1 ≤ k ≤ 2n+1 2 2n+1 ( ( ( ( ( ) ) ) ) ) 2l − 1 2l − 1 2l − 2 2l n = L Xn+1 n+1 − Xn+1 , Xn+1 − Xn+1 ;1 ≤ l ≤ 2 2 2n+1 2n+1 2n+1 ( ( ( ( ( ) ) ) )) ∏ 2l 2l − 1 2l − 1 2l − 2 = L Xn+1 n+1 − Xn+1 , Xn+1 − Xn+1 . 2 2n+1 2n+1 2n+1 l k Dies gilt, da die Menge { ( Xn k 2n ) ( − Xn ) }∪{ } k−1 n n−1 ; 1 ≤ k ≤ 2 ξ ; 1 ≤ l ≤ 2 2l−1,n+1 2n nach Induktionsvoraussetzung und der Wahl der ξk,n+1 stochastisch unabhängig ist. Es genügt zu zeigen, daß gilt: ( ( ) ( ) ( ) ( )) 2l − 1 2l − 1 2l − 2 , Xn+1 − Xn+1 L Xn+1 n+1 − Xn+1 n+1 n+1 2 2 2 2n+1 ( ( ) ( )) ( ( ) ( )) 2l 2l − 1 2l − 1 2l − 2 = L Xn+1 n+1 − Xn+1 · L Xn+1 − Xn+1 , 2 2n+1 2n+1 2n+1 2l 82 Kapitel 6: Existenz von stochastischen Prozessen um Unabhängikeit der Zuwächse zu zeigen. Wir argumentieren wie beim Beweis der Induktionsvoraussetzung. ( Xn+1 Daraus folgt ( a) Xn+1 ( b) Xn+1 2l ) 2n+1 2l − 1 2n+1 ( 2l − 1 2n+1 ) ( − Xn+1 ) 2l − 1 2n+1 ( − Xn+1 ( ) ( ( l 1 = Xn n 2 2 ) 2l − 2 2n+1 ) ( + Xn l−1 2n )) ( + 1 1 = Y − n/ ξ2l−1,n+1 2 2 2 ) ) ( 1 2 n/ 2 ξ . + 1 2l−1,n+1 ) 1 1 = Y + n/ ξ2l−1,n+1 2 2 2 ) −n ) verteilt. Die beiden Zufalsvariablen in a) und b) mit Y := Xn 2ln −Xn l−1 2n . Y ist N (0, 2 sind aber gemeinsam normalverteilt mit Mittelwert 0. Ihre Kovarianz ist gleich null, da [( E Y − 1 2n/2 + 1 )( ξ2l−1,n+1 Y + )] 1 2n/2 + 1 ξ2l−1,n+1 =0 Folglich sind die Zuwächse unabhängig. Die Verteilung der Zuwächse ergib sich wie folgt: ( L Xn+1 ( 2l ( ) 2n+1 − Xn+1 2l − 1 2n+1 )) ( 1 2 ( 1 ξ2l−1,n+1 2n/2 ( ( )) 1 1 1 = N 0, + 4 2n 2n ) ( 1 = N 0, n+1 . 2 = L )) Y − 2 Damit ist Behauptung 6.28 gezeigt. Behauptung 6.29 Die Folge Xn (·), n ≥ 1 konvergiert fast sicher gleichmäßig auf [0, 1] für n → ∞. Zu Behauptung 6.29: Nach Konstruktion ist max |Xn+1 (t) − Xn (t)| = maxn | 0≤t≤1 1≤l≤2 Mit der Ungleichung von Chebyshev folgt ) ( P max |Xn+1 (t) − Xn (t)| > εn 0≤t≤2n ξ2l−1,n+1 |. 2n/2 +1 ( ξ2l−1,n+1 = P maxn | n/ + 1 | > εn 0≤l≤2 2 2 ≤ n−1 2∑ ( P l=1 |ξ2l−1,n+1 | > εn 2n/2 + 1 ( ) ) n = 2n P |ξ2l−1,n+1 | > εn 2 /2 + 1 ≤ 2n+1 ∫ an ≤ 2n+1 √ = ∞ 1 2 √ e−z /2 dz 2π ( ) n mit an := εn 2 /2 + 1 1 a2 e− n/2 2πan 1 n −ε2n 2n+1 √ 2 /2 ε−1 =: βn . n e 2π ) 6.4. Konstruktion der Brownschen Bewegung nach P. Lévy 83 Im vorletzten Schritt haben wir die Beziehung 1 − Φ(z) ≤ 1 φ(z) für z ∈ R z für die Verteilungsfunktion Φ der Standard-Normalverteilung ausgenutzt. Für εn := 2− /4 n/ ∑ ∑ 3n/ 2 +1 1 −2 4 folgt εn < ∞ und wegen βn = √2π 2 e auch βn < ∞, das heißt n n≥1 ∑ n≥1 n≥1 ) ( P max |Xn+1 (t) − Xn (t)| > εn < ∞ . 0≤t≤1 Mit dem Lemma von Borell-Cantelli gilt P (Ω∗ ) = 1 für ∗ Ω := ∪ ∩ { m≥0 n≥m } max |Xn+1 (t) − Xn (t)| < εn . 0≤t≤1 Das heißt, für jedes ω ∈ Ω∗ existiert ein m∗ (ω), so dass für alle n ≥ m∗ (ω) max |Xn+1 (t, ω) − Xn (t, ω)| < εn . 0≤t≤1 gilt und Behauptung 6.29 ist gezeigt. ∑ Da εn < ∞ ist, ist Xn (·, ω) eine Cauchy-Folge in C[0, 1]. n≥1 lim n→∞ Xn (t, ω) Sei X(t, ω) := 0 für ω ∈ Ω∗ für ω ̸∈ Ω∗ , so ist (X(t), 0 ≤ t ≤ 1) stetig, d. h. alle Pfade des Prozesses sind stetig. 2 Behauptung 6.30 (X(t), 0 ≤ t ≤ 1) hat unabhängige Zuwächse mit L(X(t) − X(s)) = N (0, t − s) für t > s. Zu Behauptung 6.30: Sei 0 ≤ t0 < t1 < . . . < tk ≤ 1 und seien (tnj )n≥1 dyadische Approximationen von tj , j = 0, . . . , k von links. Dann ist k ∑ E exp i j=1 λj (X(tj ) − X(tj−1 )) k ∑ = E exp i = = ( λj lim n→∞ j=1 k ∑ lim E exp i n→∞ lim n→∞ k ∏ ) X(tnj ) − X(tnj−1 ) ) ( λj X(tnj ) − X(tnj−1 ) j=1 { ( )} E exp iλj X(tnj ) − X(tnj−1 ) j=1 { ) 1 ( = lim exp − λ2j tnj − tnj−1 n→∞ 2 j=1 k ∏ = k ∏ { } 1 exp − λ2j (tj − tj−1 ) . 2 j=1 } 84 Kapitel 6: Existenz von stochastischen Prozessen Die rechte Seite ist die charakteristischen Funktion einer k-dimensional normalverteilten Zufallsvariablen mit Erwartungswert 0 und Kovarianzmartrix tk − tk−1 0 .. . t1 − t0 0 2 Definition 6.31 Ein Gaußscher-Prozess Y = (Yt ; 0 ≤ t ≤ 1) heißt Brownsche Brücke, falls für alle 0 ≤ s, t ≤ 1 a) EYt = 0 und b) Kov(Ys , Yt ) = s ∧ t − s t gilt. Behauptung 6.32 Man beachte, dass Y0 = 0 = Y1 gilt ! Nach Aufgabe 36 ist für eine Brownsche Bewegung X der Prozess X0 (t) := X(t) − tX(1) eine Brownsche Brücke. Demnach liefert die Konstruktion von Lévy für die Brownsche Bewegung auch eine Konstruktion für eine Brownsche Brücke. Fassen wir die Lévy-Konstruktion noch einmal kurz zusammen: Sei h1,0 (t) = t. Für n ∈ IN, k ∈ IN und ungerade sei 0 hk,n (t) = falls |t − 2− 2 +1 falls t = n k 2n | k 2n > 2−n lineare Interpolation für k−1 2n ≤t≤ k+1 2n . Seien ξk,n , 1 ≤ k ≤ 2n für n ≥ 0 u.i.v. nach N (0, 1)-verteilt. Dann ist die Brownsche Bewegung gegeben durch X(t) = ∞ ∑ n=0 ∑ hk,n (t)ξk,n . k ungerade 1≤k≤2n Ersetzt man nun alle ξk,n durch 1, so erhält man f (t) = ∞ ∑ n=0 ∑ hk,n (t). k ungerade 1≤k≤2n Dies ist eine stetige, aber nirgends differenzierbare Funktion, wie sich zum Beispiel durch Exercise (17.20) in Hewitt–Stromberg: „Real and Abstract Analysis“, Springer 1965, ergibt. Man hängt also an jede Zackenfunktion hk,n eine unabhängige normalverteilte Zufallsvariable ξk,n als Faktor an, um die Brownsche Bewegung zu erhalten. 6.4. Konstruktion der Brownschen Bewegung nach P. Lévy 85 Die Menge der nirgends differenzierbaren Funktionen ist unter allen stetigen Funktionen die „große Mehrheit“. Die Menge der stetigen Funktionen, z.B. auf [0, 1], die an irgendeiner inneren Stelle eine rechtsseitige Ableitung haben, ist eine nirgends dichte Menge von C[0, 1] (siehe dazu Hewitt–Stromberg, S. 260). Um die Brownsche Bewegung auf [0, ∞) zu erklären, seien (Xi ; i ≥ 1) unabhängige Kopien von Brownschen Bewegungen auf [0, 1]. Sei X1 (t) X (1) + X (t − 1) 1 2 X(t) = ... X (1) + · · · + X (1) + X 1 n für 0 ≤ t ≤ 1 für 1 ≤ t ≤ 2 n+1 (t − n) für n ≤ t ≤ n + 1 . Dann ist (X(t); 0 ≥ t < ∞) eine Brownsche Bewegung auf [0, ∞). 86 Kapitel 6: Existenz von stochastischen Prozessen Kapitel 7 Pfadeigenschaften der Brownschen Bewegung In diesem Kapitel ist mit Brownscher Bewegung stets eine stetige Version der Brownschen Bewegung gemeint und diese wird mit X = (X(t); t ≥ 0) bezeichnet. 7.1 Das Gesetz vom iterierten Logarithmus Transformationseigenschaften der Brownschen Bewegung auf [0, ∞) 1) X1 (t) := −X(t) ist Brownsche Bewegung auf [0, ∞). 2) Für festes s > 0 ist X2 (t − s) := X(t) − X(s) eine Brownsche Bewegung auf [s, ∞). √ 3) Für jede Konstante a > 0 ist X3 (t) := aX(t/a) eine Brownsche Bewegung auf [0, ∞). 4) Sei X4 (t) := t X(1/t) für t > 0 und X4 (0) = 0. Dann ist X4 Brownsche Bewegung auf [0, ∞). Satz 7.1 (Dvoretzky - Erdös - Kakutani) Mit Wahrscheinlichkeit 1 gilt, dass jeder Pfad der Brownschen Bewegung nirgends differenzierbar ist. (D.h. für fast alle ω ∈ Ω ist der Pfad t → X(t)(ω) nirgends differenzierbar) Beweis: Sei β > 0 und sei f ∈ C([0, 1]) im Punkt 0 < s < 1 differenzierbar mit |f ′ (s)| ≤ β. Dann gilt |f (t) − f (s)| ≤ 2β|t − s| für |t − s| hinreichend klein. Sei Aβn = {ω| |X(s)(ω) − X(t)(ω)| ≤ 2β|t − s|, falls |t − s| ≤ n2 für ein 0 < s < 1}. Dann ist die Folge (Aβn )n≥1 aufsteigend. ∪ Setzen wir nun Aβ := n∈N Aβn , so enthält Aβ alle Pfade, die in einem Punkt s ∈ (0, 1) eine Ableitung besitzen, deren Absolutbetrag kleiner oder gleich β ist. Sei ω ∈ Aβn und wählen wir k so, dass nk ≤ s ≤ k+1 n . Für i = 0, 1, 2 gilt dann ( ) ( ) X k + i − X k + i − 1 ≤ n n ≤ ( ) ) ( X k + i − X(s) + X(s) − X k + i − 1 n n ) ( k + i k + i − 1 − s + s − 2β n n ≤ 8β/n. 87 88 Kapitel 7: Pfadeigenschaften der Brownschen Bewegung ( Sei Yk := max X Bn = ( k+2 n ) −X ( k+1 n ) ( ) ( ) ( ) ( )) k k k−1 − X , X k+1 und n n , X n − X n } { ω ∃k mit 1 ≤ k ≤ n − 2 mit Yk ≤ 8β n , so ist Aβn ⊂ Bn für alle n ≥ 1 und da die Mengen (Aβn )n≥1 aufsteigen, gilt P (Aβ ) = limn→∞ P (Aβn ) ≤ limn→∞ P (Bn ). Wir zeigen nun, P (Bn ) → 0 für n → ∞. Es ist P (Bn ) ≤ n−2 ∑ k=1 ( P Yk ≤ ( { 8β n ) ( ≤ nP Y1 ≤ ( ) 3 −X n ( ( ) ) 1 8β 3 ≤ = nP X n n ( ) |X(1)| 8β 3 √ = nP ≤ n n ( ) 8β 3 = nP |X(1)| ≤ √ n = nP max X (∫ = n ( )3 √ 8β/ n √ φ(x)dx −8β/ n )3 32β 1 ≤ n √ √ 2π n ) ( 1 3 = n K√ n 3 √ = K / n→0 8β n ) ( ) ( ) ( ) ( )} ) 2 1 8β 2 1 X X , , ≤ − X n n n n n ( ∫ da a 2a φ(x)dx ≤ √ für a → 0 2π −a ) für n → ∞ für n → ∞. Damit ist P (Aβ ) = 0. Da β > 0 beliebig ist, können wir eine Folge (βn )n≥1 mit limn→∞ βn = ∞ wählen und schließen, dass P (∪n≥1 Aβn ) = 0 ist, womit die Behauptung gezeigt ist. 2 Wir untersuchen nun das Pfadverhalten der Brownschen Bewegung nahe 0 und nahe ∞. Der folgende Satz wird als Gesetz vom iterierten Logarithmus für die Brownsche Bewegung bezeichnet. Satz 7.2 Es gilt fast sicher 1. X(t) lim sup √ =1 2t log log(1/t) t→0 2. X(t) = −1. lim inf √ t→0 2t log log(1/t) Mit Zeitinversion (siehe Eigenschaft 4) ) folgt 7.1. Das Gesetz vom iterierten Logarithmus 89 Satz 7.3 Es gilt fast sicher 1. X(t) lim sup √ =1 2t log log t t→∞ 2. X(t) lim inf √ = −1 . t→∞ 2t log log t Als Folgerung sehen wir, dass die Menge der asymptotischen Häufungspunkte von t 7→ √ X(t) 2t log log t für t → ∞ das Intervall [−1, 1] ist. Lemma 7.4 Sei (Zt , Ft , ; t ≥ 0) Submartingal mit stetigen Pfaden. Dann gilt ( ) max Zt ≥ b ≤ P 0≤t≤t1 EZt+1 . b Beweis: Es gilt ( P ) ( max Z kt1 ≥ b → P 0≤k≤n n ) max Zt ≥ b 0≤t≤t1 für n → ∞ und nach der Doobschen Ungleichung für Submartingale im Diskreten gilt ( ) max Z kt1 ≥ b ≤ P 0≤k≤n n EZt+1 . b Da die rechte Seite nicht von n abhängt, folgt die Ungleichung. 2 Lemma 7.5 Sei (X(s); s ≥ 0) Brownsche Bewegung mit Ft = σ(X(s); s ≤ t) für t > 0. Weiter sei { 1 Zt = exp θX(t) − θ2 t 2 } . Dann ist (Zt , Ft ; t ≥ 0) Martingal mit EZt = 1 für alle t ≥ 0. 1 2 t Beweis: Es ist Zt = f (t, X(t)) mit f (t, x) = eθx− 2 θ ∫ ∞ und 1 x2 /(2t) f (t, x) √ e dx 2πt −∞ ∫ ∞ 1 − (x−θt)2 2t √ = e dx 2πt −∞ ∫ ∞ 1 2 √ e−y /2 dy = (via Substitution y := x − θt) 2π −∞ = 1. Ef (t, X(t)) = Weiter gilt für s ≤ t 90 Kapitel 7: Pfadeigenschaften der Brownschen Bewegung ( } { 1 E(f (t, X(t))|Fs ) = E exp θ(X(t) − X(s)) − θ2 (t − s) f (s, X(s)) Fs 2 }) ( { 1 = f (s, X(s))E exp θ(X(t) − X(s)) − θ2 (t − s) 2 = f (s, X(s)) ) 2 Beweisidee zu Satz 7.2: Sei 0 < α < 1 und tn = αn , dann gilt tn → 0 für n → ∞. gδ Tangente in tn p 2t log log(1/t) PSfrag replaements tn t Abbildung 7.1 √ Sei ψ = 2t log log 1/t. Wir wollen die Wahrscheinlichkeit berechnen, dass die Brownsche Bewegung eine um (1 + δ) steilere Gerade als die Tangente an ψ im Punkt tn vor tn erreicht oder überschreitet, vgl. Abb. 7.1. Anschließend lassen wir tn ↓ 0 und wenden das Lemma von Borel-Cantelli an. Die Steigung der Tangente an die Kurve ψ im Punkt (t, ψ(t)) beträgt für t → 0 ψ ′ (t) = 1 ψ(t) (1 + o(1)) . 2 t Die Gleichung der Tangente im Punkt s ist somit s ψ(t) Λ(t) + sψ ′ (t) ∼ = Λ(t) + 2 t für t → 0 , wobei Λ(t) der y-Achsenabschnitt von ψ ist, Λ(t) = ψ(t)−tψ ′ (t). Daher ergibt sich für tn = αn und n → ∞ 1 s ψ(αn ) ψ(αn ) + 2 2 αn se = βn + θn 2 Λ(tn ) + sψ ′ (tn ) ∼ = mit βn = 12 ψ(αn ) und θen = ψ(αn ) αn . 7.1. Das Gesetz vom iterierten Logarithmus 91 Tangente an ψ ψ(t) Λ(t) θen t Abbildung 7.2 2 Beweis von Satz 7.2: 1. Schritt: Wir zeigen lim sup X(t) ψ(t) ≤ 1 mit ψ(t) = √ 2t log log(1/t). t→0 Lemma 7.4 und 7.5 liefern ( P ( X(s) − max 0≤s≤t θs 2 ) ) >β ( 1 2 s max eθX(s)− 2 θ = P 0≤s≤t ( = P ≤ ) > eβθ ) max Zs > eβθ 0≤s≤t −θβ e EZt −θβ = e . Wir wählen nun 0 < α < 1 und 0 < δ < 1. Sei θn = (1 + δ)ψ(αn )/αn und βn = ψ(αn )/2. Es ist θn βn = (1 + δ)ψ(αn )2 /2αn = (1 + δ) log log α−n und somit e−θn βn = e−(1+δ) log log α −n = 1 1 = . −n 1+δ (log α ) (log(1/α))1+δ n1+δ Mit tn = αn−1 folgt ( P ( max 0≤s≤tn θn s X(s) − 2 ) ) > βn ≤ Kα · n−(1+δ) , wobei Kα−1 = (log(1/α))1+δ ist. Die Summe über die rechte Seite ist endlich und das Lemma von Borel-Cantelli liefert, dass ( max 0≤s≤tn mit Wahrscheinlichkeit 1 gilt. θn s X(s) − 2 ) ≤ βn für alle n ≥ n0 (ω) 92 Kapitel 7: Pfadeigenschaften der Brownschen Bewegung Sei αn ≤ t ≤ αn−1 = tn . Dann ist X(t) ≤ max X(s) ≤ θn tn /2 + βn 0≤s≤tn = (1 + δ)α−n ψ(αn ) ) ( αn−1 + ψ(αn )/2 2 1+δ 1 = + ψ(αn ) 2α 2 ( ) 1+δ 1 ≤ + ψ(t). 2α 2 Dann folgt X(t) ≤ ( 1+δ 2α + 1 2 ) ψ(t) für alle t ≤ tn0 fast sicher. Wählen wir α nahe 1 und δ nahe 0, so folgt lim sup X(t) ψ(t) ≤ 1 + ε für alle ε > 0, also ist t→0 lim sup X(t) ψ(t) ≤ 1. t→0 2. Schritt: Wir zeigen nun lim sup X(t) ψ(t) ≥ 1 f.s.. t→0 Sei 0 < θ < 1 und Bn = {X(θn ) − X(θn+1 ) ≥ (1 − ( P (Bn ) = P ( = P √ θ)ψ(θn )}. Dann ist √ X(θn ) − X(θn+1 ) √ ≥ 1 − θ 2θn log log(θ−n ) ) √ ) 1− θ X(θn ) − X(θn+1 ) √ ≥√ 2θn (1 − θ) log log(θ−n ) 1−θ √ X(θ n ) − X(θ n+1 ) 1 − θ√ = P √ n ≥√ 2 log log(θ−n ) θ (1 − θ) 1−θ | ∫ ∞ = } da Var(X(θn ) − X(θn+1 )) = θn (1 − θ) φ(x)dx aθ ≥ {z =:aθ aθ φ(aθ ) 1 + a2θ wegen Lemma 7.6 ( √ )2 { c1 1− θ } −n ≥ √ exp − (log log(θ )) √ log log(θ−n ) 1−θ √ 2 (1− θ) c2 = √ n− 1−θ log n c2 n−(1−α) mit 0 < α < 1 , = √ log n √ √ √ da (1 − θ)2 < (1 − θ)(1 + θ) = 1 − θ. Daraus folgt ∑ P (Bn ) ≥ c2 ∑ n−(1−α) n≥2 n≥2 (log n) 1/2 = ∞. Die Folge (Bn )n≥1 ist stochastisch unabhängig und das 2. Lemma von Borel-Cantelli liefert ( ) P lim sup Bn = 1 . n 7.1. Das Gesetz vom iterierten Logarithmus 93 Daher gilt fast sicher, dass X(θn ) ≥ (1 − √ θ)ψ(θn ) + X(θn+1 ) für unendliche viele n. Andererseits ist bereits nach Schritt 1 bekannt, dass X(θn+1 ) ≥ −2ψ(θn+1 ) für alle hinreichend großen n ∈ N gilt. Also ist √ X(θn ) ≥ (1 − θ)ψ(θn ) − 2ψ(θn+1 ) √ √ ≥ (1 − θ − 3 θ)ψ(θn ) √ = (1 − 4 θ)ψ(θn ). Dabei haben wir verwendet, dass ψ(θn+1 ) ≤ 3 2 √ √ n) θψ(θn ). Somit ist lim sup X(θ ψ(θn ) ≥ 1 − 4 θ n→∞ fast sicher und da 0 < θ < 1 beliebig ist, folgt lim sup t→0 X(t) ≥ 1. ψ(t) 2 Lemma 7.6 Es gilt für z > 0 z 1 φ(z) ≤ 1 − Φ(z) ≤ φ(z) . 1 + z2 z Beweis: Die rechte Ungleichung folgt so: 1 − Φ(z) = ∫ ∞ z φ(x) dx ≤ ∫ ∞ z 1 x φ(x) dx = z z ∫ ∞ x φ(x) dx = z 1 φ(x) . z Die linke Ungleichung ergibt sich mit partieller Integration: ∫ ∞ −2 x ∫ ∞ φ(x) dx = z z Es folgt 1 φ(x) ≤ (1 + z −2 ) z und schließlich ∞ ∞ 1 1 1 (−φ(x)) x dx − φ(x) = − φ(x) − x x x z z z φ(z) ≤ 1 + z2 ∫ ∫ ∫ ∞ φ(x) dx . z ∞ φ(x) dx z ∞ φ(x) dx . z 2 Wir erwähnen nun noch ein Resultat, das in der Aussage schärfer ist als das Gesetz vom iterierten Logarithmus. Ist ψ eine monoton wachsende Funktion auf [0, 1] mit ψ(0) = 0 und sei T0 := inf{t > 0 | X(t) ≥ ψ(t)}. ψ heißt upper class function, falls P (T0 > 0) > 0 ist und ψ heißt lower class function, falls P (T0 > 0) = 0. 94 Kapitel 7: Pfadeigenschaften der Brownschen Bewegung Nach dem 0 − 1−Gesetz von Blumenthal-Getoor (dessen Beweis erfolgt später!) gilt P (T > 0) = 0 oder P (T > 0) = 1 . KPE-Test: Der Kolmogorov-Petrovski-Erdös-Test besagt, dass ∫ ( δ ) ψ(t) ψ(t) φ √ dt < ∞ . 3/2 t t 0 √ Voraussetzen muss man dabei noch, dass ψ stetig und ψ(t)/ t fallend ist. (Siehe Itô-McKean “Diffusion Processes and their Sample Pathes”, S. 33.) P (T > 0) = 1 genau dann gilt, wenn Bemerkung: Der KPE-Test impliziert das Gesetz des iterierten Logarithmus. Aber führt weiter, wie das folgende Beispiel zeigt: Sei √ ψε (t) = [ ] 3 2t (log2 t−1 ) + (log3 t−1 ) + (1 + ε) log4 (t−1 ) 2 mit logn (t) := log logn−1 (t) . Dann ist ψ0 (t) lower class function und ψε (t) ist upper class function, falls ε > 0. Wir formulieren nun den Satz über den Stetigkeitsmodul von Lévy, der eine ähnliche Aussage trifft wie Satz 7.2; nur kann X(s) frei variieren. Satz 7.7 (Satz von Lévy) Für die Standard Brownsche Bewegung gilt fast sicher lim sup max 0≤s<t 0<t−s≤γ γ→0 |X(t) − X(s)| √ = 1. 2γ log(1/γ) Folgerung: Fast sicher gilt: Für alle δ > 0 ist √ |X(t)(ω) − X(s)(ω)| ≤ (1 + δ)|t − s| 1/2 ( 1 2 log |t − s| ) für |t − s| hinreichend klein. Beweis von Satz 7.7: Wir zeigen lediglich |X(t) − X(s)| lim sup max √ ≥ 1. 0≤s<t 2γ log(1/γ) γ→0 t−s≤γ Sei δ > 0 und sei ( Jn := P mit h(γ) = √ ( ( max n X 1≤k≤2 k 2n ) ( −X k−1 2n )) ) ≤ (1 − δ)h(2−n ) 2γ log(1/γ). Es gilt ( )2n Jn = P X(1/2n ) ≤ (1 − δ)h(2−n ) ( n = P X(1/2 )/ ( = 1− ∫ | √ 1/2n )2n {z =:In n = (1 − In )2 n ≤ (1 − δ) ∞ √ (1−δ) 2 log 2n ≤ e−In 2 . √ φ(x)dx } 2 log 2n )2n 7.1. Das Gesetz vom iterierten Logarithmus 95 Dabei ist nach Lemma 7.6 ∫ n 2 In = 2 n ≥ 2 n ∞ √ φ(x)dx mit an = (1 − δ) 2 log 2n an an 2 an + 1 φ(an ) K1 2 n √ e−(1−δ) log 2 n (1 − δ) 2 log 2 K2 2 = 2n √ 2−n(1−δ) n K2 2 = √ 2[1−(1−δ) ]n n K2 nδ ≥ √ 2 , n ≥ 2n da (1 − δ)2 < (1 − δ) für 0 < δ < 1. Also ist Jn < e−2 dem Lemma von Borel-Cantelli folgt nδ K ( ( lim sup max n X n→∞ 1≤k≤2 k 2n ) ( −X k−1 2n √ 2/ n und somit ∑ n≥1 Jn < ∞. Mit )) / h(2−n ) ≥ 1 − δ fast sicher für alle δ > 0. Also ist |X(t) − X(s)| ≥ 1 f.s. lim sup max √ 0≤s≤t 2γ log(1/γ) γ→0 t−s≤γ Für “≤ 1” siehe etwa Seite 115, Karatzas, Shreve: “Brownian Motion and Stochastic Calculus”. 2 Wir wollen nun noch angeben, wie man das Gesetz vom iterierten Logarithmus allgemein beweist. Dazu benötigen wir das folgende für sich interessante Resultat. Satz 7.8 (Skorokhod-Einbettung) ∫ ∫ 1. Sei F Verteilungsfunktion mit xF (dx) = 0 und x2 F (dx) = σ 2 . Zu einer Brownschen Bewegung X = (Xt ; t ≥ 0) existiert eine Stoppzeit T , so daß XT nach F verteilt ist. 2. Seien Y1 , Y2 , . . . u.i.v. Zufallsvariablen mit EY1 = 0 und EY12 = σ 2 < ∞. Sei ∑ Sn = ni=1 Yi und S0 = 0. Dann existiert ein Wahrscheinlichkeitsraum, auf dem eine Brownsche Bewegung (X(t); t ≥ 0) erklärt ist und eine Folge nicht negativer Zufallsvariablen T1 , T2 , . . ., so dass für Sen := X(T1 + T2 + . . . + Tn ) gilt, dass L(Sen ; n ≥ 0) = L(Sn ; n ≥ 0) . Außerdem ist ET1 = σ 2 . Die T1 , T2 , . . . sind randomisierte Stoppzeiten, wie sich später herausstellen wird. (Sen ; n ≥ 1) ist die in die Brownsche Bewegung eingebettete Folge. 96 Kapitel 7: Pfadeigenschaften der Brownschen Bewegung Satz 7.9 Für die Folge (Sen ; n ≥ 0) gilt Se[t] − X(t) lim √ =0 t→∞ 2t log log t fast sicher. Beweis: Sei σ = 1. Nach Satz 7.8 sind (X(T1 + . . . + Tn ); n ≥ 0) wie (Sn ; n ≥ 0) verteilt. Sei √ ψ(t) = 2t log log t. Dann lautet die Aussage von Satz 7.9 ( ( ) ) X T1 + . . . + T[t] − X(t) /ψ(t) → 0 für t → ∞ fast sicher. Nach Satz 7.8 sind T1 , T2 , . . . u.i.v. mit E Ti = 1. Nach dem Gesetz der Großen Zahlen folgt für t → ∞ ( (+) ) T1 + . . . + T[t] /t → 1 fast sicher. Damit gilt, zu ε > 0 existiert für fast alle ω eine Funktion t0 (ω) mit T1 + . . . + T[t] ∈ [ t 1+ε , t(1 ] für alle t ≥ t0 (ω). + ε) Sei M (t) = sup t ≤τ ≤(1+ε)t 1+ε |X(τ ) − X(t)| . Sei tk = (1 + ε)k und tk ≤ t ≤ tk+1 . Dann folgt M (t) ≤ = sup |X(τ ) − X(t)| sup |X(τ ) − X(tk−1 )| + tk−1 ≤τ ≤tk+2 tk−1 ≤τ ≤tk+2 ≤ 2 sup tk−1 ≤τ ≤tk+2 sup tk ≤t≤tk+1 |X(t) − X(tk−1 )| |X(τ ) − X(tk−1 )| Sei Mk = sup tk−1 ≤τ ≤tk+2 |X(τ ) − X(tk−1 )| , dann folgt lim M (t)/ψ(t) ≤ 2 lim Mk /ψ(tk ) . (++) t k Nun ist nach Formel (∗) auf Seite 110. P (Mk > x) ≤ 2 P (|X(tk+2 ) − X(tk−1 )| > x) Diese Formel verwenden wir bei der folgenden Abschätzung. Dann ist mit δ := (1 + ε)2 − (1 + ε)−1 tk+2 − tk−1 = δ tk 7.1. Das Gesetz vom iterierten Logarithmus 97 und es gilt: ( P Mk ≥ ( ) √ ) √ |X(tk+2 ) − X(tk−1 )| √ 2δ ψ(tk ) ≤ 2 P > 2 log(log tk ) tk+2 − tk−1 ∫ ∞ = 2 2 √ φ(x) dx log(log tk ) 2 √ exp (−2 log(log tk )) 2π 1 2 √ 2π (log tk )2 1 2 √ . 2 2π k (log(1 + ε))2 ≤ = = Da die rechte Seite summierbar ist, folgt ∑ ( P Mk ≥ ) √ 2δ ψ(tk ) < ∞ . k≥1 Und nach dem Borel-Cantelli Lemma ( ) √ P Mk ≥ 2δ ψ(tk ) unendlich oft = 0 . Damit gilt fast sicher. lim Mk /ψ(tk ) ≤ k √ 2δ . Wegen (+) und (++) folgt lim t→∞ S[t] − X(t) ψ(t) ≤ √ 8δ fast sicher. Geht ε → 0, so folgt δ → 0, woraus die Aussage folgt. 2 Korollar 7.10 Seien Y1 , Y2 , . . . u.i.v. mit EY1 = 0 und EY12 = σ 2 < ∞. Dann gilt Sn lim sup √ = 1. 2n log log n n→∞ e Sn Beweis zu Korollar 7.10: Es ist lim sup √2n log = 1 wegen log n n→∞ X(n) Sen √ −√ →0 2n log log n 2n log log n für n → ∞ . Da L(Sen ; n ≥ 0) = L(Sn ; n ≥ 0), folgt die Behauptung. 2 Beweis von Satz 7.8, Teil 1.): Sei F Verteilungsfunktion mit ∫∞ 2 2 −∞ xF (dx) = 0 und −∞ x F (dx) = σ < ∞. Gesucht ist eine Stoppzeit T für die Brownsche Bewegung mit L(X(T )) = F und ET = σ 2 . Sei µ Maß auf R2 mit ∫∞ µ(da, db) := γ(b − a)F+ (db)F− (da) 98 Kapitel 7: Pfadeigenschaften der Brownschen Bewegung mit F+ = F |[0,∞) und F− = −F |(−∞,0] sowie γ −1 ∫ ∞ = 0 ∫ 0 1 bF+ (db) = − aF− (da) = 2 −∞ ∫ |x|F (dx) . Um nun weiter argumentieren zu können, benötigen wir folgendes Lemma, das wir später beweisen werden. Lemma 7.11 Sei τ = inf{t > 0 | X(t) ̸∈ (a, b)}, (inf Ø =: ∞) mit a < 0 und b > 0. Dann ist τ < ∞ fast sicher und es gilt a) P (X(τ ) = b) = −a b−a , b) Eτ = |a · b|. Wir wählen nun zufällig gemäß der Verteilung µ Zahlen a < 0 < b und setzen T = inf{t > 0 | X(t) ̸∈ (a, b)}. Lemma 7.12 Dann gilt L(X(T )) = F und ET = σ 2 . Beweis: Im Folgenden schreibe ich etwas verkürzt und symbolisch, um nicht wegen einer Gleichung extra Notation einführen zu müssen. P (X(T ) ∈ db) = P (X(T ) = b | a, b) µ(da, db) ∫ 0 −a = µ(da, db) b −∞ − a ∫ 0 −a = γ (b − a) F+ (db)F− (da) −∞ b − a ∫ = γ 0 −∞ (−a) F− (da)F+ (db) = F+ (db) = F (db) wegen Lemma 7.11 a) und nach der Definition von γ. Da die Schranken a, b gemäß der Verteilung µ gewählt sind, ergibt sich mit Lemma 7.11 b) ∫ ET ∞∫ 0 = ∫ (∫ ∞ = γ 0 |a · b|µ(da, db) −∞ 0 ) 0 −∞ | (b − a)|ab|F− (da) F+ (db) {z } =:A nach Definition von µ. Weiter ist ∫ A = γ = γb 0 (b − a)(−a)bF− (da) −∞ ∫ 0 2 ∫ −∞ (−a)F− (da) + γb ∫ = b2 + γb 0 −∞ a2 F− (da) 0 −∞ a2 F− (da) 7.2. Variation und quadratische Variation 99 nach Definition von γ. Wir setzen dies oben ein und erhalten ∫ ET ∞( = 0 ∫ ∞ = 0 ∫ = ∞ −∞ b2 + γ · b ∫ b2 F+ (db) + ) 0 −∞ ∫ 0 a2 F− (da) F+ (db) −∞ a2 F− (da) x2 F (dx) 2 und die Behauptung ist gezeigt. Damit und mit Hilfe der starken Markov-Eigenschaft der Brownschen Bewegung (die bedeutet, dass mit (X(t), t ≥ 0) auch (X(T + t) − X(T ), t ≥ 0) Brownsche Bewegung ist, falls T eine Stoppzeit mit P (T < ∞) = 1 ist) lässt sich Satz 7.8 nun induktiv folgern. Sei T1 = T . Wir haben gezeigt, dass L(X(T1 )) = F und ET1 = σ 2 . Wir wenden diese Konstruktion nun auf (X(T1 + t) − X(T1 ); t ≥ 0) an. Dies liefert eine Stoppzeit T2 , so dass L(X(T1 + T2 ) − X(T1 )) = F und ET2 = σ 2 . Entsprechend liefert die folgende Brownsche Bewegung (X(T1 + T2 + t) − X(T1 + T2 ); t ≥ 0) 2 passend gestoppt die Stoppzeit T3 und so weiter. Im Kapitel 8 wenden wir uns ausführlich der starken Markov-Eigenschaft der Brownschen Bewegung zu. 7.2 Variation und quadratische Variation Definition 7.13 Sei f : [s, t] → R. Die Variation von f über dem Intervall [s, t] ist erklärt als V f [s, t] = lim n→∞ sup ∑ e t∈∆(n−1 ) e t |f (ti+1 ) − f (ti )| . Dabei ist ∆(ε) die Menge aller ε-Zerlegungen te von [s, t]. Eine ε-Zerlegung von [s, t] ist eine Folge reeller Zahlen ti mit s = t0 < t1 < . . . < tl = t mit ti+1 − ti ≤ ε. Die quadratische Variation von f über dem Intervall [s, t] wird als QV f [s, t] = lim n→∞ sup ∑ e t∈∆(n−1 ) e t |f (ti+1 ) − f (ti )|2 definiert. Wir untersuchen im Folgenden die Variation sowie die quadratische Variation der Brownschen Bewegung. 100 Kapitel 7: Pfadeigenschaften der Brownschen Bewegung Satz 7.14 Sei t > 0. Mit Wahrscheinlichkeit 1 gilt ) ) ( 2n ( ∑ k k − 1 2 lim X t 2n − X t 2n = t. n→∞ k=1 Bemerkung: Die Gültigkeit der Gleichung im Mittel ist wegen warten. X(t)−X(s) √ t−s ∼ N (0, 1) zu er- 2 n Beweis des Satzes: Sei Dk,n = |X(t 2kn ) − X(t k−1 2n )| für k = 1, . . . , 2 . Die Zufallsvariablen Dk,n , k = 1, . . . , 2n sind stochastisch unabhängig und EDk,n = E(X(t/2n )2 ) = t/2n . Weiter ist ( E )2 n 2 ∑ ( = Dk,n − t E k=1 )2 n 2 ∑ (Dk,n − t/2n ) k=1 2n ∑ = E((Dk,n − t/2n )2 ) wegen Unabhängigkeit k=1 n = 2 E((D1,n − t/2n )2 ) = 2n E((X(t/2n )2 − t/2n )2 ) (( = 2n E = 2n = Die Markov-Ungleichung liefert P ( > εn ≤ Dk,n − t k=1 ≤ = Daher ist ∑ (( n≥1 P ∑2n k=1 Dk,n (da −t )2 √ tX1 ∼ Xt ) t2 E((X(1)2 − 1)2 ) 22n )2 n 2 ∑ )2 ) t2 E(X(1)4 − 2X(1)2 + 1) 2n 2t2 → 0 für n → ∞ . 2n = ( t t X(1)2 − n n 2 2 ) > εn ≤ ∑ n (da EX(1)4 = 3) 2 1 ∑ E Dk,n − t εn k=1 2t2 εn 2n 2t2 2n/2 2t2 n≤1 2n/2 )2 (für εn := 2−n/2 ) . < ∞ und es folgt, dass mit Wahr- scheinlichkeit 1 gilt ( )2 n 2 ∑ Dk,n − t ≤ εn k=1 für alle n hinreichend groß. Der folgende Satz ist eine Verallgemeinerung von Satz 7.14. 2 7.2. Variation und quadratische Variation 101 Satz 7.15 Sei Pn = {t0,n , . . . , tkn ,n } eine Zerlegung des Intervalls [0, t] und ∥Pn ∥ := sup |tk,n − tk−1,n | . 1≤k≤kn Falls Pn+1 eine Verfeinerung von Pn für alle n ≥ 1 ist und ∥Pn ∥ → 0 für n → ∞, dann gilt lim n→∞ kn ∑ |X(tk,n ) − X(tk−1,n )|2 = t fast sicher. k=1 Korollar 7.16 Mit Wahrscheinlichkeit 1 gilt, die Pfade der Standard-Brownschen Bewegung sind auf jedem Intervall [s, t] mit s < t von unendlicher Variation. Das bedeutet, dass die Pfade der Brownschen Bewegung über [0, t] unendlich lang sind. Beweis des Korollars: Wegen Satz 7.14 gilt fast sicher, ) ( )2 2n ( ∑ X s + k (t − s) − X s + k − 1 (t − s) = t − s . n n n→∞ 2 2 k=1 lim Angenommen ) ( ) 2n ( ∑ k−1 k V (ω) := lim X s + 2n (t − s) (ω) − X s + 2n (t − s) (ω) < ∞ . n→∞ k=1 Dann ist 2 ( ∑ n k=1 ≤ ( ) ( ) )2 k−1 k X s + n (t − s) (ω) − X s + n (t − s) (ω) 2 2 ( ) ( ) k−1 k V (ω) sup X s + n (t − s) (ω) − X s + n (t − s) (ω) 2 2 k∈{1,...,2n } {z } | =:Hn (ω) = V (ω) · Hn (ω) . Da s 7→ X(s) auf [0, t] fast sicher gleichmäßig stetig ist, gilt Hn → 0 fast sicher für n → ∞. Dies steht im Widerspruch zu Satz 7.14. 2 102 Kapitel 7: Pfadeigenschaften der Brownschen Bewegung Kapitel 8 Die Starke Markov-Eigenschaft 8.1 Das Optional Stopping Theorem im stetigen Fall und einige Überschreitungswahrscheinlichkeiten Vorbereitend auf die starke Markov-Eigenschaft der Brownschen Bewegung werden wir einige Begriffe rund um Stoppzeiten, die uns im zeitdiskreten Fall schon bekannt sind, auf den zeitstetigen Fall übertragen. Dabei werden wir auch die einfache Fassung des Optional Stopping Theorems beweisen und als Folge verschiedene Resultate zu Überschreitungswahrscheinlichkeiten von Geraden herleiten. Einige dieser Resultate werden wir im nächsten Abschnitt dann nochmals mit starker Markov-Eigenschaft ableiten. Unter anderem wird auch Lemma 7.11 bewiesen werden. Sei (Ω, F, P ) Wahrscheinlichkeitsraum und (Ft ; t ≥ 0) eine Filterung. Definition 8.1 1. Die Abbildung S : Ω → R ∪ {∞} heißt Stoppzeit, falls {S ≤ t} ∈ Ft für alle t > 0 gilt. 2. Die σ-Algebra der S-Vergangenheit FS ist durch FS := {A ∈ F | A ∩ {S ≤ t} ∈ Ft für alle t ≥ 0} gegeben. Eigenschaften: 1. Sind S und T Stoppzeiten, so sind auch S ∧ T und S ∨ T sowie S + T Stoppzeiten. 2. Die konstante Zufallsvariable T := t0 für ein t0 ≥ 0 ist Stoppzeit und es gilt FT = Ft0 . 3. Für Stoppzeiten S, T mit S ≤ T gilt FS ⊂ FT . Lemma 8.2 Sei (Mt , Ft ; 0 < t < ∞) stetiges Martingal. Sei S Stoppzeit mit S ≤ t0 , dann gilt E(Mto | FS ) = MS . Insbesondere ist EMS = EM0 . 103 104 Kapitel 8: Die Starke Markov-Eigenschaft Beweis: Wir führen die Aussage auf das Optional Stopping Theorem für diskrete Zeiten zurück. Sei Sn = k 2n ∞ falls k−1 2n ≤S< k 2n , falls S = ∞. Dann ist Sn für jedes n Stoppzeit und Sn ↘ S. Da M stetige Pfade hat, folgt MSn ↘ MS . Nun hat man für A ∈ FS ∫ ∫ MS dP MSn dP = lim n A ∫A E(Mt0 | FSn )dP = lim n A ∫ = A Mt0 dP. Die Konvergenz der Integrale folgt wegen gleichgradiger Integrierbarkeit. Da sich die Folge MSn , n ≥ 1, als bedingte Erwartungen von Mt0 ergeben, ist sie gleichgradig integrierbar. Siehe dazu Satz 2.17. 2 Wir berechnen nun für das Exponentialmartingal Mt = eθXt − 2 θ verschiedene Erwartungswerte mit Hilfe des OS-Theorems. 1 2 t der Brownschen Bewegung Fall 1: Für a > 0 sei τa = inf{t > 0 | Xt = a}. Dann ist nach Lemma 8.2 EMτa ∧t = 1. Nun ist EMτa ∧t = EMτa 1l{τa <t} + EMt 1l{τa ≥t} für alle t. Es folgt lim EMτa ∧t = EMτa 1l{τa <∞} + EM∞ 1l{τa =∞} = E(Mτa 1l{τa <∞} ) + E(M∞ 1l{τa =∞} ) . t→∞ Aber M∞ = 0 ist auf τa = ∞. Demnach folgt 1 = E(Mτa 1l{τa <∞} ). Für θ → 0 folgt P (τa < ∞) = 1 und man erhält Eeθa− √ Ee−λτa = e−a 2λ θ2 τ 2 a = 1. Setzt man λ = θ2 2 , so folgt . Dies ist die Laplace-Transformierte der Verteilung von τa . Man rechnet nun leicht nach: ∫ ∞ e 0 −λt ) ( √ a −a 2λ √ dt = e . φ t3/2 t a Wegen der Eindeutigkeit der Laplace-Transformierten folgt P (τa ≤ t0 ) = ∫ t0 0 pτa (t) dt 8.1. Das Optional Stopping Theorem im stetigen Fall mit 105 ) ( a a φ √ t3/2 t a −a2 /2t √ e . 2πt3 pτa (t) = = Fall 2: Dies liefert den Beweis von Lemma 7.11. Sei a < 0 < b und τ = τa ∧ τb . Dann gilt nach Lemma 8.2 EXτ ∧t = 0. Da P (τ < ∞) = P (τa ∧ τb < ∞) ≥ P (τa < ∞) = 1, folgt mit majorisierter Konvergenz 0 = EXτ = aP (τa < τb ) + bP (τa > τb ). b −a Wegen P (τa < τb ) + P (τa > τb ) = 1 folgt P (τa < τb ) = b−a und P (τb < τa ) = b−a . 2 Um Eτ zu berechnen, verwendet man, dass Xt − t Martingal ist. Wegen Lemma 8.2 hat man E(Xτ2∧t − τ ∧ t) = 0. Es folgt weiter E(τ ∧ t) = EXτ2∧t ≤ max(a2 , b2 ). Aber E(τ ∧ t) ↗ E(τ ), somit folgt EXτ2∧t ↗ EXτ2 . Schließlich erhält man Eτ = EXτ2 = a2 P (τa < τb ) + b2 P (τb < τa ) a2 b − ab2 = = −a · b b−a Fall 3: Sei σa = inf{t > 0 | |Xt | = a} mit a > 0. Nun ist σa ≤ τa und P (σa < ∞) ≥ P (τa < ∞) = 1. Es ist wegen „Fall 2“ EXσa = 0 und Eτa = a2 = EXσ2a . Wir berechnen nun Ee−λσa ! Da P (Xσa = a) = P (Xσa = −a) = 21 , gilt wegen EMσa = 1 1 = EMσa Es folgt Mit λ = θ2 2 Ee− θ2 σ 2 a Ee−λσa = θ2 = EeθXσa − 2 σa eθa + e−θa − θ2 σa = Ee 2 . 2 = [cos h(θa)]−1 . erhält man 1 √ cos h(a 2λ) √ = 2e−a 1+ = 2 2λ √ e−2a 2λ ∞ ∑ (−1)k e−(1+2k)a k=0 √ 2λ 106 Kapitel 8: Die Starke Markov-Eigenschaft Hierbei verwendet man 1 1+q ∞ ∑ = (−1)k q k . k=0 Wir wissen bereits von Fall 1, dass e √ −A 2λ = Ee ∫ −λTA ∞ = 0 mit pτA = A t3/2 φ( √At ) = Ee−λσa A t φt (A). Setze A = (1 + 2k)a für k = 0, 1, 2, . . . dann ist = 2 ∫ ∞ ∑ ∫ ∞ e { −λt 2 0 pσa (t) = 2 ∞ ∑ ∞ 0 (1 + 2k)a φt ((1 + 2k)a) t ∞ ∑ k (1 (−1)k k=0 = Es folgt e−λt pτA (t) dt e−λt (−1) k=0 (−1)k k=0 + 2k)a φt ((1 + 2k)a) t } (1 + 2k)a φt ((1 + 2k)a) t und weiter P (σa ≤ t) = ∫ = 2 = 2 = 4 = 4 t 0 pσa (s) ds ∞ ∑ ∫ t k (−1) 0 k=0 ∞ ∑ pτa(1+2k) (s) ds (−1)k P (τa(1+2k) ≤ t) k=0 ∞ ∑ (−1)k P (Xt ≥ a(1 + 2k)) k=0 ∞ ∑ [ k (−1) k=0 ( a(1 + 2k) √ 1−Φ t )] . Die vorletzte Gleichung folgt wegen Gleichung (*) in Abschnitt 8.3. 8.2 Die Starke Markov-Eigenschaft für einen allgemeinen Wahrscheinlichkeitsraum Sei (Ω, F, P ) Wahrscheinlichkeitsraum. Sei X = (Xt , t ≥ 0) Brownsche Bewegung auf (Ω, F, P ). und Ft = σ(X(s); 0 ≤ s ≤ t) für t ≥ 0 sowie F∞ = σ(Ft , t ≥ 0). Dann gilt für s > 0, dass auch (X(s + t) − X(s); t ≥ 0) Brownsche Bewegung ist. Wir verallgemeinern dies auf Stoppzeiten T anstelle des festen Zeitpunktes s > 0. Die starke Markov-Eigenschaft für die Brownsche Bewegung lautet folgendermaßen. Satz 8.3 (Starke Markov-Eigenschaft) Sei T Stoppzeit mit P (T < ∞) = 1. Dann ist e e e (X(t), t ≥ 0) mit X(t) = X(T + t) − X(T ) Brownsche Bewegung. Außerdem ist σ(X(t); t ≥ 0) stochastisch unabhängig von FT . 8.2. Die Starke Markov-Eigenschaft für einen allgemeinen Wahrscheinlichkeitsraum 107 Mit dem folgenden Lemma folgt, dass die Aussage von Satz 8.3 sinnvoll ist. Lemma 8.4 Ist T Stoppzeit der Brownschen Bewegung mit T < ∞ fast sicher, so ist X(T ) FT -messbar. Beweis: Der folgende Beweis wird der Vollständigkeit zuliebe gegeben. Siehe die Bemerkung 8.5 am Ende des Beweises. Wir schreiben in diesem Beweis den Zeitparameter als Subindex. (Siehe auch Karatzas-Shreve “Brownian Motion and Stochastic Calculus”, S.9) Für t > 0, n ≥ 1, k = 0, 1, . . . , 2n − 1 und 0 ≤ s ≤ t definieren wir Xs(n) (ω) = X(k+1)t/2n (ω) , falls kt 2n <s≤ (k+1)t 2n ist, außerdem X0n (ω) = X0 (ω). Somit erhalten wir eine Abbildung (s, ω) 7→ Xs(n) (ω) von [0, t] × Ω nach IR . Es gilt offensichtlich, dass diese B([0, t])⊗Ft messbar ist. Wegen der Stetigkeit der Brownschen Bewegung gilt lim Xs(n) (ω) = Xs (ω) für alle (s, ω) ∈ [0, t] × Ω. n→∞ Deshalb ist die Limesabbildung (s, ω) 7→ Xs (ω) auch B([0, t])⊗Ft messbar. Dies gilt für alle t. (Man sagt der Prozess X ist progressiv messbar.) Nun zeigen wir, dass für eine Stoppzeit T der Prozess {XT ∧t , Ft ; 0 ≤ t < ∞} progressiv messbar ist. Zunächst einmal ist (s, ω) → (T (ω) ∧ s, ω) B([0, t]) ⊗ Ft -messbar. Da X progressiv messbar ist, ist auch die zusammengesetzte Abbildung (s, ω) → XT (ω)∧s (ω) B([0, t]) ⊗ Ft -messbar. Nun gilt weiter {XT ∈ B} ∩ {T ≤ t} = {XT ∧t ∈ B} ∩ {T ≤ t} . Das Ereignis auf der rechten Seite ist aber wegen der progressiven Messbarkeit in Ft . 2 Bemerkung 8.5 Die vorangegangene Aussage verliert an Bedeutung im Hinblick darauf, dass oft rechtsstetige Filtrierungen betrachtet werden. ∩ Fu . Eine Filtrierung {F; t ≥ 0} heißt rechtsstetig, falls für alle t ≥ 0 gilt Ft = u>t Betrachtet man Stoppzeiten bezüglich rechtsstetiger Filtrierungen, so wird die Argumentation bezüglich der Messbarkeit von XT bezüglich FT einfacher. Es gilt nämlich für Stoppzeiten Tn , ∩ n ≥ 1 mit Tn ↘ T , dass Ft = FTn . Wählt man nun für Tn von oben approximierende n≥1 Diskretisierungen von T , so folgt leicht die Messbarkeit von XT bezüglich Ft . Wir werden das in dieser Vorlesung aber nicht weiter vertiefen, da darauf basierende Anwendungen nicht vorkommen. 108 Kapitel 8: Die Starke Markov-Eigenschaft Beweis von Satz 8.3: 1. Schritt: Die Stoppzeit T nehme höchstens abzählbar viele Werte {τk ; k ≥ 1} an. Seien A1 , . . . , Aj ∈ B, der Borel-σ-Algebra. Sei weiter 0 ≤ t1 ≤ . . . ≤ tj und B ∈ FT . Dann folgt mit der stochastischen Unabhängigkeit von X(τk + ti ) − X(τk ) von Fτk für i = 1, . . . , j und k ≥ 1, dass e i ) ∈ Ai ; i = 1, . . . , j} ∩ B) P ({X(t = = = ∞ ∑ k=1 ∞ ∑ k=1 ∞ ∑ P ({X(τk + ti ) − X(τk )) ∈ Ai ; i = 1, . . . , j} ∩ {T = τk } ∩ B) P ({X(τk + ti ) − X(τk )) ∈ Ai ; i = 1, . . . , j})P ({T = τk } ∩ B) P ({X(ti ) ∈ Ai ; i = 1, . . . , j)P ({T = τk } ∩ B) k=1 = P ({X(ti ) ∈ Ai ; i = 1, . . . , j})P (B) . e dieselben endlich-dimensionalen Setzen wir B = Ω in die Gleichung ein, so erhalten wir, dass X e eine Brownsche Bewegung. Randverteilungen wie X besitzt. Demnach ist X e Außerdem kann man an der Gleichung ablesen, dass σ(X(t), t ≥ 0) stochastisch unabhängig von FT ist. 2. Schritt: Sei nun T beliebige Stoppzeit mit P (T < ∞) = 1. Wir approximieren T durch eine Folge von Stoppzeiten, die höchstens abzählbar viele verschiedene Werte annehmen. Sei hierzu j , falls j−1 < T ≤ j für j ≥ 1 n n n Tn = 0 , falls T = 0 . k Dann ist Tn Stoppzeit, denn für nk < t ≤ k+1 n gilt {Tn ≤ t} = {T ≤ n } ∈ Fk/n ⊂ Ft . Ist nun B ∈ FT , so ist B ∈ FTn , da T ≤ Tn ; genauer ist B ∩ {Tn ≤ t} = B ∩ {T ≤ t} ∩ {Tn ≤ t} ∈ Ft . | {z ∈Ft } | {z ∈Ft } e n (t) := X(Tn + t) − X(Tn ) gilt daher nach Schritt 1, dass Mit X e n (ti ) ∈ Ai ; 1 ≤ i ≤ j} ∩ B) = P ({X e n (ti ) ∈ Ai ; 1 ≤ i ≤ j}) · P (B) . P ({X e e n (ti ) − X(t e i )| → 0 für n → ∞ wegen der Sei X(t) := X(T + t) − X(T ), so gilt sup1≤i≤j |X Stetigkeit der Brownschen Bewegung und somit e n (ti ) ∈ Ai ; 1 ≤ i ≤ j} ∩ B) → P ({X(t e i ) ∈ Ai ; 1 ≤ i ≤ j} ∩ B) P ({X für alle B ∈ FT . Wegen Schritt 1 gilt e n (ti ) ∈ Ai ; 1 ≤ i ≤ j} ∩ B) = P ({X(ti ) ∈ Ai ; 1 ≤ i ≤ j})P (B) P ({X und damit e i ) ∈ Ai ; 1 ≤ i ≤ j} ∩ B) = P ({X(ti ) ∈ Ai ; 1 ≤ i ≤ j})P (B) P ({X(t für A1 , . . . , Aj ∈ B. 2 8.3. Das Reflexionsprinzip 8.3 109 Das Reflexionsprinzip Sei X = (X(t); t ≥ 0) wie oben Brownsche Bewegung mit Ft = σ(X(s); 0 ≤ s ≤ t) und sei σ Stoppzeit. Zu X konstruieren wir einen Prozess B = (B(t), t ≥ 0) via X(t)(ω) B(t)(ω) := 2X(σ(ω))(ω) − X(t)(ω) für 0 ≤ t ≤ σ(ω) für t > σ(ω). Dann ist B = (B(t), t ≥ 0) ein stochastischer Prozess mit stetigen Pfaden. Ist etwa σ = inf{t > 0|X(t) ≥ γ(t)} die Stoppzeit bei der X erstmals die Kurve γ überschreitet, so lassen sich die Pfade von B wie folgt darstellen. t → Xt (ω) PSfrag replaements γ(t) X(σ)(ω) t → Bt (ω) σ(ω) t Abbildung 8.1 Der Pfad t 7→ B(t)(ω) stimmt mit t 7→ X(t)(ω) für die Zeitpunkte t ≤ σ(ω) überein, nach σ(ω) verläuft t 7→ B(t)(ω) als der an der Höhe X(σ)(ω) gespiegelte Pfad. Es gilt X(t) = X(σ) + (X(t) − X(σ)) und es ist B(t) = X(σ) − (X(t) − X(σ)) = 2X(σ) − X(t) für t > σ. Satz 8.6 Der Prozess B = (B(t); t ≥ 0) ist Brownsche Bewegung. Beweis: Auf der Menge {σ = ∞} gilt B(t) = X(t) für alle t ≥ 0. Daher nehmen wir ohne Einschränkung P (σ < ∞) = 1 an. Sei Xσ (t) = X(t ∧ σ) für t ≥ 0. Dann ist Xσ (t) = X(t) für t < σ und Xσ ist Fσ -messbar. Außerdem ist σ bezüglich Fσ messbar, da {σ ≤ α} ∩ {σ ≤ t} ∈ Ft∧α ⊂ Ft für alle t ≥ 0 und somit {σ ≤ α} ∈ Fσ für alle α ∈ R. Nach Satz 8.3 ist mit X und −X sowohl (X(σ+t)−X(σ); t ≥ 0) als auch (−X(σ+t)+X(σ); t ≥ 0) Brownsche Bewegung und stochastisch unabhängig von Xσ und σ. Damit besitzen die beiden Tripel (σ ; (Xσ (t); t ≥ 0); (X(σ + t) − X(σ); t ≥ 0)) und (σ ; (Xσ (t); (t ≥ 0)); (−X(σ + t) + X(σ); t ≥ 0)) 110 Kapitel 8: Die Starke Markov-Eigenschaft dieselbe Verteilung. Wegen X (t) σ X(t) = X (σ) + (X(t) − X(σ)) für t ≤ σ X (t) σ B(t) = X (σ) − (X(t) − X(σ)) für t ≤ σ für t > σ σ für t > σ σ 2 folgt daher X und B besitzen dieselbe Verteilung. Eine Anwendung: Sei Tb = inf{t > 0 | X(t) ≥ b} mit b > 0. Wir setzten nun σ = Tb . Nach Satz 8.6 erhalten wir für a ≤ b P (Tb ≤ t, X(t) < a) = P (Tb ≤ t, B(t) < a) = P (Tb ≤ t, 2X(Tb ) − X(t) < a) = P (Tb ≤ t, X(t) > 2b − a) = P (X(t) > 2b − a) ∫ ∞ 1 − x2 √ = e 2t dx, 2πt 2b−a da mit X(t) > 2b − a auch Tb ≤ t ist. Setzt man b = a, so erhält man P (Tb ≤ t, Xt < b) = ∫ ∞ b Beachtet man, dass gilt P (Xt ≥ b) = 1 − Φ ) ( ( √ ) dx b φ x/ t √ = 1 − Φ √ . t t ( √b t ( ) ( , so folgt b P (Tb ≤ t) = 2 1 − Φ √ t (*) )) = 2P (Xt > b) . Ausgehend von dieser Formel zeigt man mit Variablentransformation P (Tb ≤ t) = ∫ t 0 ( b b √ 3/ φ 2 u u ) du . Dies ist eine berühmte Formel, die auf Bachelier um 1900 zurückgeht und die auch schon in Abschnitt 8.1 (Fall 1) abgeleitete wurde. Sei M (t) = max X(s) das laufende Maximum der Brownschen Bewegung, vgl. Abbildung 8.2. 0≤s≤t 8.3. Das Reflexionsprinzip 111 M (t) s → X(s) PSfrag replaements t Abbildung 8.2 Das Maximum M (t) ist genau dann größer oder gleich b, wenn die Brownsche Bewegung die Höhe b zum Zeitpunkt t bereits erreicht hat, also wenn Tb ≤ t gilt. Daher können wir nun mit Hilfe des Reflexionsprinzips die gemeinsame Verteilung des laufenden Maximums und der Brownschen Bewegung angeben. Satz 8.7 Sei t > 0 und a′ ≤ b′ mit b′ > 0. Dann gilt ′ ′ P (M (t) ≤ b , X(t) ≤ a ) = ∫ b′ 0 ∫ a′ −∞ 2(2b − a) − (2b−a)2 2t √ da db. e 2πt3 Beweis: Es gilt P (X(t) ≤ a, M (t) > b) = P (X(t) ≤ a, Tb ≤ t) = ∫ ∞ 2b−a 1 − x2 √ e 2t dx 2πt und somit ∂ P (X(t) ≤ a, M (t) ≤ b) = ∂b ∂ ∂ P (X(t) ≤ a) − P (X(t) ≤ a, M (t) > b) ∂b ∂b 2 − (2b−a)2 2t = −√ e 2πt und ∂ ∂ 2(2b − a) − (2b−a)2 2t P (X(t) ≤ a, M (t) ≤ b) = √ , e ∂a ∂b 2πt3 2 womit der Satz gezeigt ist. Folgerungen: 1) Es ist L(M (t)) = L(|X(t)|) = L(M (t) − X(t)), vgl. Übungsaufgabe 43. 2) Die Dichte ft der gemeinsamen Verteilung von M (t) und M (t)−X(t), also von L(M (t), M (t)− 2 X(t)), ist durch ft (b, c) = (b+c) 2(b+c) √ e− 2t 2πt3 gegeben. Dies folgt durch Variablensubstitution. 112 Kapitel 8: Die Starke Markov-Eigenschaft Eine weitere Anwendung der starken Markov-Eigenschaft: Sei ψ : R+ → R+ stetig und monton mit P (Tψ > 0) = 1, wobei Tψ = inf{t > 0|X(t) ≥ ψ(t)} und F sei die Verteilung von Tψ . Dann gilt ( ( )) ) ∫ t( z z − ψ(s) 1−Φ √ = 1−Φ √ F (ds) t−s t 0 für z ≥ ψ(t), die sogenannte Master-Gleichung. Daraus folgt insbesondere mit z = b > 0 ( b 1−Φ √ t ) 1 = P (Tb ≤ t) 2 für die Stoppzeit Tb zur konstanten Funktion ψ ≡ b, was wir oben schon gezeigt haben. 8.4 Die starke Markov-Eigenschaft auf C[0, ∞) Das Wiener-Maß Sei C[0, ∞) der Raum der stetigen Funktionen auf [0, ∞). Sei 0 ≤ t1 < t2 < . . . < tk < ∞ mit k ∈ N und sei At1 ,...,tk die kleinste σ-Algebra, bezüglich der die Koordinatenabbildungen Wti (ω) = ωti , 1 ≤ i ≤ k messbar sind. Sei A die kleinste σ-Algebra bezüglich der alle Koordinatenabbildungen messbar sind. Aufgrund der Konstruktion in Kapitel 6.3 existiert ein Maß P0 auf (C[0, ∞), A), so dass (Wt ; t ≥ 0) eine Standard Brownsche Bewegung mit P0 (W0 = 0) = 1 ist. Sei Px (A) := P0 (A − x) für A ∈ A und A − x := {ω x | ω ∈ A} mit ωtx = ωt − x. Dann ist Px (W· ∈ A) = P0 (x+W· ∈ A). Px heißt Wiener-Maß mit Start in x. Die zugehörige Erwartung wird mit Ex bezeichnet. Für s ∈ (0, ∞) sei θs : C[0, ∞) → C[0, ∞) mit (θs ω)t = ωs+t für t ≥ 0. Die Abbildung θs wird als Shift-Operator bezeichnet. Bemerkung 8.8 1. Es ist Ws+t (ω) = Wt (θs ω) 2. Der Shift-Operator θs ist A − A-messbar, denn θs−1 ({ωti ∈ Di , i = 1, . . . , n}) = {ωti −s ∈ Di , i = 1, . . . , n} mit Di ∈ B. Satz 8.9 Sei Ft = σ(Wu , u ≤ t) und sei s > 0. 1. Ist f : R → R beschränkt und messbar, so ist Ex (f (Wt+s ) | Fs ) = EWs f (Wt ). 8.4. Die starke Markov-Eigenschaft auf C[0, ∞) 113 2. Sei Y : C[0, ∞) → IR beschränkt und A-messbar, dann ist Ex (Y ◦ θs | Fs ) = EWs (Y ). Beweis: Wir zeigen zunächst die erste Aussage des Satzes. 1. Schritt: Sei f beschränkt und messbar, dann gilt f (Wt+s − Ws ) = EWs f (Wt+s − Ws ) , (+) denn mit φ(x) = 2 √1 e−x /2 2π gilt √ Ex f (Wt+s − Ws ) = Ef ( tX) Andererseits ist ∫ für X ∼ N (0, 1). ( ∞ ) 1 z − Ws √ EWs f (Ws+t − Ws ) = f (z − Ws ) √ φ dz t t −∞ √ = Ef ( tX) für X ∼ N (0, 1), damit gilt (+). 2. Schritt: Sei A ∈ Fs , dann ist ∫ A f (Wt+s − Ws )dPx = ∫ 1lA f (Wt+s − Ws )dPx = Px (A)Ex f (Wt+s − Ws ) ∫ = ∫A = A Ex f (Wt+s − Ws )dPx EWs f (Wt+s − Ws )dPx . und damit Ex [f (Wt+s − Ws ) | Fs ] = EWs [f (Wt+s − Ws )]. 3. Schritt: Ist g beschränkt und messbar, so gilt Ex (g(Ws , Wt+s − Ws ) | Fs ) = φg (Ws ) (∗) ∫ ( ) mit φg (x) = g(x, y) √1t φ √yt dy. Ist (∗) gezeigt, so folgt Aussage 1) via g(x, y) := f (x + y). Wir zeigen nun (∗). Sei g(x, y) = g1 (x)g2 (y), dann ist Ex [g(Ws , Wt+s − Ws ) | Fs ] = Ex [g1 (Ws )g2 (Wt+s − Ws ) | Fs ] = g1 (Ws )Ex [g2 (Wt+s − Ws ) | Fs ] = g1 (Ws )EWs [g2 (Wt )] ( ) ∫ y 1 = g1 (Ws ) g2 (y) √ φ √ dy. t t Um nun (∗) auf beliebige beschränkte und messbare Funktionen zu verallgemeinern, bedienen wir uns eines nützlichen Beweisprinzips, dem Theorem über monotone Klassen: 114 Kapitel 8: Die Starke Markov-Eigenschaft Lemma 8.10 Sei A1 ein durchschnittstabiles Mengensystem und H ein Vektorraum von Funktionen mit den folgenden Eigenschaften: i) Ist A ∈ A1 , so ist 1lA ∈ H, außerdem ist 1l ∈ H. ii) Ist (fn )n≥1 eine Folge von Funktionen aus H, so dass fn ↑ f punktweise für eine beschränkte Funktion f , dann ist auch f ∈ H. Dann enthält H alle σ(A1 )-messbaren Funktionen. Zum Beweis siehe: Blumenthal and Getoor, Brownian motion and martingales in analysis. Wenden wir nun das Lemma auf unsere Situation an. Sei hierzu A1 = {A×B ⊂ R2 | A, B ∈ B} und H = {g(x, y) | g beschränkt und g erfüllt (∗)}. Dann gilt i) von Lemma 8.10 mit g1 (x) = 1lA (x), g2 (y) = 1lB (y) für A, B ∈ B Teil ii) des Lemmas folgt über monotone Konvergenz. Insgesamt ist somit die erste Aussage gezeigt. Zum Beweis von 2) verallgemeinern wir die Gleichung (∗) auf Funktionen g : Rn → R. 1.Schritt: Sei s = t0 < t1 < . . . < tn und ∆i = Wti − Wti−1 . Sind f1 , . . . , fn beschränkte messbare Funktionen von R und ist A ∈ Fs , so gilt ∫ ∏ n fi (∆i )dPx = Px (A)Ex A i=1 n ∏ fi (∆i ). i=1 Dies zeigt man analog dem 1. Schritt in Teil 1 des Beweises. 2. Schritt: Wieder analog dem 1. Teil des Beweises schließen wir Ex (g(Ws , ∆1 , . . . , ∆n ) | Fs ) = φg (Ws ) (∗∗) mit φg (z) = ∫ g(z, z1 , . . . , zn ) ∏n i=1 pti −ti−1 (zi )dz1 . . . dzn , wobei pt (y) = 1 √ φ t ( y √ ) t ist. 3. Schritt: Eine ähnliche Argumentation wie in Teil 1 mit Hilfe von Lemma 8.10 liefert aus (∗∗) die Behauptung. 2 Bisher haben wir als Filtrierung stets Ft = σ(Ws ; s ≤ t), die natürliche Filtrierung der Brownschen Bewegung betrachtet. Nun definieren wir eine weitere etwas größere Filtrierung durch ∩ Ft+ = Fu Trivialerweise gilt Ft ⊂ Ft+ für alle t > 0. ∩ t>s d.h. die Filtrierung F+ Ft+ = u>t Für F + ∩ ∩ t>s u>t ist rechtsstetig. Fu = gilt ∩ u>s Fu = Fs+ , 8.4. Die starke Markov-Eigenschaft auf C[0, ∞) 115 Markov-Eigenschaft auf Fs+ Satz 8.11 Sei f beschränkt und messbar. Dann gilt für alle s, t > 0 und x ∈ R 1. Ex (f (Wt+s ) | Fs+ ) = EWs f (Wt ) 2. Ex [Y ◦ θs | Fs+ ] = EWs Y Px − f.s. Px − f.s. Beweis: Sei s < r < t + s mit t > 0. Für f beschränkt und messbar gilt nach Satz 8.9 Ex (f (Ws+t ) | Fr ) = EWr f (Wt+s−r ). Sei φf (x, u) := Ex f (Wu ). 1. Schritt: Sei f stetig und beschränkt. Für A ∈ Fs+ gilt nach der Glättungsregel und Satz 8.9 Teil 1, dass ∫ ∫ Ex (f (Wt+s ) | Fr )dPx = f (Wt+s )dPx = A A ∫ A φf (Wr , t + s − r)dPx . Für r ↓ s folgt mit der Dreiecksungleichung und mit majorisierter Konvergenz ∫ A φf (Wr , t + s − r)dPx → ∫ A φf (Ws , t)dPx . Insgesamt ist ∫ ∫ (+) f (Wt+s )dPx = A A φf (Ws , t)dPx für A ∈ Fs+ beliebig. 2. Schritt: Wir verallgemeinern die Aussage nun mit Hilfe des Theorems über monotone Klassen auf beliebige messbare und beschränkte Funktionen. Sei H die Menge aller messbaren, beschränkten Funktionen, für die die Gleichung (+) gilt und sei A = {A = (a, b) | a < b}. H ist offensichtlich ein Vektorraum und erfüllt Eigenschaft 2) von Lemma 8.10, wie man mit majorisierter Konvergenz leicht sieht. Ist A ∈ A, so existiert eine aufsteigende Folge stetiger Funktionen (fn )n≥1 mit 1lA = limn fn , daher ist auch 1) in Lemma 8.10 gegeben. Anwendung des Lemmas liefert die Aussage. 2 Als Folgerung erhalten wir einen nützlichen Sachverhalt. Satz 8.12 (0-1-Gesetz von Blumenthal) Für alle x ∈ R und alle A ∈ F0+ = ∩u>0 Fu gilt Px (A) = 0 oder Px (A) = 1. Beweis: Für alle A ∈ F0+ gilt nach Satz 8.11 ( ) 1lA = Ex 1lA | F0+ = EW0 (1lA ) = Ex (1lA ) = Px (A) Px − f.s. Also ist Px (A) = 1lA und es muss entweder Px (A) = 0 oder Px (A) = 1 gelten. 2 116 Kapitel 8: Die Starke Markov-Eigenschaft Anwendungen 1. Sei τ = inf{t > 0 | Wt > 0}. Damit ist P0 (τ = 0) = 1. Denn es ist P0 (τ ≤ t) ≥ P0 (Wt > 0) = 12 für alle t > 0 und somit P0 (τ = 0) = P (∩t>0 {τ ≤ t}) = lim P (τ ≤ t) ≥ 1/2. t→0 Da {τ = 0} ∈ F0+ , folgt mit dem 0 − 1-Gesetz von Blumenthal P0 (τ = 0) = 1. √ 2. Auch für τ = inf{t > 0 | Wt > t}, gilt P0 (τ = 0) = 1. Denn es ist (√ ) √ t P0 (τ ≤ t) ≥ P0 (Wt > t) = 1 − Φ √ = 1 − Φ(1) > 0 t und damit P0 (τ = 0) = P (∩t>0 {τ ≤ t}) = lim P (τ ≤ t) ≥ 1 − Φ(1) > 0. t→0 3. Sei ψ eine monotone, differenzierbare Funktion. Sei Tψ = min{t > 0 | X(t) ≥ ψ(t)}. Man kann zeigen, dass die Verteilung von Tψ eine Dichte fψ hat. Vergleichen wir nun fψ in einem beliebigen festgewählten Punkt t0 mit der Dichte von Tet0 = min{t > 0 | X(t) ≥ ψ(t0 )}. Diese ist nach der Formel von Bachelier gegeben durch ψ(t0 ) fe(t0 ) := 3/ φ ( t02 ψ(t0 ) √ t0 ) . Wegen der Monotonie von ψ gilt nun (rein intuitiv) fψ (t0 ) ≤ fe(t0 ) . Es folgt P (Tψ ≤ t) = ∫ 0 t fψ (u) du ≤ ∫ 0 t ( ψ(u) ψ(u) √ 3/ φ 2 u u ) du . Aus dieser Formel kann man aber die einfache Hälfte des KPE-Tests folgern (Siehe S. 94): Ist das Intergral auf der rechten Seite endlich, so geht es für t → 0 gegen Null und damit folgt P (Tψ = 0) = lim P (Tψ ≤ t) = 0 . t→0 Damit gilt P (Tψ > 0) = 1 nach Satz 8.12. Bisher haben wir die starke Markov-Eigenschaft der Brownschen Bewegung nur in der Form kennengelernt, dass für endliche Stoppzeiten T durch (X(T + t) − X(T ), t ≥ 0) eine neue Brownsche Bewegung definiert wird. Nun wollen wir Satz 8.9 2) auf Stoppzeiten ausdehnen. Hierzu erklären wir zunächst den Shift-Operator für endliche Stoppzeiten durch θS (ω) := θS(ω) (ω) für S(ω) < ∞. Wegen θs (ω)t = ωs+t ist damit θS (ω)(t) = ωS(ω)+t . 8.4. Die starke Markov-Eigenschaft auf C[0, ∞) 117 Satz 8.13 Sei die Abbildung (ω, s) 7→ Ys (ω) beschränkt und A ⊗ B-messbar. Ist S eine F + -messbare Stoppzeit, so gilt für alle x ∈ R, dass Ex (YS ◦ θS | FS ) = EWS (YS ) Px − f.s. auf {S < ∞}. Bemerkung 8.14 Mit Satz 8.13 gilt insbesondere Ex (Y ◦ θS | FS ) = EWS (Y ) Px − f.s. für endliche Stoppzeiten S und beschränkte Borel-messbare Zufallsvariablen Y . Beweis des Satzes Wir zeigen die Aussage zunächst nur für Stoppzeiten S mit diskretem ∑ Wertebereich. Sei hierzu S(Ω) = {ti ; i ≥ 1} und x ∈ R. Dann ist Px (S < ∞) = n≥1 Px (S = tn ). Für A ∈ FS gilt A ∩ {S = tn } = A ∩ ({S ≤ tn }\{S ≤ tn−1 }) ∈ Ftn Damit ist ∫ A∩{S<∞} YS ◦ θS dPx = = ∞ ∫ ∑ n=1 A∩{S=tn } ∞ ∫ ∑ n=1 A∩{S=tn } Ytn ◦ θtn dPx EWtn (Ytn )dPx ∫ = A∩{S<∞} EWS (YS )dPx . Sei nun S eine beliebige Stoppzeit. Genau wie im 2. Schritt des Beweises zu Satz 8.3 approximieren wir die Stoppzeit S durch eine Folge von Stoppzeiten Sn mit abzählbarem Wertebereich durch Sn = k , falls 0 k−1 k <S≤ n n , falls S = 0. n Ist nun A ∈ FS , so gilt auch A ∈ FSn , da Sn ≥ S. Außerdem ist Sn+1 ≤ Sn für n ≥ 0 und Sn ↓ S. Wir zeigen die Aussage für Prozesse Y von der Form Ys (ω) = f0 (s) n ∏ fi (ωti ) i=1 mit 0 = t0 < t1 < . . . < tn und mit stetigen beschränkten Funktionen fi für i = 1, . . . , n. Wir setzen φ(s, x) := Ex Ys . Dann ist die Abbildung (s, x) 7→ φ(s, x) stetig und beschränkt. Es gilt φ(s, x) = f0 (s)Ex n ∏ n=1 ∫ fi (Wti ) = f0 (s) ... ∫ ∏ n 1 2 e−(xi −xi−1 ) /2si dx1 , . . . , dxn fi (xi ) √ 2πsi i=1 118 Kapitel 8: Die Starke Markov-Eigenschaft wobei x0 = x und si = ti − ti−1 . Es gilt {Sn < ∞} ↘ {S < ∞} und Teil 1 des Beweises liefert ∫ A∩{Sn <∞} YSn ◦ θSn dPx = ∫ ∫ A∩{Sn <∞} = A∩{Sn <∞} EWSn YSn dPx φ(Sn , WSn )dPx . wegen Sn → S und der Stetigkeit von S 7→ YS gilt YSn ◦ θSn → YS ◦ θS für n → ∞. Außerdem folgt φ(Sn , WSn ) → φ(S, WS ) und mit majorisierter Konvergenz folgt die Behauptung. Die Verallgemeinerung der Aussage für Y beschränkt und A ⊗ B-messbar folgt wie oben durch Anwendung des Theorems über monotone Klassen, Lemma 8.10. 2 8.5 Anwendung auf die k-dimensionale Brownsche Bewegung Definition 8.15 Seien W1 , . . . , Wk unabhängige Brownsche Bewegung mit Startpunkten x1 , . . . , xk . Dann heißt W = (W1 , . . . , Wk ) k-dimensionale Brownsche Bewegung mit Startpunkt x = (x1 , . . . , xn ). Bemerkung 8.16 Alle Sätze in Abschnitt 8.4 können auch für die k-dimensionale Brownsche Bewegung formuliert werden. Die Beweise lassen sich direkt übertragen. Anwendung 1: Mittelwerteigenschaft der Austrittswahrscheinlichkeiten Sei W eine k-dimensionale Brownsche Bewegung mit Start in x, vgl. Abbildung 8.3. y W (t)(ω) PSfrag replaements x Abbildung 8.3 Graph eines Pfades einer 2-dimensionalen Brownschen Bewegung W Seien G ⊂ Rk offen und zusammenhängend (d.h. G sei Gebiet in Rk ) mit x ∈ G und sei A eine Teilmenge des Randes von G, also A ⊂ ∂G. Zu x ∈ G sei durch D(x, δ) eine Kugel um x gegeben. Dabei soll der Radius δ so klein gewählt sein, dass die Kugel ganz im Gebiet enthalten ist: D(x, δ) := {y | |y − x| < δ}, D(x, δ) ⊂ G. Vgl. hierzu Abbildung 8.4. 8.5. Anwendung auf die k-dimensionale Brownsche Bewegung 119 G x PSfrag replaements D(x, δ) δ A Abbildung 8.4 Sei T die erste Austrittszeit von W aus G und S die erste Austrittszeit von W aus D(x, δ), also T = inf{t > 0 | Wt ̸∈ G} und S = inf{t > 0 | Wt ̸∈ D(x, δ)}. T und S sind Stoppzeiten, zum Beweis siehe etwa Chung, Lectures from Markov Processes to Brownian motion. Da W in x startet, ist außerdem S ≤ T . Wir setzen u(x) = Px (WT ∈ A), u(x) ist die Wahrscheinlichkeit, dass W beim ersten Verlassen der Menge G durch A austritt. Satz 8.17 Die Funktion u erfüllt die Mittelwerteigenschaft. Es gilt (∗ ∗ ∗) u(x) = Ex (u(WS )). Beweis der Mittelwerteigenschaft Wir wenden Satz 8.13 auf Y := 1l{WT ∈A} an. Es gilt T = S + T ◦ θS , da S ≤ T (vgl. Aufgabe 45)). Damit ist (WT ) ◦ θS (ω) = WT ◦θS (ω) (θS (ω)) = WT ◦θS (ω) (ωS+ · ) = ωS+T ◦θS (ω) nach Definition von W = ωT = WT (ω). Somit ist auch 1l{WT ∈A} = 1l{WT ∈A} ◦ θS und es folgt u(x) = Ex (1l{WT ∈A} ) = Ex (1l{WT ∈A} ◦ θS ) = Ex (Ex (1l{WT ∈A} ◦ θS |FS )) = Ex (EWS (1l{WT ∈A} )) = Ex (u(WS )) nach Satz 8.13 nach Definiton von u. 120 Kapitel 8: Die Starke Markov-Eigenschaft 2 Die Argumentation liefert sogar eine etwas stärkere Aussage: Folgerung 8.18 Für u(x) = Px (WT ∈ A) gilt u(x) = Ex (u(Wτ )) für jede Stoppzeit τ mit τ ≤ T. Mit Hilfe der Mittelwerteigenschaft kann ein Zusammenhang zwischen den Austrittswahrscheinlichkeiten und Lösungen der Laplace-Gleichung hergestellt. Definition 8.19 Eine Funktion f : D → R heißt harmonisch in der offenen Menge D ⊂ Rk , falls f ∈ C 2 (D) gilt und f eine Lösung der Laplace-Gleichung ∆f = 0 in D ist. Dabei ist der ∆-Operator erklärt durch ∆f (x) = k ∑ ∂2 i=1 ∂x2i f (x1 , . . . , xk ). Aus der Analysis ist der Satz von Gauß-Koebe bekannt, der die gewünschte Verbindung zwischen der Mittelwerteigenschaft und dem Begriff der harmonischen Funktion liefert. Satz 8.20 (Satz von Gauß-Koebe) Sei G ⊂ Rk offen und zusammenhängend. Eine Funktion f : G → R, die in G stetig und beschränkt ist, ist genau dann harmonisch in G, wenn sie die sphärische Mittelwerteigenschaft besitzt. Dabei ist die sphärische Mittelwerteigenschaft wie folgt definiert. Definition 8.21 Eine Funktion f besitzt die sphärische Mittelwerteigenschaft in G, wenn für jedes x ∈ G und jede Kugeloberfläche S(x, r) ⊂ G gilt, dass f (x) gleich dem sphärischen Mittel über ∂S(x, r) ist, das heißt 1 f (x) = σ(∂S(x, r)) ∫ f (y)σ(dy) ∂S(x,r) ∀S(x, r) ⊂ ∂G, wobei σ das Oberflächenmaß auf ∂S(x, r) ist. Es läßt sich zeigen, dass die sphärische Mittelwertseigenschaft mit der Mittelwerteigenschaft (∗∗∗) übereinstimmt. Vgl. hierzu Chung, Lectures from Markov Processes to Brownian motion, S.154 ff. Insgesamt ist also die Funktion x 7→ u(x) = Px (WT ∈ A) eine in G harmonische Funktion. Anwendung 2: Trefferwahrscheinlichkeiten Wir wollen die Wahrscheinlichkeit bestimmen, mit der die k-dimensionale Brownsche Bewegung mit Start in x eine Kugel mit Radius r um die Null trifft. 8.5. Anwendung auf die k-dimensionale Brownsche Bewegung 121 In einer Dimension: Sei a < x < b (d.h. G = (a, b)). Analog zu Lemma 7.11 ergibt sich Px (WT = a) = b−x b−a und Px (WT = b) = x−a . b−a Wir wollen nun die Wahrscheinlichkeit bestimmen, mit der die Brownsche Bewegung mit Start in Null den Punkt y ∈ R erreicht. Sei hierzu Ty = inf{t > 0 | Wt = y}. Aufgrund der Symmetrie der Brownschen Bewegung können wir ohne Beschränkung y > 0 annehmen. Sei µ > 0 und sei T die erste Austrittszeit aus dem Intervall (−µy, y). Dann folgt P0 (Ty < T−µy ) = P0 (WT = y) = µy µ = → 1 für µ → ∞. y + µy 1+µ Also ist P0 (Ty < ∞) = 1, das heißt die eindimensionale Brownsche Bewegung erreicht fast sicher jeden reellen Punkt. In Dimension k: Wir nutzen die explizite Darstellung von rotationssymmetrischen Lösungen der LaplaceGleichung. Lemma 8.22 Sei G ⊂ Rk offen, 0 ̸∈ G und G rotationssymmetrisch um 0. Sei φ : G → R rotationssymmetrisch um die Null. Dann sind äquivalent: 1. φ ∈ C 2 (G) ist Lösung der Laplace-Gleichung in G, d.h. ∆φ(x) = 0 für alle x ∈ G 2. b log |x| + c φ(x) = b|x|2−k + c , falls k = 2 , falls k ≥ 3 mit b, c ∈ R. (ohne Beweis) Sei Sr = inf{t > 0 | |Wt | = r} und 0 < r < |x| < R. Wir wollen Px (Sr < SR ) bestimmen. 122 Kapitel 8: Die Starke Markov-Eigenschaft G x PSfrag replaements r 0 R Abbildung 8.5 Sei G = {x ∈ Rk | r < |x| < R}. Sei T := Sr ∧ SR , die erste Austrittszeit aus dem Kreisring. Setze u(x) := Px (WT ∈ A) mit A = {x ∈ Rk | |x| = r}. Das heißt, u(x) ist die Wahrscheinlichkeit, mit der die Brownsche Bewegung beim ersten Verlassen des Kreisrings durch den inneren Rand austritt. Nach der Folgerung in Anwendung 1 erfüllt u die Mittelwerteigenschaft, das heißt, es gilt e(|x|) = u(x) gilt somit u(x) = Ex u(WT ). Mit u u(x) = Ex u(WT ) e(r)Px (Sr < SR ) + u e(R)(1 − Px (Sr < SR )) = u e(r) − u e(R)) + u e(R), = Px (Sr < SR ) · (u also Px (Sr < SR ) = e(|x|) − u e(R) u . e(r) − u e(R) u Andererseits wissen wir nach dem Satz von Gauß-Koebe, dass u harmonisch in G ist. Da u außerdem rotationssymmetrisch ist, gilt nach Lemma 8.22 , b log |x| + c , falls k = 2 u(x) = b|x|2−k + c , falls k ≥ 3 . mit b, c ∈ R. Da u nicht konstant ist, ist b ̸= 0. Für Dimension k = 2 folgt damit Px (Sr < SR ) = log |x| − log(R) . log(r) − log(R) Hält man nun r fest und bildet R → ∞, so konvergiert die rechte Seite gegen 1 und Px (Sr < ∞) = 1, für 0 < r. 8.5. Anwendung auf die k-dimensionale Brownsche Bewegung 123 Das heißt, die Brownsche Bewegung mit Start in x trifft fast sicher jede Kugel um den Ursprung. Andererseits ist Px (S0 < ∞) = 0, denn für r → 0 folgt Px (S0 < SR ) = 0 für jedes R > 0 und es ist Px (S0 < ∞) = limR→∞ Px (S0 < SR ) = 0. Die Wahrscheinlichkeit, dass die Brownsche Bewegung mit Start in x exakt auf den Ursprung trifft, ist Null. Für Dimensionen k ≥ 3 führt die gleiche Argumentation zu Px (Sr < SR ) = R2−k − |x|2−k R2−k − r2−k für 0 < r < |x| < R. Fixiert man r und lässt R → ∞, so konvergiert die rechte Seite gegen ( Px (Sr < ∞) = |x| r )2−k ( = r |x| )k−2 < 1. Das heißt, in Dimension k ≥ 3 ist für Radien 0 < r < |x|, die Wahrscheinlichkeit, dass die Brownsche Bewegung mit Start in x die Kugel um die Null mit Radius r trifft, stets kleiner als 1 ist. 124 Kapitel 8: Die Starke Markov-Eigenschaft Kapitel 9 Zur Brownschen Bewegung mit Drift Sei W eine Brownsche Bewegung mit W0 = 0 unter P und sei θ ∈ IR. Wir definieren eine Familie von Maßen durch Pθ,t (A) = E(1lA Ztθ ) für A ∈ Ft mit θ ∈ IR \ {0} und Ztθ = exp{θWt − 21 θ2 t}. dP θ,t θ Sei Pθ dasjenige Maß auf F∞ mit Pθ |Ft = Pθ,t ∀t ≥ 0. Dann ist dP dP0 |Ft = dP0,t = Zt . Der Prozess (Wt )t≥0 unter Pθ heißt Brownsche Bewegung mit Drift θ. Sei Xt = Wt − θt, dann gilt (Xt )t≥0 ist Brownsche Bewegung unter Pθ . Die endlich dimensionalen Randverteilungen ergeben sich mit 1 2 1 (y−x−θt)2 /2t pθ (x, y; t) = √ e = eθ(y−x)− 2 θ t p0 (x, y; t) 2πt als Pθ (Ws1 ∈ A1 , . . . , Wsn ∈ An ) ∫ 1 2 = ∫IR = eθy− 2 θ t P0 (Ws1 ∈ A1 , . . . , Wsn ∈ An , Wt ∈ dy) ∫ eθy1 − 2 θ 1 2 s1 ... A1 p0 (0, y1 ; s1 )eθ(y2 −y1 )− 2 θ An · · · eθ(yn −yn−1 )− 2 θ 1 2 (s ∫ ∫ = ... A1 1 2 (s2 −s1 ) An n −sn−1 ) p0 (y1 , y2 ; s2 − s1 ) p0 (yn−1 , yn ; sn − sn−1 ) dy1 · · · dyn pθ (θ, y1 ; s1 )pθ (y1 , y2 ; s2 − s1 ) · · · pθ (yn−1 , yn ; sn − sn−1 ) dy1 · · · dyn . Sie legen den Prozess W unter Pθ fest. Es gilt Eθ Wt = θt und Kov(Ws , Wt ) = s ∧ t. 125 126 Kapitel 9: Zur Brownschen Bewegung mit Drift Denn ∫ Eθ Wt = ∞ −∞ ∫ ∞ ypθ (0, y; t) dy dy √ 2πt −∞ ∫ ∞ dx 2 = (x + θt)ex /2t √ 2πt −∞ = θt = 2 /2t ye(y−θt) Kov(Ws , Wt ) = E(Wt − θt)(Ws − θs) ∫ = = ∫ ∞ ∞ −∞ −∞ ∫ ∞ ∫ ∞ −∞ −∞ ∫ ∞ = −∞ ∫ ∞ −∞ (y1 − θs)(y1 + (y2 − y1 ) − θt)pθ (0, y1 ; s)pθ (y1 , y2 ; t − s) dy1 dy2 (y1 − θs)2 pθ (0, y1 ; s) dy1 ∫ + = (y1 − θs)(y2 − θt)pθ (0, y1 ; s)pθ (y2 − y1 ; t − s) dy1 dy2 ∞ ∫ ∞ −∞ −∞ w2 e−w (∫ = s+ = s 2 /2s ∞ −∞ (y1 − θs)(y2 − y1 − θ(t − s))pθ (0, y1 ; s)pθ (y1 , y2 ; t − s) dy1 dy2 we dw √ + 2πs −w2 /2s dw ∫ ∞ ∫ ∞ wzew 2 /2s −∞ −∞ ) (∫ ∞ −z 2 /2(t−s) −∞ ze e−z 2 /2(t−s) dw dz ) dz Damit gilt, dass Eθ Xt = Eθ Wt − θt = 0 und Kov(Xs , Xt ) = Kov(Ws , Wt ) = s ∧ t. Damit ist (Xt ; t ≥ 0) unter Pθ Gaußscher Prozess mit Erwarungswert null und Kovarianzmatrix s ∧ t und folglich nach Satz 6.10 Brownsche Bewegung. Bemerkung 9.1 ⊗ 1. L(Wti+1 − Wti ; i = 1, . . . , k) = ki=1 N (θ(ti+1 − ti ), ti+1 − ti ). unter Pθ . Insbesondere ist W ein Gauß-Prozess unter Pθ mit Erwartungswert θt und Kov(Ws , Wt ) = s ∧ t. ( 2. Für θ ̸= 0 ist Pθ ) Wt t→∞ t lim = θ = 1 und P0 ( ) Wt t→∞ t lim = θ = 0. Das bedeutet, die Maße P0 und Pθ sind singulär. Bemerkung 9.2 Für θ = 0 gilt wie wir bereits wissen, mit Tb = inf{t > 0 | Wt ≥ b}, dass ∫ t b 2 √ e−b /(2s) ds und 3 0 2πs √ 2. E0 (e−αTb ) = exp{−b 2α}. 1. P0 (Tb ≤ t) = Wir wollen nun die Verteilung der ersten Austrittszeit aus (−∞, b) der Brownschen Bewegung mit Drift θ bestimmen. 127 Satz 9.3 Für θ ∈ IR gilt 1. Pθ (Tb ≤ t) = ∫ t 0 √ b 2πs3 exp{(b − θs)2 /2s}ds und 1 2. Pθ (Tb < ∞) = exp{−2 |θ| b} für θ ≥ 0 für θ < 0. Beweis: Zu 1): Es gilt mit Maßwechsel und da (Zt∧Tb ; t ≥ 0) Martingal ist: Pθ (Tb ≤ t) = E0 (1l{Tb ≤t} Zt ) = E0 (E0 (1l{Tb ≤t} Zt | Ft∧Tb )) = E0 (1l{Tb ≤t} E0 (Zt | Ft∧Tb )) da {Tb ≤ t} ∈ Ft∧Tb = E0 (1l{Tb ≤t} Zt∧Tb ) nach O.S.T = E0 (1l{Tb ≤t} ZTb ) = E0 (1l{Tb ≤t} eθWTb − 2 θ Tb ) ∫ t 1 2 b 2 e−b /(2s) ds = eθb− 2 θ s √ 3 0 2πs ∫ t b 2 √ = e−(b−θs) /(2s) ds . 0 2πs3 1 2 Zu 2): Für θ < 0 ist dPθ dP|θ| = Ft dPθ,t dP0,t · = e−2 |θ| Wt . dP0,t dP|θ|,t Es folgt Pθ (Tb < ∞) = ∫ {Tb <∞} dPθ dP|θ| dP|θ| = e−2 |θ| b P|θ| (Tb < ∞) = e−2 |θ| b . FTb 2 Bemerkung 9.4 Sei M∞ = max Wt und θ < 0. Dann ist 0≤t<∞ Pθ (M∞ ≤ x) = 1 − Pθ (M∞ > x) = 1 − Pθ (Tx < ∞) = 1 − e−2 |θ| x . Das heißt, das Maximum der Brownschen Bewegung mit Drift θ ist exponentialverteilt mit Parameter 2 |θ|. Lemma 9.5 Für jede beliebige Stoppzeit T : (Ω, A) → IR ∪ {∞} bezüglich der natürlichen Filtrierung der Brownschen Bewegung gilt P0 (T < ∞) = ∫ {T <∞} ZT−1 dPθ . 128 Kapitel 9: Zur Brownschen Bewegung mit Drift Beweis: Es gilt ∫ P0 (T ≤ t) = ∫ = {T ≤t} {T ≤t} Zt−1 dPθ ZT−1 dPθ da (Zt−1 )t≥0 ein Pθ -Martingal ist. Da P0 (T ≤ t) ↑ P0 (T < ∞) für t → ∞, steigt auch ∫ ∫ −1 −1 2 {T ≤t} ZT dPθ gegen {T <∞} ZT dPθ für t → ∞ auf. Satz 9.6 Sei T eine Stoppzeit bezüglich der natürlichen Filtrierung der Brownschen Bewegung mit 0 < P0 (T < ∞) < 1. Dann gilt 1) Eθ T ≥ log(P0 (T <∞)−1 ) . θ2 /2 2) Sei Mb die Menge aller Stoppzeiten mit P0 (T < ∞) = 1b . Dann gilt min Eθ T = Eθ Tb T ∈Mb { } θ mit Tb = inf t > 0 dP dP0 Ft ≥ b ∈ Mb . Die zweite Aussage ergibt die optimale Stoppzeit. Beweis: Zu 1): Es genügt, Stoppzeiten mit Eθ (T ) < ∞ zu betrachten, da die Aussage sonst trivial ist. Damit ist auch Pθ (T < ∞) = 1. Nach Lemma 9.5 gilt P0 (T < ∞) = ∫ {T <∞} ∫ = ZT−1 dPθ ZT−1 dPθ 1 = Eθ exp{−θWT + θ2 T } 2 1 2 ≥ exp{−E(θWT − θ T )} 2 nach der Jensenschen Ungleichung. Nach der Waldschen Identität ist Eθ WT = θEθ T und 2 2 somit P0 (T < ∞) ≥ exp{− θ2 Eθ T } beziehungsweise log(P0 (T < ∞)−1 ) ≤ θ2 Eθ T . Zu 2): Nach Definition von Tb gilt P0 (Tb < ∞) = ∫ 1 dPθ = Pθ (Tb < ∞). ZT−1 b b {Tb <∞} (∗) Außerdem ist Pθ (Tb < ∞) = 1, denn es ist θWTb − 12 θ2 Tb = log(b) beziehungsweise WTb = log(b) + 12 θTb . Die Stoppzeit Tb ist also genau dann endlich, wenn der Zeitpunkt, an dem die θ Brownsche Bewegung auf die Gerade t 7→ log(b) + 2θ t trifft, endlich ist. θ Sei θ > 0. Dann konvergiert Wt t → θ unter Pθ für t gegen unendlich und also ist Wt t ≥ für einen hinreichend großen Zeitpunkt t. Für θ < 0 argumentiere man analog. log(b) θ θt + 2 129 Es gilt also P0 (Tb < ∞) = 1 b wegen (∗). Außerdem ist θEθ Tb = Eθ WTb = 1 θ log(b) + Eθ Tb θ 2 und somit Eθ Tb = log(b) log(P (Tb < ∞)−1 ) = . θ2 /2 θ2 /2 Nach Aussage 1) des Satzes ist Eθ Tb somit minimal für Stoppzeiten T in Mb . 2 Man kann nun leicht auch das folgende Bayes-Problem für einfache Hypothesen behandeln. Sei Rc (T ) = 1 1 P0 (T < ∞) + cθ2 Eθ T . 2 2 Gesucht ist eine Stoppzeit T ∗ mit Rc (T ∗ ) = min Rc (T ). T Nach Satz 9.6 gilt für jede Stoppzeit Rc (T ) ≥ ≥ = 1 1 log(P0 (T < ∞)−1 ) P0 (T < ∞) + cθ2 2 2 θ2 /2 1 P0 (T < ∞) + c log(P0 (T < ∞)−1 ) 2 1 p + c log p 2 mit p = P0 (T < ∞). Minimiert man nun über p, so erhält man die untere Schranke p∗ = 2c 1 1 und als T ∗ = min{t > 0 | Zt ≥ 2c }. Dies liefert dann Rc (T ∗ ) = c + c log 2c . Ein etwas anderer Konfidenzbereich: Simultan über die Zeit Sei {R, B, Pθ , θ ∈ Θ} mit Pθ = N (θ, 1), θ ∈ R. X1 , X2 , . . . u.i.v nach N (θ, 1), θ unbekannt. Gibt es eine Folge von Intervallen In mit Breite 2cn und cnn 7→ 0, so dass Pθ (θ ∈ In , ∀n ≥ 1) ≥ 1 − α Pθ (θ′ ∈ In , ∀n ≥ 1) = 0 ∀θ ∀ θ, θ′ mit θ ̸= θ′ gilt? Das Gesetz des Iterierten Logarithmus macht es möglich! | Sn − nθ | lim √ n→∞ 2n log log n | Sn | lim √ n→∞ 2n log log n = 1 Pθ -f.s = 1 P0 -f.s mit Sn = n ∑ i=1 Xi . 130 Kapitel 9: Zur Brownschen Bewegung mit Drift Sei In = [ Sn n−cn , Sn n+cn ]. Wähle cn = Dann gilt Pθ (θ ∈ In , ∀n ≥ 1) √ (n + 1)(a2 + log(n + 1)). = Sn − cn Sn + cn ≤θ≤ , ∀n ≥ 1) n n Pθ (−cn ≤ nθ − Sn ≤ cn , ∀n ≥ 1) = P0 (−cn ≤ −Sn ≤ cn , ∀n ≥ 1) = 1 − P0 (| Sn |≥ (n + 1)(a2 + log(n + 1), ∀n ≥ 1) (∗) 1 − e− = Pθ ( ≥ a2 2 wegen Gesetz des Iterierten Logarithmus. Beweis von (∗) siehe unten. Sei nun θ ̸= θ′ . Dann gilt Pθ (θ′ ∈ In , ∀n ≥ 1) = 0. Denn es gilt: ( Pθ ) ( ) Sn − cn Sn + cn ≤ θ′ ≤ , ∀n ≥ 1 = P0 −cn ≤ n(θ′ − θ) − Sn ≤ cn , ∀n ≥ 1 . n n ′ −θ) Angenommen θ′ − θ > 0 ⇒ −Sn +n(θ → (θ′ − θ) > 0 P0 -f.s. n √ (n+1)(a2 +log(n+1)) cn Aber n = →0 n ⇒ −Sn +n(θ′ −θ) n ≥ cn n mit Wahrscheinlichkeit 1 für n hinreichend groß, da Wir zeigen nun (∗): Sei φ(x) = √1 exp 2π ( 2 − x2 n ∏ gθ,n (x1 , . . . , xn ) = i=1 Sei F (θ) = Φ(θ) = Sei Qn = Sei ∫∞ −∞ Zn := = = = −∞ ∫ ′ gn g0,n ∫∞ −∞ ∫∞ −∞ ∫∞ −∞ dPθn dλn . φ(η)dη. gθ,n (x1 , . . . , xn )F (dθ). Pθn F (dθ). Dann gilt (x1 , . . . , xn ) ( ) ( ) = gn′ dQn dλn exp θSn − 12 θ2 n F (dθ) ( exp θSn − 12 θ2 n exp − 12 θ2 ( exp θSn − 12 θ2 (n + 1) ( = exp = und φ(xi − θ) mit gθ,n = ∫θ Sei gn′ (x1 , . . . , xn ) = ) √1 n+1 2 Sn 2(n+1) ( exp ) ∫∞ −∞ ) ) √dθ 2π √dθ 2π ( exp θSn − 12 θ2 (n + 1) − 2 Sn 2(n+1) ) ∫∞ −∞ | 2 Sn 2(n+1) ) √dθ 2π ) √ Sn 2 n+1 n+1 (θ − ) dθ √ . exp − 2 n+1 2π ( {z =1 } cn n → 0 gilt. 131 Damit ist Zn = √1 n+1 ( exp 2 Sn 2(n+1) ) . Sei nun Nb folgende Stoppzeit: Nb = inf {n ≥ 1 | Zn ≥ b} { ( Sn2 1 exp = inf n ≥ 1 | √ 2(n + 1) n+1 = inf Dann gilt mit Q = ∫ n ≥ 1 | |Sn | ≥ ) } ≥b √ | (2 log b + log(n + 1))(n + 1) } {z =:dn Pθ F (dθ) P0 (|Sn | ≥ dn für ein n ≥ 1) = P0 (Zn ≥ b für ein n ≥ 1) = P0 (Nb < ∞) ∫ dP0 = dQ dQ FN {Nb <∞} ∫ ∞ ∑ = n=1{N =n} b ∞ ∑ ∫ = b dP0n dQ dQn Zn−1 dQ n=1{N =n} b ∞ ∑ 1 Q(Nb = n) b n=1 ≤ 1 1 Q(Nb < ∞) = . b b = Nun ist Pθ (Nb < ∞) = 1 für alle θ ̸= 0. Dann ist Q(Nb < ∞) = ∫∞ Pθ (Nb < ∞)F (dθ) −∞ ∫ = Pθ (Nb < ∞)F (dθ) {θ̸=0} ∫ = F (dθ) = 1 {θ̸=0} Setze nun b = e 2 a . Dann folgt P0 (|Sn | ≥ cn für n ≥ 1) ≤ e− 2 a 1 2 1 2 Nun zum stetigen Fall! Statt Sn ∼ N (θ, n) betrachten wir die Brownsche Bewegung mit Drift θ. (Xt ; t ≥ 0) sei der Prozess der Brownschen Bewegung mit Drift θ, d.h. (Xt ; t ≥ 0) sei Prozess mit unabhängigen Zuwächsen und Xt − Xs ∼ N (θ(t − s), (t − s)) für 0 < s < t. 132 Kapitel 9: Zur Brownschen Bewegung mit Drift [ Sei It = (Xt −ct ) (Xt +ct ) , t t ] und ct = √ (t + 1)(a2 + log(t + 1)). Dann gilt Pθ (θ ∈ It , ∀t ≥ 0) = 1 − P0 (| Xt |≥ ct für ein t ≥ 0) = 1 − e− 2 a 1 2 Dann sei dQ = Zt = dP0 Ft ∫ dPθ F (dθ) = dP0 Ft ∫ ( { und ( ) 1 1 Xt2 exp θXt − θ2 t F (dθ) = √ exp 2 2(t + 1) t+1 } √ Nb = inf{t ≥ 0 | Zt ≥ b} = inf t ≥ 0 || Xt |≥ ) (t + 1)(a2 + log(t + 1)) . Dann gilt: P0 (Zt ≥ b für ein t ≥ 0) = P0 (Nb < ∞) = = lim P0 (Nb ≤ t0 ) t0 →∞ ∫ lim t0 →∞ {Nb ≤t0 } ∫ = lim t0 →∞ {Nb ≤t0 } ∫ = = = lim t0 →∞ {Nb ≤t0 } dP0 dQ dQ Ft0 Zt−1 dQ 0 −1 ZN dQ , b da {Nb ≤ t0 } ∈ FNb 1 Q{Nb ≤ t0 } b 1 1 Q{Nb < ∞} = . b b lim t0 →∞ Hier wurde das Optimal Stopping Theorem für das Martingal Zt = dP0 dQ |Ft verwendet. Inwiefern herrscht hier Optimalität? Sei Rc (T ) := 1 2 P0 (T < ∞) + c 2 ∫ θ2 Eθ T F (dθ). Gesucht ist eine Stoppzeit Tc∗ mit Rc (Tc∗ ) = min Rc (T ). Für T { Tc∗ = inf t > 0 | Zt ≥ log ( 1 2c )} { = inf t > 0 | |Xt | ≥ 1 gilt min R(T ) = R(Tc∗ ) + o(1) = c(1 + log 2c + T ist A = 2 ∫∞ 0 log x φ(x) dx. √ 1 2c ( (t + 1) log(t + 1) + 2 log ( 1 2c )) } . 1 log(2 log 2c ) − 2A + o(1)) für c → 0. Dabei Anhang A Die mehrdimensionale Normalverteilung Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum. Sei X eine Zufallsvariable mit Verteilung P X und Verteilungsfunktion F . Die charakteristische Funktion ψX ist erklärt durch ∫ ψX (t) := EeitX = ∫ eitx P X (dx) = eitx F (dx). Einige wichtige Eigenschaften: 1) Sind X,Y Zufallsvariablen mit X = aY + b, dann folgt ψX (t) = eitb ψY (at). 2) Sind X1 , . . . , Xn unabhängig und ist Sn = ∑n i=1 Xi , 3) Sei X nach N (µ, σ 2 )-verteilt, d.h. P (X ≤ α) = ψX (t) = exp(itµ − so gilt ψSn = ∫α 1 2 2 2 σ t ). − √ 1 −∞ 2πσ 2 e ∏n (x−µ)2 2σ 2 i=1 ψXi (t). dx, α ∈ IR. Dann gilt Wir weisen 3) nach: Sei Y = X−µ σ . Dann ist Y nach N (0, 1)-verteilt und es gilt wegen 1) ψX (t) = eitµ ψY (σt). t2 Daher genügt es, ψY (t) = e− 2 nachzuweisen. Mit majorisierter Konvergenz folgt: ψY (t) = Ee itY =E ∞ ∑ (itY )n n=0 = = ∞ ∑ (it)2k k=0 ∞ ∑ (2k)! (it)2k (2k)! (2k)! 2k k! k=0 ∞ ∑ (− t2 )k k=0 −t2 /2 = e = n=0 n! EY n EY 2k (aus Symmetriegründen) 2 = n! ∞ ∑ (it)n k! . 133 134 Kapitel A: Die mehrdimensionale Normalverteilung Dabei haben wir die Identität EY 2k = worden ist. (2k)! 2k k! benutzt, die in den Übungen nachgerechnet kip Notation: Ein Zufallsvektor ist ein Vektor X = (X1 , . . . , Xn )T von Zufallsvariablen Xi , (1 ≤ i ≤ n). Der Erwartungswert von X wird komponentenweise definiert: EX := (EX1 , . . . , EXn )T . Die Kovarianzmatrix von X wird durch Kov(X) := (Kov(Xi , Xj ))1≤i,j≤n definiert, falls EXi2 < ∞ ist für i = 1, . . . , n. Dann gilt Kov(X)ij = Kov(Xi , Xj ) = E((Xi − EXi )(Xj − EXj )) = E(Xi Xj − EXi EXj ) = E((X − EX)(X − EX)T )ij . Kov(X) ist also offensichtlich eine symmetrische n × n-Matrix. Außerdem ist Kov(X) nichtnegativ-definit (d.h. für alle a ∈ Rn gilt aT Kov(X)a ≥ 0), denn aT Kov(X)a = aT E((X − EX)(X − EX)T )a ( ) = E aT (X − EX)(X − EX)T a = E((aT (X − EX))2 ) ( = E n ∑ )2 ai (Xi − EXi ) i=1 ≥ 0. Im Folgenden sehen wir, dass umgekehrt jede nichtnegativ-definite symmetrische Matrix Kovarianzmatrix eines Zufallsvektors ist. Hierzu bemerken wir: Zu jeder nichtnegativ-definiten symmetrischen n × n-Matrix Σ gibt es eine nichtnegativ-definite und symmetrische “Wurzel” Q mit Σ = Q · QT : Denn ist Σ nichtnegative und symmetrische n × n-Matrix, so gibt es eine orthogonale Matrix O mit e = OΣO−1 und Σ e = Σ e12 σ .. . . en2 σ e = aT OΣO −1 a = (O T a)T ΣOT a ei2 ≥ 0, (i = 1, . . . , n), denn für Dabei sind σ a ∈ Rn gilt aT Σa e1 σ .. e 1/2 O mit Σ e 1/2 = . ≥ 0. Setze nun Q = O−1 Σ . en σ Definition A.1 Ein Zufallsvektor X : Ω → Rn , X = (X1 , . . . , Xn )T heißt n-dimensional ∑ normalverteilt, wenn für jedes a ∈ Rn die Zufallsvariable aT X = ni=1 ai Xi eindimensional normalverteilt ist. 135 Bemerkung A.2 Ist X n-dimensional normalverteilt und ist A eine m × n-Matrix, so ist AX m-dimensional normalverteilt. Satz A.3 Sei Σ eine symmetrische und nichtnegativ-definite n × n-Matrix und sei µ ∈ Rn . Dann existiert ein Zufallsvektor X mit EX = µ und Kov(X) = Σ, der n-dimensional norT malverteilt ist. Außerdem gilt Eeit X = exp{itT µ − 12 tT Σ t} für t ∈ Rn . Beweis: 1. Schritt: Wir zeigen die Behauptung für µ = 0 und Σ = E (wobei E die Einheitsmatrix in Rn × Rn bezeichnet). Seien Y1 , . . . , Yn u.i.v. nach N (0, 1), dann ist der Zufallsvektor Y = (Y1 , . . . , Yn )T n-dimensional normalverteilt mit EY = 0 und Kov(Y ) = E. Denn es gilt für s ∈ R Eeisa TY = E exp is n ∏ = aj Y j j=1 Eeisaj Yj j=1 n ∏ = n ∑ j=1 e− 2 (saj ) 1 2 { } 1 = exp − s2 aT a . 2 Dies ist die charakteristische Funktion einer N (0, aT a)-verteilten Zufallsvariablen. Daher ist aT Y normalverteilt. 2. Schritt: Sei Q symmetrisch und nichtnegativ-definit mit Σ = QQT und sei Y wie in Schritt 1. Dann ist X := QY + µ nach Bemerkung A.2 n-dimensional normalverteilt mit EX = µ und Kov(X) = E((X − µ)(X − µ)T ) = E(QY (QY )T ) = QQT = Σ. Die charakteristische Funktion ist TX Eeit und Ee itT QY = Ee i(QT t)T Y T (QY = Eeit { +µ) Tµ = eit T QY Eeit } { } 1 1 = exp − (QT t)T QT t = exp − tT Σ t . 2 2 2 Satz A.4 Seien Σ = QQT und X = µ + QY mit Y = (Y1 , . . . Yn )T und Y1 , . . . , Yn u.i.v. nach N (0, 1). Ist det(Σ) > 0, so hat die Verteilung L(X) eine Dichte f bezüglich des LebesgueMaßes λn auf IRn mit { } 1 1 √ (x − µ)T Σ−1 (x − µ) f (x) = √ exp − 2 (2π)n det(Σ) für x ∈ IRn . 136 Kapitel A: Die mehrdimensionale Normalverteilung Beweis: Für eine beliebige Borelmenge A ⊂ IRn gilt −1 P (X ∈ A) = P (µ + QY ∈ A) = P (Y ∈ Q mit g(y) = (A − µ)) = ∫ Y ∈Q−1 (A−µ) g(y) dy n ∏ y2 1 √ e− i /2 , 2π i=1 da Y1 , . . . , Yn unabhängig verteilt sind. Mit der Transformationsformel für Lebesgue-Integrale folgt P (X ∈ A) = = = ∫ A g(Q−1 (x − µ)) ∫ 1 dx | det(Q)| ( 1 ) 1 √ g Σ− /2 (x − µ) dx det(Σ) A { } ∫ 1 1 −1 √ exp − (x − µ)Σ (x − µ) dx. 2 (2π)n det(Σ) A 2 Korollar A.5 Sei X n-dimensional normalverteilt mit det(Σ) > 0. Die Komponenten X1 , . . ., Xn sind genau dann unabhängig, wenn Kov(X) Diagonalgestalt hat. Beweis: Da Rg(Σ) = n ist, gilt Σ= σ12 .. . mit σi2 > 0 und σ1−2 .. Σ−1 = . σn−2 σn2 . Mit dem vorangehenden Satz folgt, dass die Verteilung von X eine λn -Dichte f der Gestalt f (x) = = { n 1∑ (xi − µi )2 √ exp − √ 2 i=1 2 σi2 (2π)n σ12 · · · σn2 1 n ∏ i=1 √ 1 2π σi2 e − 12 } (xi −µi ) 2 σ2 i hat. Da die Dichte in ein Produkt von Wahrscheinlichkeitsdichten zerfällt, ist P X ein Produktmaß und X1 , . . . , Xn sind stochastisch unabhängig. 2 Korollar A.6 Sei O Orthogonalmatrix. Sei X n-dimensional normalverteilter Zufallsvektor mit unabhängigen Komponenten. Sei Y = OX. Dann sind die Komponenten von Y auch unabhängig. Beweis: Man rechnet dazu nach, dass Kov(Y ) = Kov(X) ist. Die Aussage folgt dann aus Korollar A.5. [ Kov(Y ) = E (OX − E(OX)) (OX − E(OX))T [ = E (X − E(X)) O OT (X − E(X))T [ = E (X − E(X)) (X − E(X))T = Kov(X) ] ] ] 2 Anhang B Historische Bemerkungen Stochastischer Prozess ist der mathematishe Begriff von zufälligen Beobachtungen zeitlicher Verläufe. In den Wirtschaftswissenschaften und der Physik spricht man oft auch von Zeitreihen. In der Mathematik wird der Begriff Zeitreihen spezieller verwendet und steht für stationäre stochastische Prozesse. Wo findet man die ersten Zeitreihen? In der Wetterbeobachtung und an der Börse gibt es schon seit mehr als 250 Jahren Aufzeichnungen. Doch eine gute Antwort auf die Frage habe ich nicht. Im Folgenden will ich die Geschichte des wichtigsten stochastischen Prozesses an Hand einer Zeittafel aufzeigen. Es ist die Brownsche Bewegung. Sie wird auch im Mittelpunkt der Vorlesung stehen. 1828 beobachtete Robert Brown (* 21. Dezember 1773 in Montrose; †10. Juni 1858 in London; schottischer Botaniker) Pollenbewebungen auf dem Wasser und beschreibt diese. 1900 führt Louis Bachelier (* 11. März 1870 in Le Havre ; †28 April 1946 in St-Servan-surMer; französischer Mathematiker; ein Schüler von Poincare) die Brownsche Bewegung als Modell für den zeitlichen Verlauf von Aktienpreisen ein. Er berechnet die Verteilung des Maximums. 1905 Ohne Kenntnis de Entdeckung von Brown leitet Einstein die Brownsche Bewegung theoretisch als Folge der thermischen Molekularbewegung her. Er kann damit eine Formel für die Anzahl der Moleküle pro Mol herleiten (siehe unten!). 1905 gibt Smoluchowski unabhängig von Einstein eine ähnliche Ableitung. 1909 untersucht Perrin die Pollenbewegung experimentell und bestätigt Einsteins Ergebnisse experimentell. 1923 erste mathematische Konstruktion der Brownschen Bewegung (als Wahrscheinlichkeitsmaß auf den stetigen Funktionen) durch N. Wiener. 1938 führt Ville den Begriff des Martingals ein. 1939 gibt P. Lévy eine einfache Konstruktion der Brownschen Bewegung. 1941 entwickelt K. Ito die stochastiche Integration und leitet die Ito-Formel her. Bereits im Februar 1940 hatte W. Döblin einen versiegelten Umschlag (plis cacheté) an die 137 138 Kapitel B: Historische Bemerkungen französiche Akademie der Wissenschaften gesendet, der erst im Jahre 2002 geöffnet wurde. Er enthält ein Schulheft, in dem sich Resultate zu Diffusionen befinden, die sich mit Itos Resultaten überschneiden. Nun noch einige Daten zur Entwicklung der stochastischen Finanzmathematik 1965 untersuchen Samuelson, Merton und McKean erstmals die geometrische Brownsche Bewegung und erzielen Resultate zur Optionsbewertung. 1973 leiten Black und Scholes die nach ihnen benannte Formel mit partiellen Differentialgleichungen her. 1981 stellen Harrison, Krebs und Pliska die Black-Scholes Formel in einen stochastischen Zusammenhang und liefern damit den Rahmen für die stochastische Finanzmathematik. Logarithmus des Dow-Jow-Index (1995–2001) Abbildung B.1 B.1. Einsteins Überlegungen zur Brownschen Bewegung 139 Simulierte Brownsche Bewegung mit den geschätzten Parametern aus den Beobachtungen von Abb. B.1 Abbildung B.2 B.1 Einsteins Überlegungen zur Brownschen Bewegung Wir wollen nun Einsteins Überlegungen zur Brownschen Bewegung skizieren. Er macht dazu folgende Annahmen: a) X(t) sei der eindimensionale Ort einer zufälligen Brownschen Bewegung zur Zeit t. b) Diese zufällige Bewegung X genügt folgendem Gesetz: p(x, y; t) bezeichnet die Wahrscheinlichkeitsdichte, zur Zeit t ein Teilchen im Punkt y zu finden, wenn es zur Zeit 0 in x war. Insbesondere gilt ∫ p(x, y; t)dy = 1. Für t1 , t2 , . . . , tn mit 0 < t1 < t2 < . . . < tn und αi , βi ∈ IR mit αi < βi gilt PX0 (α1 < X(t1 ) ≤ β1 , . . . , αn < X(tn ) ≤ βn ) ∫ ∫ β1 = βn ... α1 αn p(x0 , x1 ; t1 )p(x1 , x2 ; t2 − t1 ) · · · p(xn−1 , xn ; tn − tn−1 ) dx1 . . . dxn Außerdem ist X(0) = x0 der Anfangspunkt der Bewegung. 140 Kapitel B: Historische Bemerkungen ∫ ⟨∆X⟩ = c) ∞ −∞ ∫ ∞ ⟨(∆X)2 ⟩ = −∞ (x − x0 )p(x0 , x; ∆t)dx ∼ F (x0 )∆t für ∆t → 0 (x − x0 )2 p(x0 , x; ∆t)dx ∼ 2D · ∆t für ∆t → 0 ⟨(|∆X|k ⟩ = o(∆t) für k ≥ 3 d) p(x, y; t) = p(y, x; t) Dabei ist F eine äußere Kraft mit Stärke F (x) im Punkt x und D ist die Diffusionskonstante. Wir wollen zeigen, dass p eine Diffusionsgleichung erfüllt und damit p bestimmen. Wegen b) muß gelten ∫ ∞ p(x, y; t + τ ) = −∞ p(x, ξ; t)p(ξ, y; τ )dξ. Daher gilt für den Differenzenquotienten Q := p(x, y; t + τ ) − p(x, y; t) ∆t (∫ = = ) ∞ 1 p(x, ξ; t)p(ξ, y; ∆t)dξ − p(x, y; t) ∆t −∞ ∫ ∞ 1 (p(x, ξ; t) − p(x, y; t)) p(ξ, y; ∆t)dξ ∆t −∞ Nun entwickeln wir die Differenz mit der Taylor-Formel: p(x, ξ; t) − p(x, y; t) 1 1 = (ξ − y)∂y p(x, y; t) + (ξ − y)2 ∂y2 p(x, y; t) + (ξ − y)3 ∂y3 p(x, y; t) + . . . 2 6 Dann ergibt Einsetzen: Q = 1 ∆t ∫ ∞ −∞ { 1 (ξ − y)∂y p(x, y; t) + (ξ − y)2 ∂y2 p(x, y; t) 2 } 1 + (ξ − y)3 ∂y3 p(x, y; t) + . . . p(y, ξ; ∆t)dξ. 6 Dabei haben wir zugleich Annahme d) angewendet. Integration der einzelnen Terme und Anwendung von Annahme c) liefert Q = F (y)∂y p(x, y; t) + D∂y2 p(x, y; t) + o(1) für ∆t → 0. Damit erhalten wir für p folgende Gleichungen und Eigenschaften: I) ∂ ∂2 ∂ p(x, y; t) = F (y) p(x, y; t) + D 2 p(x, y; t) ∂t ∂y ∂ y II) p(x, y; t) ≥ 0 III) p(x, y; t) → δ(y − x) für t → 0. Dabei bezeichnet δ das Punktmaß in 0. Für den Fall, dass F (y) ≡ 0 ist, rechnet man leicht nach, dass ( ) 1 (y − x)2 p(x, y; t) = √ exp − 4Dt 2 πDt B.1. Einsteins Überlegungen zur Brownschen Bewegung 141 Lösung von I) - III) ist. Tatsächlich ist p eindeutig. Eine einfache Rechnung zeigt nun, dass sich für die mittlere quadratische Abweichung ergibt: ⟨(∆X)2t ⟩ = ∫ ∞ −∞ (y − x)2 p(x, y; t)dy = 2 · Dt. Nun kennt man aus der kinetischen Gastheorie, einer bis zum Jahr 1905 durch sehr wenige Experimente belegte Theorie, eine andere Formel für die Diffusionskonstante D: T R T R·T = · = . f N f N · 6πηa D=k· Dabei ist k die Boltzmann-Konstante, R die kinetische Gaskonstante, N die Anzahl der Moleküle pro Mol, T die absolute Temperatur und f die Kraft die auf ein sphärisches Teilchen wirkt. Die Stokessche Formel gibt einen Ausdruck für f f = 6π · η · a, die Reibungskraft. Dabei ist η der Viskositätskoeffizient der Flüssigkeit und a der Radius des sphärischen Teilchens. Nun trift nach unserer vorangegangenen Rechnung in der Wurzel der mittleren quadratischen Abweichung in x-Richtung D auf: √ λx,t = 2Dt. Einsetzen der Formel für die Diffusionskonstanten liefert weiter: λx,t √ = t √ R·T 1 . N 3πηa Diese Gleichung liefert für N= t λ2x,t · R·T . 3πηa Diese Gleichung bildete die theoretische Grundlage für Perrin aus λx,t die Größe N zu bestimmen. Es ergibt sich ein Wert von N = 6, 02 · 1026 Teilchen/Kilomol. Perrin hat dafür den Nobelpreis für Physik im Jahr 1926 erhalten. 142 Kapitel B: Historische Bemerkungen Literaturverzeichnis I. Lehrbücher • Durrett: Brownian Motion and Martingales in Analysis, Wadsworth, 1984 • Hida: Brownian Motion, Springer, 1980 • Karatzas–Shreve: Brownian Motion and Stochastic Calculus, Springer, 1988 • Klenke: Wahrscheinlichkeitstheorie, 3. überarb. u. erg. Aufl., Springer, 2013 • Knight: Essential of Brownian Motion and Diffusion, AMS, 1981 • Revuz–Yor: Continuous Martingales and Brownian Motion, Springer, 1991 • Rogers–Williams: Diffusions, Markov Processes and Martingales, Wiley, 1987 II. Klassiker • Doob: Stochastic Processes, Wiley, 1953 • Itô–McKean: Diffusion Processes, Springer, 1964 (1974) • Lévy: Processus stochastiques et Mouvement Brownien, Gauthiers Villars, 1948 (1965) • McKean: Stochastic Integrals, 1969 (1974) • Mandelbrot: The Fractal Geometry of Nature, W.H. Freeman, 1983 (Geschichte) 143