Stochastik II Herbstsemester 15 Erwin Bolthausen Inhaltsverzeichnis 1 Bedingte Wahrscheinlichkeiten und Erwartungswerte 1.1 Zusammenstellung von masstheoretischen Begri¤en . . . 1.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . 1.3 Bedingte Erwartungswerte . . . . . . . . . . . . . . . . . 1.4 Reguläre bedingte Wahrscheinlichkeiten . . . . . . . . . 1.5 Anhang: Ergänzungen zu Unabhängigkeit . . . . . . . . 2 Marko¤-Ketten 2.1 Grundlegende Begri¤e . . . . . . . . . . . . 2.2 Beispiele von Marko¤-Ketten . . . . . . . . 2.3 Klasseneigenschaften, Rekurrenz, Transienz 2.4 Stoppzeiten, starke Marko¤-Eigenschaft . . 2.5 Invariante Masse . . . . . . . . . . . . . . . 2.6 Konvergenz gegen die invariante Verteilung 2.7 Reversible stochastische Matrizen . . . . . . 2.8 Anhang: Der Satz von Ionescu-Tulcea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 . 3 . 7 . 9 . 14 . 16 . . . . . . . . . . . . . . . . 20 20 24 28 35 40 46 49 51 3 Brownsche Bewegung 3.1 Normalverteilungen . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Stochastische Prozesse . . . . . . . . . . . . . . . . . . . . . . 3.3 Die Lévy–Ciesielski Konstruktion der Brownschen Bewegung 3.4 Einfache Eigenschaften der Brownschen Bewegung . . . . . . 3.5 Prozesse mit unabhängigen Zuwächsen, Marko¤eigenschaft . 3.6 Die starke Marko¤-Eigenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 57 62 66 73 75 80 4 Martingale mit diskretem Zeitparameter 4.1 De…nitionen und Beispiele . . . . . . . . . . . . 4.2 Stoppzeiten und der Stoppsatz für Martingale . 4.3 Martingal-Ungleichungen . . . . . . . . . . . . 4.4 Konvergenz von Martingalen . . . . . . . . . . 4.5 Anwendung auf Äquivalenz von Produktmassen 4.5.1 Das Kakutani-Kriterium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 88 91 95 98 104 104 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2 Die Cameron-Martin Formel . . . . . . . . . . . . . . . . . . . . . 107 2 1 1.1 Bedingte Wahrscheinlichkeiten und Erwartungswerte Zusammenstellung von masstheoretischen Begri¤en Notationen: Ich schreibe N für die natürlichen Zahl, exklusive der 0. N0 := N[ f0g : R ist die Menge der reellen Zahlen, R+ die Menge der nicht negativen reellen Zahlen und R die Menge der nicht positiven. R+ und R enthalten also beide die 0: BR ist die Borel- -Algebra auf R, also die kleinste -Algebra, welche die o¤enen Mengen enthält. Manchmal wird der Index R in BR auch weggelassen, wenn klar ist, von welcher Menge die Rede ist. Wenn in Bezug auf R von „Messbarkeit“ die Rede ist, so bezieht sich diese auf die Borel- -Algebra, falls nichts anderes bemerkt ist. Ein messbarer Raum ist ein Paar ( ; F), wobei eine nicht leere Menge und F eine -Algebra auf F ist. Ist eine Menge, so bezeichnet P ( ) die Potenzmenge, d.h. die Menge aller Teilmengen von . ( ; P ( )) ist ein messbarer Raum, ebenso wie ( ; f;; g) : Für zwei messbare Räume ( 1 ; F1 ) ; ( 2 ; F2 ) ist der Produktraum ( 1 F2 ) wie folgt de…niert: 1 2 ; F1 2 ist die übliche Produktmenge und F1 F2 ist die -Algebra, die erzeugt wird vom Mengensystem fA1 A2 : A1 2 F1 ; A2 2 F2 g. Ein Massraum ist ein Tripel ( ; F; ) ; wobei eine nicht leere Menge, F eine Algebra auf und ein Mass auf F ist. heisst -endlich, falls eine Folge f n gn2N von S Mengen in F existiert mit ( n ) < 1; 8n; und = n n : heisst Wahrscheinlichkeitsmass falls ( ) = 1 ist. In diesem Fall schreiben wir meist P anstelle von : Wir werden in dieser Vorlesung nur -endliche Masse betrachten, ohne dies jedesmal explizit vorauszusetzen. Eine Teilmenge A heisst -Nullmenge, falls A0 2 F; A A0 existiert mit (A0 ) = 0: Ein Massraum heisst vollständig, wenn F alle -Nullmengen enthält. Jeder Massraum lässt sich in einfacher Weise vervollständigen: Bezeichnet N die Menge der -Nullmengen und F := (F [ N ) die kleinste -Algebra, welche die Mengen in F und in N enthält, so lässt sich zu einem Mass auf F erweitern und ; F; ist ein vollständiger Massraum (siehe Stochstik I). Der Nachteil der Konstruktion ist, dass F von abhängig ist. Sind ( ; F) ; ( 0 ; F 0 ) zwei messbare Räume, so heisst eine Abbildung f : ! 0 0 1 messbar (genauer F-F -messbar), wenn f (B) := f! 2 : f (!) 2 Bg 2 F ist, für alle B 2 F 0 . Wir schreiben oft auch f 1 (F 0 ) := f 1 (B) : B 2 F 0 . Die Messbarkeit von f besagt dann einfach f 1 (F 0 ) F. Ist aus dem Kontext klar, welche -Algebra F 0 auf 0 man betrachten, so schreiben wir auch einfach (f ) für f 1 (F 0 ) : Dies insbesondere im Fall ( 0 ; F 0 ) = (R; BR ) : Für eine Menge ffi g von Abbildungen schreiben wir (ffi g) für die kleinste -Algebra auf bezüglich der alle fi messbar sind. Das ist die kleinste -Algebra, welche alle (fi ) enthält. Ist ein Mass auf F und f : ! 0 ; so ist das Mass f 1 auf ( 0 ; F 0 ) de…niert 1 1 (B) := f (B) das sogenannte induzierte Mass. durch f Wichtig ist in diesem Zusammenhang der folgende Transformationssatz Satz 1.1 Sei : 0 ! R eine F 0 -BR -m.b. Funktion (BR ist die Borel- -Algebra auf R) 3 a) Ist 0 so gilt Z ( f) d = Z b) Ist reellwertig, so ist es genau dann f bezüglich ist und es gilt ebenfalls (1.1. d f 1 : 1 -integrierbar, (1.1) wenn f integrierbar Wenn ein Wahrscheinlichkeitsmass ist, so schreiben wir auch häu…g (f 2 dz) anstelle von f 1 (dz) :1 Für einen Wahrscheinlichkeitsraum ( ; F; P ) nennt man eine F-BR -messbare AbbilR dung X : ! R eine Zufallsvariable. Ist X integrierbar, so ist EX := XdP der Erwartungswert von X: Für X 0 (d.h. X (!) 0; 8!) kann man den Erwartungswert in jedem Fall de…nieren; er kann dann aber 1 sein. Das induzierte Wahrscheinlichkeitsmass P X 1 nennt man die Verteilung von X: P X 1 ist ein Wahrscheinlichkeitsmass auf (R; BR ) : Nach dem Transformationssatz ist X genau dann integrierbar, wenn die identische Abbildung auf R integrierbar bezüglich P X 1 ist und es gilt in diesem Fall Z Z EX = XdP = x P X 1 (dx) : X hat eine Dichte, wenn P X 1 absolut stetig bezüglich des Lebesgue-Masses der Erwartungswert lässt sich in diesem Fall als Z EX = xf (x) (dx) darstellen, wobei f die Dichte d P X 1 =d ist. Ein anderer Spezialfall liegt vor, P wenn die Verteilung diskret ist: P X mit xn 2 R; n 2 N und pn 0; n pn = 1: In diesem Fall ist Z X EX = x P X 1 (dx) = pn xn 1 = ist, und P n p n xn n sofern die Reihe auf der rechten Seite absolut konvergiert. Im Zusammenhang mit bedingten Erwartungswerten ist der folgende Faktorisierungssatz zu messbaren Abbildungen wichtig. Satz 1.2 Es sei eine Menge, ( 0 ; F 0 ) messbarer Raum, und T : ! 0 eine Abbildung. Mit (T ) bezeichnen wir die von T auf erzeugte -Algebra auf : (T ) := T 1 (B) : B 2 F 0 : Eine Abbildung f : ! R ist genau dann (T )-BR -m.b., wenn eine F 0 -BR -m.b. Abbildung f 0 : 0 ! R existiert mit f = f 0 T: R R Ich schreibe für Integrale stets f d oder bei Betonung der Integrationsvariablen f (x) (dx) ; R jedoch nie f (x) d (x) : Gelegentlich schreibe ich das Mass auch direkt hinter das Integrationssymbol: R (dx) f (x), insbesondere bei mehreren Integrationen im selben Ausdruck. 1 4 Beweis. Eine Richtung ist einfach: Falls f 0 existiert, so ist f 0 Abbildung. Wir zeigen die Umkehrung und setzen also voraus, dass f gehen in einzelnen Schritten vor. T eine (T )-BR -m.b (T )-BR -m.b. ist. Wir Ist f eine Indikatorfunktion, f = 1A ; mit A 2 (T ) ; so existiert A0 2 F 0 mit A = T 1 (A0 ) und 1A = 1A0 T . Wir nehmen also f 0 = 1A0 : Pn Ist f eine nicht-negative einfache Funktion f = i=1 ai 1Ai ; ai 2 R+ ; Ai 2 (T ) ; Pn 0 so können wir f als i=1 ai 1A0i de…nieren, wobei A0i gemäss Ai = T 1 (A0i ) gewählt ist. Ist f eine nicht-negative (T )-BR -m.b Abbildung, so existiert eine Folge von nicht-negativen messbaren Funktionen ffn g mit fn " f: Zu fn existieren gemäss dem zweiten Schritt Funktionen fn0 : 0 ! R, welche F 0 -BR -m.b. sind, und für die fn = fn0 T gilt. Wir setzen dann f 0 := supn fn0 : Dann folgt f = f 0 T . Der sehr einfache Beweis sei dem Leser überlassen. Für beliebige messbare Funktionen f ergibt sich die Existenz von f 0 durch eine Zerlegung von f in Positiv- und Negativteil. Wir werden gelegentlich eine Verallgemeinerung des Satzes von Fubini verwenden. Dazu zunächst ein für die Wahrscheinlichkeitstheorie wichtiges Konzept. De…nition 1.3 Es seien (S1 ; S1 ), (S2 ; S2 ) zwei messbare Räume. Ein Marko¤kern K von (S1 ; S1 ) nach (S2 ; S2 ) ist eine Abbildung K : S1 S2 ! [0; 1] mit den folgenden zwei Eigenschaften: 1. Für alle x 2 S1 ist K(x; ) ein Wahrscheinlichkeitsmass auf (S2 ; S2 ). 2. Für alle A 2 S2 ist K( ; A) eine S1 -messbare Funktion auf S1 . Beispiel 1.4 Drei Spezialfälle von Marko¤kernen: a) K(x; A) := (A) für ein Wahrscheinlichkeitsmass der Kern gar nicht von x ab. auf (S2 ; S2 ). Hier hängt also b) K(x; A) := 1A (f (x)) für eine messbare Abbildung f von (S1 ; S1 ) nach (S2 ; S2 ). c) Sei I eine höchstens abzählbare PMenge, (pij )i;j2I eine stochastische Matrix, d.h. eine Matrix mit pij 0; 8i; j; j pij = 1; 8i; und (S1 ; S1 ) = (S2 ; S2 ) = (I; P(I)). Für i 2 I, A I wird ein Marko¤kern K durch X K(i; A) := pij j2A de…niert. 5 Man stellt sich einen Kern am besten als eine Art “fuzzy” oder “verrauschte” Abbildung vor. Wir werden auch die folgende Notation verwenden, die diesen Aspekt betont: Ist K ein Marko¤kern von (S1 ; S1 ) nach (S2 ; S2 ); so schreiben wir K : (S1 ; S1 ) (S2 ; S2 ) oder kurz K : S1 S2 : (Vorsicht: Diese Notation ist in der wahrscheinlichkeitstheoretischen Literatur nicht üblich). Wichtig ist, dass sich mit Kernen der Begri¤ des Produktmasses verallgemeinern lässt: De…nition 1.5 Sei ein Wahrscheinlichkeitsmass auf (S1 ; S1 ) und K : (S1 ; S1 ) (S2 ; S2 ). Dann ist das Wahrscheinlichkeitsmass K auf S1 S2 wie folgt de…niert: Z •r A 2 S1 S2 ; (1.2) ( K)(A) = (d! 1 )K(! 1 ; A!1 ) f u wobei A!1 = f ! 2 2 S2 : (! 1 ; ! 2 ) 2 A g der ! 1 -Schnitt der Menge A ist. Damit dies eine sinnvolle De…nition ist, müssen einige Punkte geprüft werden: Für die Schnitte gilt A!1 2 S2 ; 8! 1 2 S1 , und demzufolge ist K(! 1 ; A!1 ) für jedes ! 1 2 S1 de…niert. Nun muss nachgewiesen werden, dass ! 1 7! K(! 1 ; A!1 ) eine S1 -messbare Funktion ist. Dies sieht man wie folgt ein: D = f A 2 S1 S2 : ! 1 7! K(! 1 ; A!1 ) ist S 1 messbar g ist ein Dynkinsystem (einfache Übungsaufgabe) und enthält die Mengen der Form A1 A2 mit Ai 2Si für i = 1; 2, denn es gilt K (! 1 ; (A1 A2 )!1 ) = 1A1 (! 1 )K(! 1 ; A2 ): Diese Produktmengen bilden ein durchschnittstabiles Erzeugendensystem von S1 S2 : Nach dem „Hauptsatz“ über Dynkinsysteme folgt D = S1 S2 . Damit ist das Integral auf der rechten Seite von (1.2) eindeutig de…niert und damit ist ( K)(A) für jedes A 2 S1 S2 de…niert. Mit Hilfe des Satzes von der majorisierten Konvergenz (Satz von Lebesgue) zeigt man sofort, dass K -additiv und somit ein Wahrscheinlichkeitsmass ist. Bemerkung 1.6 a) Ist K : (S1 ; S1 ) (S2 ; S2 ) gemäss Beispiel 1.4 a) durch ein Wahrscheinlichkeitsmass auf (S2 ; S2 ) gegeben, so ist K einfach das Produktmass : b) Man bezeichnet K gelegentlich als das semidirekte Produkt von Wir betrachten die beiden Randverteilungen von Sind i : S1 S2 ! Si die Projektionen, so ist ( K) 1 1 (A) = ( K) (A 6 S2 ) = mit K: K auf (S1 ; S1 ) bzw. (S2 ; S2 ): (A) ; A 2 S1 ; d.h. ( 1 K) 1 = : (1.3) Die zweiten Randverteilung ist gegeben durch ( K) 1 2 (A) = ( K) (S1 A) = Z (dx) K (x; A) ; A 2 S2 : (1.4) Diese Randverteilung auf (S2 ; S2 ) bezeichnet man meist mit K: Nun zur Verallgemeinerung des Satzes von Fubini-Tonelli: Satz 1.7 Sei ein Wahrscheinlichkeitsmass auf (S1 ; S1 ) und K : (S1 ; S1 ) f : S1 S2 ! R eine messbare Funktion. a) Ist f (S2 ; S2 ): Ferner sei 0 so gilt Z f d( K) = Z Z f (x; y) K (x; dy) (dx) : (1.5) b) Ist f 2 L1 ( K) ; so ist für -fast alle xR2 S1 die Abbildung S2 3 y ! f (x; y) integrierbar bezüglich K (x; ). Ferner ist f (x; y) K (x; dy) als Funktion von x -integrierbar, und es gilt (1.5). Beweis. Der Beweis folgt dem üblichen Schema: Für f = 1A ; A 2 S1 S2 , ergibt sich (1.5) aus der De…nition. Für allgemeine f folgt man dem üblichen Schema für den Beweis des Satzes von Fubini. Erst einfache Funktionen, dann nicht-negative via monotone Konvergenz und schliesslich für allgemeine f über eine Zerlegung in Positivund Negativteil. Die Details seien dem Leser überlassen. 1.2 Bedingte Wahrscheinlichkeiten Wir führen in diesem Kapitel eine wichtige Verallgemeinerung der elementaren De…nition bedingter Wahrscheinlichkeiten ein. Zur Erinnerung: De…nition 1.8 Sei ( ; F; P ) ein Wahrscheinlichkeitsraum. Sind A; B 2 F mit P (B) > 0, so ist die bedingte Wahrscheinlichkeit von A gegeben B durch P (A j B) := P (A \ B)=P (B) de…niert. Als Motivation für die nachfolgenden Diskussionen betrachten wir die Situation, dass B via eine Zufallsvariable X : ! R de…niert ist, etwa B = f! : X (!) = yg für y 2 R. In vielen Fällen ist jedoch P (X = y) = 0; z.B. wenn X normalverteilt ist, oder allgemeiner, wenn die Verteilung von X eine Dichte bezüglich des Lebesgue-Masses hat. In einem solchen Fall kann P (A j X = y) o¤enbar nicht elementar de…niert werden. Der entscheidende Punkt ist, dieses Objekt nicht “isoliert” für einzelne y zu de…nieren, sondern als Funktion in y: Grundlage ist der Satz über die totale Wahrscheinlichkeit. 7 Betrachten wir zunächst die elementare Situation: Es sei fB1 ; : : : ; Bn g eine Zerlegung von in paarweise disjunkte messbare Teilmengen mit P (Bi ) > 0. Für ein feste A 2 F können wir die Folge P (A j Bi ), i = 1; : : : ; n de…nieren. Nach dem Satz über die totale Wahrscheinlichkeit gilt für jedes Teilmenge J f1; : : : ; ng : P A\ [ j2J Bj [ (A \ Bj ) = P j2J X X = P (A \ Bj ) = P (A j Bj )P (Bj ) : (1.6) j2J j2J Wir können das etwas komplizierter interpretieren und fassen fP (A j Bj )g als Funktion auf auf, nennen wir sie A : A (!) := P (A j Bj ); f u •r ! 2 Bj : Wir bezeichnen S mit G die von den Bj erzeugte -Algebra. G enthält genau die Mengen, die sich als j2J Bj mit J f1; : : : ; ng darstellen lassen. Da A konstant auf den Bj ist, ist es eine G-m.b. Funktion. Um dies zu betonen, schreiben wir A;G : Wir können die Eigenschaften dieser Funktion wie folgt zusammenfassen: Lemma 1.9 In der obigen Situation gelten A;G : und P (A \ B) = ! [0; 1] ist G messbar: (1.7) Z (1.8) B A;G (!) P (d!) ; 8B 2 G: Beweis. (1.7) ist o¤ensichtlich nach der Konstruktion von A;G : (1.8) ergibt sich unmittelbar aus (1.6). Es ist ziemlich o¤ensichtlich, dass diese beiden Eigenschaften A;G eindeutig charakterisieren. Der (sehr einfache) Beweis sei dem Leser überlassen. Diese Diskussion legt eine Verallgemeinerung von bedingten Wahrscheinlichkeiten nahe. Wir betrachten eine beliebige Teil- -Algebra G von F: De…nition 1.10 Sei A 2 F: Eine Abbildung A;G : ! [0; 1] heisst bedingte Wahrscheinlichkeit von A gegeben G; wenn (1.7) und (1.8) erfüllt sind. Satz 1.11 Sei A 2 F und G eine Teil- -Algebra von F: Dann existiert eine bis auf f.s.-Gleichheit eindeutige bedinge Wahrscheinlichkeit von A gegeben G: Beweis. Wir betrachten die Abbildung G 3 B ! (B) := P (A \ B) : Dies ist ein Mass auf G welches absolut stetig bezüglich P ist: P , denn ist P (B) = 0; so ist (B) = 8 P (A \ B) P (B) = 0: Nach dem Satz von Radon-Nikodym (Satz 2.4, Stochastik I) existiert eine bis auf P -f.s.-Gleichheit eindeutige G-m.b. Funktion A;G : ! R+ mit Z A;G dP = (B) = P (A \ B) ; B für alle B 2 G: A;G ist die gewünschte bedingte Wahrscheinlichkeit, denn diese Funktion erfüllt die Eigenschaften (1.7) und (1.8). Wir müssen allerdings noch nachweisen, dass 1 für alle ! 2 gilt. Erfüllt A;G : A;G so gewählt werden kann, dass 0 A;G (!) ! R+ die obige Gleichung, so setzen wir C := ! : A;G (!) > 1 2 G: Dann folgt Z Z 1dP; P (C) = A;G dP = P (A \ C) C C Z 1 0: A;G dP C Wegen A;G > 1 auf C folgt P (C) = 0: Wir können daher A;G durch min A;G ; 1 ersetzen. Diese Funktion stimmt mit A;G P -f.ü. überein und nimmt nur Werte in [0; 1] an. In Zukunft schreiben wir P (A j G) anstelle von A;G : Man muss sich klar darüber sein, dass bedingte Wahrscheinlichkeiten im obigen Sinn nur bis auf f.s.-Gleichheit eindeutig gegeben sind. Man spricht dann oft von einer Version der bedingten Wahrscheinlichkeit, wenn eine bestimmte G-m.b. Funktion gewählt wird. 1.3 Bedingte Erwartungswerte Nun zu bedingten Erwartungswerten. Sei X eine auf ( ; F; P ) de…nierte Zufallsgrösse und G eine Teil- -Algebra von F: Man konstruiert die bedingten Erwartungswerte ebenfalls direkt über den Satz von Radon-Nikodym: Satz 1.12 Sei X 2 L1 ( ; F; P ) und G eine Teil- -Algebra von F: Dann existiert eine bis auf P f.s.-Gleichheit eindeutig de…nierte integrierbare und G-m.b. Zufallsgrösse E (X j G) mit Z Z E (X j G) dP = X dP (1.9) B B für alle B 2 G: R Beweis. Wir nehmen zunächst an, dass X 0 gilt. Dann ist (B) := B X dP; B 2 G, ein Mass auf ( ; G) ; das absolutstetig bezüglich P ist. Aus dem Satz von Radon-Nikodym folgt daher die Existenz einer G-m.b. nicht negativen Zufallsgrösse E (X j G) ; die die Eigenschaft (1.9) erfüllt. Ist X integrierbar, so gilt Z Z E (X j G) dP = X dP < 1: 9 Daher ist E (X j G) integrierbar und insbesondere fast überall endlich. Ist X 2 L1 ( ; F; P ) ; so zerlegen wir X in Positiv- und Negativteil X = X + X und setzen E (X j G) = E X + j G E X jG : Diese Zufallsgrösse erfüllt o¤ensichtlich (1.9) und ist integrierbar. R R Eindeutigkeit: Sind f; g zwei G-m.b. Zufallsgrössen mit B f dP = B g dP für alle B 2 G; so folgt sehr einfach f = g P -f.ü. Das sollte aus der Analysis III bekannt sein. Man beachte, dass bedingte Wahrscheinlichkeiten einfach Spezialfälle von bedingten Erwartungswerten sind: P (A j G) = E (1A j G) : Der folgende Satz ist eine Au‡istung der wichtigsten Eigenschaften bedingter Erwartungswerte. Satz 1.13 Es seien X; X1 ; X2 2 L1 ( ; F; P ), und G sowie G 0 seien Teil- -Algebren von F. Dann gelten: a) Ist G die triviale -Algebra, das heisst G = f;; g, so gilt E(X j G) = E(X) fast sicher. b) Ist X G-messbar, so gilt E(X j G) = X fast sicher. c) Sind a1 ; a2 2 R, so gilt E(a1 X1 + a2 X2 j G) = a1 E(X1 j G) + a2 E(X2 j G) fast sicher. d) Ist X 0, so ist E(X j G) E(X j G) E(Y j G): e) Es gilt jE(X j G)j f) Ist G 0 0 fast sicher. Ferner folgt aus X Y die Ungleichung E(jXj j G) fast sicher. G, so gilt E(X j G 0 ) = E(E(X j G) j G 0 ) fast sicher. g) Sind X und G unabhängig, so gilt E(X j G) = E(X) fast sicher.2 R RBeweis. a): Da E(X j G) G-m.b. ist, so muss es fast sicher konstant sein. Wegen E(X j G)dP = X dP folgt die Behauptung. b) folgt RunmittelbarR aus der De…nition des bedingten Erwartungswertes: Per Tautologie gilt B XdP = B XdP und da X als G-m.b. vorausgesetzt wird, erfüllt X die gewünschten Eigenschaften. 2 Für Puristen in Formalitäten sind die obigen Formulierungen leicht anrüchig: Der Satz von RadonNidkodym liefert die entsprechenden Objekte ohnehin nur bis auf f.s.-Gleichheit. Genau genommen sollte man daher die bedingten Erwartungswerte als Äquivalenzklassen unter f.s.-Gleichheit au¤assen. Dann sind die obigen Gleichungen einfach Gleichungen zwischen Äquivalenzklassen und man könnte sich die ständige Wiederholung von „fast sicher“ ersparen. 10 c): Sei Y die rechte Seite der behaupteten Gleichung. Dann gilt für alle D 2 G: Z Z Z E(X2 j G) dP E(X1 j G) dP + a2 Y dP = a1 D D Z Z ZD X2 dP = (a1 X1 + a2 X2 ) dP: X1 dP + a2 = a1 D D D Ausserdem ist Y natürlich G-messbar, erfüllt also die de…nierenden Eigenschaften für einen bedingten Erwartungswert von a1 X1 +Ra2 X2 gegeben G. R d) Für alle D 2 G gilt D E(X j G) dP = D X dP 0. Ist D = f E(X j G) < 0 g, so folgt P (D) = 0. Der Zusatz folgt aus Y X 0 und der Linearität c). e) Wegen E(X j G) = E(X + j G) E(X j G) folgt jE(X j G)j E(X + j G) + E(X j G) = E X + + X j G = (jXj j G): f) Gleichung, und sei D0 2 G 0 . Dann R Sei wiederRY die rechte SeiteRder behaupteten gilt D0 Y dP = D0 E(X j G) dP = D0 X dP , da D0 2 G ist. Da Y G 0 -messbar ist, folgt die Aussage. g) Die konstante Abbildung ! 7! E(X) ist natürlich G-messbar. Für D 2 G gilt wegen der Unabhängigkeit Z Z X dP = E(1D X) = P (D)E(X) = E(X) dP: D D Für bedingte Erwartungswerte gelten die üblichen Konvergenzsätze: Satz 1.14 Seien Xn , n 2 N; und X integrierbare Zufallsgrössen und G sei eine Teil- -Algebra von F. a) Gilt Xn 0 und Xn " X f:s:; so folgt E(Xn j G) " E(X j G) f.s. b) Gilt Xn 0 und Xn ! X f.s., so gilt das Lemma von Fatou: E(X j G) c) Existiert Y 2 L1 mit jXn j lim inf E(Xn j G) f:s. n!1 Y f.s. für alle n 2 N , und Xn ! X f.s., so gilt: E(X j G) = lim E(Xn j G) f:s. n!1 Beweis. Wir beweisen nur a). b) und c) folgen dann in gleicher Weise wie das Lemma von Fatou und der Satz von Lebesgue. 11 Aus Xn Xn+1 X fast sicher für alle n 2 N folgt E(Xn j G) E(Xn+1 j G) E(X j G) fast sicher für alle n 2 N. Die Folge (E(Xn j G))n2N konvergiert also fast sicher gegen eine G-messbare Zufallsgrösse Y mit Y E(X j G). Für alle D 2 G gilt Z Z Z (E(X j G) Y ) dP = X dP Y dP D ZD ZD = X dP lim E(Xn j G) dP D n!1 Z ZD E(Xn j G) dP X dP lim = n!1 D Z ZD Xn dP = 0: X dP lim = n!1 D D Somit folgt Y = E(X j G) fast sicher. Satz 1.15 Seien X; Y 2 L1 und X Y 2 L1 . Ist Y G-messbar, so gilt E(Y X j G) = Y E(X j G) fast sicher. Beweis. Sind X 0 und Y = 1D mit D 2 G, so folgt für jedes D0 2 G Z Z Z Z Y E(X j G) dP = E(X j G) dP = X dP = 1D X dP: D0 D\D0 D\D0 D0 Somit erfüllt Y E(X j G) die de…nierenden Eigenschaften eines bedingten Erwartungswertes von Y X gegeben G, das heisst, es gilt Y E(X j G) = E(XY j G) fast sicher. Der allgemeine Fall folgt dann auf die übliche Weise mit einem montonen Klassenargument (erst für einfache Y mit der Linearität, dann für nicht negative via monotone Konvergenz und schliesslich allgemein mit Zerlegung in Positiv- und Negativteil. Wir wollen noch den wichtigen Spezialfall betrachten, wo G die von einer Zufallsgrösse Z erzeugt -Algebra ist. Wir können annehmen, dass Z Werte in einem allgemeinen messbaren Raum (S; S) annimmt. Dann schreiben wir (Z) := Z 1 (B) : B 2 S für die von Z erzeugte -Algebra. Ist X eine integrierbare Zufallsgrösse (reellwertig), so schreibt man meist E (X j Z) anstelle von E (X j (Z)) : E (X j Z) ist also eine auf de…nierte, integrierbare, (Z) messbare Zufallsgrösse. Gemäss Satz 1.2 können wir sie über S faktorisieren: Es existiert eine S-BR -messbare Abbildung, nennen wir sie ad hoc ' : S ! R, mit E (X j Z) (!) = ' (Z (!)) : Der Satz 1.2 besagt nichts über Eindeutigkeit von '; wir werden jedoch gleich sehen, dass in unserem Fall ' eindeutig bis auf P Z 1 -f.s.-Gleichheit ist. Zunächst passen wir die Gleichung (1.9) auf die spezielle Situation G = (Z) an. Eine Menge B 2 G lässt sich als Z 1 (C) mit C 2 S schreiben. Wir erhalten daher Z Z (' Z) dP = XdP; 8C 2 S: Z 1 (C) Z 12 1 (C) Die linke Seite ist wegen 1Z 1 (C) = 1C Z und dem Transformationssatz 1.1 Z Z Z (' Z) dP = (1C Z) (' Z) dP = ((1C ') Z) dP Z 1 (C) Z Z 1 = (1C ') d P Z = 'd P Z 1 : C Die Bedingung an ' ist daher Z 'd P Z C 1 = Z Z 1 (C) XdP; 8C 2 S: Man schreibt für die Abbildung s ! ' (s) meist s ! E (X j Z = s), bzw als Abbildung E (X j Z = ) ; sodass sich die Bedingung Z Z 1 XdP; 8C 2 S: E (X j Z = s) P Z (ds) = Z C 1 (C) Die Notation ist jedoch etwas tückisch und man sollte sich stets klar darüber sein, dass E (X j Z = s) nicht wirklich individuell für festes s de…niert wird, sondern die Funktion in s als Ganzes. Aus der obigen Bedingung ergibt sich sofort, dass E (X j Z = ) eindeutig bis auf P Z 1 -f.s. Gleichheit festgelegt ist, denn die Gleichung legt alle Integrale über Mengen C 2 S fest. Wenn Z eine Zufallsgrösse ist, die nur abzählbar viele Werte annimmt, mit P (Z = z) > 0 für alle z im Wertebereich von Z; so ist E (X j Z = z) einfach der elementar de…nierte bedingte Erwartungswert, d.h. der Erwartungswert von X bezüglich des Wahrscheinlichkeitsmasses A ! P (A j Z = z) ; das wegen P (Z = z) > 0 elementar de…niert ist. Der Leser möge sich das als Übungsaufgabe überlegen. Bemerkung 1.16 Manchmal ist es nützlich, bedingte Erwartungswerte auch für nicht-integrierbare Zufallsvariablen zu de…nieren. Das ist zunächst immer möglich, wenn X 0 gilt: Wir setzen Xn := min (X; n) und de…nieren E (X j G) = lim E (Xn j G) : n!1 Die Folge fE (Xn j G)g ist nach Satz 1.13 d) f.s. ansteigend. Dieser Limes kann durchaus endlich sein, auch wenn X nicht integrierbar ist, z.B. im Trivialfall G = F, für den E (X j G) = X ist. Ist X eine R-wertige Zufallsvariable, so zerlegen wir sie in Positiv- und Negativteil: X = X + X : Sind E (X + j G) und E (X j G) endliche Zufallsvariablen, so können wir E (X j G) durch E (X + j G) E (X j G) de…nieren. Wir werden in der Regel bedingte Erwartungswerte nur für integrierbare Zufallsvariablen betrachten, ausser in Fällen, wo wir explizit darauf hinweisen. Wir werden später die Jensen-Ungleichung für bedingte Erwartungswerte verwenden: 13 Lemma 1.17 Sei ' : R ! R eine konvexe Funktion, X eine integrierbare Zufallsgrösse und G eine Teil- -Algebra von F: Ist ' (X) integrierbar, so gilt ' (E (X j G)) E (' (X) j G) : (1.10) Beweis. Zu einer konvexe Funktion '; existiert eine monoton ansteigende Funktion : R ! R (die somit messbar ist), mit ' (y) ' (x) + (x) (y x) : Da X als integrierbar vorausgesetzt ist, ist E (X j G) eine endliche G-m.b. Zufallsgrösse und wir erhalten ' (X) ' (E (X j G)) + (E (X j G)) (X E (X j G)) : Anwendung des bedingten Erwartungswertes ergibt (1.10). Bemerkung 1.18 Ist ' im obigen Lemma konvex und nicht-negativ, so lässt sich E (' (X) j G) de…nieren, ohne dass die Integrierbarkeit von ' (X) vorausgesetzt wird. (1.10) gilt dann auch ohne diese Voraussetzung, was sich der Leser als Übungsaufgabe überlegen möge. 1.4 Reguläre bedingte Wahrscheinlichkeiten Dem Leser ist wahrscheinlich aufgefallen, dass wir bedingte Erwartungswerte quasi neu de…niert haben und nicht via Integrale über bedingte Wahrscheinlichkeiten. Nachdem bedingte Wahrscheinlichkeiten einmal de…niert und konstruiert sind, wäre es naheliegend, E (X j G) als Z E (X j G) = X (!) P (d! j G) festzulegen. Dies würde jedoch voraussetzen, dass A ! P (A j G) ein Wahrscheinlichkeitsmass ist. Wir haben jedoch bisher P (A j G) lediglich für festes A als G-m.b. Funktion de…niert, wobei man sich klar sein muss, dass diese Funktion nur bis auf P -f.s. Eindeutigkeit festgelegt ist. Eine naheliegende Frage ist, ob das tatsächlich eine Wahrscheinlichkeit als Funktion von A ist. Präziser ausgedrückt: Ist es möglich, für jedes A 2 F; eine G-m.b. Version von P (A j G) so zu wählen, dass für alle ! 2 die Abbildung A ! P (A j G) (!) ein Wahrscheinlichkeitsmass auf F ist? Anstelle einer Antwort zunächst die präzise De…nition. De…nition 1.19 ( ; F; P ) sei ein Wahrscheinlichkeitsraum und G sei eine Teil- -Algebra von F: Eine reguläre bedingte Wahrscheinlichkeit von P gegeben G ist ein Marko¤kern Q von ( ; G) ( ; F) mit der Eigenschaft, dass für jedes A 2 F die Abbildung 3 ! ! Q(!; A) eine Version der bedingten Wahrscheinlichkeit von A gegeben G ist, d.h. dass Z P (A \ B) = Q(!; A)P (d!) ; B 14 für alle A 2 F und alle B 2 G gilt. (Wir schreiben in Zukunft natürlich wieder P (A j G) (!) anstelle von Q(!; A) auch für eine reguläre bedingte Wahrscheinlichkeit). Unglücklicherweise existieren reguläre bedingte Wahrscheinlichkeiten nicht immer. Es gilt jedoch: Satz 1.20 Ist ein vollständiger, separabler metrischer Raum und F = B die Borel- -Algebra, das heisst die von den o¤enen Mengen in erzeugte -Algebra, so existiert für Teil- Algebra G eine reguläre bedingte Wahrscheinlichkeit. Von Interesse ist, dass reguläre bedingte Verteilungen für praktische jede Situation von Interesse existieren. Hier interessiert man sich nur für die bedingten Wahrscheinlichkeiten von Ereignissen, die durch Zufallsvariablen de…niert sind: De…nition 1.21 Sei X eine Zufallsvariable mit Werten in einem messbaren Raum (S; S) (d.h. einfach eine messbare Abbildung ( ; F) ! (S; S)) und G eine Teil- -Algebra von F. Eine reguläre bedingte Verteilung von X gegeben G ist ein Marko¤-Kern von : ( ; G) (S; S) mit der Eigenschaft, dass für jedes B 2 S die G-m.b. Funktion !! (!; B) eine Version der bedingten Wahrscheinlichkeit von fX 2 Bg gegeben G ist, d.h. dass für alle D 2 G die Gleichung Z (!; B) P (d!) = P (fX 2 Bg \ D) : D Satz 1.22 Ist S ein vollständiger separabler metrischer Raum und S die Borel- -Algebra auf S; d.h. die von den o¤enen Mengen in S erzeugte -Algebra, so existiert für jede Zufallsvariable X mit Werten in (S; S) und jede Teil- -Algebra G von F eine reguläre bedingte Verteilung von X gegeben G. Bemerkung 1.23 a) Satz 1.20 ist ein Spezialfall mit (S; S) = ( ; F) und X die identische Abbildung. b) Euklidsche Räume Rn sind vollständig und separabel und allgemeiner separable Banach- und Hilberträume. Der obige Satz lässt sich deshalb auf die üblichen Zufallsvariablen anwenden. Der Beweis soll hier nicht ausgeführt werden. Für eine ausführliche Diskussion, siehe [2], § 44. Zum Schluss schauen wir uns noch den am Ende des Abschnitts 1.3 diskutierten Spezialfall an, wo G die von einer Zufallsvariablen erzeugte -Algebra ist: G = (Z) ; wobei Z eine messbare Abbildung ( ; F) ! (S 0 ; S 0 ). 15 De…nition 1.24 Eine reguläre bedingte Verteilung von X gegeben die Werte von Z ist in diesem Fall ein Marko¤-Kern (S 0 ; S 0 ) (S; S) meist geschrieben als s0 ; B 7 ! P X 2 B j Z = s0 ; mit der Eigenschaft, dass Z P X 2 B j Z = s0 P Z 1 D ds0 = P (X 2 B; Z 2 D) für alle Mengen D 2 S 0 gilt. Zwei Spezialfälle: 1. Nimmt Z nur abzählbar viele Werte an mit P (Z = s0 ) > 0 für alle s0 2 S 0 ; so ist P X 2 A j Z = s0 = P (X 2 A; Z = s0 ) : P (Z = s0 ) 2. Sei (S 0 ; S 0 ) = (S; S) = (R; B) und (X; Y ) habe die gemeinsame Dichte f : R2 ! R+ bezüglich des 2-dimensionalen Lebesgue-Masses. Sie f2 die zweite Randdichte: Z f2 (z) = f (x; z) dx Wir de…nieren f (x j z) = ( f (x;z) f2 (z) 0 falls f2 (z) 6= 0 : falls f2 (z) = 0 Dann ist f (x j z) die Dichte der bedingten Verteilung Z P (X 2 A j Z = z) = f (x j z) dx A 1.5 Anhang: Ergänzungen zu Unabhängigkeit Es sei ( ; F; P ) ein Wahrscheinlichkeitsraum. Im folgenden wird von Familien von Teilmengen von stets stillschweigend vorausgesetzt, dass sie enthalten. De…nition 1.25 a) Teilmengen E1 ; : : : ; En von F (mit 2 Ei !) heissen unabhängig, wenn für Ai 2 Ei , 1 i n, die folgende Gleichung gilt: P (A1 \ \ An ) = P (A1 ) P (An ): (1.11) b) Seien eine Indexmenge I und Ei für i 2 I Teilmengen von F. Sie heissen unabhängig, wenn je endlich viele unabhängig sind. 16 c) Ereignisse Ai für i 2 I heissen unabhängig, wenn die Mengensysteme fAi ; g, i 2 I, unabhängig sind. d) Zufallsvariablen Xi ; i 2 I; die auf ( ; F; P ) de…niert sind, heissen unabhängig falls die (Xi ) ; i 2 I; unabhängig sind. (Die Xi können Werte in beliebigen messbaren Räumen (Si ; Si ) annehmen, sie müssen jedoch auf demselben Wahrscheinlichkeitsraum ( ; F; P ) de…niert sein, damit die De…nition Sinn macht). Notation: Für zwei unabhängige Teilmengen E1 , E2 von F schreiben wir E1 ? E2 . Die Voraussetzung, dass die Mengensysteme stets enthalten, dient nur der bequemen Notation. Dies hat nämlich zur Folge, dass für unabhängige Mengensysteme E1 ; : : : ; En auch stets k Y \ Aik ) = P (Aij ) (1.12) P (Ai1 \ j=1 für fi1 ; : : : ; ik g f1; : : : ; ng und Aij 2 Eij ist. Setzt man 2 Ei nicht voraus, so muss man (1.12) als De…nition verwenden, was o¤ensichtlich stets einen grösseren Schreibaufwand erfordert. Lemma 1.26 a) Sind die Ei für i 2 I unabhängig und gilt Di unabhängig. S b) Gilt D ? Ei für i 2 I, so gilt D ? i2I Ei . Ei für i 2 I, so sind die Di für i 2 I Beweis. a) ist klar. S b) Für A 2 D und B 2 i2I Ei existiert ein i 2 I mit B 2 Ei , das heisst, dass P (A \ B) = P (A)P (B) gilt. Wir diskutieren nun einige Möglichkeiten, Unabhängigkeitsaussagen von Mengensystemen auf grössere Mengensysteme hochzuziehen. Satz 1.27 Es seien Di für i 2 I unabhängige Teilmengen von F (stets durchschnittstabil, so sind die (Di ) für i 2 I unabhängig. 2 Di ). Sind die Di Beweis. Es genügt den Satz zu zeigen, wenn I endlich ist. Sei etwa I = f1; : : : ; ng. Wir müssen (1.11) für Ai 2 (Di ) nachweisen. Für 0 k n sei Lk die folgende Aussage: P (A1 \ \ An ) = P (A1 ) P (An ); 8Ai 2 (Di ) f u •r i k; 8Ai 2 Di f u •r i > k: Die Aussage L0 gilt wegen der Unabhängigkeit der Di . Ln ist die behauptete Unabhängigkeit der (Di ). Wir zeigen Lk ) Lk+1 für 0 k n 1. Damit folgt dann Ln : Wir betrachten dazu das Mengensystem Ak+1 bestehend aus den Mengen Ak+1 2 (Dk+1 ); die die Eigenschaft haben, dass die Gleichung (1.11) für 8A1 2 (D1 ); : : : ; 8Ak 2 (Dk ); 8Ak+2 2 Dk+2 ; : : : ; 8An 2 Dn gilt Aus Lk folgt Ak+1 Dk+1 . Wir zeigen, dass Ak+1 ein Dynkin-System ist. 17 1. 2 Ak+1 gilt wegen 2 Dk+1 . 2. Für D 2 Ak+1 gilt 0 1 0 1 k n k n \ \ \ \ P@ Aj \ D c \ Aj A = P @ Aj \ Aj A j=1 j=k+2 = Y j=1 P (Aj ) j=k+2 P (D) j:j6=k = Y Y 0 P@ k \ j=1 Aj \ D \ P (Aj ) n \ j=k+2 Aj A j:j6=k P (Aj ) P (Dc ): j:j6=k für alle Ai gemäss den obigen Bedingungen, das heisst Dc 2 Ak+1 . S 3. Für paarweise disjunkte Di 2 Ak+1 , i 2 N, folgt analog 1 i=1 Di 2 Ak+1 . Nach dem Hauptsatz über Dynkin-Systeme folgt Ak+1 = (Dk+1 ), das heisst, dass Lk+1 gilt. Bemerkung 1.28 Da das Mengensystem fA; g durchschnittstabil ist, folgt, wenn die Ereignisse Ai für i 2 I unabhängig sind, dass auch die -Algebren f;; Ai ; Aci ; g unabhängig sind; insbesondere dann auch die Komplemente Aci . Korollar 1.29 Es seien Di F für i 2 I unabhängig und durchschnittstabil. Es sei S(Ik )k2K eine Familie von paarweise disjunkten Teilmengen von I. Dann sind die ( j2Ik Dj ) für k 2 K unabhängig. ^ k die Familie der endlichen Durchschnitte von Elementen aus Beweis. Für k 2 K sei D ^ k ist o¤enbar durchschnittstabil, und da die Dj Dj für j 2 Ik . Das Mengensystem D ^ k die Gestalt Aj \ durchschnittstabil sind, hat jedes Element aus D \ Ajn mit n 2 N, 1 ^ k für k 2 K Aj 2 Dj und verschiedenen j1 ; : : : ; jn 2 Ik . Daraus folgt sofort, dass die D S ^ k Dj für alle j 2 Ik ist, gilt ( ^ unabhängig sind. Da D j2Ik Dj ) = (Dk ). Das Korollar folgt nun aus Satz 1.27. Als Folgerung ergibt sich das folgende Resultat: Satz 1.30 (Kolmogoro¤s 0-1-Gesetz) Sei fFn gn2N eine Folge von unabhängigen Teil- -Algebren Fn von F. Seien Fn := W1 T1 k=n Fk und T1 = n=1 Fn . Für A 2 T1 gilt P (A) 2 f0; 1g. Notation: Für schreiben wir W S eine Familie fFi gi2I von -Algebren auf einer Menge i2I Fi . Zur Erinnerung: Die Vereinigung von -Algebren ist in der Regel i2I Fi für keine -Algebra, aber der Durchschnitt von -Algebren ist stets eine -Algebra. T1 heisst die -Algebra der terminalen Ereignisse der Folge fFn gn2N oder auch terminale -Algebra der Fn . 18 1 Wn Beweis. Nach Korollar 1.29 gilt F ? n+1 k=1 Fk , also nach Lemma 1.26 Wn S1 a): WnT1 ? k=1 Fk für alle n 2 N. Somit gilt nach Teil b) desselben Lemmas T1 ? n=1 k=1 Fk . Da die rechte Seite als Vereinigung einer aufsteigenden Folge von -Algebren durchschnittstabil ist, folgt nach Satz 1.27 ! 1 _ n 1 [ _ T1 ? Fk = Fn : n=1 k=1 n=1 W1 W1 Nun ist aber Fn k=1 Fk für alle n 2 N, also auch T1 n=1 Fn . Nach Lemma 1.26 folgt also T1 ? T1 , das heisst, für A 2 T1 gilt P (A) = P (A \ A) = P (A)2 , das heisst P (A) 2 f0; 1g. 19 2 2.1 Marko¤-Ketten Grundlegende Begri¤e Marko¤-Ketten kann man anschaulich wie folgt beschreiben: Ein Teilchen bewegt sich in diskreter Zeit auf einer höchstens abzählbaren Menge I. Be…ndet es sich auf einem Platz i 2 I, so wechselt es mit gewissen Wahrscheinlichkeiten (die von i abhängen) zu einem anderen Platz j 2 I. Diese Übergangswahrscheinlichkeiten hängen aber nicht weiter von der Vorgeschichte ab, das heisst vom Weg, auf dem das Teilchen zum Platz i gekommen ist. Die Elemente in I nennen wir auch die “Zustände”, in denen sich die Kette be…nden kann. De…nition 2.1 Es sei I eine nichtleere, höchstens abzählbare Menge. Eine Matrix = (pij )i;j2I heisst P stochastische Matrix, wenn pij 2 [0; 1] für alle i; j 2 I und j2I pij = 1 für alle i 2 I gelten. Die Komponenten pij nennt man die Übergangswahrscheinlichkeiten. De…nition 2.2 Sei ein stochastische Matrix. Eine endlich oder unendlich lange Folge X0 ; X1 ; X2 ; : : : I-wertiger Zufallsgrössen (de…niert auf einem Wahrscheinlichkeitsraum ( ; F; P )) heisst (zeitlich homogene) Marko¤-Kette mit stochastischer Matrix , wenn für alle n 0 und alle i0 ; i1 ; : : : ; in ; in+1 2 I; die P (X0 = i0 ; : : : ; Xn = in ) > 0 erfüllen, die Gleichung P ( Xn+1 = in+1 j X0 = i0 ; X1 = i1 ; : : : ; Xn = in ) = pin in+1 gilt. Die Startverteilung i 2 I. (2.1) einer Marko¤-Kette ist de…niert durch (i) = P (X0 = i), Notationen: Manchmal will man die Startverteilung betonen und schreibt P wenn diese ist. Für den Fall = i schreiben wir einfach Pi . Für die (unendlich lange) Folge (X0 ; X1 ; : : :) schreiben wir oft X. Aus der De…nition folgt sofort P (X0 = i0 ; X1 = i1 ; : : : ; Xn = in ) = (i0 ) pi0 ;i1 pi1 ;i2 pin 1 ;in (2.2) : (siehe Skript Stochastik I, Formel (58)). Umgekehrt, wenn diese Gleichung für alle n 2 N0 ; i0 ; : : : ; in 2 I gilt, so ist fXn g eine Marko¤-Kette mit stochastischer Matrix und Startverteilung : Die Gleichung (2.1) ergibt sich sofort aus (2.2) und der (elementaren) De…nition der bedingten Wahrscheinlichkeit, Man kann die gesamte unendlich lange Folge X = (X0 ; X1 ; X2 ; : : :) als Abbildung ! I N0 au¤assen. Diese ist messbar wenn I N0 mit der Produkt- -Algebra der P (I) versehen wird (was nicht die Potenzmenge von I N0 ist). Diese Produkt- -Algebra bezeichnen wir mit P (I) N0 : Wie Verteilung Q := P X 1 der Folge X ist dann ein Wahrscheinlichkeitsmass auf I N0 ; P (I) N0 : Typischerweise interessiert nur diese Verteilung und man könnte sich daher darauf beschränken, „konkrete“ Wahrscheinlichkeitsräume 20 I N0 ; P (I) N0 ; Q zu betrachten, wobei die Xn die Projektionen I N0 ! I sind. Es wird sich jedoch herausstellen, dass die Flexibilität, die man durch die Wahl allgemeinerer Wahrscheinlichkeitsräume hat, manchmal nützlich ist. Mit Fn bezeichnen wir die -Algebra (X0 ; X1 ; : : : ; Xn ) : Da I abzählbar ist, besteht Fn einfach aus den Mengen, die sich als Vereinigungen von Zylindermengen der Form f! 2 : X0 (!) = j0 ; : : : ; Xn (!) = jn g ; jk 2 I; darstellen lassen. Satz 2.3 Für jede Startverteilung ; jedes n 2 N0 und jede beschränkte messbare Funktion I N0 ! R gilt E ( ( n X) j Fn ) = EXn ( ) ; P f:s: Hier bezeichnet nX : die Folge (Xn ; Xn+1 ; : : :) Die linke Seite der obigen Gleichung ist der bedingte Erwartungswert im Sinne der Diskussion des letzten Kapitels. Die rechte Seite ist die Komposition von Xn : ! I mit der Abbildung I ! R, gegeben durch i 7 ! Ei ( ). Ei ist der Erwartungswert unter dem Wahrscheinlichkeitsmass Pi . Für den Spezialfall, dass eine Indikatorfunktion 1A ; A 2 P (I) N0 ist, ergibt sich P ( nX 2 A j Fn ) = PXn (X 2 A) : Beweis. Es genügt, die Aussage für eine Indikatorfunktion endlich vielen Komponenten abhängt, also (2.3) zu beweisen, die nur von (!) = 1f!0 =i0 ;:::;!k =ik g für ein k 2 N und i0 ; : : : ; ik 2 I: Dann steht auf der linken Seite P (Xn = i0 ; : : : ; Xn+k = ik j Fn ) um die behauptete Gleichung zu zeigen, müssen wir also nachweisen, dass für alle B 2 Fn die Gleichung Z P (B \ fXn = i0 ; : : : ; Xn+k = ik g) = PXn (X0 = i0 ; : : : ; Xk = ik ) dP B nachzuweisen. In unserer diskreten Situation genügt es, den Spezialfall B = fX0 = j0 ; : : : ; Xn = jn g zu betrachten, weil jedes B 2 Fn sich als abzählbare Vereinigung derartiger Mengen darstellen lässt. Sowohl die rechte wie die linke Seite ist gleich 0 falls nicht jn = i0 ist. Ist dies der Fall, so ist die linke Seite nach (2.2) gleich (j0 ) pj0 j1 pjn 1 i0 21 pi0 i1 pik 1 ;ik : (2.4) Die rechte Seite ist gleich P (X0 = j0 ; : : : ; Xn 1 = jn 1 ; Xn = i0 ) Pi0 (X0 = i0 ; : : : ; Xk = ik ) ; was wiederum nach (2.2) mit (2.4) übereinstimmt. Die im obigen Satz verwendete Formulierung der Marko¤-Eigenschaft lässt sich auf sehr viel allgemeinere Situationen anwenden. In dem hier betrachteten Fall ist eine „konkretere“ Version nützlich: Korollar 2.4 Seien A 2 P (I) N0 ; B I f0;:::;n 1g und i 2 I. Sofern P ((X0 ; : : : ; Xn 1 ) 2 B; Xn = i) > 0 ist, gilt P ( n X 2 A j (X0 ; : : : ; Xn 1 ) 2 B; Xn = i) = Pi (X 2 A) : Beweis. C := f(X0 ; : : : ; Xn 1 ) 2 B; Xn = ig 2 Fn . Anwendung von (2.3) ergibt: Z Z P ( n X 2 A j Fn ) dP PXn (X 2 A) dP = C C = P ( nX 2 A; C) ; die zweite Gleichung nach der de…nierenden Eigenschaft der bedingten Wahrscheinlichkeit. Die linke Seite ist Pi (X 2 A) P (C) : Division durch P (C) ergibt P ( nX 2 A j C) = P ( 2 A; C) = Pi (X 2 A) : P (C) nX Bemerkung 2.5 a) Eine stochastische Matrix de…niert einen Marko¤-Kern von I nach I (I versehen mit der -Algebra der Potenzmenge). Die Gleichung (2.1) besagt dann, dass durch die Matrix die bedingte Verteilung von Xn+1 gegeben die Werte von (X0 ; X1 ; : : : ; Xn ) im Sinne von De…nition (1.24) beschrieben wird. Die De…nition 2.2 kann sehr einfach auf eine Folge mit Werten in einem allgemeinen messbaren Raum verallgemeinert werden. Sei (S; S) ein messbarer Raum und ein Marko¤kern (S; S) (S; S) : Eine Folge X0 ; X1 ; X2 ; : : : von (S; S)-wertigen Zufallsvariablen heisst Marko¤-Kette mit Übergangskern ; wenn P ( Xn+1 2 B j (X0 ; X1 ; : : : ; Xn ) = (s0 ; s1 ; : : : ; sn )) = (sn ; A) (2.5) im Sinne von De…nition (1.24) ist. Die Startverteilung der Kette ist die Verteilung von X0 . Wir werden uns jedoch im Moment auf Ketten mit abzählbarem Wertebereich beschränken. 22 b) Eine naheliegende Frage ist, ob zu jedem Marko¤kern und zu jeder Startverteilung eine unendlich lange Marko¤-Kette im Sinne der vorherigen Bemerkung existiert, d.h. gibt es stets einen Wahrscheinlichkeitsraum ( ; F; P ) und eine (unendliche) Folge von (S; S)-wertigen Zufallsvariablen X0 ; X1 ; : : : mit = P X0 1 und (2.5) für alle n 2 N0 : Die Antwort ist ohne jede Einschränkung an (S; S) „Ja“. Beweis im Abschnitt 2.8. c) Eine Verallgemeinerung sind Marko¤-Ketten deren Übergangswahrscheinlichkeiten [n] vom „Zeitpunkt“ abhängen können. Hier betrachtet man eine Folge , n2N [n] [n] = pij ; von stochastischen Matrizen (bzw. allgemeiner stochastische Kerne) und verlangt, dass [n] P ( Xn+1 = in+1 j X0 = i0 ; X1 = i1 ; : : : ; Xn = in ) = pin in+1 gilt. Man spricht dann auch von einer zeitlich inhomogenen Marko¤-Kette. Es gibt einen einfachen Trick, wie man zeitlich inhomogene Ketten auf homo^n = gene zurückführen kann: Man betrachtet anstelle der Folge fXn g die Folge X (Xn ; n) ; die Werte in I N0 annimmt. Diese Folge ist eine Marko¤kette auf I N0 , welche die Übergangswahrscheinlichkeiten p^(i;n);(j;m) := [n] m;n+1 pij besitzt. Der Leser möge sich das als Übungsaufgabe überlegen. Der Trick ist zwar einfach, aber auch billig: In der Tat sind viele Probleme für inhomogene Ketten schwierig, und der obige Trick ist tatsächlich nicht sehr hilfreich, da entscheidende Eigenschaften durch die „Homogenisierung“ verlorengehen. Wir werden uns in dieser Vorlesung fast ausschliesslich mit homogenen Ketten beschäftigen. Eine stochastische Matrix = (pij )i;j2I kann man stets ohne Probleme potenzieren: (n) (0) Für n 2 N0 de…niert man die n-te Potenz n = (pij )i;j2I rekursiv durch pij = ij und X (n) (n+1) pij = pik pkj k2I n für alle i; j 2 I, das heisst, ist das n-fache Matrixprodukt von mit sich selbst. Aus der rekursiven De…nition folgt, dass n selbst eine stochastische Matrix ist. Es gelten die aus der linearen Algebra bekannten Rechenregeln für Matrizen, insbesondere gilt m n = m+n , das heisst X (m) (n) (m+n) pik pkj = pij ; i; j 2 I: (2.6) k2I Diese Gleichung nennt man auch die Chapman-Kolmogoro¤-Gleichungen.3 3 Es sieht etwas eigenartig aus, dass diese Gleichung die Namen von zwei bekannten Mathematikern trägt. Für Marko¤-Prozesse, die etwas allgemeiner sind als die hier vorgestellten, ist die Gleichung jedoch nicht mehr völlig trivial. 23 (n) Die Komponenten pij der Matrix wahrscheinlichkeiten. n (n) = (pij )i;j2I heissen n-stu…ge Übergangs- Lemma 2.6 Es sei X0 ; X1 ; X2 ; : : : eine Marko¤-Kette mit Startverteilung Es gilt X (n) P (Xn = j) = (i)pij und Übergangsmatrix . i2I für alle n 2 N0 und j 2 I. Ist die Startverteilung (n) Pi (Xn = j) = pij . auf i 2 I konzentriert, so gilt Beweis. Aus Satz (2.2) folgt P (Xn = j) = X i0 ;:::;in = X i0 ;:::;in P (X0 = i0 ; : : : ; Xn 1 1 2I (i0 )pi0 i1 : : : pin 1j = = in X 1; Xn = j) (n) (i)pij : i2I 1 2I Lemma 2.7 (m+n) Für alle m; n 2 N0 und i; j; k 2 I gilt pij (m) (n) pik pkj . Beweis. Dies ergibt sich sofort aus (2.6). 2.2 Beispiele von Marko¤-Ketten Beispiel 2.8 a) Irrfahrt auf Z: Es sei Y1 ; Y2 ; : : : eine Folge unabhängiger, f1; 1g-wertiger Zufallsgrössen mit P (YjP = 1) = p und P (Yj = 1) = 1 p, wobei p 2 [0; 1] ist. Sei 1. Dann ist X0 ; X1 ; : : : eine Marko¤-Kette X0 := 0 und Xn := nj=1 Yj für n auf Z. Die Übergangsmatrix = (pij )i;j2Z erfüllt pi;i+1 = p und pi;i 1 = 1 p, und die Startverteilung ist in 0 konzentriert. Für p = 1=2 ergibt sich die bekannte symmetrische Irrfahrt. b) Symmetrische Irrfahrt auf Zd : Hier ist I = Zd und p(i1 ;:::;id );(j1 ;:::;jd ) = 1=(2d), falls ji jj = 1 ist. Alle anderen Übergangswahrscheinlichkeiten müssen dann Null sein. Die zugehörige Marko¤-Kette bezeichnet man als die symmetrische Irrfahrt auf Zd : Wir können die Irrfahrt endlicher Länge auch wie folgt beschreiben: Sei N 2 N und N die Menge aller Pfade auf dem Gitter der Länge N; die in 0 beginnen, und die Sprünge nur zu benachbarten Gitterpunkten machen. O¤enbar gibt es (2d)N derartige Pfade. Unter der Gleichverteilung auf der Menge dieser Pfade ist die Folge der Positionen entlang des Pfades eine symmetrische Irrfahrt. c) Irrfahrt auf I = f0; : : : ; ng mit Absorption: 0 und n seien absorbierend, also p00 = 1 und pnn = 1. Für i 2 f1; 2; : : : ; n 1g geschehe ein Schritt nach rechts 24 mit Wahrscheinlichkeit p 2 (0; 1) und ein Schritt nach links mit Wahrscheinlichkeit q := 1 p,0also pi;i+1 = p und 1 pi;i 1 = q. Die stochastische Matrix hat somit die 1 0 0 Bq 0 C p B C B .. .. .. C Form = B C: . . . B C @ q 0 pA 0 0 1 d) Irrfahrt mit Re‡exion: Das gleiche Modell wie in Beispiel d) mit der Änderung, dass p01 = pn;n 1 = 1 sein soll. Einige interessante Beispiele können als sogenannte Urnenmodelle realisiert werden. Beispiel 2.9 a) Polyas Urnenschema: In einer Urne liegen rote und schwarze Kugeln. Eine wird zufällig gezogen und zusammen mit einer neuen Kugel der gleichen Farbe zurückgelegt. Hier ist I = f (r; s) j r; s 2 N g sowie p(r;s);(r+1;s) = r=(r + s) und p(r;s);(r;s+1) = s=(r + s) für alle r; s 2 N. Polya hatte dies als einfaches Modell für Ansteckungen vorgeschlagen. b) Ehrenfests Urnenmodell: Insgesamt n Kugeln liegen in zwei Urnen. Man wählt eine der Urnen jeweils mit Wahrscheinlichkeit proportional zur Anzahl der Kugeln in dieser Urne. Enthält die Urne 1 also k Kugeln (die Urne 2 dann n k); so wählt man die Urne 1 mit Wahrscheinlichkeit k=n und die Urne 2 mit Wahrscheinlichkeit 1 k=n: Anschliessend verschiebt man eine Kugel von der gewählten Urne in die andere. Auf diese Weise fährt man weiter. Wir können I als die Menge der möglichen Belegungen der Urne 1 nehmen, also I := f0; : : : ; ng : Der obige Zufallsvorgang lässt sich durch die stochastische Matrix pk;k 1 = k=n; pk;k+1 := 1 k=n, pk;j = 0 für j 2 = fk 1; k + 1g beschreiben. Das Beispiel ist von Ehrenfest zur Illustration irreversibler Vorgänge in der Statistischen Mechanik angegeben worden. Beginnen wir mit je gleich vielen Kugeln in beiden Urnen, so ist die Wahrscheinlichkeit 1; dass irgend wann einmal eine der Urnen leer ist. Dies werden wir später nachweisen. Ist n nicht zu klein, so muss man jedoch sehr lange darauf warten. Beginnt man umgekehrt mit allen Kugeln in einer Urne, so gelangt man sehr viel schneller zu einem Ausgleich. Zwei weitere wichtige Klassen von Beispielen sind Irrfahrten auf Graphen und Irrfahrten auf Gruppen. Ein Graph besteht aus “Knoten”und “Kanten”oder „Verbindungen“, wobei die Kanten jeweils zwei verschiedene Knoten verbinden. Wir setzen nicht voraus, dass die Menge der Knoten oder Kanten endlich ist, jedoch, dass jeder Knoten nur zu endlich vielen Kanten gehört. Einen derartigen Graphen nennt man lokal endlich. Wir schreiben einen Graphen als (K; V ) ; wobei K, die Knotenmenge, eine abzählbare Menge ist und V eine Teilmenge der Menge der zweielementigen Teilmengen von K: Sind x; y 2 K; x 6= y; so schreiben wir fx; yg 2 V; falls es eine Kante zwischen x und y gibt. 25 Die Tatsache, dass (K; V ) lokal endlich ist, besagt, dass für jedes x 2 K; die Menge der Nachbarn von x : Nx := fy 2 K : fx; yg 2 V g endlich ist. Wir setzen voraus, dass jedes x 2 K mindestens einen Nachbarn hat. Manchmal ist es bequem, sogenannte gewichtete Graphen zu betrachten. Hier ist noch eine „Gewichtsfunktion“ ' : V ! R+ gegeben. Wir setzen voraus, dass das Gewicht echt positiv auf jeder Kante ist. Beispiel 2.10 Sei (K; V; ') ein gewichteter Graph gemäss der obigen De…nition. Wir de…nieren eine Marko¤-Kette auf K. Anschaulich soll folgendes passieren: Be…ndet sich das Teilchen im Knoten x 2 K, so wählt es (sofern vorhanden) einen der Nachbarknoten aus Nx aus und springt zu diesem mit einer Wahrscheinlichkeit, die proportional zum Gewicht der Kante ist. Formal ( P '(fx;yg) fu • r y 2 Nx z2Nx '(fx;zg) px;y := : 0 fu •r y 2 = Nx Ist ' konstant, so wählt man o¤enbar unter allen Nachbarn mit gleicher Wahrscheinlichkeit aus, zu welchem man springt. Die symmetrische Irrfahrt auf Zd ein Spezialfall des Beispiels 2.10 mit K = Zd und V der Menge der Verbindungen nächster Nachbarn (und ' 1). Eine weitere Verallgemeinerung der symmetrischen Irrfahrt auf Zd sind Irrfahrten auf Gruppen. Beispiel 2.11 Es seien G eine abzählbare Gruppe mit neutralem Element 1 und sei eine beliebige Wahrscheinlichkeitsverteilung auf G. Wir de…nieren pg;h = (g 1 h) für alle g; h 2 G. Wegen der Gruppeneigenschaft ist für jedes g 2 G die Abbildung h 7! g 1 h bijektiv auf G, und es gilt X X X pg;h = (g 1 h) = (h0 ) = 1: h2G h0 2G h2G Also ist = (pg;h )g;h2G eine stochastische Matrix. Die zugehörige Marko¤-Kette heisst -Irrfahrt auf G. Die symmetrische Irrfahrt auf Zd ist wieder ein Spezialfall, denn Zd ist bezüglich der Addition eine abelsche Gruppe und die Wahrscheinlichkeitsverteilung ist in diePd jx j = 1 ist, und durch sem Fall gegeben durch ((x1 ; : : : ; xd )) = 1=(2d), falls i=1 i d ((x1 ; : : : ; xd )) = 0 für alle anderen (x1 ; : : : ; xd ) 2 Z . Irrfahrten auf nichtabelschen Gruppen spielen bei der Modellierung von Mischvorgängen eine grosse Rolle. Das Mischen von Spielkarten z.B. kann als Marko¤-Kette auf der Permutationsgruppe verstanden werden. Beispiel 2.12 Zum Schluss diskutieren wir noch kurz ein einfaches Beispiel eines sogenannten Verzweigungsprozesses, den sogenannten Galton-Watson Prozess. Damit wird eine sich 26 verändernde Population von Individuen modelliert. Mit Xn bezeichnen wir die Grösse der Population zum Zeitpunkt n: Der Übergang von Xn nach Xn+1 wir nun wie folgt beschrieben. Jedes Individuum der n-Population hinterlässt eine zufällige Anzahl von Nachkommen und stirbt selbst ab, und zwar ist die Anzahl der Nachkommen (die auch 0 sein kann) durch eine Verteilung q auf N0 gegeben. Wir nehmen weiter an, dass die Anzahlen der Nachkommen der Individuen unabhängig sind. Wir bezeichnen mit i die Anzahl der Nachkommen des Individuums i. Wir nehmen also an, dass die i unabhängige N0 -wertige Zufallsgrössen mit P ( i = k) = q (k) sind, wobei q ein Wahrscheinlichkeit auf N0 ist. Ist Xn = r; so ist Xn+1 als r X Xn+1 = i i=1 de…niert. Falls r = 0 ist, so setzt man natürlich Xn+1 = 0: Die Verteilung von Xn+1 (bei fester Populationsgrösse r zum Zeitpunkt n) ist durch das r-fache Konvolutionsprodukt von q gegeben: Xr r P (Xn+1 = s j Xn = r) = P i = s = q (s) ; i=1 r wobei die Verteilung q wie folgt de…niert ist: q 0 (s) := q r (s) := 0;s ; s X q (r 1) (j) q (s j) ; r 1: j=0 Dies folgt mit Induktion nach r aus der Unabhängigkeit der P Xr i=1 i =s = = s X j=0 s X P P j=0 = s X q Xr 1 i=1 Xr (r 1) i = j; i =j P( 1 i=1 i (j) q (s r : =s r j =s j) j) : j=0 Es ist auch klar, dass lichkeiten durch P s2N0 q r (s) = 1 gilt. Wir de…nieren daher Übergangswahrscheinprs := q r (s) : Es gilt p0;j = 0;j ; p1;j = q (j) : Die anderen Übergangswahrscheinlichkeiten sind in der Regel nicht mehr explizit berechenbar. Eine Marko¤-Kette mit dieser stochastischen Matrix nennt man Galton-Watson Kette. 0 ist, wie man sagt, ein absorbierender Zustand: Wenn die Population einmal ausgestorben ist, bleibt sie ausgestorben. Von besonderem Interesse ist die Diskussion der Aussterbewahrscheinlichkeit Pi (9n mit Xn = 0) : Wir können im Moment jedoch nicht darauf eingehen. 27 2.3 Klasseneigenschaften, Rekurrenz, Transienz Notation: Wir verwenden nachfolgend manchmal die folgende Notation: Ist fXn gn2N0 eine Marko¤-Kette und m < n; so schreiben wir X[m;n] für die Menge fXm ; Xm+1 ; : : : ; Xn g : De…nition 2.13 Es sei = (pij )i;j2I eine stochastische Matrix. Man sagt, j 2 I sei von i 2 I aus (n) erreichbar, wenn ein n 2 N0 existiert mit pij > 0. Notation: i Die Relation alle i 2 I. Falls i (m+n) und dann ist pik Die durch j. (0) auf I ist re‡exiv und transitiv. Wegen pii = 1 > 0 gilt i i für (m) (n) j und j k gelten, so gibt es m; n 2 N0 mit pij > 0 und pjk > 0, (m) (n) pij pjk > 0 nach Lemma 2.7. i j , (i j und j i) f u •r i; j 2 I (2.7) de…nierte Relation ist o¤enbar eine Äquivalenzrelation auf I. Wir werden i j für den Rest dieses Kapitels stets in diesem Sinne verwenden. Sind A; B I zwei Äquivalenzklassen der obigen Äquivalenzrelation, so sagen wir, B sei von A aus erreichbar und schreiben A B, wenn i 2 A und j 2 B existieren mit i j. O¤ensichtlich hängt dies nicht von den gewählten Repräsentanten in A und B ab. De…nition 2.14 Es sei eine stochastische Matrix. a) Eine Teilmenge I 0 von I heisst abgeschlossen, wenn keine Elemente i 2 I 0 und j 2 I n I 0 existieren mit i j. b) Die Matrix (und dann auch eine Marko¤-Kette mit stochastischer Matrix ) heisst irreduzibel, wenn je zwei Elemente aus I äquivalent gemäss der (2.7) sind. Bemerkung 2.15 Es sei = (pij )i;j2I eine stochastische Matrix. a) Ist I 0 I abgeschlossen, so ist die zu I 0 gehörige Einschränkung der stochastischen Matrix 0 := (pij )i;j2I 0 eine stochastische Matrix für I 0 . b) Ist irreduzibel, so existieren keine abgeschlossenen echten Teilmengen von I. Beispiel 2.16 a) Die symmetrische Irrfahrt auf Zd ist irreduzibel. b) Polyas Urnenschema: Keine zwei Elemente von I = f (r; s) j r; s 2 N g sind äquivalent. Es gibt aber sehr viele abgeschlossene Teilmengen von I, zum Beispiel ist für jede Wahl von r0 ; s0 2 N die Menge f (r; s) j r r0 ; s s0 g abgeschlossen. 28 c) Die Irrfahrt auf f0; : : : ; ng mit absorbierenden Rändern (Beispiel 2.8 d)) hat drei Äquivalenzklassen, nämlich f0g, f1; : : : ; n 1g und fng. Die Mengen f0g und fng sind abgeschlossen, und es gelten f1; : : : ; n 1g fng und f1; : : : ; n 1g f0g. d) Eine symmetrische Irrfahrt auf einem Graphen ist o¤enbar genau dann irreduzibel, wenn der Graph zusammenhängend ist. (Ein Graph heisst zusammenhängend, wenn je zwei Knoten über einen endlichen Zug verbunden werden können.) Für die nachfolgenden Diskussionen gehen wir stets davon aus, dass eine unendlich lange Marko¤-Kette X = fXn gn2N0 vorliegt, die auf einem Wahrscheinlichkeitsraum ( ; F; P ) de…niert ist. Wie schon angemerkt, schreiben wir Pi ; wenn wir den Startpunkt betonen wollen (oder P bei einer nicht trivialen Startverteilung). Für eine Teilmenge A I de…nieren wir TA := inf fn 1 : Xn 2 Ag (2.8) mit der Konvention inf ; = 1: TA nimmt also Werte in N := N[ f1g an. Für die nachfolgenden Diskussionen ist es wichtig, dass wir den Zeitpunkt 0 nicht in der De…nition von TA berücksichtigen. Wir schreiben Ti im Falle A = fig : Es ist o¤ensichtlich, dass TA eine messbare Abbildung ! N; N versehen mit der Potenzmenge, ist. Wir setzen für n 2 N (n) fii := Pi (Ti = n): P (n) Wegen der Möglichkeit, dass Ti = 1 ist, kann möglicherweise fii := 1 n=1 fii < 1 sein, aber natürlich gilt stets fii 1: Lemma 2.17 Es gilt die sogenannte Erneuerungsgleichung (n) pii = n X (k) (n k) fii pii ; k=1 n 2 N: (2.9) (n) Beweis. Gemäss Lemma 2.6 gilt pii = Pi (Xn = i). Aufspalten des Ereignisses fXn = ig nach dem ersten Zeitpunkt, an dem die Marko¤-Kette wieder i erreicht, ergibt nach der Marko¤ Eigenschaft (Korollar 2.4) (n) pii = n X Pi (Ti = k; Xn = i) = k=1 k=1 = n X n X Pi (Xn (k) k = i) fii = k=1 n X (k) Pi (Xn = i j Ti = k) fii (k) (n k) fii pii : k=1 De…nition 2.18 Sei eine stochastische Matrix. Ein Element i 2 I heisst rekurrent falls fii = 1 gilt, andernfalls heisst i transient. 29 Satz 2.19 P (n) i 2 I ist genau dann transient, wenn 1 n=0 pii < 1 gilt. Beweis. Aus der Erneuerungsgleichung (2.9) erhalten wir 1 X (n) pii = 1 + n=0 =1+ 1 X n=1 1 X (n) pii = 1 + 1 X n X (k) (n k) fii pii (2.10) n=1 k=1 (n) pii fii : n=0 Da alle Grössen nicht negativ sind, ist diese Gleichung in jedem Fall korrekt, sofern wir P (n) für eine divergente Reihe 1 n=0 pii = 1 setzen. (Dies sollte aus der Analysis bekannt P (n) sein). Wenn also fii = 1 ist, so folgt 1 n=0 pii = 1: Die Umkehrung folgt jedoch nicht ganz so einfach: Aus fii < 1 kann aus der obigen Gleichung nicht auf die Konvergenz P (n) von 1 n=0 pii geschlossen werden. Wir argumentieren wie folgt: Für 0 < s < 1 setzen wir 1 1 X X (n) n (n) (s) := pii s ; (s) := fii sn : n=0 n=0 Wegen s < 1 konvergieren diese Reihen und wir erhalten auf dieselbe Weise wie die Gleichung (2.10) 1 (s) = 1 + (s) (s) ; (s) = : 1 (s) Ist (1) = fii < 1, so folgt nun 1 X 1 (n) pii = lim (s) = s"1 n=0 1 fii < 1: Rekurrenz und Transienz sind Klasseneigenschaften: Satz 2.20 Es seien i; j 2 I mit i j. Dann ist i genau dann rekurrent, wenn j es ist. (M ) Beweis. Aus i j folgt, dass M 2 N0 mit pij Dann ist gemäss Lemma 2.7 (M +n+N ) pii (M +n+N ) Analog folgt pjj (M ) (n) (N ) pij pjj pji (N ) > 0 und N 2 N0 mit pji (n) = pjj mit (n) pii . Somit gilt 1 X n=0 (n) pii < 1 , Die Behauptung folgt nun aus Satz 2.19. 30 1 X n=0 (n) (M ) (N ) := pij pji pjj < 1: > 0: > 0 existieren. (n) Wir verallgemeinern die De…nition von fii und setzen für i; j 2 I : (n) fij := Pi (Tj = n) ; n und fij := 1 X n=1 1; (n) fij = lim Pi (Tj < 1) Lemma 2.21 Seien i; j 2 I. Dann gilt (n) pij 1: N !1 = n X (k) (n k) fij pjj : k=1 (n) Beweis. Für alle i 2 I und n 2 N gilt pij = Pi (Xn = j), und analog zum Beweis von Lemma 2.17 folgt (n) pij = = n X k=1 n X k=1 = n X k=1 Pi (j 2 = X[1;k 1] ; Xk = j; Xn = j) Pi (Xn = j j j 2 = X[1;k 1] ; (k) Xk = j)fij (k) Pi (Xn = j j Xk = j)fij = n X (k) (n k) fij pjj : k=1 Aus dem Lemma ergibt sich 1 X (n) pij = n=1 1 X n X (k) (n k) fij pjj n=1 k=1 = 1 X (k) fij k=1 1 X (n k) pjj n=k = fij 1 X (n) pjj ; n=0 und daher Korollar 2.22 Sind i; j 2 I und ist j transient so gilt 1 X n=1 (n) pij < 1: Wie wir gesehen haben, sind Rekurrenz und Transienz Klasseneigenschaften bezüglich unserer Äquivalenzrelation : Wir sprechen daher auf von rekurrenten bzw. transienten Klassen. Wir zeigen nun, dass Klassen, die nicht abgeschlossen sind, transient sein müssen. Abgeschlossene Klassen können sowohl rekurrent wie transient sein. Lemma 2.23 Es seien i; j 2 I mit i rekurrent. j. Ist i rekurrent, so gilt auch j 31 i, und j ist dann ebenfalls (N ) Beweis. Wir können i 6= j annehmen. Sei N 2 N die kleinste Zahl mit pij > 0. Wir wollen ein Widerspruchsbeweis führen und nehmen dafür an, dass i nicht von j (n) aus erreichbar ist, also dass pji = 0 für alle n 2 N0 gilt. Für alle n > N gilt dann (N ) (n N ) Pi (XN = j; Xn = i) = pij pji i) = (n) (N n) pii pij = 0. Für alle n 2 f1; 2; : : : ; N g gilt Pi (XN = j; Xn = (N ) = 0, da N de…nitionsgemäss die kleinste Zahl mit pij > 0 ist. 1 = fii = Pi (Ti < 1) = Pi (Ti < 1; XN = j) + Pi (Ti < 1; XN 6= j) Pi (Ti < 1; XN = j) + Pi (XN 6= j) = Pi (Ti < 1; XN = j) + 1 Nun gilt 1 X Pi (Ti < 1; XN = j) Pi (Xn = i; XN = j) = 0: n=1 Somit folgt 1 (N ) pij : 1 (N ) pij < 1; ein Widerspruch. Korollar 2.24 Rekurrente Äquivalenzklassen sind abgeschlossen. Transiente Klassen können abgeschlossen sein, brauchen es aber nicht. Ein Beispiel mit einer transienten, nicht abgeschlossenen Klasse ist die Galton-Watson-Kette (Beispiel 2.12). 0 2 I = N0 ist, wie man sagt, absorbierend, das heisst, es gilt p00 = 1. Folglich ist f0g eine Klasse für sich, die natürlich rekurrent ist. Ist q (0) > 0, so gilt o¤ensichtlich pj0 = q (0)j > 0 für jedes j 2 N, und daher j 0. Somit ist jedes j 2 N transient. Man überlegt sich leicht, dass, wenn zum Beispiel q (0), q (1), q (2) > 0 gilt, die Menge N eine einzige transiente, nicht abgeschlossene Klasse ist. Aus Korollar 2.24 und der Bemerkung 2.15 a) folgt, dass die Einschränkung einer stochastischen Matrix auf eine rekurrente Klasse wieder eine stochastische Matrix ist, die dann natürlich irreduzibel ist. Die einzelnen rekurrenten Klassen lassen sich daher getrennt diskutieren. Lemma 2.25 Sind i und j in derselben rekurrenten Klasse, so gilt fij = fji = 1. Beweis. Wir müssen nur noch i 6= j diskutieren. Sei N 2 N0 die kleinste Zahl mit (N ) pji > 0. Wegen Pj (Tj < 1) = 1 folgt (N ) pji = Pj (Tj < 1; XN = i) = Pj (Tj < N; XN = i) + Pj (N < Tj < 1; XN = i): 32 Genau gleich wie im Beweis von Lemma 2.23 folgt, dass der erste Summand = 0 ist. Ferner gilt nach der Marko¤-Eigenschaft Pj (N < Tj < 1; XN = i) = Pj (XN = i; Xk 6= j f u •r k Pj (XN = i) fij = also (N ) (N ) pji fij : N ) Pi (Tj < 1) (N ) pji pji fij : Daraus ergibt sich fij = 1: Eine weitere wichtige Klasseneigenschaft ist die Periodizität: De…nition 2.26 Sei eine stochastische Matrix und i 2 I: Die Periode di von i ist de…niert durch n di := ggT n o (n) 1 : pii > 0 ; wobei wir ggT (;) := 1 setzen. i heisst aperiodisch, wenn di = 1 ist. Lemma 2.27 (nd ) a) Ist di < 1; so existiert n0 2 N; sodass pii i > 0 für alle n b) Für i n0 gilt. j gilt di = dj : Beweis. Stochastik I, Lemma 7.7 Wir werden uns hier nicht sehr ausführlich mit Periodizität beschäftigen. Jede irreduzible Kette, für die ein i 2 I existiert mit pii > 0; ist aperiodisch. In der Regel müssen Sätze, die für aperiodische Ketten gelten, für periodische etwas modi…ziert werden. Das Standardbeispiel für eine nicht aperiodische Kette, ist die symmetrische Irrfahrt auf Zd ; die o¤ensichtlich Periode 2 hat. Hier noch einige Beispiele von rekurrenten Ketten. Proposition 2.28 Endliche irreduzible Ketten sind rekurrent. P (n) Beweis. I sei endlich. Wegen j pij = 1 folgt, dass für jedes i ein j existiert mit P (n) P (n) n pij = 1: Aus Lemma 2.21 folgt n pjj = 1: Irreduzible Ketten mit unendlichem I brauchen nicht rekurrent zu sein. Eines der bekanntesten und wichtigsten Beispiele sind Irrfahrten auf Zd : Diese ist natürlich irreduzibel (aber hat Periode 2): Satz 2.29 Die symmetrische Irrfahrt auf Zd (Beispiel 2.8 c)) ist rekurrent für d = 1; 2 und transient für d 3: 33 Beweis. Die Rekurrenz für d = 1 ist einfach zu zeigen als für d = 2. Wir untersuchen also zunächst d = 2: Um die Rekurrenz zu zeigen, müssen wir nachweisen, dass 1 X (2n) p00 = n=0 1 X n=0 P0 (X2n = 0) = 1 (2.11) ist. Nun haben alle Pfade der Länge 2n dieselbe Wahrscheinlichkeit 4 2n : Um P0 (X2n = 0) zu berechnen, müssen wir dies mit der Anzahl aller Pfade, die nach 2n Schritten in 0 sind, multiplizieren. Sind 2k Schritte in “Ost-West-Richtung”, so sind 2n 2k Schritte in “Nord-Süd-Richtung”. Von den 2k Ost-West-Schritten mussen k nach “Ost” und ebensoviele nach “West”gehen und analog müssen sich die Nord-Süd-Schritte aufteilen, damit der Pfad nach den 2n Schritten wieder im 0-Punkt ist. Somit ist die Anzahl der Pfade, die wieder nach 0 gelangen, durch n X 2n 2k 2k k k=0 2n n 2k k = n X (2n)! = (k! (n k)!)2 k=0 2 2n n (2.12) gegeben. Der erste Faktor auf der linken Seite kommt von der Auswahl der 2k Ost– West-Schritte aus allen 2n Schritten, der zweite von der Auswahl der k Ost-Schritte aus den 2k Ost-West Schritten, und der letzte Faktor analog für die Nord-Süd Schritte. Die zweite Gleichung sei dem Leser als Übungsaufgabe überlassen. Wir erhalten also P0 (X2n = 0) = 4 n 2n n 2 = 2 n 2n n 2 : Nach der Sterling-Formel ist 2 2n 2n n =2 2n (2n)! 2 (n!) 2 2n (2n=e) 2n (n=e) 2n p 4 n 1 = : n 2 n (Hier bedeutet an bn für zwei Folgen positiver Zahlen (an ) und (bn ) : limn!1 an =bn = 1:) Daraus folgt (2.11). Wir diskutieren nun den Fall d = 3: Der Fall d > 3 kann leicht darauf zurückgeführt werden. Analog wie oben ergibt sich P0 (X2n = 0) = 6 X 2n 0 k1 ;k2 ;k3 k1 +k2 +k3 =n (2n)! =2 (k1 !k2 !k3 !)2 2n 2n n X 0 k1 ;k2 ;k3 k1 +k2 +k3 =n n! k1 !k2 !k3 ! 2 3 2n : Leider gibt es für die rechte Seite keine so einfach Formel mehr wie (2.12), sodass wir etwas mehr arbeiten müssen. X 0 k1 ;k2 ;k3 k1 +k2 +k3 =n n! k1 !k2 !k3 ! 2 max 3 n n! : k1 + k2 + k3 = n k1 !k2 !k3 ! 34 X 0 k1 ;k2 ;k3 k1 +k2 +k3 =n n! 3 k1 !k2 !k3 ! n : Nun ist die Summe auf der rechten Seite einfach 1; denn k1 !kn!2 !k3 ! 3 n ist die Wahrscheinlichkeit, dass eine Münze, die mit gleicher Wahrscheinlichkeit auf Kopf, Zahl oder Kante fällt, k1 Kopfwürfe, k2 Zahlwürfe und k3 Kantenwürfe in n Würfen hat. Ist n durch 3 teilbar, n = 3m; so ist für k1 + k2 + k3 = 3m : (3m)! k1 !k2 !k3 ! (3m)! ; (m!)3 was man mit einer elementaren Abschätzung nachprüfen kann. Mit Hilfe der StirlingFormel erhalten wir: p 3m 1 6 m 3m (3m)! 3m (3m=e) 3 3 = ; 3 3m 3=2 6 m (m!) (m=e) (6 m) also p P0 (X6m = 0) 1 1 = const m 3 m6 m 3=2 : Nun ist o¤ensichtlich (6m) p00 1 6 2 (6m 2) p00 ; (6m) p00 1 6 4 (6m 4) p00 und somit folgt 1 X n=0 2.4 (n) p00 = 1 X (2n) p00 1 + const n=0 1 X m=1 m 3=2 < 1: Stoppzeiten, starke Marko¤-Eigenschaft Stoppzeiten sind zufällige “Zeiten”, die “nicht in die Zukunft” blicken können. Formal ist eine Stoppzeit eine Zufallsgrösse T , die auf de…niert ist und Werte in N0 [ f1g annimmt. Es ist bequem, auch den Wert 1 zuzulassen. Das Ereignis fT = 1g bedeutet dann einfach, dass T nie eintritt. Wir müssen nun noch formulieren, was es heissen soll, dass T “nicht in die Zukunft” blickt. Wie früher de…nieren wir Fn := (X0 ; : : : ; Xn ) : O¤ensichtlicherweise gilt Fn Fn+1 für alle n 0: Man nennt fFn gn2N0 auch eine Filtrierung. De…nition 2.30 Eine Abbildung T : ! N0 [ f1g heisst Stoppzeit, wenn für jedes n 2 N0 fT = ng 2 Fn gilt. Beispiel 2.31 Die Ersteintrittszeiten gemäss (2.8) sind Stoppzeiten. Siehe Stochastik I. 35 Wir verwenden weiter unten eine bequeme Notation: Ist m < n; m; n 2 N0 , so schreiben wir [m; n] := fm; m + 1; : : : ; ng für das diskrete Intervall und X[m;n] I für fXn ; Xn+1 ; : : : ; Xm g. Mit dieser Schreibweise erhalten wir fTA ng = X[1;n] \ A 6= ; : Da der Zeitpunkt 0 eine etwas besondere Rolle spielt, lässt man ihn in der De…nition von TA weg. Für den Fall, dass man ihn einschliessen will, schreiben wir SA anstelle von TA : SA := inf fn 0 : Xn 2 Ag : Sowohl SA wie TA sind o¤ensichtlich Stoppzeiten. Für i 2 A gilt natürlich Pi (SA = 0) = 1: Ferner gilt für i 2 = A die Gleichung Pi (TA = SA ) = 1: Lemma 2.32 Für n 2 N0 gilt Pi (TA n + 1) = X pij Pj (SA n) : j2I Beweis. Pi (TA n + 1) = X Pi (X1 = j; TA n + 1) j = X j = X j pij Pi X[1;n+1] \ A 6= ; j X1 = j pij Pj X[0;n] \ A 6= ; = X pij Pj (SA n) j Die Funktion hA : I ! [0; 1] de…niert durch hA (i) := Pi (SA < 1) spielt in der Theorie der Marko¤-Ketten eine grosse Rolle. Satz 2.33 a) b) Für i 2 = A gilt hA (i) = 1; f u •r i 2 A: (2.13) X (2.14) hA (i) = pij hA (j) : j2I c) hA ist die kleinste nicht negative Funktion, die a) und b) erfüllt, d.h. für jede Funktion g : I ! R+ ; die a) und b) erfüllt gilt hA (i) g (i) für alle i 2 I: 36 Beweis. a) ist trivial. Wir beweisen b): Sei also i 2 = A: Pi (SA < 1) = lim Pi (1 SA N) : SA N) N !1 Pi (1 SA N) = X Pi (X1 = j; 1 j2I = X Pi (X1 = j) Pi (1 SA N j X1 = j) j2I = X pij Pj (0 SA N 1) : j2I Mit N ! 1 folgt hA (i) = X pij lim Pj (SA j2I N !1 N) = X pij hA (j) : j2I Bei der Vertauschung der Limiten haben wir verwendet, dass Pj (SA N ) für N ! 1 monoton ansteigend gegen hA (j) konvergiert. Beweis von c): Sei g eine andere (positive) Lösung von (2.13) und (2.14). Wir zeigen mit Induktion nach n; dass g (i) Pi (SA n) f u •r alle i gilt. Für n = 0 ist das o¤ensichtlich. Sei i 2 = A: Dann ist X X g (i) = pij g (j) pij Pj (SA n) = Pi (TA j2I (2.15) n + 1) ; j die Ungleichung nach Induktionsvoraussetzung und die letzte Gleichung nach Lemma 2.32. Für i 2 = A ist jedoch Pi (TA n + 1) = Pi (SA n + 1) : Damit ist (2.15) gezeigt. Aus dieser Ungleichung folgt mit Limesübergang n ! 1 die Behauptung. Wir kommen nun zur Formulierung der sogenannten starken Marko¤-Eigenschaft. Sie besagt im wesentlichen, dass die Marko¤-Kette X0 ; X1 ; : : : nach einer Stoppzeit T betrachtet: XT ; XT +1 ; : : : ; wieder eine Marko¤-Kette mit derselben stochastischen Matrix ist, und dass ferner XT ; XT +1 ; : : : unabhängig von der “Vergangenheit vor T ” ist. De…nition 2.34 Wir nennen ein Ereignis A ein Prä-T -Ereignis, falls A \ fT = ng 2 Fn für jedes n 2 N0 gilt. Die Menge aller Prä-T -Ereignisse bezeichnen wir mit FT : Für die Formulierung der starken Marko¤-Eigensschaft müssen wir XT als I-wertige Zufallsgrösse de…nieren. Man setzt einfach XT (!) := XT (!) (!) : Es gibt jedoch eine kleine Schwierigkeit: Wir hatten nicht ausgeschlossen, dass T = 1 (mit positiver Wahrscheinlichkeit) ist. Für ein ! 2 mit T (!) = 1 ist XT (!) nicht de…niert. XT ist also ein Abbildung T := f! 2 ; T (!) < 1g ! I: Man prüft sehr einfach nach, dass T 2 FT 37 gilt. Ferner ist XT , eingeschränkt auf T ; FT -messbar. Wir de…nieren auch den Verschiebungsoperator T auf der Folge X: ( T X) (!) Dies ist natürlich auch nur auf = XT (!) (!) ; XT (!)+1 (!) ; : : : : T de…niert. Satz 2.35 Sei X eine Marko¤-Kette und T sei eine Stoppzeit. Dann gilt für jede beschränkte messbare Funktion auf I N0 und für jede Startverteilung E ( ( T X) 1 T j FT ) = 1 T EXT ( ) ; P -f.s. Beweis. Die rechte Seite ist o¤ensichtlich FT -m.b. Wir müssen daher nachweisen, dass für A 2 FT die Gleichung Z Z ( T X) 1 T dP : 1 T EXT ( ) dP = A A Die Gleichung stimmt o¤ensichtlich nach 2.3, falls A durch A \ fT = ng ersetzt wird, denn A \ fT = ng 2 Fn nach der De…nition von FT . Summation über n 2 N0 ergibt die gewünschte Gleichung. Wir geben eine typische Anwendung der starken Marko¤-Eigenschaft. Wir betrachten eine Irrfahrt auf N0 mit 0 als absorbierenden Rand. Es sei also pi;i+1 := p; pi;i 1 := 1 p für i 1 und p00 = 1: Alle anderen pij sind gleich 0: Ist p 2 (0; 1) ; so hat diese Irrfahrt zwei Klassen: f0g und N: 0 ist natürlich rekurrent. Wegen N f0g ist N auf jeden Fall transient. Wir wollen die sogenannte “Ruinwahrscheinlichkeiten” h (i) := Pi (T0 < 1) untersuchen. Man kann sich i 2 N etwa als das Kapital eines Spielers oder einer Firma vorstellen, das zufälligen Fluktuationen unterliegt. Falls das Kapital auf 0 fällt, ist der Betre¤ende ruiniert4 . Wir wir aus Satz 2.33 wissen, erfüllt h die Gleichung h (i) = ph (i + 1) + (1 p) h (i 1) ; i 1; (2.16) mit der Anfangsbedingung h (0) = 1: Dieses Gleichungssystem legt h nicht eindeutig fest, z.B. ist h 1 stets eine Lösung, die aber nicht in jedem Fall die richtige ist, wie wir gleich sehen werden. Wenn wir jedoch noch h (1) kennen, so können wir die anderen Werte alle bestimmen, denn dann können wir h (i + 1) aus h (i) und h (i 1) bestimmen. Die Gleichung (2.16) mit der Anfangsbedingung h (0) = 1 hat für p 6= 1 p, d.h. p 6= 1=2, die allgemeine Lösung h (i) = A + (1 A) 4 1 p p i : Der Begri¤ „Ruinwahrscheinlichkeit“ hat nur historische Bedeutung. Heute geht man nach einer Pleite zur Bank oder zum Bund und bescha¤t sich neues Geld. 38 mit einer Konstanten A 2 R. Für p = 1=2 ist die Lösung h (i) = 1 + Bi mit einer Konstanten B: (Der Beweis dieser Aussagen sei dem Leser als Übungsaufgabe über reelle Zahlenfolgen überlassen). Dieser Fall p = 1=2 ist einfach: Die h (i) sind alle in [0; 1]. Demzufolge ist B = 1 die einzige Möglichkeit und es folgt h (i) = 1; 8i. Der Fall p 6= 1=2 ist etwas komplizierter. Die Gleichung (2.16) ergibt für i = 1 : h (1) = ph (2) + 1 p: Startet die Kette in 2; so betrachten wir T1 ; die erste Eintrittszeit in den Zustand 1: Da für die Kette, die in 2 startet der Ersteintritt nach 0 erst nach dem in 1 kommen kann, so gilt sicher fT0 < 1g fT1 < 1g : Wir wenden die starke Marko¤-Eigenschaft auf die Stoppzeit T1 und das Ereignis fT0 < 1g an. P2 (T0 < 1 j FT1 ) = 1fT1 <1g PXT1 (T0 < 1) = 1fT1 <1g P1 (T0 < 1) : Integration über ergibt: P2 (T0 < 1) = P2 (T1 < 1) P1 (T0 < 1) : O¤ensichtlich ist jedoch P2 (T1 < 1) = P1 (T0 < 1) = h (1) : Setzen wir x := h (1) ; so erhalten wir also die Gleichung x = px2 + 1 p: x = 1 ist eine Lösung, die andere ist (1 p) =p: A bestimmt sich aus x = h (1) = A+(1 A) (1 p) =p; d.h. A = (1 p px) = (1 2p) : Für x = 1 erhalten wir die Lösung h 1 und für x = (1 p) =p ist A = 0; d.h. die Lösung ist h (i) = ((1 p) =p)i : Für p < 1=2 ist die zweite Lösung > 1 für i 1 und kommt daher für unser Problem nicht in Betracht. Daher ist für h (i) = 1; 8i für p < 1=2: Für p > 1=2 fällt die zweite Lösung ab und da h nach Satz 2.33 die minimale Lösung von (2.16) folgt in diesem Fall, dass die zweite Lösung die richtige ist. Wir fassen die Überlegungen zusammen: Proposition 2.36 In der obigen Situation gilt a) Für p 1=2 giltPi (T0 < 1) = 1; 8i: b) Für p > 1=2 gilt Pi (T0 < 1) = 39 1 p p i ; 8i: 2.5 Invariante Masse De…nition 2.37 Ein Mass auf I, das nicht identisch 0 ist, heisst P invariantes Mass bezüglich der stochastischen Matrix = (pij )i;j2I , wenn (j) = i2I (i)pij für alle j 2 I gilt. Bemerkung 2.38 P Ist ein invariantes Mass endlich, d.h. gilt i (i) < 1; so lässt es sich zu einem Wahrscheinlichkeitsmass normieren (i) : j (j) (i) = P ist dann ebenfalls invariant. Ein invariantes Wahrscheinlichkeitsmass nennen wir auch eine invariante Verteilung. Bemerkung 2.39 Ist ein invariantes Mass, so gilt natürlich X (n) (j) = (i)pij i2I für alle n 2 N0 : Ist irreduzibel und ein 0invariantes Mass, so folgt daraus sofort, dass (j) > 0 ist für alle j: Ist nämlich i ein Zustand mit (i) > 0 und j beliebig, so (n) (n) existiert n 2 N0 mit pij > 0 und demzufolge gilt (j) (i) pij > 0: Bemerkung 2.40 Ist eine invariante Verteilung, so gilt P (Xn = j) = (j) ; für alle j 2 I und n 2 N0 . Das heisst, hat die Marko¤-Kette die Startverteilung , so ist die Verteilung von Xn gleich für alle n 2 N0 . Für I endlich ist die Existenz einer stationären Verteilung sehr einfach zu zeigen. Proposition 2.41 Ist I endlich so besitzt jede stochastische Matrix mindestens eine stationäre Verteilung. Beweis. Sei eine beliebige Verteilung auf I: Wir setzen für n 2 N (in Matrixschreibweise, als Zeilenvektor): n 1 1 X m : n := n m=0 Die n sind Wahrscheinlichkeiten auf I: Nun ist die Menge der Wahrscheinlichkeitsvektoren eine abgeschlossene und beschränkte Teilmenge von RI ; d.h. eine kompakte Menge. Hier wird verwendet, dass I endlich ist. Demzufolge existiert eine Teilfolge fnk g mit der Eigenschaft, dass = lim nk k!1 40 existiert. ist eine Wahrscheinlichkeit auf I ,und wir behaupten, dass Da I endlich ist folgt = lim nk : invariant ist: k!1 nk 1 1 X nk = nk = = m=0 n k X 1 nk m m ! = m=1 nk 1 + nk Aus nk ! 1 folgt k!1 nk m+1 m=0 1 nk nk = lim nk 1 1 X = nk nX k 1 1 nk m + nk = : m=0 nk 1 nk 1 : nk = lim k!1 Wir setzen für den Rest des Unterkapitels voraus, dass irreduzibel ist, d.h. dass ganz I eine Äquivalenzklasse ist. Wir weisen zunächst nach, dass für rekurrente Ketten stets mindestens ein invariantes Mass existiert. Sei also irreduzible und rekurrent, und sei k 2 I beliebig. Wir setzen XTk (i) := E 1fXn =ig : k k n=1 Wir zählen also die Anzahl der Besuche in i bis zur ersten Rückkehr nach k und nehmen davon den Erwartungswert unter der Kette, die in k startet. Falls der Erwartungswert nicht existieren sollte, setzen wir k (i) = 1; wir werden jedoch gleich sehen, dass dies nicht eintritt. Proposition 2.42 Sei irreduzibel und rekurrent und k 2 I: Dann gelten a) k (k) = 1: b) k ist ein invariantes Mass. c) 0 < d) k k (i) < 1 gilt für alle i 2 I: ist das einzige invariante Mass, das a) erfüllt. Beweis. a) ist trivial. Wir beweisen b): Wir bemerken zunächst, dass wir k (i) wie folgt umschreiben können: k (i) = Ek = X1 1 X X n=1 1fXn =i; n Tk g Pk (Xn = i; Xn n=1 j2I 41 1 = 1 X Pk (Xn = i; n n=1 = j; n Tk ) : Tk ) Wegen der Rekurrenz ist Tk < 1 f.s. Man beachte nun, dass fn Tk g = k 2 = X[1;n Fn 1 ist. Anwendung der Marko¤-Eigenschaft zum Zeitpunkt n 1 ergibt Pk (Xn = i; Xn 1 = j; n Tk ) = Pk (Xn 1 = j; n Tk ) Pj (X1 = i) = Pk (Xn 1 = j; n 1 Tk 1] 2 1) pji : Demzufolge ist k (i) = X pji j2I = X pji X n=1 1 X Pk (Xn Pk (Xn = j; n pji Ek j2I = X = j; n 1 1 Tk Tk 1) 1) n=0 j2I = 1 X k XTk 1 n=0 1fXn =jg = X pji Ek j2I XTk n=1 1fXn =jg (j) pji : j2I Die zweitletzte Gleichung verwendet, dass die Kette (unter Pk ) im Zeitintervall [0; Tk ] das Element k genau zweimal „besucht“, einmal zum Zeitpunkt 0 und dann zum Zeitpunkt Tk . Im drittletzten Ausdruck berücksichtigen wir den Besuch zum Zeitpunkt 0 und im zweitletzten den zum Zeitpunkt Tk . Wir beweisen c): Aus b) folgt per Induktion sofort X (n) k (i) = k (j) pji j2I für jedes n 2 N0 ; also insbesonder 1 = k (k) (n) k (j) pjk : Wegen der Irreduzibilität (n) existiert für jedes j ein n mit pjk > 0 und somit folgt folgt auch k (j) Beweis von d): (n) k (k) pkj k (n) pkj : (j) < 1 für jedes j: Anderseits = Somit folgt k (j) > 0 für jedes j: sei ein beliebiges invariantes Mass, das a) erfüllt. Dann gilt X (j) = (i) pij + pkj i2I:i6=k Nun ersetzen wir (i) auf der rechten Seite durch denselben Ausdruck und erhalten 0 1 X X @ (j) = (i1 ) pi1 i + pki A pij + pkj i2I:i6=k = X i1 2I:i1 6=k i;i1 2I:i;i1 6=k = X (i1 ) pi1 i pij + X pki pij + pkj i2I:i6=k (i1 ) pi1 i pij + Pk (Tk i;i1 2I:i;ii 6=k 42 2; X2 = j) + Pk (Tk 1; X1 = j) : In dieser Weise fahren wir fort und erhalten schliesslich ! n n+1 X Y X (j) = (in ) pir ;ir 1 pi0 ;j + Pk (Tk r=1 i0 ;i1 ;:::;in 6=k n+1 X r; Xr = j) = Ek @ Pk (Tk folgt also 0 1 min(Tk ;n+1) lim Ek @ n!1 r=1 min(Tk ;n+1) r=1 Wegen 0 X r=1 1fXr =1g A = Ek (j) Wir betrachten nun das Mass := der Voraussetzung, dass a) erfüllt, 0= X r=1 Tk X r=1 r; Xr = j) 1 1fXr =jg A : 1fXr =jg ! = k (j) (j) ; 8j: k k ; das ebenfalls invariant ist. Ferner gilt nach (k) = 0: Somit folgt X (n) (k) = (j) pjk j für alle n: Wegen der Irreduzibilität folgt (j) = 0 für alle j 2 I: Einer der Hauptsätze über Marko¤-Ketten ist der folgende Satz: Satz 2.43 sei irreduzibel. Dann sind die folgenden Aussagen a)-c) äquivalent. a) Es existiert ein endliches invariantes Mass (d.h. eine invariante Verteilung). b) Es existiert k 2 I mit Pk (Tk < 1) = 1; und m (k) := Ek (Tk ) = 1 X n=0 (n) nfkk < 1: (2.17) c) (2.17) gilt für alle k 2 I: Sind diese Bedingungen erfüllt, so ist die invariante Verteilung (i) = gegeben. 43 1 m (i) eindeutig und durch (2.18) Beweis. c)=)b) ist trivial. Wir zeigen b)=)a): Aus (2.17) folgt, dass k (und somit die ganze Kette) rekurrent ist. Wir können daher Proposition 2.42 anwenden, die besagt, dass ein invariantes Mass existiert, nämlich k : Nun gilt X k (j) = j X Ek j XTk n=1 = Ek (Tk ) = 1 X n=0 1fXn =jg XTk X = Ek n=1 j 1fXn =jg (n) nfkk = m (k) < 1: Somit ist (j) m (k) k (j) := ein invariantes Wahrscheinlichkeitsmass. a)=)c): Sei eine invariante Verteilung und k 2 I beliebig. Wir zeigen zunächst die Rekurrenz von k: Aus der Invarianz von folgt für jedes n X (n) (j) pjk = (k) ; j also mit Lemma 2.21 1 = = 1 X X n=1 j X X (j) j (j) fjk 1 X 1 X (n) pjk n=1 (n) pkk : n=0 j P P1 (n) (j) fjk n=0 pkk = 1; also die Rekurrenz. j (j) < 1 ist, folgt ^ (j) := (j) = (k) ist ein invariantes Mass mit ^ (k) = 1: Nach Proposition 2.42 gilt ^ = k : Nach der vorangegangen Überlegung folgt Da P (n) (j) pjk = j 1 X n=0 (n) nfkk = X j k (j) = X j ^ (j) = 1 < 1: (k) Damit ist c) gezeigt. Die Zusatzaussage des Satzes, dass die Gleichgewichtsverteilung eindeutig ist, folgt sofort aus der vorangegangenen Diskussion, ebenso wie (2.18). De…nition 2.44 P1 (n) Ein rekurrentes i 2 I heisst positiv rekurrent, wenn < 1 gilt. Ist i n=0 nfii rekurrent aber nicht positiv rekurrent, so heisst i nullrekurrent. Bemerkung 2.45 Ist irreduzibel, so folgt aus Satz 2.43, dass alle Zustände positive rekurrent sind, wenn einer es ist. 44 Proposition 2.46 Eine irreduzible Kette auf einer endlichen Menge I ist positiv rekurrent. Beweis. Die Rekurrenz hatten wir schon Proposition 2.28 gezeigt. Positive Rekurrenz folgt nun aus Proposition 2.41. Es muss betont werden, dass die invariante Verteilung, selbst wenn man weiss, dass sie existiert, in der Regel nicht explizit berechnet werden kann. Ein Beispiel, wo man ein invariantes Mass sofort hinschreiben kann, sind Irrfahrten auf endlichen Gruppen (Beispiel 2.11). Proposition 2.47 Es seien G eine endliche Gruppe und eine Wahrscheinlichkeitsverteilung auf G. Dann ist die Gleichverteilung auf G eine Gleichgewichtsverteilung für die -Irrfahrt. (Die einzige, falls die Irrfahrt irreduzibel ist). Beweis. Für jedes h 2 G ist die Abbildung g 7! g 1 h bijektiv auf G, und es gilt X X X pg;h = (g 1 h) = (g) = 1: g2G g2G g2G Wie wir in diesem Abschnitt gesehen haben, gibt es für eine irreduzible, rekurrente Kette bis auf Multiplikation mit einer Konstanten genau ein invariantes Mass. Für transiente Ketten ist die Situation komplizierter. Es gibt transiente Ketten ohne (nichttriviales) invariantes Mass und solche, die mehrere besitzen. Natürlich kann eine irreduzible transiente Kette kein endliches invariantes Mass besitzen, denn aus Satz 2.43 folgt automatisch die Positivrekurrenz, wenn ein solches existiert. Beispiel 2.48 Wir betrachten die asymmetrische Irrfahrt auf Z: Sie hat die Übergangswahrscheinlichkeiten pi;i 1 = q < p = pi;i+1 ; mit q = 1 p: Die Bedingung für ein invariantes Mass ist (i) = (i 1) p + (i + 1) q: Die allgemeine Lösung dieser Gleichung ist (i) = A + B (p=q)i : Es gilt (i) > 0 für alle i; sofern A und B positiv sind. Es existieren also mehrere invariante Masse. Daraus folgt, dass die Kette transient ist, denn wäre sie rekurrent, so wäre das invariante Mass nach Proposition 2.42 eindeutig, bis auf Multiplikation mit einer Konstanten. Die Transienz kann man natürlich auch direkt zeigen. Ist p = q = 1=2; so ist die Kette, wie wir wissen, rekurrent. Die allgemeine Lösung der obigen Gleichung ist in diesem Fall (i) = A + Bi: Dies erfüllt jedoch nur dann (i) 0; 8i; wenn B = 0 ist, in Übereinstimmung mit dem Satz, dass im rekurrenten Fall ein invariantes Mass eindeutig ist (bis auf skalare Multiplikation). 45 Satz 2.49 Die symmetrische Irrfahrt auf Zd ist nullrekurrent für d = 1 und d = 2: Beweis. Wir hatten schon gesehen, dass die Irrfahrt für d = 1; 2 rekurrent ist. Wäre sie positiv rekurrent, so würde eine eindeutige invariante Verteilung existieren. (i) = 1 2d X (i + k) ; 8i 2 Zd : k2Zd :jkj=1 Erfüllt diese Gleichung, so tut dies für jedes j 2 Zd auch die Verteilung j ; die de…niert ist durch j (i) = (i + j) : Wir wissen aber, dass für eine irreduzible Kette die invariante Verteilung (wenn sie überhaupt existiert) eindeutig ist. Somit gilt (i) ; 8i; j 2 Zd : (i + j) = Daraus folgt jedoch, dass konstant ist. Es gibt aber natürlich keine Wahrscheinlichkeitsverteilung auf Zd ; die konstant ist. Somit kann unsere Kette nicht positiv rekurrent sein. 2.6 Konvergenz gegen die invariante Verteilung Wir zeigen in diesem Abschnitt, dass die n-stu…gen Übergangswahrscheinlichkeiten einer irreduziblen, aperiodischen und positiv rekurrenten Marko¤-Kette konvergieren: Satz 2.50 Sei irreduzibel, aperiodisch und positiv rekurrent mit Gleichgewichtsverteilung : a) Für alle i; j 2 I gilt (n) lim p n!1 ij b) Für eine beliebige Startverteilung = (j) : gilt: lim P (Xn = j) = n!1 (j) ; j 2 I: b) folgt sofort aus a): lim P (Xn = j) = lim n!1 n!1 = X X (n) (i) pij = i (i) (j) = X (n) (i) lim pij n!1 i (j) ; i wobei die Vertauschung des Limes mit der Summe wegen 1 < 1 gerechtfertigt ist. Der Beweis von a) braucht etwas Vorbereitung. 46 P i (n) (i) pij P i (i) = Wir führen eine stochastische Matrix ^ auf I I ein: p^(i;j);(k;l) = pik pjl : Hat die invariante Verteilung ; so hat o¤ensichtlich ^ die invariante Verteilung ^ (i; j) = (i) (j) : Ferner gilt (n) (n) (n) p^(i;j);(k;l) = pik pjl : Diese Eigenschaften prüft man sehr einfach nach. Es ist allerding nicht richtig, dass ^ automatisch irreduzibel ist, wenn es ist. Lemma 2.51 Ist irreduzibel und aperiodisch, so ist ^ irreduzibel und aperiodisch. (r) (s) Beweis. Seien i; j; k; l 2 I: Dann existieren r; s 2 N0 mit pik > 0; pjl > 0: Nach (n) (m) Lemma 2.27 b) existieren n0 ; m0 2 N; sodass pkk > 0; pll > 0 für n n0 ; m m0 (r+n) (r) (n) (s+m) (s) (m) gelten. Wegen pik pik pkk > 0; pjl pjl pll > 0 folgt, dass M 2 N existiert (N ) (N ) mit pik > 0; pjl > 0 für N M: Daraus folgt, dass ^ irreduzibel und aperiodisch ist. Lemma 2.52 Erfüllt die Voraussetzungen unseres Satzes, so ist ^ positiv rekurrent. Beweis. ^ ist irreduzibel und besitzt eine invariante Verteilung. Nach Satz 2.43 folgt damit die Positivrekurrenz. Sei i 2 I beliebig, aber fest gewählt. Wir betrachten nun eine Markovkette mit stochastischer Matrix ^ und Startverteilung = i ; d.h. (k; l) = ik (l) : ( hängt natürlich von i ab). Die Marko¤-Kette schreiben wir als (Xn ; Yn )n2N0 : (Xn ) und (Yn ) sind einfach zwei unabhängige Marko¤-Ketten, die eine mit Start in i und die andere mit Startverteilung : Sind i0 ; ; : : : ; in und j0 ; : : : ; jn zwei Folgen von Elementen in I; so gilt P (Xk = ik ; Yk = jk ; k n) = Pi (Xk = ik ; k n) P (Yk = jk ; k n) : (2.19) Sei T := inf fn 2 N0 : Xn = Yn g : Lemma 2.53 lim P (T > N ) = 0; N !1 d.h. es gilt P (T < 1) = 1: Beweis. Für ein ganz beliebiges Element b 2 I gilt limN !1 P T(b;b) > N = 0 wegen der Rekurrenz von ^ : Hier ist T(b;b) die Ersteintrittszeit der Ketten (Xn ; Yn ) in den Punkt (b; b) 2 I I: O¤ensichtlich gilt T T(b;b) : Wir de…nieren nun eine neue Folge (Zn )n2N0 von I-wertigen Zufallsgrössen: Zn := Xn f u •r n T : Yn f u •r n > T 47 Lemma 2.54 Z0 ; Z1 ; : : : ist eine Marko¤-Kette mit Start in i und stochastischer Matrix : Beweis. Zunächst eine bequeme Schreibweise: Ist X = (X0 ; X1 ; : : :) eine T Folge von Iwertigen ZV, so schreiben wir für m < n : X[m;n] = i[m;n] für das Ereignis k:m k n fXk = ik g : Wir müssen die Gleichung (2.2) für die Z-Folge (für Start in i) nachweisen. Seien i0 ; : : : ; in 2 I: P (Zk = ik ; k n) = = n X m=0 n X P Z[0;n] = i[0;n] ; T = m + P P X[0;m] = i[0;m] ; Y[m;n] = i[m;n] ; Yk 6= ik ; k m=0 +P X[0;n] = i[0;n] ; Yk 6= ik ; k Z[0;n] = i[0;n] ; T > n m 1 n : Mit (2.19) folgt P X[0;m] = i[0;m] ; Y[m;n] = i[m;n] ; Yk 6= ik ; k = Pi X[0;m] = i[0;m] P = Pi X[0;m] = i[0;m] P P (Y0 6= i0 ; : : : ; Yk 1 m 1 Y[m;n] = i[m;n] ; Yk 6= ik ; k m 1 Y[m+1;n] = i[m+1;n] j Y0 6= i0 ; : : : ; Yk 6= im 1 ; Ym = im ) 1 6= im = Pi X[0;m] = i[0;m] Pim Y[1;n m] = i[m+1;n] P (Y0 6= i0 ; : : : ; Yk Yn 6 i0 ; : : : ; Yk 1 6= ik 1 ; Yk = ik ) ; = i;i0 pij 1 ;ij P (Y0 = 1 1 ; Ym 6= im = im 1 ; Ym = im ) j=1 und P X[0;n] = i[0;n] ; Y0 6= i0 ; : : : ; Yn 6= in = i;i0 Nun ist n X k=0 P (Y0 6= i0 ; : : : ; Yk 1 6= ik 1 ; Yk Yn j=1 pij P (Y0 6= i0 ; : : : ; Yn 6= in ) : 1 ;ij = ik ) + P (Y0 6= i0 ; : : : ; Yn 6= in ) = 1: Kombinieren wir diese Gleichungen, so erhalten wir P Z[0;n] = i[0;n] = i;i0 n Y pij 1 ;ij : j=1 Beweis von Satz 2.50 a). (n) pij = P (Zn = j) = P (Zn = j; T (j) = P (Yn = j) = P (Yn = j; T = P (Zn = j; T n) + P (Zn = j; T > n) ; n) + P (Yn = j; T > n) n) + P (Yn = j; T > n) : 48 Somit folgt (n) pij (j) 2P (T > n) ! 0 für n ! 1; nach Lemma 2.53. Bemerkung 2.55 Satz 2.50 muss im periodischen Fall etwas umformuliert werden. Für positiv rekurrente, irreduzible Ketten mit Periode d gilt: d 1 1X P (Xn+k = i) = n!1 d lim (i) k=0 für jede Startverteilung führen. 2.7 und jedes i 2 I. Wir wollen den Beweis jedoch nicht durch- Reversible stochastische Matrizen Selbst wenn man weiss, dass eine Marko¤-Kette irreduzibel und positiv rekurrent ist, ist die Berechnung der stationären Verteilung oft nicht explizit möglich. Ein ganz spezieller, jedoch wichtiger Spezialfall liegt vor, wenn eine Bedingung erfüllt ist, die in der englischsprachigen Literatur “detailed balance condition” heisst: De…nition 2.56 Sei = (pij ) eine stochastische Matrix. Ein Vektor = ( (i))i2I aus [0; 1)I mit 6= 0 heisst reversibel bezüglich , wenn (i) pij = (j) pji für alle i; j 2 I gilt. Wir nennen eine stochastische Matrix reversibel, wenn für sie ein reversibler Vektor existiert. Satz 2.57 Seien = (pij )i;j2I eine stochastische Matrix und a) Ist reversibel, so gilt P i2I P b) Ist reversibel und gilt invariante Verteilung (und (i) pij = 2 [0; 1)I mit 6= 0. (j) für alle j 2 I. P (j) < 1, so ist (i) := (i) = j2I ist natürlich dann selbst auch reversibel). j2I (j) eine c) Ist eine reversible Wahrscheinlichkeitsverteilung, so ist unter P die Verteilung der Marko¤-Kette invariant unter Zeitumkehr. Genauer: Für alle n 2 N0 und i0 ; i1 ; : : : ; in 2 I gilt P (X0 = i0 ; : : : ; Xn = in ) = P (X0 = in ; X1 = in Beweis. a) X i2I (i) pij = X i2I b) folgt aus a) 49 (j) pji = (j) : 1 ; : : : ; Xn = i0 ): c) Wegen pin P (X0 = i0 ; : : : ; Xn = in ) = (i0 )pi0 i1 1 in ) und P (X0 = in ; : : : ; Xn = i0 ) = (in )pin in pi1 i0 1 folgt c) durch vollständige Induktion nach n 2 N0 . Es ist hier folgendes zu bemerken: Die Existenz eines reversiblen Vektors ist eine sehr spezielle Eigenschaft von . Nur in speziellen Fällen sind stationäre Verteilungen auch reversibel. Ein wichtiger Fall, wo reversible Vektoren existieren, sind Irrfahrt auf Graphen (siehe Beispiel 2.10). Satz 2.58 Für die symmetrische Irrfahrt auf einem gewichteten Graphen G = (K; V; ') ist X (x) := ' (fx; zg) z2Nx reversibel. Beweis. Seien x; y Nachbarn auf dem Graphen. Dann gilt (x) pxy = ' (fx; yg) = (y) py;x : Für eine symmetrische Irrfahrt auf einem endlichen, zusammenhängenden Graphen ist die stationäre Verteilung also einfach durch jVe j ; f 2K jVf j (e) = P e 2 K; gegeben, wobei Ve die Menge der Kanten bezeichnet, welche e als Endpunkt haben. Irrfahrten auf Gruppen sind in der Regel nicht reversibel, obwohl wir (falls die Gruppe endlich ist) ein invariantes Mass nach Proposition 2.47 kennen. In einem Spezialfall ist dieses reversibel: Proposition 2.59 Sei G eine endliche Gruppe und eine Wahrscheinlichkeitsverteilung auf G mit (g) = g 1 für alle g 2 G: Dann ist die Gleichverteilung für die -Irrfahrt auf G reversibel. Beweis. Die Übergangswahrscheinlichkeiten waren durch pg;h = 1 g 1h gegeben. We- g 1h = g 1h = h 1 g folgt pg;h = ph;g : Als Anwendung diskutieren wir das Ehrenfestsche Urnenmodell (siehe Beispiel 2.9 b)). Als Zustandsraum hatten wir I = f0; : : : ; ng. Die Übergangswahrscheinlichkeiten sind gegeben durch gen pr;r 1 = r=n; pr;r+1 = 1 r 2 f1; 2; : : : ; ng; r=n; r 2 f0; 1; : : : ; n 50 1g: Man kann leicht nachrechnen, dass die Binomialverteilung n 2 k n ; k 2 I; reversibel und somit invariant ist. Wegen der o¤ensichtlichen Irreduzibilität ist das also die invariante Verteilung. Dass wir hier die invariante Verteilung “erraten” haben, ist natürlich unschön. Dass die Binomialverteilung reversibel ist, sieht man jedoch auch mit der folgenden Überlegung ein, die die obige Proposition benutzt: Wir erweitern I, indem wir die Kugeln durchnumerieren und für jede Kugel verfolgen, wo sie sich be…ndet: Die Kugel erhält das Label 1, wenn sie sich in der rechten Schachtel be…ndet und sonst 0. Die neue Marko¤-Kette nimmt Werte in I^ := f0; 1gn an. Wir fassen I^ als (abelsche) Gruppe auf, die Verknüpfung sei komponentenweises Addieren modulo 2. Unser Verfahren für den Austausch von Kugeln ist äquivalent damit, dass wir eine der n Kugeln zufällig herausgreifen und ihr Label abändern (d.h. die Kugel in die andere Schachtel verfrachten). Dies ist eine Irrfahrt auf dieser Gruppe mit (x) = 1=2, falls x = (x1 ; : : : ; xn ) 2 I^ genau eine von null verschiedene Komponente hat. Nach Proposition 2.59 ist die Gleichverteilung auf I^ reversibel für die -Irrfahrt. Die Gleichverteilung ist aber nichts anderes als die durch das Bernoulli-Experiment mit Erfolgswahrscheinlichkeit 1=2 gegebene. Daraus ergibt sich sofort, dass die Binomialverteilung reversibel und damit stationär für die ursprüngliche Kette ist. 2.8 Anhang: Der Satz von Ionescu-Tulcea De…nition 2.60 Es sei (S; S) ein messbarer Raum. Eine Folge fXn gn2N von (S; S)-wertigen Zufallsgrössen, die auf einem gemeinsamen Wahrscheinlichkeitsraum ( ; F; P ) de…niert sind, heisst (abzählbarer) (S; S)-wertiger stochastischer Prozess. Im Falle (S; S) = (R; B) sprechen wir einfach von einem stochastischen Prozess. Eine Folge von Abbildungen Xn : ! S können wir als Abbildung X : ! S N au¤assen. Die Xn sind dann die Kompositionen Xn = n X; wobei die n :die Projektionen S N ! S sind. Gemäss der De…nition der Produkt- -Algebra S N wird 1 diese vom Mengensystem n (A) : n 2 N; A 2 S erzeugt. Satz 2.61 Es sei X = fXn gn2N eine Folge von Abbildungen Xn : ! S. Dann ist X genau dann F-S N -messbar, wenn für jedes n 2 N die Abbildung Xn F-S-messbar ist. Beweis. Nach De…nition von S N sind alle Projektionen n : S N ! S S N -S-messbar. Ist X F-S N -messbar, so ist somit Xn = n X für jedes n 2 N eine F-S-messbare Abbildung. Sind umgekehrt alle Xn F-S-messbar, so gilt X 1 ( n 1 (A)) = Xn 1 (A) 2 F für alle n 2 N und alle A 2 S. Da per De…nition f n 1 (A) : n 2 N; A 2 S g ein Erzeugendensystem von S N ist, folgt die Messbarkeit von X. Die Verteilung eines stochastischen Prozesses X ist einfach seine Verteilung als (S N ; S N )wertige Zufallsgrösse, d.h. das Wahrscheinlichkeitsmass P X 1 auf (S N ; S N ): Die meisten der uns interessierenden Fragen hängen nur von der Verteilung des stochastischen 51 Prozesses ab. Ist X ein stochastischer Prozess, so ist die Folge f n gn2N der Projektionen N N N ; P X 1 ) de…nierter stochastischer Prozess, der dieselbe n : S ! S ein auf (S ; S Verteilung wie X hat. Es ist daher meist keine Einschränkung anzunehmen, dass der zugrunde liegende Wahrscheinlichkeitsraum von der Form (S N ; S N ; P ) ist und die Xn die Projektionen von S N auf S sind. Die Beschreibung von Wahrscheinlichkeitsmassen auf einem unendlichen Produktraum geschieht in der Regel über die sogenannten endlichdimensionalen Verteilungen. De…nition 2.62 Ist Q ein Wahrscheinlichkeitsmass auf (S N ; S N ) und ist die Abbildung für n 2 N durch (n) = ( 1 ; : : : ; n ) de…niert, so ist Q(n) := Q( ein Wahrscheinlichkeitsmass auf (S n ; S sionalen Verteilungen von Q. n ). (n) ) 1 (n) : SN ! Sn (2.20) Die Masse Q(n) heissen die endlichdimen- Wir wollen im folgenden zwei Fragen nachgehen: 1. Legen die endlichdimensionalen Verteilungen fQ(n) gn2N die Verteilung Q eindeutig fest? 2. Gibt es zu einer vorgegebenen Folge fQ(n) gn2N von Wahrscheinlichkeitsmassen auf den Räumen (S n ; S n ), n 2 N, stets ein Wahrscheinlichkeitsmass Q auf (S N ;S N ) , dessen endlichdimensionale Verteilungen die Q(n) sind? Die Antwort auf die erste Frage lautet uneingeschränkt Ja. Satz 2.63 Die Folge der endlichdimensionalen Verteilungen fQ(n) gn2N bestimmt das Wahrscheinlichkeitsmass Q eindeutig. S (n) Beweis. Sei Fn := S N : Es gilt Fn Fn+1 ; 8n; und demzufolge ist n Fn eine Algebra und mithin durchschnittstabil. Durch die endlichdimensionalen Verteilungen ist das Mass Q auf diesem durchschnittstabilen Erzeugendensystem von S N festgelegt. Daraus folgt die Behauptung. Die Antwort auf die zweite Frage ist schwieriger. Zunächst müssen die Q(n) einer Verträglichkeitsbedingung genügen, damit überhaupt eine Chance besteht, ein Wahrscheinlichkeitsmass Q auf (S N ;S N ) zu …nden mit Q(n) = Q( (n) ) 1 : Ist nämlich 'n : S n ! S n 1 die Projektion auf die ersten n 1 Koordinaten von S n , so (n) . Daher folgt für jede Menge A 2Sn 1 : gilt (n 1) = 'n (n 1) 1 (n) (A) = 52 1 'n 1 (A) und somit Q(n falls ein Q auf (S N ;S sind. N) 1) = Q(n) 'n 1 ; n 2; (2.21) existiert, dessen endlichdimensionalen Verteilungen die Q(n) De…nition 2.64 Für jedes n 2 N sei Q(n) ein Wahrscheinlichkeitsmass auf (S n ; S heisst verträglich, wenn (2.21) gilt. n ). Die Folge fQ(n) gn2N Wie wir gesehen haben, ist diese Bedingung notwendig für die Existenz von Q: Die Frage muss also dahin präzisiert werden, ob zu jeder verträglichen Folge ein Wahrscheinlichkeitsmass Q auf (S N ;S N ) existiert, deren endlichdimensionale Verteilungen die Q(n) sind. Die Antwort ist leider “Nein”. Es gibt jedoch wichtige Spezialfälle, in denen die Antwort “Ja” lautet. Dies ist dann der Fall, wenn die Q(n) durch Marko¤-Kerne wie folgt de…niert sind. Wir betrachten eine „Startverteilung“ auf (S; S). Ferner sei für jedes n ein Marko¤Kern Kn : (S n ; S n ) (S; S) gegeben. Mit diesen Objekten konstruieren wir eine Folge (n) Q von Wahrscheinlichkeitsmassen auf (S n ; S n ) wie folgt als semidirekte Produkte: Q(1) : = ; Q(2) : = (n+1) Q K1 ; (n) : =Q Kn ; n 2: Nach (1.3) ist die Folge Q(n) verträglich. Satz 2.65 (Satz von Ionescu-Tulcea) In der oben beschriebenen Situation existiert stets ein eindeutiges Wahrscheinlichkeitsmass Q auf (S N ;SN ), das (2.20) erfüllt.5 Die Eindeutigkeit haben wir schon gezeigt. Wir müssen noch die Existenz nachweisen. Beweis. Zunächst ist klar, dass die Folge Q(n) ein endlich additive Mangenfunktion auf der Algebra [ A := Fn n de…niert: Fn besteht genau aus den Mengen der Form (n) 1 (A) ; A 2 S n . Wir de…nie^ (n) auf Fn durch Q ^ (n) (n) 1 (A) = Q(n) (A) : Die Verträglichkeit der Folge ren daher Q ^ (n+1) auf Fn mit Q ^ (n) übereinstimmt. Daher wird durch die Q(n) n besagt o dann, dass Q ^ (n) eine Mengenfunktion Q ^ auf A de…niert, die auf Fn ^ (n) überFolge Q A mit Q ^ erfüllt Q ^ S N = 1 und ist auf der Algebra A endlich additiv. Letzteres einstimmt. Q 5 N Q Der Satz lässt sich leicht noch allgemeiner formulieren, indem anstelle von S eine Produktmenge S mit der entsprechenden Produkt-Algebra betrachtet wir, wobei (S ; S k k ) ; k 2 N, beliebige k k Q messbare Räume sind. Die Kn sind dann Marko¤-Kerne von n S nach S : Der Beweis ist praktisch n+1 k k=1 identisch zu dem hier gegebenen; nur ist die ganze Notation aufwendiger. 53 ergibt sich daraus, dass für A; B 2 A ein n existiert mit A; B 2 Fn . Da Q(n) auf Fn ein Wahrscheinlichkeitsmass ist, folgt die endliche Additivität auf A. Um den Satz von Caratheodory anwenden zu können, müssen wir nachweisen, dass ^ Q auf A -additiv ist. Aus Analysis III sollte bekannt sein, dass dies äquivalent ist mit ^ (An ) = 0: An 2 A; An # ; =) lim Q n!1 Wir zeigen das indirekt: WirTzeigen dass für eine monoton fallende Folge An 2 A mit ^ (An ) > 0 ein Punkt x 2 inf n Q n An existiert. Nach einigen kosmetischen Manipulationen, die dem Leser überlassen seien, können wir annehmen, dass An 2 Fn für alle n gilt. An lässt sich dann eindeutig als (n) 1 (Bn ) darstellen mit Bn S n ; Bn 2 S n aus den entsprechenden Eigenschaften der An erhalten wir Bn+1 (n) lim Q n!1 Bn S; (2.22) (Bn ) > 0: (2.23) Wir konstruieren eine Folge x = (x1 ; x2 ; : : :) 2 S N mit (x1 ; : : : ; xn ) 2 Bn ; 8n; und demzufolge x 2 An ; 8n: Bevor wir das Argument vorstellen, zunächst ein Hinweis, worin die Schwierigkeit liegt. Natürlich können wir stets ein x1 2 B1 …nden, denn B1 ist nicht leer. Anschliessend möchten wir zu diesem x1 ein x2 2 S …nden mit (x1 ; x2 ) 2 B2 ; und dann möchten wir in dieser Weise weiterfahren. O¤ensichtlich ist bei einer beliebigen Wahl von x1 nicht garantiert, dass wir dazu ein entsprechendes x2 …nden können. Zwar können wir stets (x01 ; x02 ) 2 B2 …nden, was dann automatisch die Eigenschaft hat, dass x01 2 A1 ist. Entsprechend können wir für jedes n ein Element (y1 ; : : : ; yn ) 2 Bn …nden und dann gilt automatisch (y1 ; : : : ; yk ) 2 Bk für k n: Es ist jedoch nicht klar, dass wir auf diese Weise eine unendliche Folge y mit der gewünschten Eigenschaft (y1 ; : : : ; yk ) 2 Bk ; 8k, …nden können. Das Problem besteht darin, dass wir x1 schon so konstuieren, dass wir in die „unendliche Zukunft“ vorausblickend, die Konstruktion später weiterführen, damit wir anschliessend x2 ; x3 ; : : : …nden können. Hier ist die Idee: Wir konstruieren eine Folge fn ; n 2 N; von messbaren Funktionen S n ! [0; 1] mit den folgenden drei Eigenschaften. Z f1 d > 0; (2.24) fn (x1 ; : : : ; xn ) = Z Kn ((x1 ; : : : ; xn ) ; dy) fn+1 (x1 ; : : : ; xn ; y) ; n fn 1B n : 1; (2.25) (2.26) Bevor wir diese Aussagen beweisen, zeigen wir, dass wir damit das Lemma bewiesen haben. Wir konstruieren rekursiv eine Folge x1 ; x2 ; : : : mit der Eigenschaft, dass fn (x1 ; : : : ; xn ) > 0 für alle n gilt. Wegen (2.26) folgt daraus (x1 ; : : : ; xn ) 2 Bn : Zunächst wählen wir x1 so, dass f1 (x1 ) > 0 ist, was nach (2.24) möglich ist. Ist (x1 ; : : : ; xn ) mit 54 fm (x1 ; : : : ; xm ) > 0 konstruiert, so wählen wir xm+1 so dass fm+1 (x1 ; : : : ; xm+1 ) > 0 gilt, was wegen (2.25) möglich ist. Die unendlich lange Folge x = (x1 ; x2 ; : : :) erfüllt dann (x1 ; : : : ; xn ) 2 Bn ; 8n; und demzufolge x 2 An ; 8n: Damit haben wir die -Additivität ^ bewiesen. von Q Es bleibt somit die Konstruktion der Folge ffn g mit den drei gewünschten Eigenschaften. Dazu konstuieren wir für jedes n eine Folge fn;0 ; fn;1 ; fn;2 ; : : : fn;k : S n ! R+ wie folgt: fn;0 : = 1Bn ; Z fn;1 (y) : = Kn (y; dx) 1Bn+1 (y;x) ; y 2 S n ; und allgemein fn;k (y) : = Z Z Kn (y; dx1 ) Kn+k Z Kn+1 ((y; x1 ) ; dx2 ) 1 ((y; x1 ; : : : ; xk 1 ) ; dxk ) 1Bn+k (y;x1 ; : : : ; xk ) : Wegen Bn+k Bn+k 1 S und Kn+k 1 ((y; x1 ; : : : ; xk 1 ) ; S) = 1 folgt sofort fn;k fn;k 1 . D.h. für festes n ist die Folge ffn;k gk 0 eine monoton fallende Folge von messbaren nicht-negativen Funktionen. Wir de…nieren fn := lim fn;k k!1 0: Wegen fn;0 = 1Bn ist (2.26) erfüllt. Veri…kation von (2.25). Für x 2 S n gilt Z fn+1;k (x; y) Kn (x; dy) Z hZ Z = Kn+1 ((x; y) ; dx1 ) Kn+k ((x; y; x1 ; : : : ; xk 1 ) ; dxk ) i 1Bn+1+k (y; x; x1 ; : : : ; xk ) Kn (x; dy) Z Z = Kn (x; dy) Kn+1 ((x; y) ; dx1 ) Z Kn+k ((x; y; x1 ; : : : ; xk 1 ) ; dxk ) 1Bn+1+k (y; x; x1 ; : : : ; xk ) = fn;k+1 (x) : Die zweite Gleichung folgt nach Fubini (Satz 1.7). Anwendung des Satzes von Lebesgues im Limes k ! 1 ergibt (2.25). Zum Schluss noch (2.24). (Man beachte, dass wir bisher die entscheidende Voraussetzung (2.23) noch gar nicht verwendet haben.) Eine Anwendung von Fubini ergibt in exakt derselben Weise wie eben 55 und im Limes k ! 1 nach Voraussetzung (2.23). Z Z f1;k d = Q(k+1) (Bk+1 ) ; f1 d = lim Q(k+1) (Bk+1 ) > 0 k!1 Beispiel 2.66 a) Produktwahrscheinlichkeiten: Sei (S; S) ein beliebiger messbarer Raum (zum Beispiel (R; B)). Für jedes n 2 N sei n ein Wahrscheinlichkeitsmass auf (S; S). Die endlichen Produktmasse Q(n) = 1 2 n sind o¤enbar von der im Satz von Ionescu-Tulcea geforderten Form, denn wir können Q(1) = 1 und den Kern Kn von (S n ; S n ) nach (S;S) trivial durch Kn (x; A) = n+1 (A) wählen. Somit sind die Q(n) die endlichdimensionalen Verteilungen eines eindeutig bestimmten Wahrscheinlichkeitsmasses Q auf (S N ; S N ). Sind die Xn : S N ! S für alle n 2 N die Projektionen, so hat Xn die Verteilung n . Man sagt, die fXn gn2N seien unabhängig. Sind alle n gleich, so heissen die fXn gn2N identisch verteilt. b) Hier ein Beispiel, das belegt, dass die eindimensionalen Verteilungen die Verteilung des Prozesses nicht festlegen: Ist fXn gn2N ein Prozess mit den endlichdimensionalen Verteilungen aus dem obigen Beispiel (mit n = für alle n), so hat der Prozess fXn0 gn2N , de…niert durch Xn0 = X1 , o¤enbar dieselben eindimensionalen Verteilungen, denn es gilt QXn 1 = QX 0n 1 = für alle n 2 N. Abgesehen von trivialen Fällen gilt L(fXn gn2N ) 6= L(fXn0 gn2N ), denn wenn 0 < (A) < 1 ist, dann gilt Q(2) (A A) = (A)2 6= Q(X10 ; X20 ) 1 (A A) = (A). c) Marko¤ ketten: Es seien I eine abzählbare Menge und (pij )i;j2I eine stochastische Matrix. Sei ( (i))i2I eine beliebige Wahrscheinlichkeitsverteilung auf I. Die abzählbare Menge I versehen wir mit der Potenzmenge P(I) als -Algebra. Dann legen ( (i))i2I und (pij )i;j2I für jedes n 2 N eine Wahrscheinlichkeitsverteilung Q(n) auf (I n ; P(I)n ) fest mittels Q(1) = q und Q(n) = Q(n 1) Kn 1 mit Kn 1 ((i1 ; : : : ; in 1 ); in ) := p(in 1 ; in ): Nach dem Satz von Ionescu-Tulcea existiert ein eindeutig bestimmtes Wahrscheinlichkeitsmass auf (I N ; P(I)N ), dessen endlichdimensionale Verteilungen die fQ(n) gn2N sind, d.h. fXn gn2N ist eine Marko¤ kette mit Übergangsmatrix (pij )i;j2I und Startverteilung . Bemerkung 2.67 In der wahrscheinlichkeitstheoretischen Literatur wird oft der Satz von Kolmogoro¤ verwendet, der besagt, dass im Falle, dass S ein vollständiger metrischer Raum mit Borel- -Algebra S ist, Q stets existiert, wenn die Familie Q(n) verträglich ist. Dieser Satz ist ein Korollar des Satzes von Ionescu-Tulcea unter Verwendung von Satz 1.22. Wir führen das jedoch nicht weiter aus. 56 3 3.1 Brownsche Bewegung Normalverteilungen Die eindimensionale Standard-Normalverteilung auf (R; B) hat die Dichte 1 2 ' (x) = p e x =2 2 bezüglich des Lebesgue-Masses. Der Erwartungswert ist 0 und die Varianz ist 1: Die Normalverteilung mit Mittel a 2 R und Varianz 2 > 0 hat die Dichte 2 1 2 ' x; a; 2 = p e (x a) =2 : 2 Es ist bequem, das Einpunktmass a als Normalverteilung mit Varianz 0 zu bezeichnen. Wir bezeichnen die Dichte ' R üblicherweise mit das Wahrscheinlichkeitsmass, welches hat: (A) := A ' (x) dx: Die charakteristische Funktion von ; a; 2 ist Z 2 2 ^ t; a; 2 = eitx ' x; a; 2 dx = exp ita t =2 : Diese Formel ist auch für 2 = 0 korrekt. Diese Fakten wurden in Stochastik I diskutiert. Wir benötigen auch charakteristische Funktionen von Wahrscheinlichkeitsmassen auf (Rn ; Bn ) : Ist ein Wahrscheinlichkeitsmass, so ist die charakteristische Funktion de…niert durch Z ^ (t) := eiht;xi (dx) ; wobei t = (t1 ; : : : ; tn ) 2 Rn und ht; xi das übliche innere Produkt in Rn sind. Ist X ein n-dimensionaler Zufallsvektor, so ist die charakteristische Funktion der Verteilung von X Eeiht;Xi was wir manchmal als X (t) schreiben. Satz 3.1 Sind ; zwei Wahrscheinlichkeitsmasse auf (Rn ; Bn ) mit ^ (t) = ^ (t) ; 8t; so gilt = : Wenn also zwei Zufallsvektoren dieselbe charakteristische Funktion haben, so haben sie dieselbe Verteilung. Beweis. Der Beweis ist analog zum Beweis von Satz 2.21 in Stochastik I. Das entscheidende Lemma 2.22 wurde in Stochastik I für n-dimensionale Wahrscheinlichkeitsmasse bewiesen. Lemma 3.2 Sind ein Wahrscheinlichkeitsmass auf Rn ; ein Wahrscheinlichkeitsmass auf Rm und das Produktmass auf Rn Rm = Rn+m ; so gilt \ (t) = ^ t0 ^ t00 ; t = (t0 ; t00 ) 2 Rn Rm : 57 Beweis. Die Produktdarstellung für Produktmasse folgt unmittelbar aus der De…nition und Fubini. Korollar 3.3 Seien X; Y zwei Zufallsvektoren, X m-dimensional und Y n-dimensional. X und Y sind genau dann unabhängig wenn die charakteristische Funktion von (X; Y ) die Form (X;Y ) (t) = X t0 Y t00 ; t = t0 ; t00 : hat. Beweis. X und Y sind genau dann unabhängig sind, wenn die Verteilung von (X; Y ) das Produktmass aus den Einzelverteilungen ist. Sind also X; Y unabhängig, so folgt die Produktdarstellung aus dem vorangegangenen Lemma. Die Umkehrung ergibt sich mit Satz 3.1. De…nition 3.4 Die n-dimensionale Standard-Normalverteilung n ist das n-fache Produktmass der eindimensionalen Standard-Normalverteilung. Sie hat also die Dichte h i (2 ) n=2 exp jxj2 =2 n bezüglich Pndes 2n-dimensionalen Lebesgue-Masses. Hier ist x = (x1 ; : : : ; xn ) 2 R und 2 jxj := i=1 xi : De…nition 3.5 Die Wahrscheinlichkeitsmasse auf Rn , die sich als induzierte Bildmass der n-dimensionalen Standard-Normalverteilung unter einer a¢ nen Abbildung darstellen lässt, heisst Normalverteilung oder Gaussverteilung. D.h. ein Wahrscheinlichkeitsmass heisst n-dimensionale Gaussverteilung (oder Normalverteilung), wenn eine n n-Matrix A und b 2 Rn existieren mit = nf 1; wobei f : Rn ! Rn de…niert ist durch f (x) = Ax + b. (Es wird hier nicht vorausgesetzt, dass A regulär ist.). Eine Rn -wertige Zufallsgrösse, deren Verteilung eine Normalverteilung ist, heisst normalverteilt (oder Gauss-verteilt). Wir berechnen Erwartungswert die Kovarianzen einer Gaussverteilung Z Z X Z X xi (dx) = aij xj + bi n (dx) = aij xj n (dx) + bi j j Z X = aij x (dx) + bi = bi : j 58 ij Z : = = Xn = (xi s;t=1 n X Z hX i n ais xs ajt xt bi ) (xj bj ) (dx) = s;t=1 Z Xn ais ajt s;t ais ajt xs xt n (dx) = n (dx) s;t=1 ais ajt : s=1 Die Kovarianzmatrix = ij hat also die Darstellung = AAT : (AT ist die transponierte Matrix). Als nächstes berechnen wir die charakterische Funktion: Z Z ^ (t) = exp [i ht; xi] (dx) = exp [i ht; Ax + bi] n (dx) Z = exp [i ht; bi] exp [i ht; Axi] n (dx) Z i h Xn tj ajk xk n (dx) = exp [i ht; bi] exp i j;k=1 = exp [i ht; bi] = exp [i ht; bi] = exp i ht; bi n Y k=1 n Y Z h Xn exp i j=1 i tj ajk x (dx) 1 X tj ajk j 2 exp k=1 2 1 ht; ti : 2 Man beachte, dass die charakteristische Funktion nur von b und abhängt. Satz 3.6 Zu jedem Vektor b 2 Rn und zu jeder symmetrischen, positiv semide…niten n n-Matrix gibt es genau eine Gaussverteilung mit b als Vektor der Erwartungswerte und als Kovarianzmatrix. Die charakteristische Funktion ist ^ (t) = exp i ht; bi 1 ht; ti : 2 Beweis. Zu existiert A mit = AAT : A kann symmetrisch gewählt werden, sodass = A2 ist. Das sollte aus der Linearen Algebra bekannt sein.6 = n f 1 mit f wie oben ist dann das gewünschte Wahrscheinlichkeitsmass. Die Eindeutigkeit folgt aus Satz 3.1 und der obigen Darstellung der charakteristischen Funktion. Notation: Wir schreiben die Gaussverteilung mit den obigen Parametern meist als n ( ; ; b) : 6 Falls nicht, hier der Beweis. Da symmetrisch und postiv semide…nit ist, sind die Eigenwerte reell und nicht negativ. Ferner lässt sich orthogonal auf die Diagonalmatrix D der Eigenwerte transformieren. D.h. es gibt eine orthogonale Matrix U mit = U DU T : Da D nur nicht negative Elemente in der Diagonalen hat, lässt sich D als D0 D0 schreiben. Somit ist = U D0 U T U D0 U T : A := U D0 U T ist die gewünschte Matrix. 59 Proposition 3.7 Seien n; m 2 N; N = n + m: Für einen normalverteilten Zufallsvektor X = (X1 ; : : : ; XN ) sind die zwei Zufallsvektoren X0 = (X1 ; : : : ; Xn ) ; X00 = (Xn+1 ; : : : ; Xn+m ) genau dann unabhängig, wenn cov (Xi ; Xj ) = 0 ist für i 2 f1; : : : ; ng ; j 2 fn + 1; : : : ; n + mg : Beweis. Sind die Vektoren X0 ; X00 unabhängig, so sind die Komponenten unkorreliert (Stochastik I). Für diese Richtung wird die Normalität nicht verwendet. Sind X0 ; X00 unkorreliert, so spaltet sich die Kovarianzmatrix von X auf als = 0 0 0 00 ; wobei 0 die Kovarianzmatrix von X0 und 00 die Kovarianzmatrix von X00 sind. 0 oben bezeichnet Matrizen mit allen Komponenten gleich 0. Daraus folgt, dass sich die charakteristische Funktion aufspaltet: Mit RN 3 t = (t0 ; t00 ) 2 Rn Rm gilt für die Verteilung von X : 1 ht; ti 2 ^ (t) = exp i ht; bi 1 0 t; 2 = exp i t0 ; b0 + i t00 ; b00 wobei b = EX = (EX0 ; EX00 ) = (b0 ; b00 ) : Ist die Verteilung von X00 auf Rm so folgt 0 0 0 t 1 00 t ; 2 00 00 ; t die Verteilung von X0 auf Rn und 00 ^ (t) = ^ 0 t0 ^ 00 t00 : Die Unabhängigkeit folgt nun aus dem Korollar zu Lemma 3.2. Proposition 3.8 n ( ; ; b) ist genau dann absolut stetig bezüglich des Lebesguemasses, wenn ist. Die Dichte ist in diesem Fall gegeben durch 'n (x; ; b) = 1 p n=2 (2 ) det exp 1 x 2 b; 1 (x b) regulär : Beweis. Ist invertierbar, so rechnet man sofort nach, dass die Fouriertransformation der obigen Funktion die gewünschte Gestalt hat, womit gezeigt ist, dass n (dx; ; b) = 'n (x; ; b) dx ist. Ist nicht regulär, so ist in einer Darstellung = AAT auch A nicht regulär. Somit ist der Bildbereich von f (x) = Ax + b eine a¢ ne Teilmenge von Rn ; die Dimension n 1. Diese Teilmenge hat Lebesguemass 0; hat jedoch volles Mass unter n : Somit ist n nicht absolut stetig bezüglich des Lebesguemasses. 60 Lemma 3.9 Sei f : Rm ! Rn eine a¢ ne Abbildung, d.h. eine Abbildung der Form f (x) = Ax + b wobei b 2 Rn und A eine n m-Matrix ist. (Vektoren als Spaltenvektoren geschrieben). Es wird nicht vorausgesetzt, dass m = n ist. Ist eine Normalverteilung auf Rm so ist f 1 eine Normalverteilung auf Rn . Beweis. Sei ; ; c) : Die charakteristischen Funktion von f 1 ist Z Z ihx;ti 1 [ 1 f (t) = e f (dx) = eihf (x);ti (dx) n m R Z ZR T ihAx+b;ti ihb;ti eihx;A ti (dx) = e (dx) = e = m( Rm Rm = eihb;ti exp i c; AT t = exp i hb + Ac; ti 1 T A t; AT t 2 exp 1 t; A AT t 2 : Das ist die chararakteristische Funktion der Normalverteilung auf Rn mit Mittel b + Ac und Kovarianzmatrix A AT : Lemma 3.10 (N ) (N ) Sei X(N ) = (X1 ; : : : ; Xn ), N 2 N, eine Folge von normalverteilten Zufallsvektoren, die in Wahrscheinlichkeit gegen einen Zufallsvektor X = (X1 ; : : : ; Xn ) konvergiert. Dann ist X ebenfalls normalverteilt, und es gelten (N ) EXi = lim EXi N !1 ; (N ) cov(Xi ; Xj ) = lim cov(Xi N !1 (N ) ; Xj ): Beweis. Wir verwenden charakteristische Funktionen. Für t 2 Rd gilt Ei h D E (exp [i ht; Xi]) = lim E exp i t; X(N ) N !1 E 1D D E (N ) (N ) = lim exp i t; a t; t ; N !1 2 (N ) wobei a(N ) der Vektor der Erwartungswerte ist: a(N ) = EX1 (3.1) (N ) ; : : : ; EXn und (N ) die positive semide…nite Kovarianzmatrix von X (N ) : Hier haben wir die folgende Verallgemeinerung des Satzes von Lebesgue verwendet: Falls die Folge X (N ) in Wahrscheinlichkeit gegen X konvergiert und falls f : Rn ! R eine stetige und beschränkte Funktion ist, so gilt limN !1 Ef X (N ) = Ef (X) : Der Leser möge sich dies als Übungsaufgabe überlegen. Aus der Existenz des Limes auf der rechten Seite von (3.1), für jedes t 2 Rn ; folgt die Existenz der Limiten a := limN !1 a(N ) und = limN !1 (N ) (Übungsaufgabe zu Analysis) und dass positiv semide…nit ist. Damit ergibt sich E (exp [i ht; Xi]) = exp i ht; ai 61 1 ht; ti : 2 Somit ist X normalverteilt mit Mittel a und Kovarianzmatrix bewiesen. 3.2 : Damit ist das Lemma Stochastische Prozesse Im Gegensatz zu den Marko¤-Ketten des letzten Kapitels betrachten wir nun einen speziellen stochastischen Prozess mit Zeitparameter t 2 T := [0; 1). Dazu benötigen wir noch etwas allgemeine Theorie. Im Moment ist T eine beliebiger metrischer Raum, aber wir werden uns dann gleich auf [0; 1) einschränken. De…nition 3.11 a) Ein stochastischer Prozess X = fXt gt2T ist eine auf einem Wahrscheinlichkeitsraum ( ; F; P ) de…nierte Familie von (R; B)-wertigen Zufallsgrössen. Die reellwertigen Funktionen T 3 t ! Xt (!) heissen die Pfade des stochastischen Prozesses. b) X hat stetige Pfade (kurz: ist ein stetiger stochastischer Prozess), wenn für jedes ! 2 die Abbildung T 3 t ! Xt (!) stetig ist. Wir werden auch vektorwertige stochastische Prozesse betrachten. In diesem Fall sind die Xt dann (Rd ; B d )-wertige Zufallsgrössen. Die Modi…kationen in der De…nition sind o¤ensichtlich. Der Einfachheit halber bleiben wir im Fall d = 1. Die endlichdimensionalen Verteilungen (kurz e.d. Verteilungen) eines stochastischen Prozesses X = fXt gt2T . (Wir verwenden in dieser Vorlesung die Notation, stochastische Prozesse üblicherweise fett zu schreiben) sind wie folgt de…niert: Für t1 ; t2 ; : : : ; tn 2 T , sei t1 ;:::;tn := P (Xt1 ; Xt2 ; : : : ; Xtn ) 1 : Dies ist ein Wahrscheinlichkeitsmass auf (Rn ; B n ). Die Familie dieser Wahrscheinlichkeitsmasse heisst die Familie der e.d. Verteilungen von X. Für ai ; bi 2 R, 1 i n, ai < bi ist also etwa t1 ;:::;tn ((a1 ; b1 ] = P (a1 < X1 (a2 ; b2 ] (an ; bn ]) b1 ; a2 < X2 b2 ; : : : ; an < Xn bn ) Diese Familie von Verteilungen besitzt die folgende Verträglichkeitseigenschaft: Für j 2 f1; : : : ; ng ist 1 t1 ;:::;tj 1 ;tj+1 ;:::;tn = t1 ;:::;tn 'j ; wobei 'j die Projektion Rn ! Rn 1, de…niert durch (x1 ; : : : ; xn ) ! (x1 ; : : : ; xj ist. 62 1 ; xj+1 ; : : : ; xn ); De…nition 3.12 Eine Familie f t1 ;:::;tn : n 2 N; t1 < < tn g von endlichdimensionalen Verteilungen, die diese Bedingung erfüllt, nennen wir verträglich. Ein stochastischer Prozess X = fXt gt2T ist nichts anderes als eine messbare Abbildung X : ! RT ; die de…niert ist durch X(!)(t) := Xt (!). Hier ist RT die Menge aller Abbildungen von T nach R. Wir versehen dabei RT mit der -Algebra B T := ( wobei t t : t 2 T ); die Auswertungsabbildung ist: RT 3 f ! t (f ) := f (t): Die Verteilung des stochastischen Prozesses X ist das Wahrscheinlichkeitsmass P X auf (RT ; B T ). Proposition 3.13 Die e.d. Verteilungen eines stochastischen Prozesses legen die Verteilung P X fest. Beweis. [ ( t1 ; : : : ; 1 1 eindeutig tn ) n; t1 ;:::;tn 2N ist ein durchschnittstabiles Erzeugendensystem von B T . Für stetige stochastische Prozesse kann die obige Diskussion etwas modi…ziert werden. Hier können wir X als Abbildung ! C(T ) au¤assen, wobei C(T ) die Menge der stetigen Abbildungen T ! R ist. Wir versehen C(T ) ebenfalls mit der durch die Auswertungsabbildungen erzeugten -Algebra: C(T ) = ( t : t 2 T ): Ein stetiger stochastischer Prozess, der auf ( ; F; P ) de…niert ist, ist nichts anderes als eine messbare Abbildung X : ( ; F) ! (C(T ); C(T )): (Die Notation ist hier etwas ungenau, denn mit X hatten wir schon die Abbildung ! RT bezeichnet. Dies sollte jedoch keinen Verwirrungen stiften.) Für jedes Wahrscheinlichkeitsmass Q auf (RT ; B T ) ist die Familie der Auswertungsabbildungen ( t )t2T ein stochastischer Prozess, der auf ( ; F; P ) := (RT ; B T ; Q) de…niert ist. Seine Verteilung ist natürlich gerade Q. Analog ist für jedes Wahrscheinlichkeitsmass Q auf (C(T ); C(T )) die Familie der Auswertungsabbildungen (nun de…niert auf C(T )) ein stetiger stochastischer Prozess, de…niert auf ( ; F; P ) = (C(T ); C(T ); Q). Ohne Beweis zitieren wir den folgenden Satz von Kolmogoro¤, den wir nicht verwenden werden: 63 Satz 3.14 Zu jeder verträglichen Familie f t1 ;:::;tn : n 2 N; ti 2 T; t1 < < tn g von Wahrscheinlichkeitsmassen gibt es genau ein Wahrscheinlichkeitsmass Q auf (RT ; B T ) mit t1 ;:::;tn wobei t1 ;:::;tn =Q 1 t1 ;:::;tn ; die n-fache Auswertungsabbildung ist: t1 ;:::;tn (f ) := (f (t1 ); : : : ; f (tn )). Der Satz kann aus dem Satz von Ionescu-Tulcea hergeleitet werden.7 Wir zitieren hier den folgenden nützlichen Satz (ohne Beweis), der ebenfalls von Kolmogoro¤ stammt: Satz 3.15 Wir setzen voraus, dass T ein Intervall in R ist. Es sei eine Familie verträglicher e.d. Verteilungen wie in Satz 3.14 gegeben. Falls Exponenten q > 0 und > 1 existieren, sowie Konstanten A, r > 0, so dass Z jx yjq s;t (dx; dy) Ajs tj ; R2 für alle s; t 2 T , s < t mit t s mit diesen e.d. Verteilungen. r gilt, so existiert ein stetiger stochastischer Prozess Bemerkung 3.16 1. a) Man möchte diesen Satz vielleicht gerne etwas anders formulieren: Die Verträglichkeit liefert nach Satz 3.14 schon die Existenz eines Prozesses X. Nun ist C(T ) RT . Wieso sagt man nicht einfach: „Unter der Bedingung des Satzes 3.15 gilt P (X 2 C(T )) = 1?“ Das Problem dabei ist, dass C(T ) 2 = B T ist. Tatsächlich will man stets Prozesse mit bestimmten Pfadeigenschaften konstruieren, wie zum Beispiel Stetigkeit, Rechtsstetigkeit etc. Solche Pfadeigenschaften beschreiben keine B T -messbaren Teilmengen von RT . b) Der wichtigste Spezialfall des obigen Satzes ist = 2: Typischerweise muss man R 4 dann q = 4 verwenden: Falls eine Konstante A existiert mit R2 (x y) s;t (dx; dy) A (s t)2 für alle s; t 2 T; so existiert ein stetiger stochastischer Prozess mit diesen e.d. Verteilungen. Wir werden in diesem Abschnitt sehen, dass der Satz 3.15 sofort die Existenz einer stetigen Brownschen Bewegung beweist. In Kapitel 3.3 geben wir jedoch einen davon unabhängigen Beweis. 7 Im Satz von Kolmogoro¤ ist wichtig, dass der Wertebereich der Zufallsvariablen (R; B) oder allgemeiner ein vollständiger separabler metrischer Raum mit der Borel- -Algebra ist. Die Rückführung auf den Satz von Ionescu-Tulcea erfolgt via die Existenz von regulären bedingten Verteilungen in solchen Situationen, welche zur Darstellung der e.d. Verteilungen über Marko¤-Kerne führt. Die Details sollen hier nicht ausgeführt werden, da wir sie auch nicht benötigen. 64 De…nition 3.17 a) Ein stochastischer Prozess fXt gt2T heisst Gauss-Prozess, wenn alle e.d. Verteilungen Normalverteilungen sind. b) Ein Gauss-Prozess heisst zentriert, wenn EXt = 0 für alle t 2 T gilt. Ist X = fXt gt2T ein Gauss-Prozess, so sei die Funktion m : T ! R de…niert durch m(t) = EXt ; und die Kovarianzfunktion :T (3.2) T ! R durch (t; s) = cov(Xt ; Xs ): (3.3) Die obigen Überlegungen führen direkt auf Teil a) und b) des untenstehenden Satzes. Satz 3.18 a) Ist X ein Gauss-Prozess, so sind die e.d. Verteilungen festgelegt durch die Funktionen m : T ! R, : T T ! R. b) hat die folgenden Eigenschaften: (t; s) = (s; t), 8 s; t 2 T . Für t1 ; : : : ; tn 2 T is die symmetrische Matrix f (ti ; tj )g1 de…nit. i;j n positiv semi- c) Seien umgekehrt m : T ! R, : T T ! R Funktionen, wobei die obigen Eigenschaften b) hat. Dann existiert ein Wahrscheinlichkeitsraum ( ; F; P ) und ein darauf de…nierter Gauss-Prozess fXt gt2T mit (3.2) und (3.3). Beweis. Wir müssen nur noch (c) zeigen, wobei wir Satz 3.14 verwenden. Für ( ; F) nehmen wir (RT ; B T ), und der stochastische Prozess ist einfach die Familie der Auswertungsabbildungen f t gt2T . Für t1 ; : : : ; tn sei t1 ;:::;tn die Normalverteilung auf (Rn ; B n ) mit Mittelwert (m(t1 ); : : : ; m(tn )) und Kovarianzmatrix ( (ti ; tj ))1 i;j n . Um Satz 3.14 anwenden zu können, müssen wir nur die Verträglichkeit dieser Familie nachweisen. Um die Notation zu vereinfachen, schreiben wir für t1 ;:::;tn . Sei j 2 f1; : : : ; ng und 'j für Projektion Rn ! n 1 R , de…niert durch 'j (x1 ; : : : ; xn ) = (x1 ; : : : ; xj 1 ; xj+1 ; : : : ; xn ). Da 'j linear ist, ist 1 'j eine Normalverteilung. O¤ensichtlich ist der Vektor der Erwartungswerte einfach (m(t1 ); : : : ; m(tj 1 ); m(tj+1 ); : : : ; m(tn )) und die Kovarianzmatrix: f (ti ; tk )gi;k2f1;:::;j 1;j+1;:::;ng : Da Erwartungswert und Kovarianzmatrix eine Normalverteilung eindeutig festlegen, folgt sofort 'j 1 = t1 ;:::;tj 1 ;tj+1 ;:::;tn : Dies gilt für jede beliebige Wahl von t1 ; : : : ; tn und für beliebiges j 2 f1; : : : ; ng. Damit ist die Verträglichkeitsbedingung bewiesen. 65 Beispiel 3.19 Seien T = [0; 1) und (t; s) := min(t; s). Dann erfüllt 3.18. die Bedingungen b) von Satz Beweis. Die Symmetrie ist klar. Wir müssen nur den zweiten Teil zeigen. Wir können annehmen, dass die ti geordnet sind: 0 t1 < < tn . Wir müssen nachweisen, dass n für einen beliebigen Vektor = ( 1 ; : : : ; n ) 2 R die Ungleichung n X (ti ; tj ) i j 0 i;j=1 gilt. Wir setzen t0 := 0. Eine elementare Umformung ergibt sofort: !2 n n n X X X min(ti ; tj ) i j = (tk tk 1 ) 0: i i;j=1 k=1 i=k De…nition 3.20 Ein zentrierter Gauss Prozess X =fXt gt2[0;1) mit EXt Xs = t ^ s := min(t; s) für alle t; s 0 heisst Brownsche Bewegung. Aus Satz 3.18 und Beispiel 3.19 ergibt sich also, dass eine Brownsche Bewegung existiert. Wir können auch sehr einfach nachprüfen, dass die Bedingung in Satz 3.15 für die Existenz einer stetigen Brownschen Bewegung erfüllt ist. Eine einfache Rechnung ergibt nämlich, dass unter s;t die Di¤erenz der Koordinaten normalverteilt mit Varianz R t s ist. Demzufolge ist (x y)4 s;t (dx; dy) das 4. Moment dieser Normalverteilung, was gleich 3(t s)2 ist. Nach Satz 3.15 mit q = 4 und = 2 existiert somit eine stetige Brownsche Bewegung. Im nächsten Abschnitt zeigen wir auf andere Weise, dass eine stetige Brownsche Bewegung existiert. Wir werden dabei die hier vorgestellten und nicht bewiesenen Sätze nicht benützen. Konvention. Wir schreiben eine Brownsche Bewegung üblicherweise als B = fBt gt 0 . Aus der Kovarianzfunktion folgt sofort EB02 = 0 ^ 0 = 0, das heisst B0 = 0 P -fast sicher. Wir werden stets voraussetzen, dass B0 (!) = 0 für alle ! 2 ist, was keine wirkliche Einschränkung ist. 3.3 Die Lévy–Ciesielski Konstruktion der Brownschen Bewegung Wir konstruieren in diesem Abschnitt eine stetige Brownsche Bewegung. Wir sind zunächst bescheiden und schränken uns auf das Zeitintervall T := [0; 1] ein. Wir brauchen einige Fakten über (reelle) Hilberträume, die als bekannt vorausgesetzt werden. Hier eine Zusammenstellung: Ein reeller Hilbertraum H ist ein R-Vektorraum, versehen p mit einem positive de…niten Skalarprodukt h ; i und zugehöriger Norm kxk := hx; xi; der bezüglich 66 dieser Norm vollständig ist. Der Hilbertraum heisst separabel, falls eine abzählbare dichte Teilmenge in H existiert. Eine abzählbare Folge fhn gn2N heisst vollständige nPOrthonormalbasis von H; falls ohhi ; hj i = ij ; i; j 2 N gilt, und falls die Menge N n=1 an hn : N 2 N; a1 ; : : : ; aN 2 R dicht in H ist. (Vorsicht: Das ist keine Basis im Sinne der Linearen Algebra: Dort würde man verlangen, dass diese Menge gleich H ist). Hier die Fakten, die wir benötigen: L2 [0; 1]; die Menge der (Äquivalenzklassen von) reellwertigen quadratintegrierbaren Funktionen auf [0; 1], versehen mit Z 1 f (t) g (t) dt hf; gi = 0 ist ein separabler Hilbertraum. Jeder separable Hilbertraum besitzt eine vollständige Orthonormalbasis. Ist H ein separabler Hilbertraum und ist fhn gn2N eine Folge mit hhi ; hj i = ij ; i; j 2 N; (3.4) so ist diese Folge genau dann eine vollständige Orthonormalbasis wenn fx 2 H : hx; hn i = 0; 8n 2 Ng = f0g (3.5) gilt. Ist fhn gn2N eine vollständige Orthonormalbasis, so gilt für x; y 2 H hx; yi = 1 X n=1 hx; hn ihy; hn i: (3.6) Ausgangspunkt der Lévy-Ciesielski-Konstruktion ist eine spezielle vollständige Orthonormalbasis von L2 [0; 1], die sogenannte Haar Basis. Sie ist de…niert durch: f0 (t) 2n 1 : 8 (n 1)=2 > <2 fn;k (t) := 2(n 1)=2 > : 0 und für n 2 N, 1 1; k Lemma 3.21 F := ff0 g [ f fn;k : n 2 N; 1 L2 [0; 1]: k für t 2 [(2k für t 2 [(2k sonst. 2n 1g 2)2 1)2 n ; (2k 1)2 n ; 2k2 n ) n) ist eine vollständige Orthonormalbasis von 67 Beweis. (3.4) ist eine einfache Rechnung. Wir beweisen (3.5). Sei h 2 L2 [0; 1] mit hh; fn;k i = 0 f u •r alle n; k (3.7) h ist natürlich auch integrierbar. Wir zeigen, dass für 0 Z b h dt = 0 a<b 1 die Gleichung (3.8) a gilt. Eine Lebesgue-integrierbare Funktion auf [0; 1] ; die diese Eigenschaft hat, ist gleich 0; fast überall. (Falls nicht bekannt: Einfache Übungsaufgabe zur Masstheorie). Zunächst folgt aus (3.7), hh; 1i = 0. Wir zeigen nun mit Induktion nach n 2 N, dass Z k2 n h dt = 0; (k 1)2 n 2 N; 1 n 2n ; k (3.9) gilt. Zunächst n = 1. Aus (3.7) folgt 0 = hh; f1;1 i = Z Z 1=2 h dt 0 1 h dt: 1=2 R1 Zusammen mit 0 h dt = 0 folgt (3.9) für n = 1. Nun der Induktionsschluss: Sei n 2 und 1 k 2n zung gilt Z k2 n+1 h dt = 0; (k 1)2 1. Nach Induktionsvorausset- n+1 und aus (3.7) folgt 0 = 2(n 1)=2 Z Z Z 2k2 n h dt: (2k 1)2 h dt = n 1)=2 n n (2k 1)2 (2k 2)2 2(n h dt (2k 2)2 Daraus folgt n (2k 1)2 Z 2k2 n n h dt = 0: (2k 1)2 n Damit ist (3.9) bewiesen. Aus (3.9) folgt, dass für 0 a < b 1, a; b 2 D := f k2 n : n 2 N; 0 k 2n g, die Rb Gleichung a h dt = 0 gilt. Da D dicht in [0; 1] liegt, folgt mit einer einfachen Anwendung des Satzes von Lebesgue (3.8). Aus dem Lemma 3.21 folgt die Parcevalsche Gleichung (3.6), in unserem Spezialfall: n 1 hh1 ; h2 i = hh1 ; f0 ihf0 ; h2 i + Wir setzen F0 (t) := Rt 0 1 2X X n=1 k=1 f0 (s) ds und für n 2 N, 1 68 hh1 ; fn;k ihfn;k ; h2 i: k 2n 1, Fn;k (t) := (3.10) Rt 0 fn;k (s) ds. Es seien nun 0 , n;k , n 2 N, 1 k 2n 1 , unabhängige standard-normalverteilte Zufallsgrössen, de…niert auf einem Wahrscheinlichkeitsraum ( ; F; P ). Die Existenz derartiger Folgen folgt aus dem Satz von Ionescu-Tulcea. Zum Beispiel kann man ( ; F; P ) = (RN ; B N ; N ) wählen, wobei die Standardnormalverteilung ist, und die sind die entsprechenden Projektionen RN ! R. Wir de…nieren für N 2 N, t 2 [0; 1], ! 2 : n 1 (N ) Bt (!) := F0 (t) 0 (!) + N 2X X Fn;k (t) n;k (!): (3.11) n=1 k=1 Zunächst zwei triviale Beobachtungen: (N ) (N ) Für alle N 2 N, ! 2 ist Bt (!) stetig in t 2 [0; 1] mit B0 (N ) fBt gt2[0;1] ist daher ein stetiger stochastischer Prozess. (N ) (!) = 0. B(N ) = (N ) Für 0 t1 < < tk 1 ist der Zufallsvektor (Bt1 ; : : : ; Btk ) normalverteilt (N ) und zentriert. B ist daher für jedes N ein zentrierter stetiger Gauss-Prozess. Wir wollen nun nachweisen, dass die Folge der Prozesse B(N ) in einem zu präzisierenden Sinn gegen eine Brownsche Bewegung konvergiert. Der Beweis dieser Aussage besteht aus einem einfachen Teil, und einem schwierigeren. Der einfache Teil besteht darin zu zeigen, dass (N ) = min (s; t) lim E Bs(N ) Bt N !1 ist. Das hat nichts mit der speziell gewählten Haar-Basis zu tun hat. Die Aussage ist richtig mit jedem vollständigen Orthonormalsystem: Lemma 3.22 Rt Sei fhn gn2N ein vollständiges Orthonormalsystem in L2 [0; 1] ; seien Hn (t) := 0 hn (s) ds; und seien unabhängige, standard Normalverteilte Zufallsgrössen n ; n 2 N gegeben. Dann gilt XN XN lim E n Hn (t) n Hn (s) = min (s; t) N !1 n=1 n=1 für alle s; t 2 [0; 1] : Beweis. Das ist ein Spezialfall der Parcevalschen Gleichung: ! N N N X X X E Hn (t) Hn (s) n Hn (t) n Hn (s) = n=1 n=1 n=1 = XN n=1 1[0;t] hn 1[0;s] hn N !1 ! 1[0;t] 1[0;s] = min (s; t) : P Dieses Lemma legt nahe, dass limN !1 N n=1 n Hn ( ) eine Brownsche Bewegung ist, gleichgültig, ob wir die Haar-Basis verwendet haben oder eine andere vollständige 69 Orthonormalbasis. Es gibt jedoch noch zwei Probleme. Als Erstes müssen wir präzisieren, in welchem Sinn der Limes überhaupt existiert. Für dieses Problem ist die spezielle Haar(N ) Basis jedoch sehr nützlich. Im untenstehenden Satz nehmen wir also an, dass Bt wie oben in (3.11) de…niert ist. Lemma 3.23 Es existiert 0 2 F mit P ( Funktionen [0; 1] 3 t ! konvergiert. 0) (N ) Bt (!) = 1, so dass für alle ! 2 0 die Folge von stetigen gleichmässig auf [0; 1] gegen eine Funktion t ! Bt (!) Beweis. Wir betrachten (N ) Dt (!) := (N ) Bt (!) (N 1) Bt (!) = N 1 2X FN;k (t) N;k (!): k=1 Die Funktionen Fn;k haben die folgenden Eigenschaften: Fn;k (t) 0; 8t: ft : Fn;k (t) > 0g = ((k 1)2 max Fn;k (t) = 2 (3.12) n+1 ; k2 n+1 ): (n+1)=2 t (3.13) (3.14) Aus (3.13) und (3.14) folgt (N ) sup jDt (!)j 2 (N +1)=2 t wobei N := max1 k 2N 1 j N;k j (N ) P supt jDt (3.15) ist. Demzufolge ist für jedes x > 0: j x P( N 2N 1 P (j = 2N 1 wobei N (!); 2(N +1)=2 x) 2(N +1)=2 x) N;1 j (2(N +1)=2 x) ; die Verteilungsfunktion der Standardnormalverteilung ist: Z y 1 2 p e s =2 ds: (y) = 2 1 Wir verwenden nun die Ungleichung 1 (y) p 70 1 e 2 y y 2 =2 ; (3.16) für y > 0 (Übungsaufgabe), und setzen in (3.16) x := P (N ) sup jDt t N 2 2 j N N=2 22 p (N= 2) 2N 1 N=2 ein. Dann ergibt sich 1 2 p 2 N p 2 exp N N2 : 4 Eine elementare Rechnung ergibt, dass die Reihe X 2N N N2 4 1 exp N konvergiert. Wir setzen c 0 = \ [ (N ) sup jDt t m N m j N 2 2 N=2 : Aus dem Borel–Cantelli Lemma folgt, dass P ( c0 ) = 0 und daher P ( ! 2 0 existiert m(!), so dass für alle N m(!) sup jDtN (!)j t N 2 2 0) = 1 gilt. Für N=2 P (N ) gilt. Da N N 2 N=2 < 1 ist, folgt, dass für ! 2 0 die Funktionenfolge (B (!))N 2N (N ) gleichmässig konvergiert. Wir setzen Bt (!) = limN !1 Bt (!), ! 2 0 , was wegen der gleichmässigen Konvergenz stetig in t ist. Ferner gilt natürlich B0 (!) = 0. Wir schränken nun die De…nition von B = (Bt ) auf 0 ein. Wegen 0 2 F können wir natürlich auch die -Algebra einschränken: F0 := fA 2 F : A 0 g ; und P auf F0 einschränken, wofür wir P0 schreiben. Wegen P ( 0 ) = 1 ist natürlich P0 ein Wahrscheinlichkeitsmass. B ist daher ein auf ( 0 ; F0 ; P0 ) de…nierter stetiger stochastischer Prozess. Der Einfachheit halber lassen wir den Index 0 gleich wieder weg. Satz 3.24 Der so konstruierte Prozess B = (Bt )t2[0;1] ist eine stetige Brownsche Bewegung. Beweis. Wir haben schon fast alles gezeigt. Wir wissen aus Lemma 3.23, dass B ein stetiger stochastischer Prozess ist und aus Lemma 3.22, dass (N ) lim E Bt N !1 Bs(N ) = min (s; t) ist. WGemäss Lemma 3.10 ist B ein Gauss-Prozess mit E (Bt Bs ) = min (s; t) : 71 Wir haben somit die Brownsche Bewegung auf dem Zeitintervall [0; 1] konstruiert. Es verbleibt noch, eine stetige Brownsche Bewegung mit T = [0; 1) zu konstruieren. Dazu verwenden wir die oben konstruierte Brownsche Bewegung fBt gt2[0;1] und de…nieren für 0 t<1 Bt := (1 + t)B(1+t) 1 B1 : Satz 3.25 fBt gt 0 ist eine stetige Brownsche Bewegung. Beweis. fBt gt 0 ist evidenterweise ein stetiger zentrierter Gauss Prozess mit B0 = 0. Es bleibt daher nur noch die Aufgabe, die Kovarianzfunktion auszurechnen. 1 1+s 1 1 (1 + t)EB B1 (1 + s)EB1 B + E B12 1+t 1+s = (1 + t) ^ (1 + s) 1 = t ^ s: E(Bt Bs ) = (1 + t)(1 + s)E B 1 1+t B Bemerkung 3.26 a) Eine stetige Brownsche Bewegung ist in gewissem Sinne nicht eindeutig, denn für die Wahl des Wahrscheinlichkeitsraumes und der Abbildungen Bt : ! R gibt es viele Möglichkeiten. Eindeutig ist hingegen die Verteilung W := P B 1 auf (C[0; 1); C[0; 1)). W nennt man auch das Wiener Mass (nach Norbert Wiener, der dieses Mass zuerst mathematisch präzise konstruiert hat). b) Die Frage, ob zu einer Familie von verträglichen e.d. Verteilungen ein stetiger stochastischer Prozess existiert, enthält einige subtile Fallstricke, die hier kurz angesprochen werden sollen. Wir betrachten dazu das folgende Beispiel: Sei B = (Bt )t 0 eine stetige Brownsche Bewegung, de…niert auf ( ; F; P ). Wir fassen aber B als Abbildung ! R[0;1) auf. Wir wollen nun B geringfügig modi…zieren, und zwar so, dass der neue Prozess keine stetigen Pfade mehr hat, aber immer noch dieselben e.d. Verteilungen, und damit dieselbe Verteilung auf p (R[0;1) ; B [0;1) ). Zunächst bemerken wir, dass jB1 j 2 eine Verteilung mit der Dichte x ! 2= e x =2 auf der positiven reellen Achse hat. Wir modi…zieren nun B wie folgt: ( Bt falls t 6= jB1 j Bt = Bt + 1 falls t = jB1 j: Man überzeugt sich nun leicht, dass B dieselben e.d. Verteilungen wie B hat: Sei 0 t1 < < tn . Dann ist nämlich P (jB1 j 2 ft1 ; : : : ; tk g) = 0, und daraus folgt sofort, dass (Bt1 ; : : : ; Btk ) dieselbe Verteilung wie (Bt1 ; : : : ; Btk ) hat. Somit haben B und B dieselbe Verteilung. B ist jedoch o¤ensichtlich kein stetiger stochastischer Prozess. (Man kann die obige Konstruktion leicht dergestalt ergänzen, dass t ! Bt (!) in keinem Punkt stetig ist.) Dieses Beispiel lehrt uns, dass es keinen Sinn hat zu fragen, ob 72 das durch eine Familie verträglicher e.d. Verteilungen auf (R[0;1) ; B [0;1) ) mit Hilfe des Kolmogoro¤schen Satzes 3.14 eindeutig de…nierte Wahrscheinlichkeitsmass fast sicher stetige Pfade hat. In der Tat ist, wie schon erwähnt, C[0; 1) keine messbare Teilmenge von R[0;1) ; d.h. C[0; 1) 2 = B[0;1) . Es macht aber Sinn zu fragen, ob für eine Familie e.d. Verteilungen ein Prozess existiert, der stetige Pfade hat (und für die e.d. Verteilungen der Brownschen Bewegungen haben wir das positiv beantwortet). Dies ist dann äquivalent zur Existenz eines Wahrscheinlichkeitsmasses auf (C[0; 1); C[0; 1)) mit den vorgegebenen e.d. Verteilungen. 3.4 Einfache Eigenschaften der Brownschen Bewegung Die Brownsche Bewegung hat einige einfache aber wichtige Skalierungseigenschaften. Satz 3.27 Sei fBt gt 0 eine stetige Brownsche Bewegung. a) Der Prozess f Bt gt b) Für jedes c) Für jedes u 0 ist eine stetige Brownsche Bewegung. p > 0 ist f Bt= gt 0 eine stetige Brownsche Bewegung. 0 ist fBt+u Bu gt eine stetige Brownsche Bewegung. 0 d) Der Prozess ftB1=t gt 0 mit 0B1=0 := 0 ist eine Brownsche Bewegung. Es existiert 0 2 F mit P ( 0 ) = 1 und lim tB1=t (!) = 0 t#0 für ! 2 0 . ftB1=t gt Bewegung. 0, eingeschränkt auf 0, ist somit eine stetige Brownsche Beweis. Die Stetigkeit in (a), (b), (c) und in (d) auf (0; 1) ist klar, ebenso, dass die Prozesse zentrierte Gauss-Prozesse sind. Um nachzuweisen, dass es Brownsche Bewegungen sind, müssen wir also nur die Kovarianzen ausrechnen. Seien s; t 0 a) E(( Bs )( Bt )) = E(Bs Bt ) = s ^ t. p p b) E( Bs= Bt= ) = ( s ) ^ ( t ) = s ^ t. c) E((Bs+u Bu )(Bt+u Bu )) = (s + u) ^ (t + u) u = s ^ t. d) Hier setzen wir s; t > 0 voraus: E(sB1=s tB1=t ) = st( 1t ^ 1s ) = s ^ t. Mit unserer Festsetzung von 0B1=0 := 0 gilt dies jedoch auch für s oder t = 0. Es bleibt noch die letzte Behauptung in d) nachzuweisen. Dies ist nun evident: Da Xt := tB1=t schon stetig auf (0; 1) ist, ist die Stetigkeit in 0 ein messbares Ereignis: 0 := f! : limt#0 Xt (!) = 0g = \ [ \ m2N n2N s2Q\(0;1=n] 73 fjXs j 1=mg 2 F: P ( 0 ) ergibt sich aus der Kenntnis der e.d. Verteilungen. Wir wissen jedoch schon, dass eine stetige Brownsche Bewegung existiert. Somit ist P ( 0 ) gleich dem Wert, den dieser Ausdruck für eine stetige Brownsche Bewegung hätte, also gleich 1: Wir weisen nun nach, dass die Pfade der Brownschen Bewegung fast sicher nirgends di¤erenzierbar sind. Genauer: Satz 3.28 B = fBt gt 0 sei eine stetige Brownsche Bewegung. Dann existiert 0 2 F mit P ( 0 ) = 1, so dass für alle ! 2 0 die Funktion t ! Bt (!) in keinem Punkt di¤erenzierbar ist. Beweis. Es genügt zu zeigen, dass für jedes N > 0 die Pfade der Brownschen Bewegung fast sicher nirgends di¤erenzierbar auf dem Zeitintervall [0; N ] sind. Der notationellen Einfachheit halber nehmen wir N = 1. Sei f : [0; 1) ! R eine stetige Funktion, die di¤erenzierbar in mindestens einem Punkt s 2 [0; 1] ist. Per De…nition existiert dann limt!s (f (t) f (s))=(t s) 2 R. Dies impliziert insbesondere, dass " > 0 und l 2 N existieren mit jf (t) f (s)j l(t s) für s t s + ". Ist n m := [ 4" ] + 1, so gilt mit i := [ns] + 1: i i+3 s< < < s + "; n n und demzufolge für j = i + 1; i + 2; i + 3: j n f j f 1 j n f n l f (s) + f j n s +l j 1 n j 1 f (s) n 7l n s Wir haben somit gezeigt, dass, wenn f in mindestens einem Punkt 2 [0; 1] di¤erenzierbar ist, natürliche Zahlen m, l existieren, so dass für alle n m eine Zahl i 2 f1; : : : ; n + 1g existiert, sodass für die drei Zahlen j = i + 1; i + 2; i + 3 die folgende Ungleichung gilt: f j n f j 1 7l : n n Demzufolge ist für !2 = N := [ [ \ n+1 [ i+3 \ l2N m2N n m i=1 j=i+1 jBj=n B(j 1)=n j < 7l n die Funktion t ! Bt (!) nirgends auf [0; 1] di¤erenzierbar. O¤ensichtlich ist N 2 F: Es bleibt also zu zeigen, dass P (N ) = 0 ist. Dafür müssen wir für jedes l, m P \ n m [n+1 \i+3 i=1 j=i+1 jBj=n B(j 1)=n j < 7l n =0 (3.17) nachweisen. Die Zufallsgrössen Bj=n B(j 1)=n ; i + 1 j i + 3, sind drei unabhängige, normalverteilte Zufallsgrössen mit Mittel 0 und Varianz 1=n, was man sofort aus den 74 Kovarianzen der Brownschen Bewegung ablesen kann. Demzufolge ist die linke Seite von (3.17) lim inf P n!1 [n+1 \i+3 i=1 j=i+1 lim inf (n + 1) max P n!1 = lim inf (n + 1) n!1 3.5 1 i n+1 (Z 7l=n 7l=n r jBj=n \i+3 j=i+1 B(j 1)=n j jBj=n h n i n exp x2 dx 2 2 < 7l n B(j )3 1)=n j < 7l n n lim inf (n + 1) n!1 2 3=2 14l n 3 = 0: Prozesse mit unabhängigen Zuwächsen, Marko¤eigenschaft Die Brownsche Bewegung hat, wie man sagt, unabhängige Zuwächse (was wir im Beweis von (3.17) implizit schon ausgenutzt haben). Wir wollen das nun etwas eingehender untersuchen. De…nition 3.29 Sei ( ; F; P ) ein Wahrscheinlichkeitsraum. a) Sei X = fXt gt2R+ ein auf ( ; F; P ) de…nierter stochastischer Prozess. Für t 2 R+ sei FtX := (Xs : s 2 R+ ; s t). Die Familie fFtX gt2R+ heisst die zu X gehörende Filtrierung. b) Allgemeiner heisst eine Familie fFt gt2R+ von Teil- -Algebren eine Filtrierung von F, wenn Fs Ft für alle s; t 2 R+ mit s t gilt. c) Ein stochastischer Prozess fXt gt2R+ heisst angepasst (oder adaptiert) an eine Filtrierung fFt gt2R+ , wenn für jedes t 2 R+ die Zufallsgrösse Xt bezüglich Ft messbar ist. O¤enbar ist X = fXt gt2R+ genau dann fFt gt2R+ -angepasst, wenn FtX t 2 R+ gilt. Natürlich ist X stets fFtX gt2R+ -angepasst. Ft für jedes De…nition 3.30 Ein stochastischer Prozess, der angepasst an eine Filtrierung fFt gt2R+ ist, hat unabhängige Zuwächse bezüglich fFt gt2R+ , falls für jedes t 2 R+ der stochastische Prozess fXs Xt gs2[t;1) und Ft unabhängig sind. Man sagt einfach, X habe unabhängige Zuwächse, falls er unabhängige Zuwächse bezüglich fFtX gt2R+ hat. Im Moment mag es etwas unklar sein, weshalb wir in der De…nition 3.30 eine allgemeinere Filtrierung als fFtX gt2R+ zulassen. Es gibt aber dafür eine Reihe von Gründen, die später klar werden. 75 Satz 3.31 Eine Brownsche Bewegung B = fBt gt 0 hat unabhängige Zuwächse. Beweis. Wir müssen nachweisen, dass für jedes t die -Algebren G := FtB und H := ((Bs Bt ) : s t) unabhängig sind. Es reicht dafür aus, die Unabhängigkeit von zwei durchschnittstabilen Erzeugendensystemen von G bzw. H zu zeigen. Ein durchschnittstabiles Erzeugendensystem von G ist [ (Bt1 ; : : : ; Btm ) m; 0 t1 < <tm t und von H : [ Bt ; : : : ; Bsn (Bs1 Bt ): m; t s1 < <sn Es genügt also einfach zu zeigen, dass für 0 t1 < < tm t und t s1 < < sn die Zufallsvektoren (Bt1 ; : : : ; Btm ) und (Bs1 Bt ; : : : ; Bsn Bt ) unabhängig sind. Beide Vektoren sind gemeinsam normalverteilt. Nach Proposition 3.7 müssen wir nur zeigen, dass die Kovarianzen zwischen den beiden Gruppen verschwinden: cov(Bti ; Bsj Bt ) = E(Bti (Bsj Bt )) = ti ^ sj ti ^ t = 0 für 1 i m und 1 j n. Prozesse mit unabhängigen Zuwächsen sind Beispiele von Marko¤prozessen. De…nition 3.32 Es sei fFt gt2R+ eine Filtrierung. Ein fFt gt2R+ -angepasster stochastischer Prozess X = fXt gt2R+ heisst fFt gt2R+ -Marko¤ prozess, wenn für alle t 2 R+ und A 2 (Xs : s 2 R+ ; s t) P (A j Ft ) = P (A j Xt ) P -fast sicher (3.18) gilt. Gilt (3.18) mit Ft = FtX für alle t 2 R+ , so nennen wir X einfach Marko¤prozess. Bemerkung 3.33 a) Da Xt bezüglich Ft -messbar ist, ist P (A j Xt ) natürlich Ft -messbar. Nach der De…nition der bedingten Wahrscheinlichkeit ist die Bedingung (3.18) also gleichbedeutend damit, dass für alle B 2 Ft Z P (A \ B) = P (A j Xt ) dP B gilt. b) Gleichung (3.18) impliziert auf die übliche Weise, dass für jede (Xs : s R+ )-messbare und P -integrierbare Funktion ' : ! R E(' j Ft ) = E(' j Xt ) P -fast sicher 76 t; s 2 gilt: Ist ' eine Indikatorfunktion, so ist die Behauptung nur eine Umformulierung von (3.18). Aus der Linearität des bedingten Erwartungswertes folgt die Behauptung für einfache '. Der Satz von Lebesgue in der Version für bedingte Erwartungswerte (Satz 1.14 c)) überträgt das Resultat auf nichtnegative, messbare ', woraus sich schliesslich die Behauptung für integrierbare ' ergibt. Satz 3.34 Ein R-wertiger stochastischer Prozess X, der bezüglich einer Filtrierung fFt gt2R+ unabhängige Zuwächse hat, ist ein fFt gt2R+ -Marko¤prozess. Beweis. Sei t 2 R+ . Es genügt, die Bedingung (3.18) für A’s aus einem durchschnittstabilen Erzeugendensystem von (Xs : s 2 R+ ; s t) zu beweisen. Sei k 2 N, k und sei : R ! R eine beschränkte messbare Funktion. Seien s1 ; : : : ; sk 2 R+ mit t s1 < < sk . Wir de…nieren eine beschränkte messbare Funktion ' : R ! R durch '(x) := E ( (x + (Xs1 Xt ); : : : ; x + (Xsk Xt ))) : Nach Voraussetzung sind (Xs1 Xt ; : : : ; Xsk Xt ) und Ft unabhängig. Nach dem Satz von Fubini folgt für jedes B 2 Ft Z Z '(Xt ) dP = (Xt + (Xs1 Xt ); : : : ; Xt + (Xsk Xt )) dP B ZB Z = (Xs1 ; : : : ; Xsk ) dP = E( (Xs1 ; : : : ; Xsk ) j Ft ) dP: B 8 Demzufolge B ist '(Xt ) = E( (Xs1 ; : : : ; Xsk ) j Ft ) P -fast sicher was impliziert, dass die rechte Seite dieser Gleichung (Xt )-messbar ist, also gilt E( (Xs1 ; : : : ; Xsk ) j Ft ) = E( (Xs1 ; : : : ; Xsk ) j Xt ) P -fast sicher: 8 Hier das Fubini-Argument im Detail: Betrachten Sie die Zufallsvektoren (1B ; Xt ) und (Xs1 Xt ; : : : ; Xsk Xt ) ; mit B 2 Ft , welche nach Voraussetzung unabhängig sind. Deshalb ist die gemeinsame Verteilung auf R2+k das Produktmass der beiden Randverteilungen. 1 auf R2 und 2 auf Rk : In dieser Formulierung ist Z ' (x) = (x + y1 ; : : : ; x + yk ) 2 (dy) und nach Fubini ist Z ' (Xt ) dP = B = = Z Z x1 ' (x2 ) 1 (d (x1 ; x2 )) x1 (x2 + y1 ; : : : ; x2 + yk ) (d (x; y)) E (1B (Xt + (Xs1 77 Xt ) ; ; : : :)) Hieraus folgt (3.18) für alle A 2 (Xs1 ; : : : ; Xsk ). Da für t [ f (Xs1 ; : : : ; Xsk ) : k 2 N; t s1 < 0 < sk g ein durchsnittstabiles Erzeugendensystem von (Xs : s 2 R+ ; s t) ist, folgt die Behauptung. Aus verschiedenen Gründen ist es manchmal bequem, wenn die verwendete Filtrierung, wie man sagt, rechtsstetig ist. Sei fFt gt2[0;1) eine Filtrierung. Wir de…nieren Ft+ := \ s:s>t Fs = 1 \ m=1 Ft+1=m : De…nition 3.35 Eine Filtrierung heisst rechtsstetig falls Ft+ = Ft für alle t 0 gilt. Bemerkung 3.36 a) Ist fFt gt 0 eine beliebige Filtrierung, so sieht man ganz leicht, dass fFt+ gt rechtsstetige Filtrierung ist. 0 eine b) Die durch einen stochastischen Prozess X induzierte Filtrierung fFtX gt 0 ist in der Regel nicht rechtsstetig, selbst wenn X stetig ist. Ist zum Beispiel = C[0; 1) und ist = f t gt 0 der Prozess der Auswertungsabbildungen, so ist fFt gt 0 nicht rechtsstetig. So ist zum Beispiel für jedes t 2 (0; 1) die Teilmenge f f 2 C : f ist di¤erenzierbar in t g in Ft+ aber nicht in Ft , was der Leser sich als Übungsaufgabe überlegen möge. Es ist wichtig, dass für eine stetige Brownsche Bewegung B zwischen fFtB gt Bg fFt+ t 0 kein “grosser” Unterschied ist, wie wir nun nachweisen werden. 0 und Satz 3.37 Eine stetige Brownsche Bewegung B = fBt gt2[0;1) hat unabhängige Zuwächse bezüglich Bg fFt+ t2[0;1) . Beweis. Es genügt zu zeigen, dass für jede Wahl von s1 ; : : : ; sk 2 (t; 1) die -Algebra Ft+ und der Vektor (Bs1 Bt ; : : : ; Bsk Bt ) der Zuwächse unabhängig sind. Um dies B und jede beschränkte stetige nachzuweisen, wollen wir zeigen, dass für jedes A 2 Ft+ k Funktion ' : R ! R E(1A '(Xs1 X t ; : : : ; X sk Xt )) = P (A)E('(Xs1 X t ; : : : ; X sk Xt )) (3.19) gilt. Hieraus ergibt sich der Satz wie folgt: Ist C Rk abgeschlossen, so ist durch k 'n (x) = maxf0; 1 n dist(x; C)g für alle x 2 R und n 2 N eine monoton fallende Folge stetiger beschränkter Funktionen mit 'n # 1C für n ! 1 de…niert, und der Satz von der majorisierten Konvergenz liefert Gleichung (3.19) für ' = 1C . Da f C 2 B k j (3:19) gilt für C g ein Dynkinsystem ist, das den durchschnittstabilen Erzeuger 78 f C 2 B k j C abgeschlossen g von B k enthält, folgt (3.19) für alle ' = 1C mit C 2 B k . Also sind das Ereignis A und der Vektor (Bs1 Bt ; : : : ; Bsk Bt ) unabhängig. Für den Beweis von (3.19) sei m0 2 N so gross gewählt, dass t + 1=m0 sj für B B alle j 2 f1; : : : ; kg gilt. Für jedes m ist A 2 Ft+ Ft+1=m , und aus Satz 3.31 folgt für m m0 E(1A '(Bs1 = P (A)E('(Bs1 Bt+1=m ; : : : ; Bsk Bt+1=m ; : : : ; Bsk Bt+1=m )) Bt+1=m )): Da die Pfade des Prozesses B stetig in t sind, konvergiert der Vektor (Bs1 Bt+1=m ; : : : ; Bsk Bt+1=m ) gegen (Bs1 Bt ; : : : ; Bsk Bt ) für m ! 1. Da ' als beschränkte stetige Funktion gewählt war, folgt (3.19) aus dieser Gleichung mit Hilfe des Satzes von der majorisierten Konvergenz. Korollar 3.38 Bg Eine stetige Brownsche Bewegung B ist ein fFt+ t 0 -Marko¤prozess. Beweis. Folgt unmittelbar aus dem vorangegangen Satz und Satz 3.34. Korollar 3.39 (Blumenthal 0-1-Gesetz) B gilt P (A) 2 f0; 1g. Sei B = fBt gt 0 eine stetige Brownsche Bewegung. Für jedes A 2 F0+ B , so folgt aus Korollar 3.38 Beweis. Ist A 2 F0+ B 1A = P (AjF0+ ) = P (AjB0 ) = P (A) P -fast sicher, da B0 0 ist. Multiplikation mit 1A liefert 1A = 1A 1A = P (A)1A P -fast sicher, also gilt P (A) = E(1A ) = E(P (A)1A ) = P (A)2 , woraus P (A) 2 f0; 1g folgt. Das Blumenthalsche 0-1-Gesetz hat einige interessante Folgerungen. Hier ist ein Beispiel: Korollar 3.40 Sei fBt gt 0 eine stetige Brownsche Bewegung und sei " > 0. Für P -fast alle ! 2 wechselt der Pfad [0; 1) 3 t 7! Bt (!) im Intervall [0; "] unendlich oft das Vorzeichen, das heisst, mit Wahrscheinlichkeit 1 existiert eine (von ! abhängige) Folge t1 > t2 > >0 mit Bt2k 1 (!) > 0 und Bt2k (!) < 0 für alle k 2 N. Beweis. Für jedes ! aus dem Komplement des im Korollar beschriebenen Ereignisses existiert eine natürliche Zahl n mit ! 2 A+ 0 für alle t 2 [0; 1=n]g oder n := fBt + ! 2 An := fBt 0 für alle t 2 [0; 1=n]g. Es gelten A+ A An+1 sowie n n+1 und An \ B A+ = fBt 0g 2 F1=n n t2Q\[0;1=n] S S B für alle n 2 N. Folglich sind A+ := + B und An 2 F1=n n2N An in F0+ . n2N An und A := Da nach Satz 3.27 auch f Bt gt 0 eine stetige Brownsche Bewegung ist, gilt P (A+ ) = 79 P (A ). Wäre P (A+S ) = 1, so wäre auch P (A ) = 1 und demzufolge P (A+ \ A ) = 1. + Da aber A \ A n2N fB1=n = 0g ist und P (B1=n = 0) = 0 für jedes n 2 N gilt, muss P (A+ \ A ) = 0 sein. Nach Korollar 3.39 verbleibt also nur die Möglichkeit P (A+ ) = 0, woraus P (A+ [ A ) = 0 folgt. 3.6 Die starke Marko¤-Eigenschaft Es sei B = fBt gt 0 eine stetige Brownsche Bewegung. Wir wollen in diesem Abschnitt die Aussage von Satz 3.37 verallgemeinern, der besagt, dass für jedes t 2 [0; 1) der B unabhängige Brownsche Bewegung ist. Es wird Prozess fBt+s Bt gs 0 eine von Ft+ sich herausstellen, dass diese Aussage (nach einigen Präzisierungen) richtig bleibt, wenn t durch eine zufällige Zeit ersetzt wird. De…nition 3.41 ( ; F; P ) sei ein Wahrscheinlichkeitsraum und fFt gt 0 sei eine Filtrierung. Eine Fmessbare Abbildung : ! [0; 1] := [0; 1) [ f1g heisst fFt g-Stoppzeit, wenn für alle t 2 [0; 1) f tg 2 Ft gilt. Das folgende Lemma gibt einige einfache Eigenschaften von Stoppzeiten. Lemma 3.42 a) , seien zwei fFt g-Stoppzeiten. Dann sind min ( ; ), max ( ; ) und + Stoppzeiten. b) c) n, n 2 N, seien fFt g-Stoppzeiten mit n " für n ! 1: Dann ist eine Stoppzeit. n , n 2 N, seien fFt g-Stoppzeiten und fFt g sei eine rechtsstetige Filtrierung. Dann sind lim inf n!1 n , lim supn!1 n fFt g-Stoppzeiten. Beweis. a) sei dem Leser überlassen. b): \ f tg = f n n tg 2 Ft : c): lim sup n!1 n t = = inf sup m n m n \ [ \ k2N n2N m:m n Der Beweis für lim inf n!1 n verläuft analog. 80 t m t+ 1 k 2 Ft+ = Ft : Die wichtigsten Beispiele für Stoppzeiten sind Ersteintrittszeiten von stochastischen Prozessen. Sei X = fXt gt 0 ein Prozess, der an eine Filtrierung fFt g angepasst ist. Leider ist im allgemeinen nicht richtig, dass für jede Borel-Menge A 2 B die Zufallszeit A := inff t : Xt 2 A g (inf ; := 1) eine fFt g-Stoppzeit ist, selbst wenn X stetig und fFt g rechtsstetig sind. Um zu gewährleisten, dass A für jede Borel-Menge A eine Stoppzeit ist, muss die Filtrierung in geeigneter Weise erweitert werden. Dies führt zu lästigen masstheoretischen Diskussionen, die wir uns hier ersparen wollen. Für spezielle Mengen ist nämlich die Sache sehr viel einfacher zu beweisen. Lemma 3.43 X sei fFt g-angepasst und habe rechtsstetige Pfade und fFt g sei rechtsstetig. a) Ist A o¤en, so ist A eine Stoppzeit. b) Ist A abgeschlossen und X stetig, so ist A eine Stoppzeit. Beweis. a) Sei A o¤en. Sei t 2 [0; 1), ! 2 . A (!) t , 8 " > 0 9 s < t + " mit Xs (!) 2 A , 8 " > 0 9 q 2 Q; q < t + " mit Xq (!) 2 A; da A o¤en ist und t ! Xt (!) rechtsstetig ist. Somit ist \ [ f A tg = fXq 2 Ag 2 Ft+ = Ft : m q2Q\[0;t+1=m] | {z } 2Ft+1=m b) Sei nun A abgeschlossen. Für n 2 N sei A(n) die o¤ene A(n) := x 2 R : 9 y 2 A mit jx 1 n -Umgebung yj < 1 n von A: : Nach dem vorher schon Bewiesenen sind die A(n) Stoppzeiten. Es gilt A(n) A , 8 n, 0 0 und die Folge der A(n) steigt monoton an. Sei := limn!1 A(n) . Ist (!) = 1, so ist auch A (!) = 1. Ist 0 (!) < 1, so ist wegen der Stetigkeit der Pfade und der Abgeschlossenheit von A X 0 (!) (!) = limn!1 X (n) (!) (!) 2 A, das heisst, es gilt 0 (!). Somit ist 0 gezeigt, und aus Lemma 3.42 b) folgt, dass A (!) A = A eine Stoppzeit ist. Wir de…nieren die -Algebra der prä- -Ereignisse wie folgt: De…nition 3.44 Sei eine Stoppzeit bezüglich der Filtrierung fFt gt F := fA 2 F : A \ f 81 0. Dann ist tg 2 Ft ; 8 t g : Lemma 3.45 a) F ist eine -Algebra ist. b) Ist (!) = s für alle !; so gilt F = Fs . Beweis. a) 2 F ist o¤ensichtlich. Sind An 2 F , n 2 N so gilt für jedes t [ n An \ f [ tg = A 2 F =) Ac 2 F folgt analog. b) f tg = ; n [An \ f tg] 2 Ft : fu •r t s : fu •r t < s Somit ist A genau dann in F ; wenn es in Ft für alle t s ist, d.h. wenn es in Fs ist. Wir werden des öftern das folgende Resultat benutzen: Lemma 3.46 a) , seien zwei Stoppzeiten mit (!) (!), 8 !. Dann gilt F T b) fFt g sei rechtsstetig. Dann ist F = m F +1=m . Beweis. a) Sei A 2 F . Dann gilt für alle t A\f tg = A \ f F . 0: tg \ f tg 2 Ft ; da A \ f tg 2 Ft und f tg 2 Ft sind. b) + 1=m ist eine Stoppzeit, denn f + 1=m tg = f t 1=mg bzw T = ; falls t < 1=mTist. Somit folgt f + 1=m tg 2 Ft ; 8t 0. Wegen a) folgt F m F +1=m . Sei A 2 m F +1=m . Dann ist A\f tg = A \ + 1 m t+ 1 m 2 Ft+1=m ; 8m; das heisst A \ f tg 2 Ft+ = Ft . Sei X = fXt gt 0 ein fFt g-angepasster Prozess und eine Stoppzeit. Wir wollen nun den Prozess X zum zufälligen Zeitpunkt betrachten: X (!) := X (!) (!) : X sollte natürlicherweise F -messbar sein. Zunächst ergibt sich die Schwierigkeit, dass (!) durchaus 1 sein kann, und X1 (!) nicht de…niert ist. Man beachte jedoch, dass f < 1g 2 F gilt, denn f < 1g \ f tg = f tg 2 Ft ; 8t: Lemma 3.47 Sei X rechtsstetig und angepasst an eine rechtsstetige Filtrierung fFt gt F -messbar auf f < 1g, das heisst, für jede Borelmenge A 2 B gilt fX 2 Ag \ f < 1g 2 F : 82 0. Dann ist X Beweis. Wir approximieren von rechts durch eine Folge von Zufallsgrössen nur abzählbare Wertebereiche haben. Dazu de…nieren wir ( k2 n für (!) 2 k2n1 ; 2kn ; k 2 N0 ; (n) (!) := 1 für (!) = 1: Die (n) sind Stoppzeiten, denn für t f (n) tg = f (n) , die 0 gilt 2 n [2n t]g 2 F2 n [2n t] Ft : Für jedes ! 2 fällt (n) (!) monoton gegen (!). Da X als rechtsstetig vorausgesetzt ist, folgt X = lim X n!1 n auf f < 1g = f n < 1g. Da die Stoppzeit n nur abzählbar viele Werte annimmt, folgt leicht, dass X f n < 1g F n -messbar ist: Für A 2 B und t 2 [0; 1) ist [ fX n 2 Ag \ f n tg = fXk2 n 2 A; n = k2 n g 2 Ft ; k:k2 n n auf t und somit ist fX n 2 Ag \ f n < 1g 2 F n , das heisst, X n ist auf f n < 1g F n -messbar. Für jedes " > 0 gilt n + ", sofern 2 n " ist. + " ist ebenfalls n eine Stoppzeit, und es gilt F n F +" für 2 " (Lemma 3.46 a)). Demzufolge ist X = lim X für jedes " > 0 F -messbar auf f < 1g, und somit auch n!1 +" n T F + := m F +1=m -messbar. Da fFt g als rechtsstetig vorausgesetzt war, gilt F + = F (Lemma 3.46 (b)). Wir haben somit gezeigt, dass X F -messbar auf f < 1g ist. Wir kehren nun zu einer stetigen Brownschen Bewegung B = fBt gt 0 zurück. Die B, t uns hier interessierende Filtrierung ist Ft = Ft+ 0. Wir werden für den Rest des Kapitels stillschweigend stets mit dieser Filtrierung arbeiten. sei eine fFt g-Stoppzeit, und wir setzen voraus, dass P ( < 1) > 0 ist. Wir de…nieren ( 0 ; F 0 ; P 0 ) als die Einschränkung von ( ; F; P ) auf 0 := f < 1g, F 0 := f A0 2 F : A0 f < 1g g, P 0 (A0 ) := P (A0 j < 1). B ist eine auf ( 0 ; F 0 ; P 0 ) de…nierte Zufallsgrösse und fB +s B gs 0 ein stetiger stochastischer Prozess. Satz 3.48 B( ) := fB +s züglich P 0 ). B gs 0 ist eine Brownsche Bewegung, die unabhängig von F ist (be- Beweis. Wir fassen B( ) als messbare Abbildung 0 = f < 1g ! C[0; 1) auf. Sei : C[0; 1) ! R eine beschränkte messbare Abbildung. Wir beweisen, dass für jedes derartige und für jede beschränkte F -messbare Funktion : ! R die Gleichung E 0 ( (B( ) ) ) = E( (B))E 0 ( ) gilt. Daraus folgt im Spezialfall = 1, dass 83 E 0 ( (B( ) )) = E( (B)) gilt, also dass B( ) unter P 0 eine Brownsche Bewegung ist, und damit wiederum, dass E 0 ( (B( ) ) ) = E( (B))E 0 ( ) = E 0 ( (B( ) ))E 0 ( ) gilt, was äquivalent zur Unabhängigkeit ist. Wegen P 0 ( ) = P 0 ( j < 1) ist das gleichbedeutend mit E (B( ) ) ; < 1 = E( (B))E( ; < 1): (3.20) In dieser Formulierung brauchen wir P ( < 1) > 0 nicht vorauszusetzen, da für P ( < 1) = 0 die Gleichung trivial ist. Wie üblich genügt es, die Gleichung (3.20) für spezielle Funktionen zu zeigen, nämlich für stetige und beschränkte Funktionen : C[0; 1) ! R, die nur von endlich vielen Stellen der Elemente f 2 C[0; 1) abhängen. Wir betrachten also ’s der Form (f ) = '(f (s1 ); f (s2 ); : : : ; f (sk )); wobei ' : Rk ! R stetig und beschränkt ist. Ferner reicht es, = 1A , A 2 F zu betrachten. Die nachzuweisende Gleichung (3.20) hat dann die folgende Form: Sei Xt := B +t B : Z '(Xs1 ; : : : ; Xsk ) dP = E('(Bs1 ; : : : ; Bsk ))P (A; < 1): (3.21) fA; <1g Wir approximieren nun die Stoppzeit 3.46 durch die Folge der Stoppzeiten n (!) # (!), n ! 1 gilt. Sei (n) Xt Für alle A 2 F Z fA; = = 1 Z X := B n+t B n: gilt n n <1g j=0 fA; 1 X auf dieselbe Weise wie im Beweis von Lemma n N annehmen, und für die n , die Werte in 2 0 '(Xs(n) ; : : : ; Xs(n) ) dP 1 k n =j2 P (A; n ng '(Bj2 = j2 n n +s 1 Bj2 n ; : : : ; Bj2 n +s )E('(Bs1 ; : : : ; Bsk )) = P (A; k n j=0 Bjs n ) dP < 1)E'((Bs1 ; : : : ; Bsk )): Die zweitletzte Gleichung folgt wegen A \ f n = j2 n g 2 Fjs n (da A 2 F n ) und Satz 3.31. Sei nun A 2 F . Wegen F F n folgt A 2 F n , 8 n. Man beachte ferner f < 1g = f n < 1g. Lässt man daher in der obigen Folge von Gleichungen n gegen 1 streben, so bleibt die rechte Seite unabhängig von n, und Z Z (n) lim ' Xs(n) ; : : : ; X dP = '(Xs1 ; : : : ; Xsk ) dP sk 1 n!1 fA; n <1g fA; <1g nach dem Satz von Lebesgue (da ' stetig ist). Damit ist (3.21) bewiesen. Der Satz 3.48 impliziert eine Version der sogenannten starken Marko¤eigenschaft: 84 Korollar 3.49 (Starke Marko¤-Eigenschaft) sei wieder eine Stoppzeit. Sei ferner Z := (B +s :s 0) : Dann gilt für A 2 Z : P (A j F ) = P (A j B ) ; P f:s: auf f < 1g : Der Beweis geht analog zum Beweis der einfachen Marko¤-Eigenschaft. Die Restriktion auf f < 1g in den Formulierungen ist natürlich etwas lästig. In vielen Büchern geht man dem aus dem Weg, indem man den Wertebereich des Prozesses - bei uns R - durch ein sogenanntes “Grab” ergänzt. Man setzt einfach B1 := und B ist dann auf ganz de…niert. Wir diskutieren nun einige wichtige Anwendungen. Zunächst benötigen wir ein analytisches Lemma über Laplacetransformationen, das wir nicht beweisen. Ist f : R+ := [0; 1) ! R eine integrierbare oder beschränkte, messbare Funktion, so ist die Laplacetransformation von f de…niert durch Z Lf ( ) = e x f (x) dx; > 0: R+ Nach dem Satz von Lebesgue ist Lf stetig, und es gelten Z lim Lf ( ) = 0; lim Lf ( ) = f (x) dx; !1 !0 (3.22) R+ letzteres, sofern f integrierbar ist (was natürlich nicht aus der Beschränktheit folgt). Das nachfolgende analytische Result soll hier nicht bewiesen werden. Lemma 3.50 Zwei beschränkte messbare oder integrierbare Funktionen, deren Laplacetransformierte auf (0; 1) übereinstimmen, sind Lebesgue-fast überall gleich. Ist ein endliches Mass auf (R+ ; BR+ ), so ist die Laplacetransformierte von de…niert durch Z L ( ) := e x (dx); 0: R+ Hat eine Dichte f bezüglich des Lebesgue Masses, so gilt L = Lf . L ( ) ist ebenfalls stetig in 2 [0; 1), und es gilt lim L ( ) = (R+ ): lim L ( ) = (f0g); !1 (3.23) !0 Lemma 3.51 Seien , zwei endliche Masse. Falls L ( ) = L ( ), 0, so folgt = . Beweis. Wir benützen Lemma 3.50. Sei > 0 Z 1 Z 1 Z x x e ([0; x]) dx = e 1[0;x] (y) (dy) dx 0 0 Z Z 1 1 1 = (dy) e x dx = L ( ) = L ( ) [0;1) y Z 1 = e x ([0; x]) dx: 0 85 Aus Lemma 3.50 folgt ([0; x]) = ([0; x]) für Lebesgue-fast alle x 2 [0; 1). Da die beiden Funktionen rechtsstetig in x sind, folgt die Gleichheit für alle x 0. Daraus ergibt sich = . Als erste Anwendung der starken Marko¤-Eigenschaft berechnen wir die Verteilung von einfachen Ersteintrittszeiten. Sei a > 0 und a := inff t 0 : Bt = a g: Nach Lemma 3.43 ist a eine Stoppzeit. Im Moment wissen wir noch nicht, ob P ( a < 1) = 1 gilt (es wird sich gleich herausstellen, dass das richtig ist), wir können jedoch dennoch von der Verteilung von a sprechen. Wir wollen diese nun berechnen. Zu diesem Zweck berechnen wir die Laplacetransformierte von P ( a x): Wir wenden nun (3.20) auf die folgende Funktion : C[0; 1) ! R an. Für > 0 sei Z 1 e s 1f (s) 0 ds: (f ) := 0 ist messbar, was der Leser selbst nachweisen möge. ist natürlich beschränkt (für a > 0). Wir wählen ferner := e . Es folgt: Z 1 Z 1 s a a E e e 1B a +s B a 0 ds = E e E e s 1Bs 0 ds: (3.24) 0 0 (Auf den Einschluss von f a < 1g in der Gleichung können wir verzichten, wenn wir e 1 als 0 interpretieren). Wir werten nun beiden Seiten der Gleichung weiter aus: Zunächst die rechte Seite: Nach Fubini ist Z 1 Z 1 Z 1 1 1 E e s 1Bs 0 ds = e s P (Bs 0) ds = e s ds = : 2 2 0 0 0 Ferner ist E e a = E Z 1 a e s ds = E Z 0 1 1f sg e a s ds = Z 1 e s P( a s) ds: 0 In der linken Seite von (3.24) substituieren wir t = a + s und beachten, dass B a = a auf f a < 1g ist: Z 1 Z 1 Z 1 t s a E e e 1B a +s B a 0 = E e 1Bt a dt = E e t 1Bt a dt 0 0 a Z 1 = e t P (Bt a) dt: 0 Setzen wir diese Umformungen in (3.24) ein, so ergibt sich Z 1 Z 1 t e P ( a t) dt = 2 e t P (Bt 0 a) dt: 0 P( a t) ist rechtsstetig in t, und P (Bt Lemma 3.50 folgt daher 86 a) = R1 a 2 p 1 e x =2t dx 2 t ist stetig. Aus Satz 3.52 Für alle a > 0, t 0 gilt P( t) = 2P (Bt a a) = 2 Z 1 a p 1 e 2 t x2 =2t dx: Beweis. P ( a < 1) = limt!1 P ( a t) = limt!1 2P (Bt a) = 1. Als weitere Anwendung der starken Marko¤-Eigenschaft betrachten wir die Nullstellenmenge N (!) := f t 0 : Bt (!) = 0 g. Für eine stetige Brownsche Bewegung ist N (!) natürlich abgeschlossen. Aus Korollar 3.40 wissen wir, dass mit Wahrscheinschlichkeit 1 der Punkt t = 0, der natürlich in N (!) ist, Häufungspunkt von anderen Nullstellen ist. Eine abgeschlossene nicht leere Teilmenge A R heisst perfekt, falls jeder Punkt p 2 A Häufungspunkt von anderen Punkten aus A ist, das heisst, wenn für alle p 2 A die Menge A gleich dem Abschluss von A n fpg ist. Satz 3.53 Die Nullstellenmenge N (!) einer stetigen Brownschen Bewegung ist für fast alle ! eine perfekte Menge von Lebesgue Mass 0. Beweis. Wir wollen nicht nachweisen, dass f ! : N (!) ist perfektg messbar ist. Wir zeigen nur: Es existiert 0 2 F mit P ( 0 ) = 1, so dass N (!) perfekt ist für alle ! 2 0 . Ist eine abgeschlossene, nicht leere Teilmenge N [0; 1) nicht perfekt, so existiert ein Interval [q1 ; q2 ), q1 ; q2 2 Q, so dass N \ [q1 ; q2 ) genau einen Punkt enthält. Wir de…nieren daher für q1 < q2 , q1 ; q2 2 Q: Aq1 ;q2 := f! : t ! Bt (!) hat genau eine Nullstelle in [q1 ; q2 ) g: S O¤ensichtlich ist N (!) perfekt für ! 2 ( q1 <q2 Aq1 ;q2 )c . Es genügt daher zu zeigen, dass P (Aq1 ;q2 ) = 0 für alle q1 < q2 ist. Wir halten q1; q2 fest und de…nieren := inff t 2 [q1 ; q2 ) : Bt = 0 g: ist eine Stoppzeit, wie man leicht nachprüft. Nun ist o¤ensichtlich [ Aq1 ;q2 B +s < 0; 0 < s m [ [ B +s > 0; 0 < s m 1 m \ f < 1g 1 m \ f < 1g : Eine Anwendung des Satzes 3.48 und von Korollar 3.40 ergibt P B +s < 0; 0 < s 1 ; <1 m = P ( < 1)P Bs < 0; 0 < s Analog natürlich P B +s > 0; 0 < s 87 1 ; <1 m = 0: 1 m = 0: S Somit folgt P ( q1 <q2 2Q Aq1 ;q2 ) = 0. Es bleibt noch zu zeigen, dass für fast alle ! die Nullstellenmenge N (!) Lebesgue Mass 0 hat. Sei das Lebesgue Mass auf (R+ ; BR+ ). Dann gilt nach Fubini: Z Z Z Z P (Bt = 0) dt = 0: (N (!)) P (d!) = 1fBt (!)=0g dt P (d!) = R+ Wegen (N (!)) R+ 0 folgt (N (!)) = 0 für P -fast alle ! 2 . Bemerkung 3.54 Es ist bekannt, dass eine nicht leere abgeschlossene und perfekte Teilmenge von R überabzählbar ist. Demzufolge hat die Brownsche Bewegung überabzählbar viele Nullstellen. 4 Martingale mit diskretem Zeitparameter 4.1 De…nitionen und Beispiele Es sei ( ; F; P ) ein Wahrscheinlichkeitsraum. T , die „Zeitachse“, sei entweder N0 oder R+ . Wir werden uns in diesem Kapitel (fast) ausschliesslich auf T = N0 beschränken. Die allgemeinen De…nitionen können wir jedoch sowohl für T = N0 , wie T = R+ geben. De…nition 4.1 Sei ( ; F; P ) ein Wahrscheinlichkeitsraum, fFt gt2T eine Filtrierung und X = fXt gt2T ein fFt g-angepasster stochastischer Prozess. a) X heisst fFt g-Martingal, wenn alle Xt integrierbar sind und E(Xt j Fs ) = Xs P für s f:s: t gilt. b) X heisst fFt g-Submartingal, wenn alle Xt integrierbar sind E(Xt j Fs ) für s Xs P f:s: t gilt. c) X heisst fFt g-Supermartingal, wenn f Xt g ein Submartingal ist. Bemerkung 4.2 Für nicht-negative Zufallsgrössen kann auf die Integrierbarkeit in der De…nition verzichtet werden. Ist Ft = FtX := (Xs : s t), so nennen wir X einfach Martingal beziehungsweise Sub- oder Supermartingal, ohne die Filtrierung extra zu betonen. Für den Fall T = N0 , den wir hier fast ausschliesslich behandeln werden, ist X genau dann ein Martingal, wenn E(Xn+1 j Fn ) = Xn P f:s: für jedes n gilt. Dies folgt aus Satz 1.13 per Induktion: Für m > 1 gilt E(Xn+m j Fn ) = E (E(Xn+m j Fn+m 1 ) j Fn ) = E (Xn+m 1 j Fn ) = Xn ; die 88 letzte Gleichung nach Induktionsvoraussetzung. Entsprechendes natürlich für Sub- und Supermartingale. Ist X ein fFn g-Martingal und ist fGn g eine Filtrierung mit Gn Fn für alle n und bezüglich der X angepasst ist, so ist X auch ein fGn g-Martingal. Das sieht man wie folgt: E (Xn+1 j Gn ) = E (E (Xn+1 j Fn ) j Gn ) = E (Xn j Gn ) = Xn : Jedes fFn g-Martingal ist somit automatisch ein FnX -Martingal. Martingale haben o¤ensichtlich die Eigenschaft, dass die Folge der Erwartungswerte konstant ist: EXn = EXm für alle m; n: Lemma 4.3 Sei fXt g ein Martingal. Dann ist fjXt jp g ein (nicht notwendigerweise integrierbares) positives Submartingal. Ist für ein T > 0 E jXT jp < 1; so gilt E jXt jp < 1 für alle t T: Beweis. R 3 x ! jxjp ist eine konvexe Funktion. Nach der Jensenschen Ungleichung (Lemma 1.17) für bedingte Erwartungswerte folgt für t s E (jXt jp j Fs ) jE (Xt j Fs )jp = jXs jp : Somit ist fjXt jp g ein Submartingal: Für p > 1 ist es jedoch nicht notwendigerweise integrierbar. (Siehe Bemerkung 1.16). Der Zusatz folgt sofort aus der Submartingaleigenschaft. Beispiel 4.4 Die eindimensionale symmetrische Irrfahrt auf Z ist ein Martingal. Der Beweis sei dem Leser überlassen. Beispiel 4.5 Sei X = fXn gn2N0 die symmetrische Irrfahrt auf N mit Start in 1 und Absorption in 0. Diese Irrfahrt ist eine Marko¤kette mit den Übergangswahrscheinlichkeiten pi;i+1 = pi;i 1 = 1=2 für i 2 N und p0;0 = 1. Für jedes n 2 N0 gilt P -fast sicher X E(Xn+1 j FnX ) = E(Xn+1 j X0 ; : : : ; Xn ) = j pXn ;j = Xn ; j2N0 also ist diese Irrfahrt ein Martingal. Das Beispiel 4.4 lässt sich wie folgt verallgemeinern: Beispiel 4.6 n , n 2 N, seien unabhängige, identisch P verteilte, integrierbare Zufallsgrössen mit E i = 0. Wir de…nieren X0 := 0, Xn := nj=1 j für n 2 N. Die Filtrierung fFn gn2N0 sei wie folgt de…niert: F0 := f;; g; Fn := ( j : j n): 89 Dann ist fXn gn2N0 ein fFn gn2N0 -Martingal. Hier der Beweis: Xn + n+1 j Fn E (Xn+1 j Fn ) = E i=1 i Xn j Fn + E n+1 j Fn = E i=1 i Xn = i+E n+1 = Xn : i=1 Beispiel 4.7 Die n , n 2 N, und die Filtrierung seien wie im obigen Beispiel de…niert. Es sei aber E i 6= 0 zugelassen, und wir setzen zusätzlich voraus, dass ein 0 > 0 existiert, so dass M ( ) := E(e für j j 0 i )<1 gilt. Wir de…nieren X0 1 und h Xn i Xn := exp j M( ) n j=1 ; j j 0; für n 2 N. Dann ist fXn gn2N ein fFn gn2N -Martingal: h Xn i E(Xn+1 jFn ) = M ( ) n 1 exp E(e j=1 j h Xn i = M ( ) n 1 exp E(e j j=1 h Xn i = M ( ) n exp j n+1 jFn ) n+1 ) j=1 = Xn : Beispiel 4.8 Durch Di¤erentiation nach in = 0 lassen sich aus dem Martingal in Beispiel 4.7 leicht neue gewinnen. Einmalige Di¤erentiation liefert das Beispiel 4.6. Zweimaliges Di¤erenzieren: Xn(2) := wobei Sn := Im Fall E i Pn d2 Xn d 2 i=1 i = Sn2 2nSn M 0 (0) + n(n + 1)M 0 (0)2 nM 00 (0); =0 ist. Weiter gilt M 0 (0) = E Xn(2) = Sn2 i und M 00 (0) = E( 2i ), d.h. 2nE i Sn + n(n + 1) (E i )2 nE( 2i ): = 0 ist Xn(2) = Sn2 nE( 2i ): Natürlich erfordert es noch Überlegungen um zu zeigen, dass auf diese Weise durch Di¤erentiation nach dem Parameter aus dem Martingal von Beispiel 4.7 ein neues Martingal entsteht. Als Übungsaufgabe mögender Leser zeigen, dass dies gerechtfertigt o (2) ist. Man kann auch direkt nachrechnen, dass Xn ein fFn gn2N -Martingal ist, sofern i 2 L2 ( ; F; P ) gilt. 90 Beispiel 4.9 Es sei fFn gn2N eine beliebige Filtrierung und X 2 L1 ( ; F; P ). Die Folge der bedingten Erwartungswerte Xn := E(X j Fn ); n 2 N; ist o¤ensichtlich ein Martingal. Nicht jedes Martingal kann in dieser Weise dargestellt werden, wie wir später sehen werden. Martingale sind für Marko¤-Prozessen wichtig. Sei I eine höchstens abzählbare Menge, = (pij ) eine stochastische Matrix und fXn gn2N eine Marko¤-Kette mit dieser Matrix und beliebiger Startverteilung. De…nition 4.10 Eine m.b. Funktion h : I ! R heisst -harmonisch, wenn für jedes i 2 I; die Funktion h integrierbar bezüglich ( ij )j2I ist und h (i) = X pij h (j) j gilt. Proposition 4.11 Ist h harmonisch so ist fh (Xn )gn2N0 ein Martingal bezüglich FnX ; sofern h (Xn ) für all n integrierbar ist. Beweis. Nach der Marko¤-Eigenschaft gilt X E h (Xn+1 ) j FnX = pXn ;j h (j) = h (Xn ) : j 4.2 Stoppzeiten und der Stoppsatz für Martingale Stoppzeiten wurden für T = N0 in De…nition 2.30, bzw. für T = R+ in De…nition 3.41 eingeführt. Wir werden uns auf T = N0 einschränken. Wir de…nieren die -Algebra F1 für eine Filtrierung als _ F1 := Fn : n F1 ist also einfach die kleinste -Algebra, die alle Fn enthält. Aus der De…nition einer Stoppzeit folgt sofort, dass f = 1g 2 F1 gilt. Wir stellen einige einfache Eigenschaften zusammen. Diese wurden im letzten Kapitel in Lemma 3.42 bewiesen. Auf die Voraussetzung der Rechtsstetigkeit der Filtrierung können wir im diskreten Fall verzichten. Proposition 4.12 a) Eine konstante Abbildung ist eine Stoppzeit. 91 b) Sind ; c) Ist f Ist zwei Stoppzeiten, so sind max ( ; ) ; min ( ; ) k gk2N eine Folge von Stoppzeiten, so sind supk k + und Stoppzeiten. und inf k k Stoppzeiten. eine Stoppzeit, so setzen wir F := f A 2 F j A \ f = ng 2 Fn ; 8n 2 N0 g: Man überzeugt sich leicht davon, dass F eine Teil- -Algebra von F ist. Evidenterweise gilt F = fA 2 F j A \ f ng 2 Fn ; 8n 2 N0 g: Wir können daher beide Formulierungen verwenden. Proposition 4.13 Es seien ; Stoppzeiten. a) f b) Gilt (!) g2F \F : (!) für alle !; so gilt F F : Beweis. a) f g \ f = ng = fn = f für alle n; d.h. f n g \ f = ng 1gc \ f = ng 2 Fn g 2 F : Analog f g \ f = ng = f ng \ f = ng 2 Fn für alle n; d.h. f g2F : b) Sei A 2 F : Dann Gilt A\f ng = (A \ f ng) \ f ng 2 Fn für alle n; d.h. es gilt A 2 F : De…nition 4.14 a) Ein stochastischer Prozess V = fVn gn2N (nicht N0 !) heisst vorhersehbar bezüglich der Filtrierung fFn gn2N0 , wenn Vn für jedes n 2 N bezüglich Fn 1 messbar ist. b) Sind V = fVn gn2N und X = fXn gn2N0 stochastische Prozesse, so de…nieren wir Pn den Prozess V X = fYn gn2N0 durch Y0 = 0 und Yn = k=1 Vk (Xk Xk 1 ) für alle n 2 N. 92 Die De…nition von „vorhersehbaren“ Prozessen mag etwas albern erscheinen, denn sie entstehen aus gewöhnlichen angepassten Prozessen einfach durch eine Zeitverschiebung um eine Einheit. Die Begri¤sbildungen, die hier verwendet werden, sind teilweise auf Prozesse mit kontinuierlichem Zeitparameter zugeschnitten, wo die Verhältnisse komplizierter sind. Für Prozesse mit kontinuierlichem Zeitparameter bedeutet “vorhersehbar”, dass der Prozess durch seine in…nitesimale Vergangenheit bestimmt ist. Die präzise De…nition ist in diesem Fall jedoch nicht ganz einfach. Lemma 4.15 1. Sei X = fXn gn2N0 ein Supermartingal, und sei V = fVn gn2N ein vorhersehbarer stochastischer Prozess mit Vn 0 und kVn k1 < 1 für alle n 2 N . Dann ist V X ein Supermartingal. Ist X ein Martingal, so auch V X. 2. Die Voraussetzung kVn k1 < 1 ersetzt werden durch kVn k2 < 1, falls kXn k2 < 1 für alle n 2 N0 gilt. Beweis. Sei V X = fYn gn2N0 . Für n 2 N folgt aus den Voraussetzungen sofort die Integrierbarkeit von Yn . Ferner gilt E(Yn j Fn 1) = Yn 1 + Vn E(Xn Xn 1 j Fn 1) Yn 1: Die letzte Ungleichung ist eine Gleichung, falls X ein Martingal ist. Den stochastischen Prozess V X bezeichnet man als die Martingaltransformation von X durch V. Man verwendet diese Bezeichnung missbräuchlicherweise auch, wenn X kein Martingal ist. Im folgenden betrachten wir einen wichtigen Spezialfall von Martingaltransformationen. Sei dazu eine Stoppzeit. Wir de…nieren Vn = 1fn g für n 2 N. Wegen fn g=f n 1gc 2 Fn 1 ist der stochastische Prozess V = fVn gn2N vorhersehbar. Ist X = fXn gn2N0 ein stochastischer Prozess, so ist die Martingaltransformation einfach zu berechnen. Für jedes n 2 N0 gilt (V X)n = X ^n X0 : Wir de…nieren den zur Zeit gestoppten Prozess X durch X = fX rollar zu Lemma 4.15 erhalten wir Satz 4.16 Es seien X ein Supermartingal und Ist X ein Martingal, so auch X . ^n gn2N . Als Ko- eine Stoppzeit. Dann ist X ein Supermartingal. Aus dem obigen Satz folgt insbesondere, dass E(X ^n ) = E(X0 ) für alle n 2 N0 gilt, wenn X ein Martingal und eine Stoppzeit ist. Aber Vorsicht: Selbst im Fall P ( < 1) = 1 folgt nicht, dass E(X ) = E(X0 ) ist. Dazu ein Beispiel: Beispiel 4.17 Sei X = fXn gn2N0 die symmetrische Irrfahrt auf N0 mit Start in 1 und Absorption in 0. Gemäss Beispiel 4.5 ist X ein fFnX gn2N0 -Martingal. Sei die Erstankunftszeit in 0, 93 also := inff n 2 N0 j Xn = 0 g. Wegen der Rekurrenz der eindimensionalen Irrfahrt gilt P ( < 1) = 1. Für jedes n 2 N ist f ng = n [ k=0 fXk = 0g 2 FnX ; also ist eine fFnX gn2N0 -Stoppzeit. Es gilt E(X0 ) = 1, also E(X ^n ) = 1 für alle n 2 N0 nach dem obigen Satz, aber o¤ensichtlich ist E(X ) gleich 0. Natürlich gilt limn!1 X ^n = X ; aber wir dürfen den Satz von Lebesgue nicht anwenden, da keine integrierbare Dominante für die Folge fX ^n g existiert. Es gibt einige nützliche, hinreichende Kriterien für E(X ) = E(X0 ). Satz 4.18 Es seien eine Stoppzeit und fXn gn2N0 ein Supermartingal (bzw. ein Martingal), die eine der folgenden Bedingungen erfüllen: a) b) ist beschränkt. ist P -fast sicher endlich, und fXn gn2N0 ist beschränkt, das heisst, es gelten P ( < 1) = 1 und supn2N0 kXn k1 < 1. c) E( ) < 1 und supn2N kXn Xn 1 k1 < 1. Dann ist X integrierbar, und es gilt E(X ) E(X0 ) (bzw. E(X ) = E(X0 )). Beweis. Nach Satz 4.16 gilt E(X ^n ) E(X0 ) (bzw. E(X ^n ) = E(X0 )) für jedes n 2 N. Ist a) erfüllt, so ist ^ n = für ein genügend grosses n 2 N. Unter b) gilt limn!1 E(X ^n ) = E(X ) nach dem Satz über die majorisierte Konvergenz. Ist c) erfüllt, so existiert eine Zahl K > 0 mit P (jXn Xn 1 j K) = 1 für alle n 2 N. Somit folgt jX ^n X0 j K fast sicher. Wegen E( ) < 1 folgt limn!1 E(X ^n ) = E(X ) ebenfalls nach dem Satz über die majorisierte Konvergenz. Eine andere nützliche Folgerung aus dem Stoppsatz 4.16 ist die folgende, die einfach aus dem Lemma von Fatou folgt: Korollar 4.19 Seien fXn gn2N0 ein positives Supermartingal und E(X ) E(X0 ). Beweis. Nach Satz 4.16 gilt E(X E(X ) = E ^n ) lim X n!1 eine endliche Stoppzeit. Dann gilt E(X0 ), und aus dem Lemma von Fatou folgt lim E(X ^n n!1 94 ^n ) E(X0 ): 4.3 Martingal-Ungleichungen Eine wichtige Anwendung der obigen Stopp- und Transformationstechniken ist der Beweis des Doobschen „upcrossing“-Lemmas. Seien = f n gn2N0 eine Folge reeller Zahlen und a; b 2 R mit a < b. Für n 2 N0 de…nieren wir die Anzahl der aufsteigenden Überschreitungen des Intervalls [a; b] durch die Folge bis zum Zeitpunkt n wie folgt: Falls k Paare von Zeitpunkten (s1 ; t1 ) ; : : : ; (sk ; tk ) mit 0 s1 < t1 < s2 < t2 < < sk < tk n und si < a; ti > b für i = 1; : : : ; k existieren, nicht aber k + 1; so sagen wir, dass es genau k aufsteigende Überschreitungen des Intervalls [a; b] durch die Folge gibt. Wir kürzen diese Anzahl mit Un [a; b]( ) ab und de…nieren U1 [a; b]( ) := supn2N0 Un [a; b]( ): U1 [a; b]( ) kann natürlich gleich 1 sein. Lemma 4.20 Eine Folge = f n gn2N0 , n 2 R; konvergiert genau dann in R = [ 1; 1], wenn U1 [a; b]( ) < 1 für alle a; b 2 Q mit a < b gilt. Beweis. Wir argumentieren indirekt. Es gilt lim inf n!1 n < lim sup n!1 n () 9 a; b 2 Q mit lim inf n!1 n < a < b < lim sup n!1 n () 9 a; b 2 Q mit a < b und U1 [a; b]( ) = 1: Satz 4.21 Sei X = fXn gn2N0 ein Supermartingal und a < b. Dann gilt für jedes n 2 N0 (b a)E(Un [a; b](X)) E((Xn a) ): (x := max ( x; 0)). Beweis. Wir konstruieren eine geeignete Martingaltransformation Y = fYn gn2N0 von X. Mit Hilfe der nachfolgenden Regeln nutzt der Prozess Y alle aufsteigenden Überschreitungen des Supermartingals X, um möglichst weit nach oben zu gelangen: (a) Starte mit Y0 (!) = 0. Ist X0 a, benutze Regel (b), andernfalls Regel (c). (b) Warte solange, das heisst setze Yn (!) = Yn für den nächsten Schritt Regel (c). 1 (!), bis Xn (!) < a ist. Benutze dann (c) Nutze die Zuwächse, das heisst setze Yn (!) = Yn 1 (!) + Xn (!) Xn > b ist. Benutze dann für den nächsten Schritt Regel (b). Xn 1 (!), bis Da der Prozess Y jedesmal mindestens die Höhe (b a) gewinnt, wenn der Prozess X das Intervall [a; b] aufsteigend überschreitet, und Y seit der letzten Überschreitung höchstens die Höhe (Xn a) verloren haben kann, gilt für jedes n 2 N0 Yn (b a)Un [a; b](X) 95 (Xn a) : (4.1) Die entscheidende Beobachtung ist nun, dass Y eine Martingaltransformation von X ist: De…nieren wir ( 1fX0 <ag fu •r n = 1; Vn = 1fVn 1 =1;Xn 1 bg + 1fVn 1 =0;Xn 1 <ag f u •r n 2; so folgt die Vorhersehbarkeit von V = fVn gn2N und Yn = n X Vk (Xk Xk 1) k=1 für alle n 2 N0 , das heisst, Y ist in der Tat die Martingaltransformation von X durch V. Gemäss Lemma 4.15 ist Y ein Supermartingal, also gilt E(Yn ) E(Y0 ) = 0, woraus mit (4.1) die Behauptung folgt. Lemma 4.22 Sei fX0 ; : : : ; XN g ein positives Submartingal. Dann gilt für P max Xn E XN 1fmaxn n N N >0 Xn g : Beweis. Sei := inf fn : Xn g ; falls diese Menge nicht leer ist und sonst = N: Dann ist eine Stoppzeit, die natürlich beschränkt ist. Wir können daher Satz 4.18 (auf das Supermartingal f Xn g) anwenden und erhalten EXN EX = E X 1fmaxn P max Xn N g + E X 1fmaxn Xn + E XN 1fmaxn n N N Xn < g : Daraus folgt die behauptete Ungleichung sofort. Korollar 4.23 fX0 ; : : : ; XN g ein Martingal. a) Für > 0 und p 1 p P E (jXN jp ) : max jXn j n N b) Für p > 1 gilt p p E max jXn jp p n N 96 1 E (jXN jp ) : N Xn < g Beweis. Nach Lemma 4.3 ist fjX0 jp ; : : : ; jXN jp g ist ein positives Submartingal. Falls E (jXN jp ) = 1 ist, so ist nichts zu zeigen. Wir können also annehmen, dass das Submartingal integrierbar ist. Nach dem vorangegangenen Lemma gilt p P max jXn j p = n N max jXn jp P p n N E jXN jp 1fmaxn N jXn j p p E (jXN jp ) : g Um b) zu zeigen setzen wir X := maxn N jXn j. Wir können wieder voraussetzen, dass E (jXN jp ) < 1 ist. Wegen der Submartingaleigenschaft (Lemma 4.3) ist dann auch E (jXn jp ) < 1 für n N und demzufolge E (X p ) < 1: ! Z Z X E (X p ) = E = Z d 1 =E 0 1 p 1 p = pE jXN j p 1 p 1 p 0 0 p p 1 p P (X Z X p 2 )d ! d 0 E (X p )(p 1)=p Z 1 p 0 p = p 1 1fX p 2 gd E jXN j 1fX E jXN j X g d (p 1) E (jXN jp )1=p ; die letzte Ungleichung nach der Hölderschen Ungleichung. Daraus folgt die behauptete Ungleichung. Korollar 4.24 Sei fXn gn2N0 ein Martingal. a) Für > 0 und p 1 p P sup E (jXn jp ) : sup jXn j n n b) Für p > 1 gilt p p E sup jXn jp p n 1 sup E (jXn jp ) : n Beweis. Dies folgt nun mit einem einfachen Grenzübergang N ! 1 aus Korollar 4.23. Man beachte, dass aus der Submartingaleigenschaft von fjXn jp g folgt, dass E (jXn jp ) ansteigend in n ist und demzufolge sup E (jXn jp ) = lim E (jXN jp ) n N !1 gilt. 97 4.4 Konvergenz von Martingalen Satz 4.25 Sei X = fXn gn2N0 ein Supermartingal mit supn2N0 EjXn j < 1. Dann existiert X1 := limn!1 Xn fast sicher und ist integrierbar. Beweis. Seien a < b zwei reelle Zahlen. Nach dem Satz von der monotonen Konvergenz und Satz 4.21 gilt (b a)E(U1 [a; b](X)) = (b a) lim E(Un [a; b](X)) n!1 sup E((Xn a) ) jaj + sup EjXn j < 1: n2N0 n2N0 Demzufolge ist P (U1 [a; b](X) < 1) = 1, also P \ a;b2Q; a<b fU1 [a; b](X) < 1g = 1: Nach Lemma 4.20 existiert somit X1 := limn!1 Xn in [ 1; 1] fast sicher. Nach dem Lemma von Fatou ist EjX1 j lim inf EjXn j n!1 sup EjXn j < 1: n2N0 Korollar 4.26 Jedes nichtnegative Supermartingal fXn gn2N0 konvergiert fast sicher gegen eine integrierbare Zufallsgrösse. Beweis. Aus Xn 0 folgt EjXn j = E(Xn ) E(X0 ), also supn2N0 EjXn j < 1. Eine etwas erstaunliche Tatsache ist, dass in Satz 4.25 die Bedingung supn2N0 EjXn j < 1 ausreicht, um die fast sichere Konvergenz zu erhalten, nicht jedoch für L1 -Konvergenz. Das Standardgegenbeispiel dazu ist Beispiel 4.17. Dort gilt EXn = 1 für alle n, Xn ! 0 fast sicher (in Übereinstimmung mit dem obigen Korollar), aber da die Erwartungswerte nicht konvergieren, gilt auch nicht L1 -Konvergenz. Es sollte hier auch betont werden, dass lange nicht alle Martingale in irgendeinem Sinne konvergieren. So konvergiert natürlich die symmetrische, eindimensionale Irrfahrt nicht. Beispiel 4.27 (Polyas Urnenschema) In einer Urne liegen Rn rote und Sn schwarze Kugeln zum Zeitpunkt n 2 N0 . Im Zeitintervall (n; n + 1) wird die Urne gut gemischt, eine Kugel zufällig gezogen und zusammen mit einer zusätzlichen Kugel der gleichen Farbe zurückgelegt. Zum Zeitpunkt 0 sei R0 = S0 = 1. Dann ist f(Rn ; Sn )gn2N0 eine Marko¤kette auf dem Zustandsraum N2 mit den Übergangswahrscheinlichkeiten p((r; s); (r+1; s)) = r=(r+s), und p((r; s); (r; s+ 1)) = s=(r + s) für alle (r; s) 2 N2 . O¤enbar ist Rn + Sn = n + 2 für jedes n 2 N0 . Seien 98 Fn := ((Ri ; Si ) : i n) und Xn := Rn =(n + 2) für alle n 2 N0 . Der Prozess fXn gn2N0 ist ein fFn gn2N0 -Martingal, denn für jedes n 2 N0 gilt Rn+1 j (Rn ; Sn ) n+3 Rn Rn + 1 (n + 2 Rn ) Rn Rn = + = = Xn : n+2 n+3 n+2 n+3 n+2 E(Xn+1 jFn ) = E O¤ensichtlich gilt Xn 0. Gemäss Korollar 4.26 existiert damit X1 := limn!1 Xn fast sicher. Was ist die Verteilung von X1 ? Eine einfache kombinatorische Überlegung zeigt, dass P (Rn = j) = 1=(n + 1) für jedes j 2 f1; : : : ; n + 1g gilt (Übungsaufgabe). Sei f : [0; 1] ! R eine stetige (und somit gleichmässig stetige) Funktion. Dann gilt n+1 1 X f Ef (Xn ) = n+1 j=1 j n+2 ; R1 was für n ! 1 gegen 0 f (x) dx konvergiert. Andererseits folgt aus Xn ! X1 und dem Satz von Lebesgue über majorisierte Konvergenz Ef (X1 ) = lim Ef (Xn ): n!1 R1 Somit ist Ef (X1 ) = 0 f (x) dx. Dies gilt für jede stetige Funktion, und somit ist die Verteilung von X1 das Lebesgue Mass auf [0; 1]. Die Diskussion der L2 -Konvergenz von Martingalen ist in gewisser Weise einfacher zu diskutieren als die der L1 -Konvergenz, so dass wir mit jener beginnen. De…nition 4.28 Ein Martingal fXn gn2N0 heisst L2 -Martingal, wenn für jedes n 2 N0 die Zufallsgrösse Xn quadratisch integrierbar ist. Satz 4.29 Sei X = fXn gn2N0 ein L2 -Martingal. Folgende drei Aussagen sind äquivalent: a) sup E(Xn2 ) < 1 n2N0 b) 1 X E((Xk Xk 2 1) ) k=1 c) fXn gn2N0 konvergiert P -fast sicher und in L2 . 99 <1 Beweis. Quadratisch integrierbare Martingale haben stets unkorrelierte Zuwächse, das heisst, für alle m; n 2 N0 mit m < n gilt Xm )2 ) = E((Xn n X E((Xk Xk 2 1 ) ): (4.2) k=m+1 Dies folgt mit Induktion nach n. Für n = m + 1 gilt (4.2), und für n m + 2 gilt E((Xn Xm )2 ) = E((Xn Xn 1 )(Xn 1 2 1 ) )+E((Xn 1 Xm )2 )+2E((Xn Xn Xm )): Einschieben eines bedingten Erwartungswertes liefert für den dritten Summanden E((Xn Xn 1 )(Xn 1 Xm )) = E(E((Xn = E((Xn 1 Xn 1 )(Xn 1 Xm )E(Xn Xm )jFn Xn = 0: 1 )) 1 jFn 1 )) Mit der Induktionsvoraussetzung für n 1 folgt nun (4.2) für n. Für jedes n 2 N0 folgt aus E(Xn X0 ) = E(E(Xn j F0 )X0 ) = E(X02 ) und (4.2) E(Xn2 ) E(X02 ) = E((Xn 2 X0 ) ) = n X E((Xk Xk 2 1 ) ); k=1 womit die Äquivalenz von a) und b) ersichtlich ist. Teil a) folgt aus der L2 -Konvergenz von fXn gn2N0 . Somit bleibt noch zu zeigen, dass c) aus a) und b) folgt: Aus (a) folgt supn2N0 EjXn j < 1 und somit aus Satz 4.25, dass X1 := lim Xn n!1 P -fast sicher existiert. Aus dem Lemma von Fatou und (4.2) folgt E((X1 2 Xm ) ) lim inf E((Xn n!1 2 Xm ) ) = 1 X E((Xk Xk 2 1 ) ); k=m+1 was nach (b) für m ! 1 gegen null konvergiert. Somit ist die L2 -Konvergenz zeigt. Man beachte den Unterschied zwischen dem L1 - und dem L2 -Fall: Aus der L2 Beschränktheit eines Martingals folgt Konvergenz in L2 . Aus der L1 -Beschränktheit folgt P -fast sichere Konvergenz, aber nicht L1 -Konvergenz, siehe Beispiel 4.17. Wir wollen nun diskutieren, unter welchen Zusatzbedingungen neben supn2N0 EjXn j < 1 ein Martingal im ersten Mittel konvergiert. De…nition 4.30 Eine Teilmenge von L1 := L1 ( ; F; P ) heisst gleichgradig integrierbar, falls Z lim sup jXj dP = 0 n!1 X2 fjXj ng gilt. 100 Um schreiben wir in Zukunft auch E(X; A) R Klammern und Integralzeichen zu sparen, R für A X dP , also etwa E(jXj; jXj n) für fjXj ng jXj dP . Lemma 4.31 Sei X 2 L1 . Dann gilt lim"!0 sup E(jXj; A) = 0: A2F ; P (A) " Beweis. Wir führen den Beweis indirekt und nehmen an, dass eine Folge fAn gn2N in F mit P (An ) 2Sn für alle n 2 N und lim inf n!1 E(jXj; An ) > 0 existiert. Für jedes n 2 N sei Bn := 1 k=n Ak . Dann gilt 1Bn # 0; P -fast sicher für n ! 1, und mit dem Satz von Lebesgue folgt lim inf E(jXj; An ) lim E(jXj; Bn ) = 0: n!1 n!1 Wir schreiben wie üblich kXkp := E(jXjp )1=p für p > 0: Lemma 4.32 Jede der folgenden Bedingungen ist hinreichend für die gleichgradige Integrierbarkeit einer Familie L1 : a) Es existiert ein p 2 (1; 1) mit supX2 kXkp < 1. b) Es existiert eine Zufallsgrösse Y 2 L1 mit jXj c) Es existieren Y 2 L1 und eine Familie von Teil- -Algebren von F mit = f E(Y jG) : G 2 Beweis. a) Für alle n 2 N und X 2 E(jXj; jXj n) E jXj Y fast sicher für alle X 2 . g: gilt jXjp 1 ; jXj np 1 n kXkpp np 1 1 np 1 sup kXkpp ; X2 und dies konvergiert gegen null für n ! 1. b) Für alle X 2 und n 2 N gilt E(jXj; jXj n) E(Y ; Y n), und dies konvergiert nach dem Satz über die majorisierte Konvergenz gegen null für n ! 1. c) Für n 2 N und G 2 sei An (G) := fjE(Y jG)j ng. Wegen jE(Y jG)j E(jY jjG) folgt mit der Marko¤schen Ungleichung P (An (G)) 1 E(jE(Y jG)j) n 101 1 1 E(E(jY jjG)) = E(jY j): n n Somit gilt lim sup P (An (G)) = 0: n!1 G2 Wegen An (G) 2 G gilt E(jE(Y jG)j; An (G)) E(E(jY jjG); An (G)) = E(jY j; An (G)); also folgt mit Lemma 4.31 die gleichgradige Integrierbarkeit von . Satz 4.33 Es seien fXn g eine Folge in L1 und X 2 L1 . Die Folge fXn g konvergiert genau dann im ersten Mittel gegen X, wenn fXn gn2N in Wahrscheinlichkeit gegen X konvergiert und fXn g gleichgradig integrierbar ist. Beweis. (a) Die Folge fXn gn2N konvergiere im ersten Mittel gegen X. Dann konvergiert fXn gn2N in Wahrscheinlichkeit gegen X 9 , und es bleibt zu zeigen, dass fXn gn2N gleichgradig integrierbar ist. Für alle k; n 2 N ist P (jXn j kXn k1 : k k) Konvergiert fXn gn2N im ersten Mittel, so ist supn2N kXn k1 < 1. Somit folgt lim sup P (jXn j k!1 n2N k) = 0: (4.3) Ist N 2 N, so gilt sup E(jXn j; jXn j n2N k) sup E(jXn j; jXn j k) n N + sup kXn n>N Xk1 + sup E(jXj; jXn j k): n>N Wegen (4.3) und Lemma 4.31 folgt, dass der dritte Summand für k ! 1 gegen null konvergiert. Jede endliche Familie von integrierbaren Zufallsgrössen ist dem Satz von Lebesgue gleichgradig integrierbar, also konvergiert der erste Summand für k ! 1 gegen null. Da N beliebig ist, folgt die gleichgradige Integrierbarkeit von fXn gn2N . (b) Die Folge fXn gn2N konvergiere in Wahrscheinlichkeit gegen X und sei gleichgradig integrierbar. Für k 2 N und x 2 R sei 'k (x) := ( k) _ (x ^ k). Für " > 0 und k; n 2 N gilt k'k (Xn ) 'k (X)k1 " + 2kP (jXn Xj > "): 9 Falls nicht bekannt: Hier das Argument. Für " > 0 ist P (jXn Marko¤-Ungleichung. Also folgt aus der Konvergenz im 1. Mittel lim P (jXn n!1 Xj für alle " > 0: 102 ") = 0 Xj ") " 1 E jXn Xj nach der Da fXn gn2N in Wahrscheinlichkeit gegen X konvergiert und " > 0 beliebig ist, folgt lim k'k (Xn ) n!1 'k (X)k1 = 0 für jedes k 2 N. Wegen kXn Xk1 kXn 'k (Xn )k1 + k'k (Xn ) E(jXn j; jXn j > k) + k'k (Xn ) 'k (X)k1 + k'k (X) Xk1 'k (X)k1 + E(jXj; jXj k) gilt lim sup kXn n!1 Xk1 sup E(jXn j; jXn j n2N k) + E(jXj; jXj k): Da k beliebig ist, folgt aus der gleichgradigen Integrierbarkeit, dass kXn Xk1 für n ! 1 gegen null konvergiert. Zurück zur L1 -Konvergenz von Martingalen. Satz 4.34 Sei X = fXn g ein fFn g-Martingal. Dann sind die folgenden drei Aussagen äquivalent: a) Das Martingal fXn g ist gleichgradig integrierbar. b) Das Martingal fXn g konvergiert P -fast sicher und im ersten Mittel. c) Es existiert Y 2 L1 mit Xn = E(Y jFn ) P -fast sicher für alle n 2 N0 . Erfüllt X eine dieser Bedingungen, so kann für Y in Aussage c) insbesondere der P -fast sichere und L1 -Grenzwert des Martingals X gewählt werden. Beweis. Die Implikation c))a) folgt aus 4.32 c). Die Implikation a))b) folgt aus Satz 4.33, sobald gezeigt ist, dass fXn g P -fast sicher und somit auch in Wahrscheinlichkeit konvergiert. Wegen der gleichgradigen Integrierbarkeit von fXn g existiert ein k 2 N mit E(jXn j; jXn j > k) 1 für alle n 2 N. Also gilt sup kXn k1 n2N sup fE(jXn j; jXn j n2N k) + E(jXn j; jXn j > k)g k + 1 < 1; woraus mit Satz 4.25 die P -fast sichere Konvergenz von fXn gn2N folgt. Wir beweisen die Implikation b))c): Seien X1 der L1 -Limes der Folge fXn gn2N und n 2 N. Dann gilt für jedes m n E(jXn E(X1 jFn )j) = E(jE(Xm X1 jFn )j) E(E(jXm X1 jjFn )) = kXm X 1 k1 : Mit m ! 1 folgt Xn = E(X1 jFn ) P -fast sicher. Hiermit ist der Zusatz ebenfalls bewiesen. Korollar 4.35 Für Y 2 L1 ist fE(Y jFn )gn2N0 ein fFn g-Martingal, das fast sicher und in L1 gegen E(Y jF1 ) konvergiert. 103 Beweis. Für n 2 N sei Xn := E(Y jFn ). Die Martingaleigenschaft von fXn g ist o¤ensichtlich. Nach Satz 4.34 konvergiert das Martingal fXn gn2N P -fast sicher und in L1 gegen eine Zufallsgrösse X1 , die natürlich F1 -messbar ist. Es bleibt zu zeigen, dass X1 = E(Y jF1 ) gilt, das heisst, dass E(X1 ; A) = E(Y ; A) für alle A 2 F1 ist. Für A 2 Fn folgt S dies aus Xn = E(X1 jFn ) P -fast sicher, was nach dem Zusatz von Satz 4.34 gilt. Da n2N Fn ein durchschnittstabiles Erzeugendensystem von F1 ist, folgt E(X1 ; A) = E(Y ; A) für alle A 2 F1 . 4.5 4.5.1 Anwendung auf Äquivalenz von Produktmassen Das Kakutani-Kriterium Als Anwendung diskutieren wir Kakutanis Kriterium für die Äquivalenz von Produktmassen. Sei f n gn2N eine Folge von unabhängigen, nichtnegativen Zufallsgrössen mit Q E( n ) = 1. Für jedes n 2 N de…nieren wir Fn = ( i : i n) und Mn = ni=1 i . Die Folge fMn gn2N ist o¤ensichtlich ein positives Martingal, denn E(Mn+1 jFn ) = E(Mn n+1 jFn ) = Mn E( n+1 jFn ) = Mn E( n+1 ) = Mn : Nach Korollar 4.26 konvergiert fMn gn2N P -fast sicher gegen eine nichtnegative Zufallsgrösse M1 , und nach dem Lemma von Fatou gilt E(M1 ) lim inf n!1 E(Mn ) = 1. Nach Satz 4.34 konvergiert fMn gn2N genau dann im 1. Mittel gegen M1 , wenn fMn gn2N gleichgradig integrierbar ist. In diesem Fall ist natürlich E(M1 ) = 1. Lemma 4.36 a) Das Martingal fMn gn2N ist genau dann gleichgradig integrierbar, wenn Y n2N E p n >0 gilt. b) Ist fMn gn2N nicht gleichgradig integrierbar, so gilt M1 = 0 P -fast sicher. c) Ist fMn gn2N gleichgradig integrierbar und n > 0 P -fast sicher für alle n 2 N , so gilt auch M1 > 0 P -fast sicher. p Q Beweis. Für jedes n 2 N seien an := E( n ) und bn := ni=1 ai . Nach der Cauchy– Schwarzschen Ungleichung ist an 1, wegen P ( n = 0) 6= 1 ist an > 0. Qundp a), b): Für jedes n 2 N sei Nn = ni=1 i =ai . Nach derselben Überlegung wie oben ist fNn gn2N ein fFn gn2N -Martingal, das nach Korollar Q 4.26 P -fast sicher gegen eine nichtnegative Zufallsgrösse N1 konvergiert. Ist b1 := 1 i=1 ai > 0, so gilt K := sup E(Nn2 ) n2N 1 n Y E( i ) Y 1 1 = = sup 2 2 = b2 < 1: a a n2N i=1 1 i i=1 i 104 Nach Satz 4.29 konvergiert fNn gn2N gegen N1 in L2 . Es gilt Mn = b2n Nn2 für jedes n 2 N, 2 P -fast sicher folgt. Ferner folgt mit der Cauchy–Schwarzschen woraus M1 = b21 N1 Ungleichung kMn M1 k1 = k(bn Nn + b1 N1 )(bn Nn b1 N1 )k1 kbn Nn + b1 N1 k2 kbn Nn b1 N1 k2 p 2 K(bn kNn N1 k2 + jbn b1 j kN1 k2 ) für jedes n 2 N, also konvergiert fMn gn2N gegen M1 im ersten Mittel. Nach Satz 4.33 ist fMnQ gn2N gleichgradig integrierbar. Ist 1 i=1 ai = 0, so folgt aus der P -fast sicheren Konvergenz von fNn gn2N gegen N1 sofort, dass fMn gn2N P -fast sicher gegen null konvergiert. Also gilt M1 = 0 P -fast sicher, und fMn gn2N konvergiert nicht im ersten Mittel. Nach Satz 4.33 kann fMn gn2N nicht gleichgradig integrierbar sein. Somit sind a) und b) bewiesen. c) Wir wissen schon, dass fMn gn2N P -fast sicher und im ersten Mittel gegen M1 konvergiert. Demzufolge ist E(M1 ) = 1 und P (M1 = 0) 6= 1. Für jedes n 2 N sei nY1 o Bn := = 0 : i i=n Wegen Qn 1 i=1 i > 0 P -fast sicher gilt P (fM1 = 0g 4 Bn ) = 0: (4.4) Da fBn gn2N eine absteigende Folge von Ereignissen ist, gilt \ \ Bn = lim inf Bn 2 ( j : j k): n!1 n2N k2N T Nach dem Kolmogoro¤schen 0-1-Gesetz ist P ( n2N Bn ) 2 f0; 1g, und wegen (4.4) gilt P fM1 = 0g 4 \ n2N Bn X n2N P (fM1 = 0g 4 Bn ) = 0: Aus P (M1 = 0) 6= 1 folgt also P (M1 = 0) = 0: Wir betrachten nun die folgende Situation: Es seien (E; E) ein beliebiger messbarer Raum sowie f n gn2N und f n gn2N zwei Folgen von Wahrscheinlichkeitsmassen auf (E; E). Wir setzen voraus, dass für jedes n 2 N die Masse n und n gegenseitig absolutstetig sind. Sei fn eine Dichte von n bezüglich n . Wegen n n folgt, dass diese Dichte n -fast sicher positiv ist. Wir können daher annehmen, dass N fn (x) > 0 für alle xN 2 E gilt. Auf dem Produktraum ( ; F) := (E N ; E N ) seien P := n2N n und Q := n2N n die zugehörigen Produktmasse. Wir interessieren uns dafür, ob P und Q ebenfalls gegenseitig absolutstetig sind. Kakutanis Satz gibt dafür ein notwendiges und hinreichendes Kriterium an. 105 Für jedes n 2 N seien n : ! E die Projektion auf den n-ten Faktor und Fn = ( i : i n). O¤ensichtlich ist fFn gn2N eine Filtrierung von F. Sei n := fn n . Unter P ist f n gn2N eine Folge unabhängiger Zufallsgrössen mit EP ( n ) = 1 für alle n 2 N. Sei Z p p an := EP ( n ) = fn d n : E Satz 4.37 Q(Satz von Kakutani) 1. Ist 1 P und P Q. In n=1 an > 0, so sind P und Q äquivalent, das heisst Q diesem Fall ist n Y dQ = M1 := lim i ; P f:s: n!1 dP i=1 Q 2. Ist 1 n=1 an = 0, so sind P und Q zueinander singulär, das heisst, es existiert ein A 2 F mit P (A) = 1 und Q(A) = 0. Q Beweis. 1. Für jedes n 2 N seien Mn := ni=1 i sowie Pn := P jFn und Qn := QjFn . O¤ensichtlich sind Pn und Qn äquivalent, und es gilt dQn =dPn = Mn P -fast sicher. Gemäss Lemma 4.36 und Satz 4.34 konvergiert fMn gn2N P -fast sicher und in L1 (P ) gegen M1 , und es gilt Mn = EP (M1 jFn ) P -fast sicher für jedes n 2 N. Daraus ergibt sich für jedes A 2 Fn Z Z Z Q(A) = Qn (A) = Mn dPn = Mn dP = M1 dP: A A S S A Dies gilt für alle A 2 n2N Fn . Da n2N Fn ein durchschnittstabiles Erzeugendensystem von F ist, gilt es für alle A 2 F. Das heisst, Q P und dQ=dP = M1 P -fast sicher. Wegen M1 > 0 P -fast sicher (Lemma 4.36 3.) folgt P Q. 2. Aus dem obigen Lemma wissen wir, dass fMn gn2N P -fast sicher gegen null konvergiert. Wir zeigen nun, p dass Q fMn gn2N Q-fast sicher gegen unendlich konvergiert. Da fNn gpn2N mit Nn := Mn = ni=1 ai ein P -Martingal ist, und ai 1 für alle i 2 N gilt, ist f Mn gn2N ein P -Supermartingal. Für jedes B 2 Fn ist Z Z Z p Z p Z 1 1 1 p p p dQ dQ = Mn dP = Mn dP Mn+1 dP = Mn+1 Mn Mn B B B B B p (Mn und Mn+1 sind überall strikt positiv gewählt). Demzufolge ist f1= Mn gn2N ein positives Q-Supermartingal und konvergiert gemäss Korollar 4.26 also Q-fast sicher. Wegen Z p Z n Y 1 p dQ = ai # 0 für n ! 1 Mn dP = Mn i=1 folgt Q lim p n!1 1 =0 Mn = 1; also Q Somit ist A := f ! 2 lim Mn = 1 = 1: n!1 : limn!1 Mn (!) = 0 g eine Q-Nullmenge mit P (A) = 1. 106 Beispiel 4.38 Auf (E; E) := (R; B) betrachten wir zwei Folgen f n gn2N und f n gn2N von Wahrscheinlichkeitsmassen, wobei n die Standardnormalverteilung und n die Normalverteilung mit Varianz 1 und Erwartungswert n 2 R seien. Für jedes n 2 N gilt d d n 2 exp( (x n ) =2) = exp( exp( x2 =2) (x) = n nx 2 n =2); x 2 R; und es folgt an := Z s Z R d d n d n n 1 x2 p exp dx 2 4 2 2 R Z 1 1 n 2 p exp = exp( 2n =8) dx x 2 2 2 R = exp( 2n =8): P1 Q1 2 a > 0 genau dann, wenn O¤ensichtlich gilt n n=1 n < 1 ist. Nach Satz 4.37 n=1 N N sind P = n2N n und Q = n2N n also genau dann äquivalent, wenn f n gn2N 2 l2 gilt. Ist dies der Fall, so ist nach diesem Satz = exp nx 2 n X1 dQ (x) = exp n=1 dP n xn 1 X1 n=1 2 2 n P für P -fast alle x = fxn gn2N 2 RN . Die Reihe 1 n=1 n xn konvergiert natürlich nicht auf ganz RN , sondern nur P -fast sicher. Ausserhalb dieser Menge von P - und Q-Mass 1 können wir die Dichtefunktion nach Belieben festsetzen, zum Beispiel zu eins. 4.5.2 Die Cameron-Martin Formel Wir diskutieren in diesem Kapitel einen wichtigen Spezialfall von Beispiel 4.38: Die Cameron-Martin Formel. Wir betrachten dazu die stetige Brownsche Bewegung, aber nur auf dem Zeitintervall [0; 1] : B = fBt gt2[0;1] . Die Verteilung W von B auf (C; C) = C [0; 1] ; BC[0;1] ist das eindeutig de…nierte Wiener Mass. Ist h 2 C; so betrachten wir die Abbildung h : C ! C; de…niert durch h (f ) = h + f: Wir interessieren uns für die Frage, wann W h 1 und W äquivalent sind, und falls sie äquivalent sind, wie die relative Dichte aussieht. Dazu führen wir einen wichtigen Teilraum von C ein, den sogenannten CameronMartin Raum. Zur Erinnerung: L2 [0; 1] ist die Menge der Äquivalenzklassen von messbaren, quadratisch integrierbaren Funktionen [0; 1] ! R unterR der Äquivalenzret lation der Lebesgue-f.ü.-Gleichheit. Für h 2 L2 [0; 1] ist das Integral 0 h (s) ds für jedes t de…niert, denn Funktionen, die fast überall gleich sind, haben dasselbe Integral. Ferner 107 sind quadratisch integrierbare Funktionen auf dem Intervall [0; 1] auch integrierbar. Dieses Integral ist o¤ensichtlich eine stetige Funktion in t: Wir können somit eine Abbildung j : L2 [0; 1] ! C durch Z t h (s) ds j (h) (t) := 0 R1 de…nieren. L2 [0; 1] versehen mit dem Skalarprodukt hh1 ; h2 i := 0 h1 (s) h2 (s) ds ist ein reeller Hilbertraum. Diese Abbildung j ist linear, injektiv, und wie man leicht sieht auch stetig, d.h. für eine Folge fhn gn2N in L2 [0; 1] und h 2 H gilt: lim khn n!1 hk2 = 0 =) lim kj (hn ) n!1 j (h)k1 = 0: Etwas schwieriger zu sehen ist, dass j kompakt ist. Dies bedeutet, dass das Bild unter j einer abgeschlossenen beschränkten Teilmenge in L2 [0; 1] kompakt in C ist (bezüglich der Supremumsnorm auf C) : Kr := fj (h) : khk2 rg ist für jedes r > 0 eine kompakte Teilmenge von C: Wir werden diese (an sich wichtige) Eigenschaft nicht beweisen, da wir sie hier nicht benützen werden. Der Leser kann versuchen, dies selbst zu beweisen. (fh 2 L2 [0; 1] : khk2 rg selbst ist keine kompakte Teilmenge von L2 [0; 1]). Wir de…nieren den Cameron-Martin-Raum H := fj (h) : h 2 L2 [0; 1]g : H ist ein linearer Unterraum von C (im Sinne der linearen Algebra). Für g 2 H ist wegen der Injektivität von j das Element h 2 L2 [0; 1] mit g = j (h) eindeutig de…niert. Wir schreiben dafür (etwas missbräuchlich): h = g 0 . H ist eine dichte Teilmenge von C: Dies folgt einfach daraus, dass sich jede stetige Funktion gleichmässich durch stetig di¤erenzierbare Funktionen approximieren lässt, also insbesondere durch Funktionen in H: (Die Menge der stetig di¤erenzierbaren Funktionen ist o¤ensichtlich eine Teilmenge von H). Es ist jedoch wichtig zu bemerken, dass H 6= C ist. In der Tat ist H eine Nullmenge unter dem Wiener-Mass. Dies folgt daraus, dass eine Funktion g 2 H Lebesgue fast überall di¤erenzierbar ist (was wir nicht bewiesen haben, aber was nicht sehr schwer zu zeigen ist). Da unter dem S Wiener Mass fast alle Funktionen nirgends di¤erenzierbar sind, folgt W (H) = 0: (H = n2N Kn ist als abzählbare Vereinigung kompakter Mengen natürlich eine Borel-Menge in C). j de…niert eine Bijektion zwischen L2 [0; 1] und H: Wir können daher auch H als Hilbert-Raum au¤assen. Für g; g1 ; g2 2 H schreiben wir hg1 ; g2 iH für hg10 ; g20 iL2 [0;1] und qR p 1 0 2 kgkH für hg; giH = 0 g (s) ds: Satz 4.39 W g 1 ist genau dann absolut stetig bezüglich W; wenn g 2 H ist. Ist g 2 = H; so sind 1 1 W g und W gegenseitig singulär, d.h. es existiert A 2 C mit W g (A) = 1, W (A) = 0: Ist g 2 H; so gilt Z 1 d W g1 1 0 2 (f ) = exp g 0 df g 2 : (4.5) dW 2 0 108 Wir beweisen hier nur die eine Richtung, nämlich dass für g 2 H die Masse absolut stetig mit der angegebenen Dichte sind. Dem aufmerksamen Leser sollte jedoch ins R 1Auge springen, dass die obige Formel eigentlich unsinnig ist: Es ist nicht klar, wie wir 0 g 0 df für alle f 2 C de…nieren sollen. Die naheliegende De…nition ist Z 1 Z 1 g (s) f 0 (s) ds: g df = 0 0 Das ist sicher nicht für alle f 2 C defniert. Der Ausweg besteht darin, dass wir diesen Ausdruck nicht wirklich für alle f 2 C de…nieren müssen, sondern nur für W -fast alle f: Das hilft aber o¤ensichtlich im Moment auch nicht sehr viel weiter, denn wir wissen schon, dass W -fast alle Funktionen nirgends di¤erenzierbar sind. Einen Ausweg erhalten wir, wenn wir voraussetzen, dass g 0 selbst nochmals di¤erenzierbar ist. In diesem Fall können wir die Sache durch partielle Integration de…nieren: Z 1 Z 1 Z 1 s=1 g 00 (s) f (s) ds: g 00 (s) f (s) ds = g 0 (1) f (1) g 0 df := g 0 (s) f (s) s=0 0 0 0 O¤ensichtlich sind jedoch nicht alle Funktion g 2 H zweimal di¤erenzierbar, sodass wir hier auf Schwierigkeiten stossen. Bevor wir den obigen Satz beweisen, müssen wir uns daher zunächst dieser Schwierigkeit annehmen: Wir bezeichnen mit C 2 die Menge der zweimal stetig di¤erenzierbaren Funktion [0; 1] ! R: O¤ensichtlich gilt C 2 H: Ferner ist C 2 dicht in H (bezüglich der Norm k kH ): Dies folgt zum Beispiel daraus, dass es vollständige Orthonormalsysteme in L2 [0; 1] gibt, die aus unendlich oft di¤erenzierbar Funktionen bestehen, wie etwa die trigonometrischen Funktionen. Für g 2 C 2 de…nieren wir die Abbildung g : C ! R durch Z 1 0 g (f ) := g (1) f (1) g 00 (s) f (s) ds: 0 Wir können fassen. g als reelle Zufallsgrösse auf dem Wahrscheinlichkeitsraum (C; C; W ) auf- Lemma 4.40 Ist g 2 C 2 , so ist g normalverteilt mit Mittel 0 und Varianz kg 0 k22 : Beweis. Hier nur eine Skizze. Der Leser möge die fehlenden Details als Übungsaufgabe einfügen. Durch die Riemann-Approximation des Integrals und unter Verwendung von Lemma 109 3.10 folgt, dass Z g g normalverteilt ist mit Mittel 0 und Varianz ! Z 2 (f )2 W (df ) = E 1 g 0 (1) B (1) g 00 (s) B (s) ds 0 = 0 g (1) 2 2 Z 1 Z 2 2g (1) 0 0 2 00 1 Z 1 ds g (s) E (B (1) B (s)) + ds dt g 00 (s) g 00 (t) E 0 0 0 Z 1 Z 1 Z 1 dt g 00 (s) g 00 (t) min (s; t) ds ds g 00 (s) s + 2g 0 (1) E B (1) g 0 (1) Z 1 ds g 0 (s) = = 0 0 : 0 Die Vertauschung von Erwartungswert und Integral in der zweiten Gleichung ist einfach (via die Riemann-Approximation) zu rechtfertigen, und die letzte Gleichung folgt mit einer elementaren partiellen Integration. Die Abbildung g ! g ist eine lineare Abbildung C 2 ! L2 (C; C; W ) : Wir bezeichnen diese Abbildung mit : Nach dem obigen Lemma gilt k g kL2 (C;C;W ) = kgkH : (4.6) Wegen der Vollständigkeit von L2 (C; C; W ) können wir daher eindeutig zu einer Abbildung H ! L2 (C; C; W ) ; die ebenfalls (4.6) erfüllt, erweitern: Wir wählen zu jedem g 2 H eine Folge fgn gn2N C 2 mit kgn gkH ! 0: Nach dem obigen Lemma ist die Folge f gn g eine Cauchy-Folge in L2 (C; C; W ) und wir de…nieren g als deren Limes in L2 (C; C; W ) : Man weist dann leicht nach, dass g auf diese Weise eindeutig de…niert ist (als Element von L2 (C; C; W )): Wie schon oben ausgeführt, sind die gn zentriert normalverteilt mit Varianz kgn k2H : Nach Lemma ? ist daher g : C ! R unter dem Wiener Mass zentriert normalverteilt mit Varianz kgk2H : Die Formel (4.5) können wir nun wie folgt präzsieren: Für g 2 H gilt d W g1 = exp dW 1 kgk2H : 2 g Man beachte, dass W -integral über die rechte Seite auch wirklich gleich 1 ist. Das liegt am folgenden Faktum: Lemma 4.41 Sei X eine zentrierte normalverteilte Zufallsgrösse mit Varianz 2 R die Zufallsgrösse e X integrierbar und es gilt: Ee X 2: Dann ist für jedes 2 2 = exp 2 : Beweis. Mit einer quadratischen Ergänzung des Exponenten folgt sofort: Z 1 2 2 1 x2 X = exp : Ee = e xp exp 2 2 2 2 2 1 110 Damit haben wir dem Satz 4.39 einen wohlde…nierten Sinn gegeben. Es bleibt uns nur noch, den Satz auch wirklich zu beweisen. Beweis von Satz 4.39. Wir verwenden die Konstruktion des Wiener-Masses mit Hilfe der Haar-Basis. Zur Vereinfachung der Notation numerieren wir die Haar-Basis von L2 [0; 1] fortlaufend durch: h1 ; h2 ; : : : . Wir setzen gi = j (hi ) 2 C: Wir betrachten den Wahrscheinlichkeitsraum RN ; B N ; P ; wobei P das unendliche Produktmass der Standardnormalverteilung ist. Die Projektionen i : RN ! R sind dann unabhängig und standard normalverteilt. Aus der Diskussion in Kapitel ? ersehen wir, dass die Folge PN g für N ! 1 mit P -Wahrscheinlichkeit 1 gleichmässig gegen eine C-wertige Zui i=1 i fallsgrösse konvergiert, deren Verteilung das Wiener-Mass W auf (C; C) ist. Wir können N das auch wie folgt ausdrücken: Es existiert eine P1Menge A 2 B mit P (A) = 1; sodass für alle x = (xi )i2N 2 A; die Reihe (x) := i=1 xi gi 2 C existiert (als gleichmässiger Limes). De…nieren wir (x) als die Nullfunktion (oder irgendeine Lieblingsfunktion des 1 = W: Lesers) für x 2 = A, so ist : RN ! C eine B N C-messbare Abbildung mit P 0 0 Sei nun g 2 H; d.h. g 2 L2 [0; 1] : Dann gelten mit ai := hg ; hi i 1 X i=1 0 g = a2i < 1 1 X (4.7) ai hi i=1 P in L2 [0; 1] : Wegen der Stetigkeit von j gilt dann g = 1 i=1 ai gi in (C; k k1 ) : Ist für a 2 R; a die Normalverteilung mit Mittel a und Varianz 1; und ist P 0 := a1 ::: a2 N N 0 auf R ; B ; so gilt nach (??), dass P absolut stetig bezüglich P ist mit X1 dP 0 1 X1 2 (x) = exp ai xi a i=1 i=1 i dP 2 1 = exp g kgk2H ( (x)) ; P f:s: 2 1 1 = W; sondern auch P 0 1 = W Anderseits ist natürlich nicht nur P g : Daraus folgt sofort, dass W g 1 absolut stetig bezütlich W ist und mit der obigen Formel: dW g 1 = exp dW g 1 kgk2H ; W f:s: 2 Dass W g 1 und W äquivalent sind (d.h. dass auch W absolut stetig bezüglich W ist) folgt aus der Tatsache, dass die obige Dichte W -fast überall positiv ist. Literatur [1] Bauer, Heinz: Mass- und Integrationstheorie. De Gruyter 1990. [2] Bauer, Heinz: Wahrscheinlichkeitstheorie. De Gruyter 1991. 111 g 1