Stochastische Prozesse Wintersemester 2016/17 Mathias Trabs∗ Universität Hamburg 6. Februar 2017 Inhaltsverzeichnis 1 Allgemeine Theorie stochastischer Prozesse 1.1 Beispiele . . . . . . . . . . . . . . . . . . . . . 1.1.1 Martingale . . . . . . . . . . . . . . . 1.1.2 Poisson-Prozess . . . . . . . . . . . . . 1.1.3 Markov-Ketten . . . . . . . . . . . . . 1.2 Grundbegriffe . . . . . . . . . . . . . . . . . . 1.3 Erweiterungssatz von Kolmogorov . . . . . . . . . . . . 2 2 2 2 5 7 8 2 Martingale 2.1 Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 13 14 17 3 Markovprozesse 3.1 Existenz von Markovprozessen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Markov-Ketten in diskreter Zeit: Rekurrenz und Transienz . . . . . . . . . . . . . . 3.3 Markovketten in stetiger Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 18 23 25 4 Ergodentheorie 4.1 Stationäre und ergodische Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Ergodensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Anwendung auf Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 27 30 32 5 Brownsche Bewegung 5.1 Stetige Pfade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Verteilungseigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Schwache Konvergenz und der Satz von Donsker . . . . . . . . . . . . . . . . . . . 35 35 39 41 ∗ Email: [email protected] 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Allgemeine Theorie stochastischer Prozesse 1.1 1.1.1 Beispiele Martingale Martingale kennen wir bereits aus der Maßtheorievorlesung. Sie dienen der Formalisierung von fairen Spielen und sind bspw. in der Finanzmathematik zentral, um den Handel mit Aktien an (vollständigen) Märkten zu modellieren. Zur Erinnerung: Definition 1.1. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, I ⊆ R und (Ft )t∈I eine Filtration (also eine Familie von σ-Algebren mit Fs ⊆ Ft für s 6 t). Ein stochastischer Prozess X = (Xt )t∈I heißt Martingal (bzw. Submartingal oder Supermartingal) bzgl. (Ft )t∈I , falls gilt: (i) Xt ∈ L1 (P), t ∈ I, (ii) Xt ist Ft -messbar für jedes t ∈ I (X ist adaptiert an (Ft )t∈I ) und (iii) E[Xt |Fs ] = Xs P-f.s. für alle s, t ∈ I, t > s (bzw. E[Xt |Fs ] > Xs für Sub- oder E[Xt |Fs ] 6 Xs für Supermartingale). Beispiel 1.2. (i) Sind (Xi )i∈N unabhängige, integrierbare Zufallsvariablen mit E[Xi ] = 0 (bzw. > 0 oder 6 0) Pn für alle i ∈ N, so ist (Sn )n>0 mit Sn := i=1 Xi , n ∈ N, und S0 := 0 ein Martingal (bzw. Sub- oder Supermartingal) bzgl. seiner natürlichen Filtration Fn := σ(Sm : m 6 n). Im Spezialfall P(Xi = 1) = P(Xi = −1) = 21 sprechen wir von einer (symmetrischen) Irrfahrt. (ii) Sei X0 das Startkapital eines Spielers und Xn modelliere das Kapital nach n Runden. Die Filtration Fn interpretieren wir als die Information der Ausgänge der ersten n ∈ N Runden. Dann ist E[Xn+1 − Xn |Fn ] die Vorhersage des Gewinns (bzw. Verlustes) in Runde n + 1 gegeben aller Informationen bis zur “Zeit” n. Ist (Xn )n>0 ein Martingal, handelt es sich also um ein faires Spiel (das Kapital bleibt im Durchschnitt konstant). Ein Submartingal ist vorteilhaft für den Spieler, wohingegen ein Supermartingal im Mittel zu Verlusten führt. 1.1.2 Poisson-Prozess Beispiel 1.3. Wir zählen die Anzahl Nt der Klicks eines Geigerzählers (=Anzahl der Emissionen einer radioaktiven Substanz) im Zeitintervall [0, t]. Die Werte Nt sind zufällig und werden durch einen Zählprozess modelliert. Definition 1.4. Seien (Sk )k>1 Zufallsvariablen auf (Ω, F, P) mit 0 6 S1 (ω) 6 S2 (ω) 6 . . . für alle ω ∈ Ω. Dann heißt N = (Nt , t > 0) mit N0 = 0 und X Nt := 1{Sk 6t} , t > 0, k>1 Zählprozess mit Sprungzeiten (Sk ). Beispiel 1.3 (Fortsetzung). Die Anzahl der Klicks in einem kurzen Zeitintervall [t, t + h] sollte entweder 0 oder 1 und die Wahrscheinlichkeit eines Klicks sollte (approximativ) proportional zu h sein. Außerdem sollten die Klickanzahlen in den Intervallen (0, t1 ], . . . , (tn−1 , tn ] für Zeiten 0 < t1 < · · · < tn unabhängig sein und ihre Verteilung sollte nur von der Intervalllänge abhängen. Definition 1.5. Ein Zählprozess N heißt Poisson-Prozess mit Intensität λ > 0, falls (i) P(Nt+h − Nt = 1) = λh + o(h) für h ↓ 0; (ii) P(Nt+h − Nt = 0) = 1 − λh + o(h) für h ↓ 0; 2 (iii) (Nti − Nti−1 )16i6n sind für beliebige Zeitpunkte 0 = t0 < t1 < · · · < tn unabhängig (unabhängige Inkremente); d (iv) Nt − Ns = Nt−s für alle t > s > 0 (stationäre Inkremente) Notation: d • X = Y für Zufallsvariablen X, Y heißt, dass X und Y die gleiche Verteilung haben: P X = PY . • A(h) = o(h) für h ↓ 0 heißt limh↓0 A(h) h = 0. Satz 1.6. Für einen Zählprozess N mit Sprungzeiten (Sk ) sind folgende Eigenschaften äquivalent: (i) N ist ein Poisson-Prozess mit Intensität λ > 0. (ii) N erfüllt die Bedingungen (iii) und (iv) eines Poisson-Prozesses und es gilt Nt ∼ P oiss(λt) für alle t > 0. (iii) T1 := S1 , Tk := Sk − Sk−1 , k > 2, sind unabhängig und Exp(λ)-verteilt. (iv) Nt ∼ P oiss(λt) gilt für alle t > 0 und die Verteilung von (S1 , . . . , Sn ) gegeben {Nt = n} besitzt die Dichte n! (1) f (x1 , . . . , xn ) = n 1{06x1 6...6xn 6t} . t (v) N erfüllt Bedingung (iii) eines Poisson-Prozesses, E[N1 ] = λ und (1) ist die Dichte von (S1 , . . . , Sn ) gegeben {Nt = n}. Bemerkung 1.7. • Wir schlussfolgern die Poisson-Verteilung aus den Bedingung (i) und (ii) ohne weitere Verteilungsannahmen. • Die Existenz des Poisson-Prozesses Pn folgt aus (iii): Für unabhängige und Exp(λ)-verteilte (Tk )k∈N ist Nt = max{n ∈ N : k=1 Tn 6 t} ein Poissonprozess. • Die Dichte f aus (1) ist auch die Dichte der Ordnungsstatistiken U(1) , . . . , U(n) von unabhänigen U([0, t])-verteilten Zufallsvariablen U1 , . . . , Un (Übung 2 ). Beweis. (i)⇒(ii) Wir setzen pn (t) := P(Nt = n). Aus der Definition des Poisson-Prozesses folgt für h > 0 p0 (t + h) = P(Nt = 0, Nt+h − Nt = 0) = P(Nt = 0)P(Nh = 0) = p0 (t)p0 (h) = p0 (t) 1 − λh + o(h) . Daraus folgt p0 (t + h) − p0 (t) o(h) h↓0 = −λp0 (t) + −→ −λp0 (t) = p00 (t). h h Zusammen mit p0 (0) = 1 ergibt sich p0 (t) = e−λt . Für n > 1 erhalten wir analog pn (t + h) = P {Nt+h = n} ∩ ({Nt 6 n − 2} ∪ {Nt = n − 1} ∪ {Nt = n}) = o(h) + pn−1 (t) λh + o(h) + pn (t) 1 − λh + o(h) 3 und somit pn (t + h) − pn (t) h o(h) + pn−1 (t) λh + o(h) + pn (t) − λh + o(h) = lim h↓0 h = λpn−1 (t) − λpn (t). p0n (t) = lim h↓0 n −λt also Nt ∼ P oiss(λt). Wegen pn (0) = 0, folgt pn (t) = (λt) n! e (ii) ⇒ (iii) Für 0 = b0 6 a1 < b1 6 . . . 6 an < bn berechnen wir n \ P {ak 6 Sk 6 bk } k=1 n−1 \ =P {Nak − Nbk−1 = 0, Nbk − Nak = 1} ∩ {Nan − Nbn−1 = 0, Nbn − Nan > 1} k=1 = n−1 Y P(Nak −bk−1 = 0)P(Nbk −ak = 1) P(Nan −bn−1 = 0)P(Nbn −an > 1) k=1 = n−1 Y λ(bk − ak )e−λ(bk −ak )−λ(ak −bk−1 ) e−λ(an −bn−1 ) (1 − e−λ(bn −an ) ) k=1 = (e−λan − e−λbn )λn−1 Z b1 Z b2 −x1 Z n−1 Y (bk − ak ) k=1 bn −x1 −···−xn−1 ··· = a1 a2 −x1 λn e−λ(x1 +···+xn ) dxn · · · dx1 . an −x1 −···−xn−1 Damit besitzt (T1 , . . . , Tn ) = (S1 , S2 − S1 , . . . , Sn − Sn−1 ) die Dichte λn e−λ(x1 +···+xn ) für xi > 0. Da dies eine Produktdichte ist, folgern wir, dass Ti unabhängig und Exp(λ) verteilt sind. (iii) ⇒ (iv) Es gilt P(Nt = 0) = P(S1 > t) = e−λt und P(Nt = n) = P(Nt > n) − P(Nt > n + 1) = P(Sn 6 t) − P(Sn+1 6 t). Da Sn = T1 + · · · + Tn ∼ Γ(λ, n), folgt Z t n n−1 λn+1 xn −λx (λt)n −λt λ x − e dx = e P(Nt = n) = (n − 1)! n! n! 0 und somit Nt ∼ P oiss(λt). Nach dem Dichtetransformationssatz ist die Dichte von (S1 , . . . , Sn+1 ) gegeben durch f S1 ,...,Sn+1 (s1 , . . . , sn+1 ) = n+1 Y λe−λ(sk −sk−1 ) = λn+1 e−λsn+1 . k=1 Da {Nt = n} = {Sn 6 t, Sn+1 > t}, berechnen wir für 0 6 a1 < b1 6 . . . 6 an < bn 6 t die bedingte Wahrscheinlichkeit P S1 ∈ [a1 , b1 ], . . . , Sn ∈ [an , bn ], Sn+1 > t P S1 ∈ [a1 , b1 ], . . . , Sn ∈ [an , bn ] Nt = n = (λt)n −λt n! e Z b1 Z bn n! = ··· 1 dsn · · · ds1 , n {06s1 6···6sn 6t} a1 an t was den Integranden als die bedingte Dichte identifiziert. 4 (iv) ⇒ (v) E[N1 ] = λ folgt direkt aus Pnder Annahme. Für 0 = t0 < t1 < · · · < tn = t und k1 , . . . , kn ∈ N0 betrachten wir mit K := l=1 kl : P ∀l = 1, . . . , n : Ntl − Ntl−1 = kl = P(Ntn = K)P ∀l = 1, . . . , n : Nt − Nt = kl Ntn = K l l−1 K (λt) −λt e P Sk1 6 t1 < Sk1 +1 , . . . , SK 6 tn < SK+1 Ntn = K K! n (λt)K −λt K! Y (tl − tl−1 )kl = e K! tK kl ! = l=1 = n Y P(Ntl − Ntl−1 = kl ). l=1 Damit sind (Ntl − Ntl−1 )l unabhängig. (v) ⇒ (i) Für t, h > 0, k ∈ N0 und K > k gilt die Verschiebungsinvarianz P(Nt+h − Nh = k|Nt+h = K) = P(Nh = K − k, Nt+h − Nh = k|Nt+h = K) hK−k K! (t + h − h)k · (t + h)K k! (K − k)! = P(Nt+h − Nt = K − k, Nt = k|Nt+h = K) = = P(Nt = k|Nt+h = M ). d Durch Summieren über alle K > k erhalten wir Nt+h − Nh = Nt , also Stationarität der Zuwächse. Weiterhin ergibt sich für 0 < h < 1 P(Nh = 0) = ∞ X P(N1 = k)P(N1 − Nh = k|N1 = k) = ∞ X P(N1 = k)(1 − h)k . k=0 k=0 P Da k>0 P(N1 = k)k = E[N1 ] = λ < ∞ ist die Funktion p(h) := P(Nh = 0) differenzierbar auf [0, 1] mit p0 (0) = −λ. Wir erhalten P(Nh = 0) = P(N0 = 0) − λh + o(h). Analog folgt P(Nh = 1) = = ∞ X k=1 ∞ X P(N1 = k)P(N1 − Nh = k − 1|N1 = k). P(N1 = k)kh(1 − h)k−1 , k=1 sodass P(Nh = 1) = λh + o(h). 1.1.3 Markov-Ketten Definition 1.8. Sei T = N0 (diskrete Zeit) oder T = [0, ∞) (stetige Zeit) und S ein abzählbarer (Zustands-)Raum. Dann heißt eine Familie X = (Xt , t ∈ T ) von Zufallsvariablen mit Werten in (S, P(S)) Markov-Kette, falls für alle n ∈ N, t1 < t2 < · · · < tn+1 , s1 , . . . , sn+1 ∈ S mit P(Xt1 = s1 , . . . , Xtn = sn ) > 0 die folgende Markov-Eigenschaft erfüllt ist: P Xtn+1 = sn+1 Xt1 = s1 , . . . , Xtn = sn = P Xtn+1 = sn+1 Xtn = sn . Beispiel 1.9. 5 (i) Poisson-Prozess N mit T = [0, ∞), S = N0 . Die Markoveigenschaft ergibt sich aus der Unabhängigkeit der Inkremente (setze t0 = 0, s0 = 0): P Nt1 = s1 , . . . , Ntn+1 = sn+1 P Ntn+1 = sn+1 Nt1 = s1 , . . . , Ntn = sn = P Nt1 = s1 , . . . , Ntn = sn Qn+1 P(Ntk − Ntk−1 = sk − sk−1 ) = Qk=1 n k=1 P(Ntk − Ntk−1 = sk − sk−1 ) =P(Ntn+1 − Ntn = sn+1 − sn ) P(Ntn = sn , Ntn+1 − Ntn = sn+1 − sn ) P(Ntn = sn ) =P(Ntn+1 = sn+1 |Ntn = sn ). = Pn (ii) Die einfache Irrfahrt Sn := k=1 Xk , n > 1, mit S0 := 0 und Xk u.i.v. Bin(1, p)Zufallsvariablen für p ∈ (0, 1). Wir setzen T = N0 und S = Z. Dann folgt die Markoveigenschaft wieder aus der Unabhängigkeit der Inkremente Sn − Sn−1 = Xn . Definition 1.10. Für eine Markov-Kette X und t1 6 t2 , i, j ∈ S sind die Übergangswahrscheinlichkeiten vom Zustand i zum Zeitpunkt t1 in den Zustand j zur Zeit t2 definiert als ( P(Xt2 = j|Xt1 = i), falls P(Xt1 = i) > 0, pij (t1 , t2 ) := 0, sonst. Die Übergangsmatrix ist gegeben durch P (t1 , t2 ) := pij (t1 , t2 ) i,j∈S . Die Übergangsmatrix und die zugehörige Markov-Kette heißen (zeit-)homogen, falls P (t1 , t2 ) = P (0, t2 − t1 ) =: P (t2 − t1 ) für alle 0 6 t1 6 t2 gilt. Satz 1.11. Ist P (t1 , t2 ) die Übergangsmatrix einer Markov-Kette, so gilt die ChapmanKolmogorov-Gleichung P (t1 , t3 ) = P (t1 , t2 )P (t2 , t3 ) für alle t1 6 t2 6 t3 . Im zeitlich homogenen Fall ergibt sich die Halbgruppeneigenschaft P (t + s) = P (s)P (t) für alle s, t > 0 und insbesondere P (n) = P (1)n für n ∈ N. Beweis. Nach Definition ergibt sich aus der Markoveigenschaft für alle i, j ∈ S: P (t1 , t3 )ij = P(Xt3 = j|Xt1 = i) X = P(Xt3 = j, Xt2 = k|Xt1 = i) k∈S = X P(Xt3 = j|Xt2 = k, Xt1 = i)P(Xt2 = k|Xt1 = i) k∈S = X P(Xt3 = j|Xt2 = k)P(Xt2 = k|Xt1 = i) k∈S = X P (t2 , t3 )kj P (t1 , t2 )ik k∈S = P (t1 , t2 )P (t2 , t3 ) i,j . Im zeitlich homogenen Falle reduziert sich diese Gleichheit auf P (t3 − t1 ) = P (t2 − t1 )P (t3 − t2 ), was die Behauptung für s = t2 − t1 und t = t3 − t2 impliziert. 6 Beispiel 1.12 (US-Präsidentenwahl). Wir betrachten folgendes sehr einfaches Wählermodell: Es gibt N Wahlberechtigte in den USA die entweder für H. Clinton oder für D. Trump stimmen wollen. Zu jedem Zeitpunkt n ∈ N (z.B. in Minuten) ändert eine zufällig ausgewählte Person ihre Meinung. Wir setzen diesen Vorgang beliebig lange fort und bezeichnen mit Xn die Anzahl der Stimmen für Clinton zum Zeitpunkt n. Es ergeben sich folgende Übergangswahrscheinlichkeiten N −i , i ∈ {0, . . . , N − 1} N i P(Xn+1 = i − 1|Xn = i) = , i ∈ {1, . . . , N }, N P(Xn+1 = j|Xn = i) = 0, i = 0, . . . , N, j ∈ / {i − 1, i + 1}. P(Xn+1 = i + 1|Xn = i) = Die zugehörige Ein-Schritt-Übergangsmatrix ist N 0 N 1 N 2 P (1) = N 0 N −1 N .. . .. . .. . N N 0 . 1 N 0 Wir haben also für jeden Anfangswert X0 eine positive Wahrscheinlichkeit jede andere Stimmenzahl irgendwann in der Zukunft zu erreichen. Frage: Gibt es ein asymptotisches Verhalten? Antwort: Ergodentheorie (Kapitel 4). 1.2 Grundbegriffe Definition 1.13. Eine Familie X = (Xt , t ∈ T ) von Zufallsvariablen auf einem gemeinsamen Wahrscheinlichkeitsraum (Ω, F, P) heißt stochastischer Prozess. Wir sprechen von diskreter Zeit, falls T = N0 , und von stetiger Zeit, falls T = [0, ∞). Nehmen alle Xt Werte in (S, S) an, so heißt (S, S) Zustandsraum von X. Für jedes ω ∈ Ω heißt die Abbildung t 7→ Xt (ω) Pfad, Trajektorie oder Realisierung von X. Lemma 1.14. Für einen stochastischen Prozess (Xt , t ∈ T ) mit Zustandsraum (S, S) ist die Abbildung X : Ω → S T mit X(ω)(t) := Xt (ω) eine (S T , S ⊗T )-wertige Zufallsvariable. Beweis. Wir müssen die Messbarkeit von X zeigen. Da S ⊗T von den Projektionen πt : S T → S auf die t. Koordinate für t ∈ T erzeugt wird, genügt die Messbarkeit der Verknüpfungen πt ◦X : Ω → S für alle t ∈ T zu zeigen. Diese folgt wiederum aus πt ◦ X(ω) = Xt (ω), ω ∈ Ω, t ∈ T , und da Xt als Zufallsvariable selbst messbar ist. Bemerkung 1.15. Wir werden auch kleinere Funktionenräume als S T betrachten wie z.B. C(R+ ) + statt RR (Übung 2 ). Definition 1.16. Es sei (Xt , t ∈ T ) ein stochastischer Prozess, dann heißen die Wahrscheinlichkeitsverteilungen des Vektors (Xt1 , . . . , Xtn ) für n ∈ N, t1 , . . . , tn ∈ T endlichdimensionale Verteilungen von X. Wir schreiben P{t1 ,...,tn } = P(Xt1 ,...,Xtn ) (man beachte, dass trotz dieser Notation die Reihenfolge der Zeitpunkte eine Rolle spielt). Beispiel 1.17. Seien (Tk )k>1 unabhängige Exp(λ)-verteilte Zufallsvariablen und Sn := Pn P T , n > 1. Dann ist N := 1 k t k=1 n>1 {Sn 6t} ein Poisson-Prozess mit Intensität λ. Der ProP zess Xt := n>1 1{Sn <t} , t > 0, hat die gleichen endlichdimensionalen Verteilungen wie N : P(Nt1 ∈ A1 , . . . , Ntn ∈ An ) = P(Xt1 ∈ A1 , . . . , Xtn ∈ An ) für Borel-Mengen A1 , . . . , An , denn P(∃k > 1 : Sk = ti ) = 0 für alle i = 1, . . . , n. Andererseits haben N und X völlig unterschiedliche Pfade: P t 7→ Nt ist rechts-stetig = 1, aber P t 7→ Xt ist rechts-stetig = 0. 7 Definition 1.18. Zwei Prozesse (Xt , t ∈ T ) und (Yt , t ∈ T ) auf (Ω, F, P) heißen (i) ununterscheidbar, falls P(∀t ∈ T : Xt = Yt ) = 1; (ii) Versionen oder Modifikationen voneinander, falls ∀t ∈ T : P(Xt = Yt ) = 1. Bemerkung 1.19. Offensichtlich sind ununterscheidbare Prozesse Versionen voneinander. Das Gegenteil gilt nicht: Die Prozesse N und X aus Beispiel 1.17 sind Versionen voneinander, aber sie sind nicht ununterscheidbar, denn P(∀t > 0 : Nt = Xt ) = 0 wegen P(NSk = XSk ) = 0 für jedes k > 1. Ist X eine Version von Y , so haben X und Y die gleichen endlichdimensionalen Verteilungen: Für alle t1 , . . . , tn ∈ T folgt aus P(Xti = Yti ) = 1, i = 1, . . . , n, dass P(Xt1 = Yt1 , . . . , Xtn = Ytn ) also d (Xt1 , . . . , Xtn ) = (Yt1 , . . . , Ytn ). Definition 1.20. Ein Prozess X = (Xt , t ∈ T ) heißt stetig, falls alle Trajektorien stetig sind. X P heißt stochastisch stetig, falls tn → t die stochastische Konvergenz Xtn → Xt impliziert. Bemerkung 1.21. Jeder stetige Prozess ist auch stochastisch stetig, da fast sichere Konvergenz die stochastische Konvergenz impliziert. Die umgekehrte Richtung gilt nicht, da bspw. der PoissonProzess nicht stetig, aber stochastisch stetig ist: ∀ε ∈ (0, 1) : lim P(|Nt − Ntn | > ε) = lim (1 − e−λ|t−tn | ) = 0. tn →t 1.3 tn →t Erweiterungssatz von Kolmogorov Ziel dieses Abschnittes ist ein allgemeines Existenzresultat für stochastische Prozesse. Genauer wollen wir die Frage untersuchen, ob für eine vorgegebene Familie von endlichdimensionalen Verteilungen ein zugehöriger stochastischer Prozess existiert. Zunächst finden wir folgende notwendige Bedingung an die Verteilungsfamilie: Lemma 1.22. Es sei (Xt , t ∈ T ) ein stochastischer Prozess mit Zustandsraum (S, S). Für I ⊆ J ⊆ T definieren wir die Koordinatenprojektion πJ,I : SJ → SI , (sj )j∈J 7→ (sj )j∈I . Dann erfüllen die endlichdimensionalen Verteilungen von X folgende Konsistenzbedingung −1 ∀I ⊆ J ⊆ T mit I, J endlich, ∀A ∈ S ⊗I : PJ (πJ,I (A)) = PI (A). Beweis. Wir schreiben −1 (A) PI (A) = P (Xt )t∈I ∈ A = P X ∈ πT,I −1 −1 (A) = PJ (πJ,I (A)). = P X ∈ (πJ,I ◦ πT,J )−1 (A) = P (Xt )t∈J ∈ πJ,I Definition 1.23. Es sei T 6= ∅ eine Indexmenge und (S, S) ein messbarer Raum. Für jede Teilmenge J ⊆ T sei ein Wahrscheinlichkeitsmaß PJ auf dem Produktraum (S J , S ⊗J ) gegeben. (PJ )J⊆T heißt projektive Familie, falls für alle endlichen I ⊆ J ⊆ T gilt, dass −1 ∀A ∈ S ⊗I : PI (A) = PJ πJ,I (A) . Es wird sich herausstellen, dass unter einer recht allgemeinen Strukturannahme an den Zustandsraum diese notwendige Bedingung bereits genügt, um für jede projektive Familie die Existenz eines zugehörigen Prozesses zu beweisen. Definition 1.24. Ein metrischer Raum (S, d) heißt polnischer Raum, falls er separabel und vollständig ist. Als kanonische σ-Algebra auf S wählen wir die Borel-σ-Algebra BS . 8 Zur Erinnerung: S heißt vollständig, falls jede Cauchy-Folge konvergiert und S heißt separabel, falls es eine abzählbare, dichte Teilfolge in S gibt, d.h. jede nichtleere, offene Teilmenge aus S enthält mindestens ein Element dieser Folge. Bemerkung 1.25. In polnischen Räumen existiert eine abzählbare Basis (der Topologie), d.h. es existiert eine abzählbare Folge offener Mengen derart, dass jede offene Teilmenge von S als die Vereinigung von Elementen dieser Folge dargestellt werden kann. Ist (sn )n∈N eine dichte Folge in S, so kann diese Basis als {Bε (sn ) : n ∈ N, ε ∈ Q+ } gewählt werden, wobei Bε (sn ) := {y ∈ S : d(sn , y) < ε}. Beispiel 1.26. (i) Der euklidische Raum Rd jeder Dimension d > 1 ist polnisch. (ii) Für endlich viele polnische Räume Pn (Sk , dk ), k = 1, . . . , n ist das Produkt mit der Metrik d((sk ), (tk )) := k=1 dk (sk , tk ) wieder polnisch. ×nk=1 Sk versehen (iii) Abgeschlossene Teilmengen eines polnischen Raumes sind wieder polnisch. (iv) Der Raum der stetigen Funktionen C([a, b]) := {f : [a, b] → R} auf dem Intervall [a, b], a, b ∈ R, ausgestattet mit der Supremumsnorm kf k∞ := supx∈[a,b] |f (x)| ist vollständig (die Gleichmäßige Konvergenz garantiert die Stetigkeit) und separabel (Weierstraß’ Theorem: die Polynome liegen dicht). Damit ist (C([a, b]), k · k∞ ) polnisch. Lemma 1.27. SeienN S1 , . . . , Sn polnische Räume, dann gilt für die Borel-σ-Algebra des Produktn raumes B×n Sk = k=1 BSk . k=1 N Beweis. k BSk ist die kleinste σ-Algebra, sodass die Koordinatenprojektionen πi : ×k>1 Sk → Si , i > 1, messbar sind. Andererseits ist die Produkttopologie die raueste Topologie, sodass alle πi N stetig sind. Folglich sind alle πi B× Sk -messbar, was B× Sk ⊇ k BSk impliziert. k k Aufgrund der Separabilität kann jede offene Menge O ⊆ ×k Sk als abzählbare Vereinigung Tn offener Mengen der Form i=1 πi−1 (Oi ) mit N ∈ N und offenen NMengen Oi aus der (topologischen) N Basis von Si , dargestellt werden. Letztere sind Elemente von k BSk , sodass B× Sk ⊆ k BSk . k Der Beweis zeigt, dass die ⊇-Relation für alle topologischen Räume und Produkte beliebiger Kardinalität gilt. Die ⊆-Richtung kann jedoch bereits mit zwei nicht-polnischen Räumen fehlschlagen. Definition 1.28. Ein Wahrscheinlichkeitsmaß P auf einem metrischen Raum (S, BS ) heißt (i) straff, falls für alle ε > 0 eine kompakte Menge K ⊆ S existiert, sodass P(K) > 1 − ε. (ii) regulär, falls für alle ε > 0, B ∈ BS eine kompakte Menge K ⊆ B existiert mit P(B \ K) 6 ε und eine offene Menge O ⊇ B existiert mit P(O \ B) 6 ε. Lemma 1.29. Jedes Wahrscheinlichkeitsmaß auf einem polnischen Raum ist straff. Beweis. Sei (sn )n>1 eine dichte Folge in S.SWir betrachten für einen Radius ρ > 0 die abgeschlossenen Bälle Bρ (sn ) um sn . Dann gilt S = n>1 Bρ (sn ) und die σ-Stetigkeit liefert N [ lim P Bρ (sn ) = 1. N →∞ n=1 Für jedes ε > 0 und ρ = 1/k gibt es also ein Nk , sodass Nk [ P B1/k (sn ) > 1 − ε2−k . n=1 9 Dann ist K := T∞ SN k k=1 n=1 B1/k (sn ) eine abgeschlossene Teilmenge für die Nk ∞ \ [ X P(S \ K) = P ε2−k = ε. B1/k (sn )c 6 k=1 n=1 k>1 Es bleibt also zu zeigen, dass die abgeschlossene Menge K sogar kompakt ist. Da für jedes δ > 0 eine endliche Überdeckung aus Bällen B1/k (sn ) mit Durchmesser kleiner als δ existiert, ist K total-beschränkt und abgeschlossen, also wegen der Vollständigkeit des metrischen Raumes auch kompakt. Lemma 1.30. Jedes Wahrscheinlichkeitsmaß auf einem polnischen Raum (S, d) ist regulär. Beweis. Wir betrachten folgende Menge n D := B ∈ BS : P(B) = K⊆B o sup P(K) = inf P(O) . O⊇B offen kompakt Nach dem vorherigen Lemma ist S ∈ D. Wir zeigen nun, dass jede abgeschlossene Menge F in D liegt. Aufgrund der Straffheit von P gibt es für jedes ε > 0 eine kompakte Menge Kε , sodass P(Kε ) > 1 − ε gilt. Dann ist F ∩ Kε ⊆ F ebenfalls eine kompakte Menge mit P F \ (F ∩ Kε ) 6 P(Kεc ) 6 ε. T Daraus folgt P(F ) = sup{P(K) : K ⊆ F kompakt}. Andererseits gilt F = n>1 On für die offenen Mengen On := {s ∈ S : inf x∈F d(s, x) < 1/n}. Da P σ-stetig ist folgt P(F ) = inf P N >1 N \ On . n=1 | {z } offen Damit haben wir F ∈ D gezeigt. Weiterhin ist D ein Dynkin-System (Übung 2 ). Da die Menge der abgeschlossenen Mengen ∩-stabil ist und BS erzeugt, folgt D = BS . Nun sind wir bereit für das Hauptresultat dieses Abschnittes: Satz 1.31 (Kolmogorovs Erweiterungssatz). Ist (S, BS ) ein polnischer Raum und T eine beliebige nichtleere Indexmenge, so existiert zu jeder projektiven Familie (PJ )J⊆T endlich von Wahrscheinlichkeitsmaßen über S genau ein Wahrscheinlichkeitsmaß P auf dem Produktraum (S T , BS⊗T ), sodass für alle endlichen J ⊆ T und B ∈ BS⊗J −1 PJ (B) = P(πT,J (B)) gilt. Das Maß P wird auch projektiver Limes der Familie (PJ ) genannt. Beweis. Wir betrachten die Algebra der Zylindermengen [ −1 A := πT,J (BS⊗J ). J⊆T endlich Da A ∩-stabil ist und BS⊗T = σ(A) gilt, wird P eindeutig durch seine Werte auf A festgelegt. Die Existenz von P folgt aus Caratheodorys Fortsetzungssatz, falls P auf A ein Prämaß ist. Die Konsistenzbedingung an (PJ ) garantiert, dass P auf A wohldefiniert und additiv ist: Für disjunkte 10 −1 Mengen A, B ∈ A gibt es ein endliches J ⊆ T und A0 , B 0 ∈ BS⊗J , sodass A = πT,J (A0 ) und −1 B = πT,J (B 0 ). Da PJ ein Maß ist, folgt P(A ∪ B) = PJ (A0 ∪ B 0 ) = PJ (A0 ) + PJ (B 0 ) = P(A) + P(B). Offensichtlich gilt außerdem P(S T ) = PJ (S J ) = 1 für jedes endliche J ⊆ T . Es bleibt die σAdditivität von P auf A zu zeigen oder äquivalent die Stetigkeit in ∅: Für jede monoton fallende Folge (Bn )n>1 ⊆ A mit Bn ↓ ∅ gilt P(Bn ) → 0. −1 O.B.d.A. können wir Bn = πT,J (An ) für endliche Jn ⊆ Jn+1 ⊆ T und An ∈ BS⊗Jn schreiben. n Sei ε > 0. Aufgrund der Regularität von PJn gibt es für alle n ∈ N kompakte Mengen Kn ⊆ An mit PJn (An \ Kn ) 6 ε2−n . Dann ist auch Kn0 = n−1 \ πJ−1 (Kl ) ∩ Kn ⊆ S Jn n ,Jl l=1 −1 als abgeschlossene Teilmenge einer kompakten Menge kompakt. Für Cn := πT,J (Kn0 ) = n Tn −1 l=1 πT,Jl (Kl ) ⊆ Bn gilt dann ebenfalls Cn ↓ ∅. Wir zeigen gleich, dass ein n0 ∈ N mit Cn0 = ∅ existiert. Daraus folgt lim sup P(Bn ) 6 P(Bn0 ) = P(Bn0 \ Cn0 ) 6 n→∞ n0 X PJl (Al \ Kl ) 6 ε. l=1 Da ε > 0 beliebig war, zeigt dies P(Bn ) → 0. Um die Existenz von n0 zu zeigen, führen wir einen Widerspruchsbeweis und nehmen an, dass für alle n > 1 ein yn ∈ Cn existiert. Da Kn0 ⊆ S Jn kompakt ist, existiert eine Teilfolge 0 (1) (2) (nl )l , sodass (πT,J1 (yn(1) ))l>1 in K1 konvergiert. Für eine weitere Teilteilfolge (nl )l konverl S 0 giert (πT,J2 (yn(2) ))l>1 in K2 und so weiter. Aufgrund der Abzählbarkeit von J := n>1 Jn = l P {i1 , i2 , . . . }, können wir S J mit der Produktmetrik d((si )i∈J , (ti )i∈J ) := k>1 2−k (d(sik , tik ) ∧ 1) 0 konvergiert, konverversehen. Da die Diagonalfolge (πT,Jm (yn(l) ))l>1 für jedes m > 1 in Km l giert auch (πT,J (yn(l) ))l>1 in der Produktmetrik gegen ein z ∈ S J . Da Cn+1 ⊆ Cn , n > 1, folgt l T T z ∈ πT,J (Cn ) für alle n > 1 also auch z ∈ πT,J ( n>1 Cn ). Dies widerspricht n>1 Cn = ∅. Korollar 1.32. Ist S ein polnischer Raum und T 6= ∅ eine beliebige Indexmenge, so existiert zu jeder projektiven Familie (PJ )J⊆T,endlich ein stochastischer Prozess (Xt , t ∈ T ) mit Zustandsraum (S, BS ), dessen endlichdimensionale Verteilungen durch (PJ ) gegeben sind. Beweis. Nach Kolmogorovs Erweiterungssatz existiert ein Maß P auf (S T , BS⊗T ) mit −1 P πT,{t (A) = Pt1 ,...,tn (A) 1 ,...,tn } für alle n ∈ N, A ∈ BS⊗n und t1 , . . . , tn ∈ T . Wir definieren X als den Koordinatenprozess auf (S T , BS⊗T , P) via Xt ((sr )r∈T ) := st . Dann ist Xt für alle t ∈ T messbar und es gilt −1 P (Xt1 , . . . , Xtn ) ∈ A = P πT,{t (A) = Pt1 ,...,tn (A) für alle A ∈ BS⊗n . 1 ,...,tn } Bemerkung 1.33. Es gibt Gegenbeispiele, die zeigen, dass Kolmogorovs Erweiterungssatz für nichtpolnische Räume im Allgmeinen nicht gilt. Andererseits liefert der Satz von Ionesu-Tulcea (vgl. Maßtheorie) die Existenz von allgemeinen Maßräumen für abzählbare Indexmengen und unter einer Markovschen Abhängigkeitsstruktur. Im Spezialfall des Produktmaßes kann man die Existenz sogar für beliebige Indexmengen und ohne Annahme an den Zustandsraum zeigen (vgl. Bauer (1992)). Für polnische Räume folgt die Existenz des Produktmaßes und damit die Existenz beliebig vieler unabhängiger Zufallsvariablen bereits aus Kolmogorovs Erweiterungssatz (Übung 2 ). 11 Beispiel 1.34 (Markov-Ketten in diskreter Zeit). Sei (S, P(S)) ein abzählbarer Zustandsraum. Dieser ist polnisch, wenn S mit der diskreten Metrik d(s, t) = 1s6=t versehen wird. Nehmen wir ein Wahrscheinlichkeitsmaß µ(0) auf (S, P(S)) als gegeben an (die Anfangsverteilung) und betrachten so genannte stochastische Matrizen X (n) (n) (n) P (n) = (pi,j )i,j∈S mit pi,j ∈ [0, 1], pi,j = 1 für alle i, j ∈ S. j∈S (n) Dann gibt es eine Markov-Kette (Xn , n > 0) mit PX0 = µ(0) und P(Xn = j|Xn−1 = i) = pi,j . Dies weisen wir mit Kolomogorovs Erweiterungssatz nach. Wir weisen zunächst Konsistenz der Verteilungen X X X (1) (n) µn (A) := ··· 1A (i0 , . . . , in )µ(0) für alle A ⊆ S n+1 i0 Pi0 ,i1 · · · Pin−1 ,in i0 ∈S i1 ∈S in ∈S nach. Dies folgt induktiv aus der Konsistenz von µn und µn+1 , für die gilt X X X (1) (n+1) −1 µn+1 (π{0,...,n+1},{0,...,n} (A)) = ··· 1A×S (i0 , . . . , in+1 )µ(0) i0 Pi0 ,i1 · · · Pin ,in+1 i0 ∈S i1 ∈S = X X in+1 ∈S ··· i0 ∈S i1 ∈S X (1) (n) 1A (i0 , . . . , in )µ(0) i0 Pi0 ,i1 · · · Pin−1 ,in X in ∈S (n+1) Pin ,in+1 in+1 ∈S = µn (A). Für beliebige endliche J ⊆ N0 setzen wir −1 µJ (A) := µmax J (π{0,...,max J},J (A)), A ⊆ SJ . Dann ist (µJ )J⊆N0 tatsächlich eine projektive Familie, denn für alle endlichen J ⊆ J 0 und A ⊆ S J folgt −1 µJ 0 (πJ−1 0 ,J (A)) = µmax J 0 (π{0,...,max J 0 },J (A)) −1 −1 = µmax J 0 (π{0,...,max J 0 },{0,...,max J} (π{0,...,max J},J (A))) −1 = µmax J (π{0,...,max J},J (A)) = µJ (A). Somit kann die Markov-Kette als Koordinatenprozess auf (S N0 , P(S)⊗N0 ) mit einem geeignetem Wahrscheinlichkeitsmaß P konstruiert werden. 2 Martingale Im Folgenden sei (Ω, F, (Fn )n>0 , P) stets ein filtrierter Wahrscheinlichkeitsraum. In diesem Kapitel wollen wir die Eigenschaften von Martingalen M = (Mn , n ∈ N0 ) genauer untersuchen. Aus der Maßtheorievorlesung wissen wir bereits: • Eine Zufallsvariable τ mit Werten N ∪ {0, ∞} heißt Stoppzeit (bzgl. (Fn )n>0 ), falls für jedes n > 0 gilt, dass {τ 6 n} ∈ Fn . • Für eine Stoppzeit τ ist die σ-Algebra der τ -Vergangenheit gegeben durch Fτ := {A ∈ F : A ∩ {τ 6 n} ∈ Fn für alle n > 0}. Insbesondere ist das gestoppte Martingal Mτ Fτ -messbar. • Es seien M = (Mn , n ∈ N0 ) ein Martingal (bzw. Submartingal) und σ, τ Stoppzeiten (alle bzgl. derselben Filtration) mit σ 6 τ 6 C für eine Konstante C > 0. Dann gilt der OptionalSampling-Satz E[Mτ |Fσ ] = Mσ (bzw. E[Mτ |Fσ ] > Mσ ). 12 2.1 Ungleichungen Wir erinnern uns an die Markov-Ungleichung: Für eine Zufallsvariable M ∈ L1 (P) und α > 0 gilt P(|M | > α) 6 E[|M |] . α Wir betrachten nun das laufende Maximum |M |∗n := max |Mk | für n > 1. k=0,...,n Die einfache Anwendung von Markovs Ungleichung liefert lediglich n X P |M |∗n > α 6 α−1 E[ max |Mk |] 6 α−1 E[|Mk |]. 06k6n k=0 Die Martingaleigenschaft von M erlaubt eine deutlich bessere Abschätzung. Satz 2.1 (Doobs Maximalungleichung). Sei M = (Mk , k ∈ N0 ) ein Martingal, α > 0 und n ∈ N. Dann gilt 1 1 P |M |∗n > α 6 E |Mn |1{|M |∗n >α} 6 E[|Mn |]. α α Beweis. Wir definieren τ := inf{n > 0 : |Mn | > α}. Dann ist τ eine Stoppzeit und es gilt {|M |∗n > α} = {τ 6 n}. Da R 3 x 7→ |x| konvex ist, ist (|Mk |, k ∈ N0 ) ein Submartingal (Jensens Ungleichung) und somit folgt aus dem Optional-Sampling-Satz E[|Mn |] > E[|Mτ ∧n |] = E[1{τ 6n} |Mτ ∧n |] + E[1{τ >n} |Mτ ∧n |] > αP(|M |∗n > α) + E[1{τ >n} |Mn |]. Also gilt αP(|M |∗n > α) 6 E[1{τ 6n} |Mn |]. Satz 2.2 (Doobs Lp -Martingalungleichung). Sei M = (Mk , k ∈ N0 ) ein Martingal mit Mk ∈ Lp (P) für alle k ∈ N0 und ein p > 1. Dann gilt p p E (|M |∗n )p 6 E[|Mn |p ]. p−1 Beweis. Für jedes K > 0 folgt aus Doobs Maximalungleichung und dem Satz von Fubini h Z |M |∗n ∧K i E (|M |∗n ∧ K)p = E pαp−1 dα 0 K hZ =E 0 Z pαp−1 1{|M |∗n >α} dα i K pαp−1 P(|M |∗n > α)dα = 0 Z 6 0 K pαp−2 E |Mn |1{|M |∗n >α} dα Z h = pE |Mn | |M |∗ n ∧K i αp−2 dα = 0 p E |Mn | · (|M |∗n ∧ K)p−1 . p−1 Hölders Ungleichung liefert nun (p−1)/p 1/p p p E (|M |∗n ∧ K)p 6 E |Mn | · (|M |∗n ∧ K)p−1 6 E (|M |∗n ∧ K)p E |Mn |p . p−1 p−1 Da E[(|M |∗n ∧ K)p ] < ∞ folgt 1/p E (|M |∗n ∧ K)p 6 1/p p E |Mn |p . p−1 Schließlich können wir mit monotoner Konvergenz K → ∞ betrachten. 13 2.2 Konvergenzsätze In diesem Abschnitt wollen wir untersuchen, unter welchen Bedingungen ein Martingal (Mn )n>0 auf einem filtrierten Wahrscheinlichkeitsraum (Ω, F, (Fn )n>0 , P) für n → ∞ gegen einen Grenzwert konvergiert. Als Hilfsmittel benötigen noch eine weitere Ungleichung. Definition 2.3. Seien (Mn )n>0 Zufallsvariablen und a < b reelle Zahlen. Die Anzahl der Aufkreuzungen (aufsteigende Überquerungen) von [a, b] durch (Mn ) bis zur Zeit n ist gegeben durch Un[a,b] := sup{k > 1|τk 6 n} (mit sup ∅ := 0), wobei τ0 :=0, σk+1 := inf{l > τk : Ml 6 a}, τk+1 := inf{l > σk+1 : Ml > b}, k > 0. Lemma 2.4 (Doobs Aufkreuzungsungleichung). Für ein Submartingal (Mn , n > 0) und reelle Zahlen a < b gilt 1 E (Mn − a)+ , E[Un[a,b] ] 6 b−a wobei A+ := max{A, 0}. Beweis. Es gilt (Mn − a)+ ∈ L1 (P). Xn := (Mn − a)+ ist ein Submartingal, da x 7→ (x − a)+ konvex ist (Jensens Ungleichung). Da die Anzahl der Aufkreuzungen von [0, b − a] durch Xn gleich [a,b] Un sind, können wir o.B.d.A a = 0 und Mn > 0 setzen. Mit der Konvention ∞ ∧ n := n gilt E[Mn ] = E[Mσ1 ∧n ] + n X E[Mτk ∧n − Mσk ∧n ] + k=1 n X E[Mσk+1 ∧n − Mτk ∧n ]. k=1 Da (Mn ) ein nichtnegatives Submartingal ist, impliziert der Optional-Sampling-Satz, dass alle Summanden nichtnegativ sind. Weiterhin gilt n X (Mτk ∧n − Mσk ∧n ) > bUn[0,b] , k=1 [0,b] woraus E[Mn ] > bE[Un ] folgt. Satz 2.5 (1. Martingalkonvergenzsatz). Sei (Mn , n > 0) ein Sub- oder ein Supermartingal mit supn>0 E[|Mn |] < ∞ und definiere F∞ := σ(Fn : n > 0). Dann existiert der F∞ -messbare Grenzwert M∞ := limn→∞ Mn f.s. und es gilt M∞ ∈ L1 (P). [a,b] Beweis. Nehmen wir an, (Mn ) ist ein Submartingal (sonst betrachte (−Mn )n ). Da (Un )n eine monoton wachsende Folge ist, liefert der Satz über monotone Konvergenz für U [a,b] := [a,b] limn→∞ Un zusammen mit Doobs Aufkreuzungsungleichung: E[U [a,b] ] = lim E[Un[a,b] ] 6 sup n→∞ n 6 1 E[(Mn − a)+ ] b−a 1 sup E[(Mn )+ ] + |a| < ∞. b−a n Somit gilt P(U [a,b] < ∞) = 1, d.h. (Mn ) hat f.s. nur endlich viele Aufkreuzungen jedes beliebigen Intervalls [a, b]. Wir setzen nun Λa,b := ω ∈ Ω : lim sup Mn (ω) > b, lim inf Mn (ω) 6 a . n→∞ n→∞ 14 S Dann gilt P(Λa,b ) = 0 für alle a < b und folglich P( a,b∈Q:a<b Λa,b ) = 0. Wir erhalten also P lim supn→∞ Mn > lim inf n→∞ Mn = 0, d.h. (Mn ) konvergiert f.s. und da alle Mn F∞ -messbar sind, ist auch M∞ F∞ -messbar (modulo einer evtl. nötigen Abänderung auf einer Nullmenge). Schließlich liefert das Lemma von Fatou E[ lim |Mn |] 6 lim inf E[|Mn |] 6 sup E[|Mn |] < ∞, n→∞ n→∞ n sodass M∞ := limn→∞ Mn ∈ L1 (P) (insbesondere ist M∞ f.s. endlich). Bemerkung 2.6. Die Konvergenz gilt im Allgmeinen nicht in L1 (P). Ein Gegenbeispiel ist das Petersburger Spiel (Übung 2 ). Korollar 2.7. Jedes nichtnegative Supermatringal konvergiert f.s.. Beweis. Es sei (Mn , n > 0) ein nichtnegatives Supermartingal. Nn := (−Mn ) ist ein Submartingal mit E[(Nn )+ ] = E[0] = 0. Weiterhin gilt E[(Nn )− ] = E[(Nn )+ ] − E[Nn ] 6 E[(Nn )+ ] − E[N0 ] und daher sup E[|Mn |] = sup E[|Nn |] 6 sup E[(Nn )+ ] + sup E[(Nn )− ] n>0 n>0 n>0 n>0 6 2 sup E[(Nn )+ ] + E[−N0 ] < ∞. n>0 Um das erste Martingalkonvergenzresultat auf L1 -Konvergenz zu verstärken benötigen wir eine Zusatzannahme: Definition 2.8. Eine Familie von Zufallsvariablen (Xi )i∈i mit einer beliebigen Indexmenge I heißt gleichgradig integrierbar, falls lim sup E |Xi |1{|Xi |>R} = 0. R→∞ i∈I Lemma 2.9. Es sei (Xi )i∈i eine Familie von Zufallsvariablen mit einer beliebigen Indexmenge I. (i) Ist (Xi )i∈I gleichgradig integrierbar, so gilt supi∈I E[|Xi |] < ∞. (ii) Gilt supi∈I E[|Xi |p ] < ∞ für ein p > 1, so ist (Xi )i∈I gleichgradig integrierbar. (iii) Existiert ein Y ∈ L1 (P), sodass |Xi | 6 Y f.s. für alle i ∈ I gilt, dann ist (Xi )i∈I gleichgradig integrierbar. Beweis. (i) Es gilt sup E[|Xi |] 6 R + sup E |Xi |1{|Xi |>R} , i∈I i∈I wobei letzterer Term für ein gewisses R endlich ist. (ii) Es gilt h |X | p−1 i 1 R→∞ i sup E |Xi |1{|Xi |>R} 6 sup E |Xi | · = p−1 sup E[|Xi |p ] −→ 0. R R i∈I i∈I i∈I (iii) Da x 7→ x1{x>R} monoton wachsend ist, folgt R→∞ sup E |Xi |1{|Xi |>R} 6 E |Y |1{|Y |>R} −→ 0. i∈I Lemma 2.10. Es seien (Xn )n>1 Zufallsvariablen, die stochastisch gegen ein X konvergieren: P Xn → X. Dann folgt aus gleichgradiger Intergierbarkeit von (Xn )n>1 die Konvergenz in L1 (P): E[|Xn − X|] → 0. 15 Bemerkung 2.11. Liegt die stochastische Konvergenz vor, so ist die L1 -Konvergenz sogar äquivalent zur gleichgradigen Integrierbarkeit (Satz von Vitali). Beweis. Nehmen wir an, Xn konvergiert nicht gegen X in L1 (P). Dann existiert für jedes ε > 0 eine Teilfolge (Xnk )k>1 , sodass E |Xnk − X| > ε für alle k ∈ N. P Da Xn → X, besitzt die (jede) Teilfolge (Xnk ) eine Teilteilfolge (Xn0k )k , die f.s. gegen X konvergiert. Nach dem Lemma von Fatou und aufgrund der Beschränktheit in L1 (P) gilt dann E[|X|] 6 lim inf E[|Xn0k |] < ∞. k→∞ 1 Also ist X ∈ L (P). Wir setzen nun ϕM (x) := (−M ) ∨ (x ∧ M ) und wählen M > 0 so, dass sup E[|Xn0k |1{|Xn0 |>M } ] + E[|X|1{|X|>M } ] < ε/2 k k (möglich dank gleichgradiger Integrierbarkeit). Dominierte Konvergenz liefert ein n0 ∈ N mit E[|ϕM (Xn0k ) − ϕM (X)|] < ε/2 für alle k > n0 . Somit folgt E[|Xn0k − X|] 6 E[|ϕM (Xn0k ) − ϕM (X)|] + E[|Xn0k |1{|Xn0 |>M } ] + E[|X|1{|X|>M } ] < ε. k Dies widerspricht E |Xnk − X| > ε. Satz 2.12 (2. Martingalkonvergenzsatz). Setze F∞ = σ(Fn , n > 0). (i) Ist (Mn , n > 0) ein gleichgradig integrierbares Martingal, dann konvergiert (Mn ) f.s. und in L1 gegen ein F∞ -messbares M∞ ∈ L1 (P) und es gilt Mn = E[M∞ |Fn ]. (ii) Ist (Mn , n > 0) ein Martingal mit Mn = E[M |Fn ] für ein M ∈ L1 (P), dann ist (Mn )n>0 gleichgradig integrierbar und (i) gilt mit M∞ = E[M |F∞ ]. Beweis. (i) Der erste Martingalkonvergenzsatz liefert zusammen mit Lemma 2.10 die Konvergenz in L1 . Weiterhin gilt für jedes n > m > 0 und alle A ∈ Fm , dass E[Mm 1A ] = E[Mn 1A ]. Die Konvergenz kMn − M∞ kL1 → ∞ impliziert E[|Mn − M∞ |1A ] → 0. Zusammen erhalten wir E[Mm 1A ] = E[M∞ 1A ] also Mm = E[M∞ |Fm ]. (ii) Wir bemerken zuerst, dass E[|Mn |] = E[|E[M |Fn ]|] 6 E[|M |] nach Jensens Ungleichung. Für R > 0 ist 1{|Mn |>R} Fn -messbar und damit E |Mn |1{|Mn |>R} 6 E E[|M | |Fn ]1{|Mn |>R} = E |M |1{|Mn |>R} 6 R1/2 P(|Mn | > R) + E |M |1{|M |>R1/2 } . Der zweite Term konvergiert für R → ∞ gegen 0 (dominierte Konvergenz). Für den ersten Term liefert die Markov-Ungleichung R1/2 P(|Mn | > R) 6 E[|Mn |] E[|M |] 6 −→ 0 1/2 R R1/2 für R → ∞. Damit ist die gleichgradige Integrierbarkeit gezeigt und wir können (i) anwenden. Es existiert also der f.s. und L1 -Grenzwert M∞ mit Mn = E[M∞ |Fn ], n > 1. Daraus folgt für alle n ∈ N und B ∈ Fn , dass E[M∞ 1B ] = E[Mn 1B ] = E[M 1B ]. Also stimmen die endlichen (signierten) Maße µ1 (B) := E[M∞ 1B ] und µ2 (B) := E[M 1B ] auf S n>1 Fn überein. Letzteres ist ein ∩-stabiler Erzeuger von F∞ , sodass µ1 und µ2 auf F∞ identisch sind. Daraus folgt M∞ = E[M |F∞ ]. 16 2.3 Anwendungen Satz 2.13 (0-1-Gesetz von Kolmogorov). Für eine Folge (Xn )n∈N von unabhängigen Zufallsvariablen heißt \ σ Xm : m > n T := n>1 die terminale σ-Algebra. Für alle A ∈ T gilt P(A) ∈ {0, 1}. Die terminale σ-Algebra enthält alle Ereignisse, deren Eintreten von jeder festen endlichen Teilfamilie der Xi nicht abhängt. Beweis. Wir definieren die Filtration Fn := σ(Xm : m 6 n). Für A ∈ T betrachten wir das Martingal Mn := E[1A |Fn ], n > 1. Aus dem 2. Martingalkonvergenzsatz folgt, dass Mn f.s. gegen M∞ = E[1A |F∞ ] konvergiert. Nun ist das Ereignis A ∈ T ⊆ F∞ unabhängig von Fn für alle n > 1, woraus folgt f.s. P(A) = E[1A |Fn ] −→ M∞ = E[1A |F∞ ] = 1A . Damit haben wir P(A) = 1A ∈ {0, 1} gezeigt. Die Konzepte der Filtration und des Martingals erfodern nicht, dass die Indexmenge aus R+ stammt. Wir können daher auch negative Indexmengen zulassen. Definition 2.14. Ein Prozess (M−n )n>0 heißt Rückwärtsmartingal bzgl. (F−n )n>0 (σ-Algebren mit F−n ⊆ F−n+1 ), falls M−n ∈ L1 (P), M−n F−n -messbar ist und E[M−n+1 |F−n ] = M−n für alle n > 0 gilt. Satz 2.15 (Rückwärtsmartingalkonvergenzsatz). Jedes Rückwärtsmartingal (M−n )n>0 konvergiert f.s. und in L1 (P) für n → ∞ gegen ein M−∞ ∈ L1 (P). [a,b] Beweis. Wir bezeichnen mit U−n die Anzahl der Aufkreuzungen von [a, b] durch (M−n )n>0 in [a,b] der Zeit [−n, 0]. Dann gilt nach Lemma 2.4 und U [a,b] := limn→∞ U−n [a,b] E[U [a,b] ] = lim E[U−n ] 6 n→∞ 1 E[(M0 − a)+ ] < ∞ b−a wie im 1. Martingalkonvergenzsatz. Damit folgt M−n → M−∞ f.s.. Da M−n = E[M0 |F−n ] ist (M−n )n>0 nach dem 2. Martingalkonvergenzsatz gleichgradig integrierbar, sodass auch M−n → M−∞ in L1 (P) folgt. Korollar 2.16 (Starkes Gesetz der großen Zahlen). Es seien (Xk )k>1 reelle u.i.v. Zufallsvariablen in L1 (P). Dann gilt n 1X n→∞ Xk −→ E[X1 ] f.s. n k=1 Pn Beweis. Wir setzen Sn := k=1 Xk , S0 = 0 sowie F−n := σ(Sk , k > n). Dann gilt F−n−1 ⊆ F−n und aus Symmetriegründen gilt E[Xj |F−n ] = E[X1 |F−n ] für alle j = 1, . . . , n. Da E[Sn |F−n ] = Sn , erhalten wir n M−n := E[X1 |F−n ] = Sn 1X E[Xj |F−n ] = n n k=1 und (M−n )n>0 ist ein Rückwärtsmartingal. Damit folgt M−n → M−∞ für n → ∞ f.s. und in L1 (P) sowie E[M−∞ ] = lim E[M−n ] = E[X1 ]. n→∞ Da für jedes A ∈ BR das Ereignis {M−∞ ∈ A} in der terminalen σ-Algebra der (Xk )k>1 folgt aus Kolmogorovs 0-1-Gesetz P(M−∞ ∈ A) ∈ {0, 1}. Also muss M−∞ konstant sein und es gilt f.s. insbesondere M−∞ = E[M−∞ ] = E[X1 ]. 17 3 Markovprozesse 3.1 Existenz von Markovprozessen Nachdem wir mit Kolmogorovs Erweiterungssatz ein sehr starkes Resultat zur Hand haben, können wir sogar noch eine Verallgemeinerung von Markovketten untersuchen. Nehmen wir nicht an, dass der Zustandsraum abzählbar ist, so sprechen wir von Markovprozessen. Um die Übergangswahrscheinlichkeit rigoros beschreiben zu können, benötigen wir die aus der Maßtheorie bekannten Markovkerne. Wiederholung zu Markovkernen: Es seien (Ei , Ai ), i = 0, 1, 2, drei messbare Räume. • Eine Abbildung κ : E1 × A2 → [0, ∞] heißt Markovkern von (E1 , A1 ) nach (E2 , A2 ), falls (i) x1 7→ κ(x1 , A2 ) eine A1 -messbare Abbildung für jedes A2 ∈ A2 ist und (ii) A2 7→ κ(x1 , A2 ) ein Wahrscheinlichkeitsmaß auf A2 für jedes x1 ∈ E1 ist. • Ist κ1 ein Markovkern von (E0 , A0 ) nach (E1 , A1 ) sowie κ2 ein Markovkern von (E0 ×E1 , A0 ⊗ A1 ) nach (E2 , A2 ), dann ist die Abbildung κ1 ⊗ κ2 : E0 × (A1 ⊗ A2 ) → [0, ∞] Z Z (ω0 , A) 7→ E1 1A (x1 , x2 )κ2 ((x0 , x1 ), dx2 ) κ1 (x0 , dx1 ) E2 ein Markovkern von (E0 , A0 ) nach (E1 × E2 , A1 ⊗ A2 ) und heißt der Produktkern von κ1 und κ2 . • Ist κ2 ein Kern von (E1 , A1 ) nach (E2 , A2 ), so definieren wir das Produkt κ1 ⊗ κ2 analog, wobei wir κ2 als Kern von (E0 × E1 , A0 ⊗ A1 ) nach (E2 , A2 ) auffassen, der nicht von der E0 -Koordinate abhängt. • Ist µ ein Wahrscheinlichkeitsmaß auf (E1 , A1 ) und κ ein Markovkern von (E1 , A1 ) nach R R (E2 , A2 ), dann definiert µ ⊗ κ(A) := E1 1 (x , x2 )κ1 (x1 , dx2 ) µ(dx1 ), A ∈ A1 ⊗ A2 , E2 A 1 ein Wahrscheinlichkeitsmaß auf A1 ⊗ A2 und heißt Kopplung. • Ist κ1 ein Markovkern von (E0 , A0 ) nach (E1 , A1 ) sowie κ2 ein Markovkern von (E1 , A1 ) nach (E2 , A2 ), dann heißt Z κ1 · κ2 : E0 × A2 → [0, ∞], (x0 , A) 7→ κ2 (x1 , A2 )κ1 (x0 , dx1 ) E1 Verkettung von κ1 und κ2 und ist ein Markovkern (E0 , A0 ) nach (E2 , A2 ), da (κ1 ·κ2 )(x0 , A) = (κ1 ⊗ κ2 )(x0 , π2−1 (A)). • Sind X, Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in einem polnischen Raum E, dann existiert ein Markovkern κX,Y von (Ω, F) nach (E, BE ) mit κX,Y (y, A) = E 1X −1 (A) |Y = y . κX,Y wird reguläre Version der bedingten Wahrscheinlichkeit genannt. Definition 3.1. Sei T = N0 (diskrete Zeit) oder T = [0, ∞) (stetige Zeit) und E ein polnischer Raum. Dann heißt eine (E, BE )-wertige Familie X = (Xt , t ∈ T ) von Zufallsvariablen mit Verteilungen (Px )x∈E (homogener) Markovprozess, falls gilt: (i) Für jedes x ∈ E ist X ein stochastischer Prozess auf (Ω, F, Px ) mit Px (X0 = x) = 1. 18 ⊗T (ii) Die Abbildung κ : E × BE → [0, 1], (x, A) 7→ Px (X ∈ A) := P(X ∈ A|X0 = x) ist ein Markovkern. (iii) Für jedes s, t ∈ T, x ∈ E und A ∈ BE gilt die (schwache) Markoveigenschaft Px Xt+s ∈ AFs = κt (Xs , A), Px -f.s., wobei Fs := σ(Xr , r 6 s) und κt (x, A) := κ(x, πt−1 (A)) = P(Xt ∈ A|X0 = x) die Übergangswahrscheinlichkeit von X zur Zeitdifferenz t beschreibt. Bemerkung 3.2. Eigenschaft (i) besagt, dass unter dem Maß Px der Markovprozess im Punkt X0 = x beginnt. Wir schreiben Ex für den Erwartungswert unter Px und PY := κ(Y, ·) für eine E-wertige Zufallsvariable Y . Die Markoveigenschaft besagt also Px Xt+s ∈ AFs = Px Xt+s ∈ AXs = PXs (Xt ∈ A). Die Verteilung von Xt+s gegeben der Vergangenheit bis zum Zeitpunkt s hängt also nur von Xs (Markoveigenschaft, wie oben) und der Zeitdifferenz t (Homogenität) ab. Beispiel 3.3. Ist (Xn , n ∈ N0 ) eine Markovkette in diskreter Zeit und abzählbarem Zustandsraum (S, S) mit 1-Schritt-Übergangsmatrix P = (pij )i,j∈S , pij = P(X1 = j|X0 = i) = Pi (X1 = j), dann sind die zugehörigen Markovkerne gegeben durch X X κn (i, A) = P(Xn ∈ A|X0 = i) = 1A (j)(P n )ij = (P n )ij · δj (A), n ∈ N, i ∈ S, A ∈ S. j∈S j∈S Unser Ziel ist es, die Existenz von Markovprozessen nachzuweisen. Wir werden also insbesondere Kolmogorovs Erweiterungssatz anwenden. Im Spezialfall von Markov-Ketten in diskreter Zeit haben wir die Existenz bereits in Beispiel 1.34 nachgewiesen. Auch in stetiger Zeit und für polnische Zustandsräume ist die Struktur der endlichdimensionalen Verteilungen durch die Markoveigenschaft bestimmt und relativ einfach. Definition 3.4. Es seien E ein polnischer Raum und T = N0 oder T = [0, ∞). Eine Familie (κt , t ∈ T ) von Markovkernen von E nach E heißt Markov’sche Halbgruppe, falls κ0 (x, ·) = δx für alle x ∈ E und die Chapman-Kolmogorov-Gleichung erfüllt ist: κs · κt = κs+t für alle s, t ∈ T. Beispiel 3.5. Betrachte die Familie (κt , t > 0) von Markovkernen auf R, wobei κ0 (x, ·) = δx und κt (x, ·) das Wahrscheinlichkeitsmaß der N (x, t)-Verteilung für t > 0 sei. Dann gilt für unabhängige Zufallsvariablen X ∼ N (0, s), Y ∼ N (0, t) Z Z κs · κt (x0 , A) = κt (x, A)κs (x0 , dx) = P(x + Y ∈ A)κs (x0 , dx) R R = P(x0 + X + Y ∈ A) = κs+t (x0 , A), da X + Y ∼ N (0, s + t). Also ist (κt , t > 0) eine Markov’sche Halbgruppe. Lemma 3.6. Für jeden Markovprozess X = (Xt , t ∈ T ) in einem polnischen Raum E mit Übergangswahrscheinlichkeiten Px (Xt ∈ A) = κt (x, A) für alle x ∈ E, A ∈ BE , t ∈ T, (2) ist (κt , t ∈ T ) eine Markov’sche Halbgruppe. Die Verteilung von X ist durch (2) eindeutig bestimmt. 19 Beweis. Zum Zeitpunkt 0 gilt κ0 (x, ·) = δx nach Bedingung (i). Aufgrund der Markoveigenschaft gilt weiter κs+t (x, A) = Px (Xs+t ∈ A) = Ex Px (Xs+t ∈ A|Xs ) Z = κt (y, A)κs (x, dy) = κs · κt (A). E Die Eindeutigkeit folgt, da die endlichdimensionalen Randverteilungen durch (κt , t ∈ T ) festgelegt sind. Andersherum lässt sich zeigen, dass jede Markov’sche Halbgruppe einen Markovprozess definiert. Satz 3.7. Es seien E ein polnischer Raum, T = N0 oder T = [0, ∞) und (κt , t ∈ T ) eine Markov’sche Halbgruppe von Kernen auf E. Dann exisitert ein Markovkern κ von (E, BE ) nach ⊗T (E T , BE ), sodass für jedes x ∈ E und beliebige J := {t0 , . . . , tn } ⊆ T mit 0 = t0 < t1 < · · · < tn und n ∈ N gilt n O −1 κ x, πT,J (A) = δx ⊗ κtk −tk−1 (A) ⊗J für alle A ∈ BE . (3) k=1 Beweis. Wir zeigen zunächst, dass (3) für jedes feste x ∈ E ein Wahrscheinlichkeitsmaß definiert. Nach Komlmogorovs Erweiterungssatz genügt es zu zeigen, dass die Familie {PJ : J ⊆ T endlich,0 ∈ J} definiert durch n O PJ := δx ⊗ κtk −tk−1 k=1 konsistent ist, d.h. für alle 0 ∈ I ⊆ J ⊆ T mit I, J endlich gilt ⊗I ∀A ∈ BE : −1 PJ (πJ,I (A)) = PI (A). ⊗I Da die Rechteckmengen ein ∩-stabiler Erzeuger von BE sind, genügt es, die Gleichheit für A := ×i∈I Ai mit Aj ∈ BE , j ∈ I, zu zeigen. Wir können außerdem annehmen, dass I = J \ {ti } für ein i = 1, . . . , n ist, woraus der allgemeine Fall induktiv folgt. Ist i = n, dann gilt −1 PJ (πJ,I (A)) = PJ (A × E) = PI ⊗ κtn −tn−1 (A × E) Z = κtn −tn−1 (xn−1 , E)PI d(x0 , . . . , xn−1 ) = PI (A). A Sein nun i ∈ {1, . . . , n − 1} und setze Ai = E. Wir definieren für j = 0, . . . , n − 1 fj (xj ) := n O κtk+1 −tk (xj , Aj+1 × · · · × An ). k=1 Nach dem Satz von Fubini und der Chapman-Kolmogorov-Gleichung gilt Z Z fi−1 (xi−1 ) = fi+1 (xi+1 )κti+1 −ti (xi , dxi+1 )κti −ti−1 (xi−1 , dxi ) E Ai+1 Z = fi+1 (xi+1 )κti+1 −ti−1 (xi−1 , dxi+1 ). Ai+1 20 Daraus folgt −1 PJ (πJ,I (A)) = Z A0 ×···×Ai−1 Z = A0 ×···×Ai−1 fi−1 (xi−1 )P{t0 ,...,ti−1 } (d(x0 , . . . , xi−1 )) Z fi+1 (xi+1 )κti+1 −ti−1 (xi−1 , dxi+1 )P{t0 ,...,ti−1 } (d(x0 , . . . , xi−1 )) Ai+1 = PI (A). ⊗T Es bleibt zu zeigen, dass für jedes A ∈ BE die Abbildung x 7→ κ(x, A) (BE , B[0,1] )-messbar ist, wobei wir wieder A als Rechteckzylindermenge annehmen können. Dann folgt die Messbarkeit aus der Darstellung n O −1 κ x, πT,J (A0 × · · · × An ) = δx ⊗ κtk −tk−1 (A0 × · · · × An ) k=1 = n O κtk −tk−1 (x, A1 × · · · × An )1A0 (x) k=1 für J = {t0 , . . . , tn } ⊆ T und A0 , . . . , An ∈ BE . Korollar 3.8. Für einen polnischen Raum E, T = N0 oder T = [0, ∞) und eine Markov’sche Halbgruppe (κt , t ∈ T ) von Markovkernen von E nach E, existiert ein messbarer Raum (Ω, F) und ein Markovprozess X = (Xt , t ∈ T ) mit Verteilungen (Px )x∈E auf (Ω, F) mit Übergangswahrscheinlichkeiten Px (Xt ∈ A) = κt (x, A) für alle x ∈ E, A ∈ BE , t ∈ T. ⊗T Beweis. Wir konstruieren X als kanonischen Prozess und setzen daher Ω := E T , F := BE und Xt = πt die Projektion auf die t-te Koordinate. Für den Markovkern κ aus Satz 3.7 für jedes x ∈ E definieren wir Px := κ(x, ·). Nach Konstruktion gilt dann für endlich viele Zeitpunkte ⊗(n+1) 0 = t0 < t1 < · · · < tn und A ∈ BE n O −1 Px (Xt0 , . . . , Xtn ) ∈ A = Px (πT,{t (A)) = δ ⊗ κtk −tk−1 (A). x 0 ,...,tn } k=1 Insbesondere gilt für Mengen A0 , . . . , An ∈ BE Px Xt0 ∈ A0 , . . . , Xtn ∈ An Z = κtn −tn−1 (xn−1 , An )Px (Xt0 ∈ A0 , . . . , Xtn−2 ∈ An−2 , Xtn−1 = dxn−1 ), An−1 also Px (Xtn ∈ A|Ftn−1 ) = κtn −tn−1 (Xn−1 , An ). Damit ist X tatsächlich ein Markovprozess und es gilt Px (Xt ∈ A) = (δx · κt )(A) = κt (x, A), A ∈ BE . Beispiel 3.9. Für den Markov-Prozess X = (Xt , t > 0), welcher durch die Markov’sche Halbgruppe der Normalverteilungen aus Beispiel 3.5 gegeben ist, gilt P0 (Xt − Xs ∈ A|Xs ) = κt−s (Xs , A + Xs ) = κt−s (0, A) ∀A ∈ BR . Daher ist P0 (Xt − Xs ∈ A) = E0 [P0 (Xt − Xs ∈ A|Xs )] = κt−s (0, A), also sind die Zuwächse d Xt −Xs = Xt−s ∼ N (0, t−s) stationär und normalverteilt. Zudem sind die Zuwächse unabhängig: Für 0 = t0 < t1 < · · · < tn und A1 , . . . , An ∈ BR gilt Z Y n P0 (∀i = 1, . . . , n : Xti − Xti−1 ∈ Ai ) = 1Ai (xi − xi−1 )κtn −tn−1 (xn−1 , dxn ) · · · κt1 −t0 (0, dx1 ) Rn i=1 = n Y κti −ti−1 (0, Ai ) = i=1 n Y i=1 21 P0 (Xti − Xti−1 ∈ Ai ). Wir haben damit fast die (standard) Brownsche Bewegung (siehe Kapitel 5) konstruiert, für die wir allerdings noch stetige Pfade fordern werden. Ob es eine Version von X mit stetigen Pfad gibt, ist allerdings zu diesem Zeitpunkt noch ungeklärt. Sofern keine Verwechslung vorkommen kann, werden wir die Verteilungen (Px )x∈E nicht mehr explizit erwähnen. Die schwache Markoveigenschaft kann auch wie folgt charakterisiert werden. Lemma 3.10. Ein stochastischer Prozess (Xt , t ∈ T ) mit T = R+ oder T = N0 ist genau dann ⊗T ein Markovprozess, wenn es einen Markovkern κ : E ×BE → [0, 1] gibt, sodass für alle messbaren T und beschränkten Funktionen f : E → R und alle s ∈ T, x ∈ E gilt: Z Ex f ((Xt+s )t∈T )|Fs = EXs f (X) := f (y) κ(Xs , dy). (4) ET Beweis. „⇐=“ Die Markoveigenschaft folgt aus (4) mit f (y) := 1A (yt ), denn Px (Xt+s ∈ A) = PXs (Xt ∈ A) = κt (Xs , A). „=⇒“ Wir verwenden maßtheoretische Induktion. Da die Menge der Rechteckzylindermengen ⊗T ein ∩-stabiler Erzeuger von BE ist, genügt es Indikatorfunktionen der Form m Y fm ((xt )t∈T ) = 1{A0 ×···×Am } ((xt0 , . . . , xtm )) = 1An (xtn ) n=0 für m ∈ N, t0 = 0, t1 , . . . , tm ∈ T und A0 , . . . , Am ∈ BE zu betrachten. Wir zeigen nun (4) induktiv. Für m = 1 ist (4) äquivalent zu der (schwachen) Markoveigenschaft Ex [f1 (Xs , Xs+t1 )|Fs ] = Px (Xs+t1 ∈ A1 |Fs )1A0 (Xs ) = PXs (Xt1 ∈ A1 )1A0 (Xs ). Mittels maßtheoretischer Induktion folgt die Gleichheit für alle beschränkten, messbaren Funktionen, die nur von (x0 , xt1 ) abhängen. Nun schließen wir induktiv Ex fm+1 (Xt+s )t∈T Fs = Ex Ex fm+1 (Xt+s )t∈T Fs+tm Fs m Y 1An (Xs+tn )Fs = Ex Ex 1Am+1 (Xs+tm+1 )Fs+tm n=0 M arkov = m Y 1An (Xs+tn )Fs Ex EXs+tm 1Am+1 (Xtm+1 −tm ) n=0 m Y IV = EXs EXtm 1Am+1 (Xtm+1 −tm ) 1An (Xtn ) n=0 M arkov = m Y EXs EX0 1Am+1 (Xtm+1 )|Ftm 1An (Xtn ) n=0 = EXs EX0 m+1 Y 1An (Xtn )|Ftm = EXs [f ((Xn )n∈T )]. n=0 Erneut folgt hieraus die Behauptung für alle beschränkten, messbaren Funktionen, die von (xt0 , . . . , xm+1 ) abhängen. In diskreter Zeit gilt sogar automatisch eine stärkere Form der Markoveigenschaft. Definition 3.11. Für n > 0 definieren wir den Shift-Operator ϑn : E N0 → E N0 , (xk )k>0 7→ (xn+k )k>0 . 22 Satz 3.12. Jeder Markovprozess X = (Xn , n ∈ N0 ) in diskreter Zeit erfüllt die starke Markovei⊗T genschaft: Für jede Stoppzeit τ und jede (BE , BE )-messbare, beschränkte Funktion f : E T → R sowie jedes x ∈ E gilt Z Ex [f ◦ ϑτ (X))|Fτ ] = EXτ [f (X)] = f (y)κ(Xτ , dy) f.s.. ET Beweis. Aus (4) folgt für A ∈ Fτ = {A ∈ F : A ∩ {τ = n} ∈ Fn ∀n ∈ N0 } X Ex [f ((Xτ +n )n∈T )1A ] = Ex [f ((Xτ +n )n∈T )1A∩{τ =k} ] k>0 = X Ex Ex [f ((Xk+n )n∈T )|Fk ]1A∩{τ =k} k>0 = X Ex EXk [f ((Xn )n∈T )]1A∩{τ =k} k>0 = Ex EXτ [f ((Xn )n∈T )]1A . 3.2 Markov-Ketten in diskreter Zeit: Rekurrenz und Transienz Im Folgenden sei X = (Xn , n ∈ N0 ) eine homogene Markovkette mit diskretem Zustandsraum S, Übergangswahrscheinlichkeiten pij = P(X1 = j|X0 = i) = Pi (X1 = j) und Übergangsmatrix P = (pij )i,j∈S . Wie aus Kolmogorovs Erweiterungssatz gefolgert, kann X als kanonischer Prozess auf (Ω, F, Px ) mit Ω = S N0 und F = P(S)⊗N0 definiert werden, sodass Xn (ω) = ωn . Als Filtration verwenden wir die natürliche Filtration von X. Definition 3.13. Für jedes y ∈ S sei Ty0 = 0 und Tyk := inf n > Tyk−1 : Xn = y , k ∈ N. Tyk heißt k-te Eintrittszeit von X in y oder Rückkehrzeit nach y. Für x, y ∈ S ist ρx,y := Px (Ty1 < ∞) die Wahrscheinlichkeit, jemals von x nach y zu gehen. Bemerkung 3.14. Tyk ist eine Stoppzeit. ρx,x ist insbesondere die Rückkehrwahrscheinlichkeit von x nach x. Beachte, dass Tx1 > 0 selbst beim Start in x gilt. Satz 3.15. Für alle x, y ∈ S und k ∈ N gilt Px (Tyk < ∞) = ρx,y · ρk−1 y,y . Beweis. Die Behauptung folgt induktiv. Für k = 1 ist nichts zu zeigen. Sein nun k > 2. Für Y := 1{Ty1 <∞} gilt {Tyk < ∞} = {Ty1 ◦ ϑTyk−1 < ∞} = {Y ◦ ϑTyk−1 = 1}. Aus der starken Markoveigenschaft folgt Px (Tyk < ∞) =Ex 1{Tyk <∞} 1{Tyk−1 <∞} =Ex Ex Y ◦ ϑTyk−1 |FTyk−1 1{Tyk−1 <∞} =Ex EX k−1 [Y ]1{Tyk−1 <∞} Ty =Ex Py (Ty1 < ∞)1{Tyk−1 <∞} = ρy,y Px (Tyk−1 < ∞). Definition 3.16. Ein Zustand y ∈ S heißt rekurrent, falls ρyy = 1 und er heißt transient, falls ρyy < 1. Die Anzahl der Besuche von X in y bezeichnen wir mit X Ny := 1{Xn =y} . n>1 23 Satz 3.17. (i) Ist y ∈ S transient, dann gilt Ex [Ny ] = ρxy 1−ρyy . (ii) Sind x, y ∈ S mit ρx,y > 0, so ist y genau dann rekurrent, wenn Ex [Ny ] = ∞. Beweis. (i) Es gilt Ex [Ny ] = = ∞ X k=1 ∞ X Px (Ny > k) = P∞ k=1 Px (Tyk < ∞) k=1 ρx,y · ρk−1 y,y = k=1 (ii) Ex [Ny ] = ∞ X ρx,y . 1 − ρyy ρx,y · ρk−1 y,y = ∞ ⇔ ρyy = 1. Satz 3.18. Ist x ∈ S rekurrent und ρxy > 0 für ein y ∈ S, dann ist auch y rekurrent und ρxy = ρyx = 1. Beweis. (i) Aus ρxx = 1, ρxy > 0 folgt, dass ρyx = 1 gilt: Da ρx,y > 0 existiert ein k ∈ N und x1 , . . . , xk ∈ S \ {x} mit xk = y und Px (X1 = x1 , . . . , Xk = xk ) > 0. Die Markoveigenschaft ergibt dann: 0 = 1 − ρxx = Px (Tx = ∞) >Px (X1 = x1 , . . . , Xk = xk , Tx = ∞) =Px (X1 = x1 , . . . , Xk = xk )Py (Tx = ∞) =Px (X1 = x1 , . . . , Xk = xk )(1 − ρyx ). Da ρxy > 0, muss also ρyx = 1 gelten. (ii) y ist rekurrent: Da ρxy > 0, ρyx > 0, existieren k1 , k2 ∈ N mit (P k1 )yx , (P k2 )x,y > 0. Dann gilt Ey [Ny ] = ∞ X Py (Xn = y) > n=1 = ∞ X n=1 ∞ X Py (Xk1 = x, Xk1 +n = x, Xk1 +k2 +n = y) (P k1 )yx (P n )xx (P k2 )x,y n=1 = (P k1 )yx (P k2 )x,y ∞ X Px (Xn = x) n=1 = (P k1 )yx (P k2 )x,y Ex (Nx ) = ∞. Aus Symmetrie folgt, dass auch ρxy = 1 gilt. Definition 3.19. Die Markovkette X = (Xn , n ∈ N0 ) heißt irreduzibel, falls ρxy > 0 für alle x, y ∈ S. Aus Satz 3.18 folgt direkt, dass in einer irreduziblen Markovkette entweder alle Zustände rekurrent oder alle Zustände transient sind. Ist der Zustandsraum endlich, schließt sich sogar zusätzlich die zweite Möglichkeit aus. Satz 3.20. Für eine irreduzible homogene Markovkette in einem endlichen Zustandsraum S ist jeder Zustand rekurrent. 24 Beweis. Nehmen wir an, alle Zustände sind transient. Dann folgt aus Satz 3.17 und dem Satz von Fubini: X XX ∞> Ex [Ny ] = Px (Xn = y) y∈S y∈S n>1 = XX Px (Xn = y) = ∞. n>1 y∈S | {z } =1 Dieser Widerspruch zeigt, dass alle Zustände rekurrent sein müssen. Beispiel 3.21. (i) Für endliche Zustandsräume können wir Rekurrenz/ Transienz und Irreduzibilität leicht anhand der Übergangswahrscheinlichkeiten ablesen. Pn (ii) Für die einfache Irrfahrt Sn = k=1 Xk mit u.i.v. (Xk )k>1 und P(X1 = 1) = p ∈ (0, 1) und P(X1 = −1) = 1 − p =: q gilt (Übung 2 ): P0 (Tb1 < ∞) = min 1, p b q für alle b ∈ N. (a) Symmetrischer Fall p = 12 : Dann gilt P0 (Tb1 < ∞) = 1 für alle b ∈ Z \ {0} wegen Symmetrie. Aufgrund der Homogenität des Zustandsraumes folgt auch ρxy = Px (Ty < ∞) = 1 für alle x, y ∈ Z mit x 6= y. Aus der Markoveigenschaft folgt nun ρxx = Px (Tx1 < ∞) = Px (X1 = x + 1, Tx < ∞) + Px (X1 = x − 1, Tx < ∞) 1 1 = Px+1 (Tx < ∞) + Px−1 (Tx < ∞) 2 2 1 = (ρx+1,x + ρx−1,x ). 2 Damit ist die symmetrische einfache Irrfahrt irreduzibel und rekurrent. (b) Asymmetrischer Fall p < 1/2 : Aus P0 (Tb1 < ∞) < 1 und Symmetrie/ Homogenität folgt ρxy = ( pq )y−x < 1 für x < y und ρxy = 1 für x > y. Die Markoveigenschaft ergibt wieder p 1 ρxx = pρx+1,x + qρx−1,x = p · 1 + q = 2p < 1. q Damit ist die asymmetrische einfache Irrfahrt irreduzibel und transient. Höhere Dimensionen? Die symmetrische einfache Irrfahrt in Zd mit d > 1 ist genau dann rekurrent, falls d 6 2 (Satz von Polya, vgl. [Klenke, Satz 17.39]). 3.3 Markovketten in stetiger Zeit Es sei X = (Xt , t > 0) eine homogene Markovkette in stetiger Zeit mit abzählbarem Zustandsraum S und Übergangswahrscheinlichkeiten pij (t) = Pi (Xt = j), i, j ∈ S, und Übergangsmatrizen Pt := (pij (t))i,j∈S . Definition 3.22. Gilt für die Halbgruppe (Pt , t > 0), dass (i) der Grenzwert qij := limt↓0 1t Pi (Xt = j) für alle i, j ∈ S mit i 6= j existiert und P (ii) |qii | < ∞ für qii := − i6=j qij und alle i ∈ S gilt, dann heißt die Matrix Q = (qij )i,j∈S ∈ RS×S Generator der Halbgruppe. 25 Aus dieser Definition folgt die Gleichheit lim t↓0 1 Pi (Xt = j) − 1{i=j} = qij t ∀i, j ∈ S. Beispiel 3.23. Ist N ein Poisson-Prozess mit Intensität λ > 0, so ist sein Generator gegeben durch Q = (qij )i,j∈N0 mit qij = λ(1j=i+1 − 1{i=j} ). Satz 3.24. P Erfüllt eine Matrix Q = (qij )i,j∈S ∈ RS×S die Bedingungen qij > 0 für alle i 6= j, qii = − i6=j qij und alle i ∈ S sowie λ := supi∈S |qii | < ∞, dann ist Q der Generator einer eindeutig bestimmten homogenen Markov-Kette X = (Xt , t > 0). In diesem Fall gilt für die Übergangsmatrizen X (tQ)n für alle t > 0. Pt = etQ := n! n>0 P Bemerkung 3.25. Für jede stochastische Matrix P , d.h. pij > 0 und j pij = 1 für alle i, j ∈ S, gilt kP k2 = 1. Dies sieht man wie folgt: kP k2 ist der größte Eigenwert. Für den Vektor 1 = (1, . . . , 1)> gilt P 1 = 1 also ist 1 ein Eigenwert. Sei nun λ > 0 ein weiterer Eigenwert mit Eigenvektor y ∈ RS , so gilt λy = P y 6 (supi∈S |yi |)1 und damit λ supi∈S |yi | 6 supi∈S |yi |. Folglich ist λ 6 1 und 1 ist der größte Eigenwert, d.h. kP k2 = 1. Unter den Annahmen des Satzes ist P = λ1 Q + I mit der Einheitsmatrix I ∈ RS×S eine stochastische Matrix. Damit gilt kQk2 6 λ(kP k2 +kIk2 ) = 2λ, sodass Q ein beschränkter Operator PN n n n 6 PN t kQk2 für N → ∞ und das Matrixauf RS ist. Insbesondere konvergiert n=0 (tQ) n=0 n! n! 2 Exponential etQ (im Sinne obiger Reihe) ist wohldefiniert. Beweis von Satz 3.24. Existenz: Ohne Einschränkung sei S ⊆ N. Wir betrachten die stochastische Matrix 1 P := (pij )i,j∈S := Q + I. λ Sei Y = (Yn , n > 0) eine homogene Markov-Kette (in diskreter Zeit) mit Ein-SchrittÜbergangsmatrix P und Startwert i unter Pi sowie N = (Nt , t > 0) ein unabhängiger PoissonProzess mit Intensität λ. Dann ist X = (Xt , t > 0) mit Xt := YNt eine Markov-Kette in stetiger Zeit mit Übergangswahrscheinlichkeiten pij (t) = Pi (Xt = j) = X P(Nt = n, Yn = j) = e−λt n>0 X (λt)n (P n )ij , n! i, j ∈ S. n>0 Die Potenzreihe in t ist überall konvergent, da P als linearer Operator auf RS eine endliche Norm hat (Bemerkung 3.25). Damit erhalten wir für Pt = (pij (t))i,j∈S Pt = e−λt etλP = etλ(P −I) = etQ . d Durch summandenweises Ableiten erhalten wir dt pij (t)t=0 = qij . Somit ist X der gewünschte Markov-Prozess. Eindeutigkeit: Nehmen wir an, dass Pet = (e pij (t))ij , t > 0, die Übergangswahrscheinlichkeiten e eines weiteren Markovprozesses X mit dem selben Generator Q sind. Dann ist (nachrechnen!) lim s↓0 pij (t + s) − pij (t) = (Q · Pt )ij s und analog für Pet , sodass Z pij (t) − peij (t) = t 0 26 q(p − pe)(s) ij ds. Wir erhalten sup Ps − Pes 2 6 sup s6t s6t Z 0 s Q(Pr − Per ) dr 6 kQk2 sup kPs − Pes k2 t 6 2λt sup kPs − Pes k2 . 2 s6t s6t Für t < (2λ)−1 folgt hieraus Pt = Pet . Für ein allgemeines t > 0 wählen wir n ∈ N, sodass t/n < (2λ)−1 . Dann ist Pet = (Pet/n )n = (Pt/n )n = Pt . 4 4.1 Ergodentheorie Stationäre und ergodische Prozesse d Erinnern wir uns, dass X = Y für zwei Zufallsvariablen X, Y heißt, dass PX = PY (oder L(X) = L(Y )). Definition 4.1. Ein stochastischer Prozess (Xt , t ∈ T ) mit T ∈ {R+ , N0 } heißt stationär, falls d (Xt1 , . . . , Xtn ) = (Xt1 +s , . . . , Xtn +s ) für alle n > 1 und t1 , . . . , tn , s ∈ T gilt. Beispiel 4.2 (Markovketten). Sei X = (Xn , n ∈ N0 ) eine homogene Markovkette in diskreter Zeit mit abzählbarem Zustandsraum (S, P(S)) Verteilungsfamilie (Pi )i∈S . Für eine Verteilung µ von X0 betrachten wir das Maß X Pµ := Pi µ({i}) = E[PX0 ] mit X0 ∼ µ. i∈S Die Anfangsverteilung µ heißt invariant, falls Pµ (X1 = i) = Pµ (X0 = i) = µ({i}) ∀i ∈ S. Ist P = (pij )i,j∈S die (1-Schritt-)Übergangsmatrix und bezeichnen wir mit µ = (µi )i∈S = (µ({i}))i∈S den Anfangsverteilungsvektor, dann besagt die Invarianz von µ gerade X ∀i ∈ S : µj pj,i = µi ⇐⇒ µ · P = µ, j∈S d.h. µ ist ein linker Eigenvektor der Matrix P zum Eigenwert 1. Die Markoveigenschaft impliziert nun, dass X unter einem invarianten Maß stationär ist: Für alle s > 1 und i0 , . . . , i1 ∈ S gilt X Pµ (X0+s = i0 , . . . , Xn+s = in ) = µj0 pj0 ,j1 · · · pjs−2 js−1 pjs−1 i0 pi0 i1 · · · pin−1 in | {z } j0 ,...,js−1 ∈S P j0 µj0 pj0 ,j1 =µj1 =µi0 pi0 i1 · · · pin−1 in = Pµ (X0 = i0 , . . . , Xn = in ). p q Ein einfaches konkretes Beispiel mit S = {1, 2} ist P = für p ∈ [0, 1], q = 1 − p und q p 1 1 µ( 2 , 2 ). Definition 4.3. Eine messbare Abbildung T : Ω → Ω auf einem Wahrscheinlichkeitsraum (Ω, F, P) heißt maßerhaltend oder maßtreu, falls PT = P gilt, d.h. P(T −1 (A)) = P(A) für alle A ∈ F. Beispiel 4.4. Betrachte Ω = {z ∈ C : |z| = 1} mit F = BΩ sowie die Ω-wertige Zufallsvariable Z = eiU mit U ∼ U([0, 2π]). Dann ist für jedes r ∈ R die Rotation T (z) = z · eir , z ∈ Ω, maßerhaltend auf (Ω, F, PZ ). 27 Wir betrachten im Folgenden den zeitdiskreten Fall T = N0 . Lemma 4.5. (i) Jeder (S, S)-wertige stationäre Prozess X = (Xn , n ∈ N0 ) induziert eine maßerhaltende Abbildung T = ϑ1 auf (S N0 , S ⊗N0 , PX ) durch den (Links-)Shift T (Xn )n>0 = (Xn )n>1 . In diesem Fall gilt Xn = π0 ◦ T n (X), wobei π0 die Projektion auf die 0-te Koordinate und T n die n-fache Verknüfung von T mit sich selbst bezeichnet. (ii) Ist Y eine Zufallsvariable und T maßerhaltend auf einem Wahrscheinlichkeitsraum (Ω, F, P), dann definiert Xn (ω) := Y (T n (ω)), n > 0, einen stationären Prozess (Xn , n ∈ N0 ). Beweis. (i) Für Zylindermengen A = πN−1 (Bn ), n > 0, Bn ∈ S ⊗(n+1) gilt aufgrund der 0 ,{0,...,n} Stationärität PX (T −1 (A)) = P X ∈ T −1 (A) = P(T ◦ X ∈ A) = P (X1 , . . . , Xn+1 ) ∈ Bn = P (X0 , . . . , Xn ) ∈ Bn = P(X ∈ A) = PX (A). Also stimmen PX (T −1 (·)) und PX auf einem ∩-stabilen Erzeuger von S ⊗N0 überein und sind damit identisch. (ii) Für A ∈ S ⊗(n+1) folgt aus der Maßtreue von T P (Xm , Xm+1 , . . . , Xm+n ) ∈ A =P {ω ∈ Ω : (Y ◦ T m (ω), . . . , Y ◦ T m+n (ω)) ∈ A} =P T −m ({ω ∈ Ω : (Y ◦ T 0 (ω), . . . , Y ◦ T n (ω)) ∈ A}) =P {ω ∈ Ω : (Y ◦ T 0 (ω), . . . , Y ◦ T n (ω)) ∈ A} =P (X0 , X1 , . . . , Xn ) ∈ A . Damit ist (Xn , n ∈ N0 ) stationär. Falls (Xn , n > 0) stationär ist, dann sind insbesondere die Verteilungen PXn für alle n gleich. Die Xn sind also gleich verteilt, aber nicht notwendigerweise unabhängig. Wann können wir dennoch auf ein Gesetz der großen Zahlen hoffen? Beispiel 4.6. Betrachte Ω = {a, b, c, d, e}, F = P(Ω) und T : Ω → Ω mit T T T a 7→ b 7→ c 7→ a, T T d 7→ e 7→ d. Dann ist T für jedes Wahrscheinlichkeitsmaß P mit P({a}) = P P({b}) = P({c}) = p1 und P({d}) = n P({e}) = p2 maßerhaltend. Was ist der Grenzwert limn→∞ n1 i=1 Xi für Xn = 1{a,d} ◦ T n ? ( n 1 , ω ∈ {a, b, c}, 1X lim Xi (ω) = 13 n→∞ n , ω ∈ {d, e}. 2 i=1 Andererseits ist E[Xi ] = p1 + p2 im Allgemeinen weder 28 1 3 noch 12 . Definition 4.7. Ein Ereignis A ∈ F heißt (quasi-)invariant bezüglich der maßerhaltendenden Transformation T auf (Ω, F, P), falls 1T −1 (A) = 1A P-f.s. (äquivalent P(T −1 (A)∆A) = 0 mit A∆B := {B \ A} ∪ {A \ B}). A heißt strikt invariant, falls T −1 (A) = A. Die Menge aller (quasi) invarianten Ereignisse bilden eine σ-Algebra (!) IT . T heißt ergodisch, falls IT trivial ist, d.h. P(A) ∈ {0, 1} für alle A ∈ IT . Ein stationärer Prozess X = (Y ◦ T n , n > 0) für eine Zufallsvariable Y und eine maßerhaltende Abbildung T auf (Ω, F, P) heißt ergodisch, falls T ergodisch ist. Man beachte, dass Nullmengen und Einsmengen immer in IT liegen. Lemma 4.8. (i) Eine reelle Zufallsvariable Y ist genau dann IT -messbar, wenn Y ◦T = Y f.s. gilt. Insbesondere ist genau dann T ergodisch, wenn für alle beschränkten Zufallsvariablen die Invarianz Y ◦ T = Y f.s. impliziert, dass Y f.s. konstant ist. (ii) Für jedes invariante Ereignis A ∈ IT existiert ein strikt invariantes Ereignis B, sodass P(A∆B) = 0. Beweis. Übung 2 . Bemerkung 4.9. Aufgrund von (ii) ist T ergodisch, falls T −1 (A) = A bereits P(A) ∈ {0, 1} impliziert. Beispiel 4.10. (i) U.i.v. Zufallsvariablen (Xn )n>0 bilden einen ergodischen Prozess: Wir setzen Ω := S N0 , F := σ(Xn , n > 0) und betrachten den Shift T auf (Ω, F, P) und A ∈ F mit T −1 (A) = A. Dann gilt: A ∈ σ((Xn+k )k>0 ) für jedes n ∈ N0 , denn ω = (ωn )n>0 ∈ T −1 (A) ist äquivalent zu (ωn )n>1 ∈ A, sodass A = T −1 (A) ∈ σ(X1 , X2 , . . . ). Wir erhalten induktiv A = T −n (A) ∈ σ(Xn , Xn+1 , . . . ) für jedes n. T Damit liegt A in der terminalen σ-Algebra n>0 σ((Xn+k )k>0 ) und Kolmogorovs 0-1-Gesetz impliziert (dank der Unabhängigkeit) P(A) ∈ {0, 1}. (ii) Wir betrachten die Rotation um einen festen Winkel. Sei hierzu Ω = [0, 1], F = BΩ und P die Gleichverteilung auf [0, 1]. Wir betrachten T (ω) = (ω + ϑ) mod 1 für alle ω ∈ Ω und ein festes ϑ ∈ R. Dann ist T maßerhaltend. Sq−1 (a) Sei ϑ = pq ∈ Q, p, q ∈ N: Betrachte A = k=0 [ kq , k+1/2 ). Dann gilt A = (A + pq ) mod 1 q und P(A) = 21 . Folglich ist T nicht ergodisch für rationale ϑ. (b) Sei ϑ irrational: Nehmen wir an f = 1A ∈ L2 ([0, 1]) für ein A ∈ F ist invariant: f ◦T = f f.s. Wir können f als Fourierreihe entwickeln: f (x) = ∞ X ck e2πikx (in L2 ). k=−∞ und damit f (T (x)) = ∞ X ck e2πik(x+ϑ) = k=−∞ ∞ X ck e2πikϑ e2πikx . k=−∞ Da die Fourierkoeffizienten eindeutig bestimmt sind, impliziert f = f ◦ T , dass ck = ck e2πikϑ ∀k ∈ Z. Ist ϑ ∈ / Q, folgt aber e2πikϑ 6= 1 für alle k ∈ Z \ {0} und somit f = c0 f.s. Somit ist f = 1A f.s. konstant und T ergodisch. 29 4.2 Ergodensätze Wie oben gesehen ist X = (Xn , n ∈ N0 ) mit Xn = Y ◦T n , n > 0, für eine Zufallsvariable Y und eine maßerhaltende AbbildungPT ein stationärer Prozess. Wir wollen nun Gesetze der großen Zahlen n−1 für Partialsummen Sn = i=0 Xn untersuchen. Vorbereitend benötigen folgendes Hilfsresultat: Lemma 4.11 (Maximal-Ergodenlemma). Sei Y ∈ L1 (P) und T maßerhaltend. Setzen wir Sn = Pn−1 i i=0 Y ◦ T , S0 = 0 und Mn = max{S0 , S1 , . . . , Sn }, dann gilt für alle n ∈ N E[Y 1{Mn >0} ] > 0. Beweis. Für 1 6 j 6 n gilt Mn−1 (T (ω)) > Sj−1 (T (ω)) und daher Y + Mn ◦ T > Y + Mn−1 ◦ T > Y + Sj−1 ◦ T = Sj . Auf {Mn > 0} ist Mn = max{S1 , . . . , Sn } und somit Y + M n ◦ T > Mn . Wir erhalten E (Y + Mn ◦ T )1{Mn >0} > E Mn 1{Mn >0} = E Mn , Da Mn > 0, folgt E Y 1{Mn >0} + Mn ◦ T > E Mn . Da T maßerhaltend ist, gilt E[Mn ◦ T ] = E[Mn ] und deshalb E Y 1{Mn >0} ] > 0. Satz 4.12 (Ergodensatz von Birkhoff). Für eine maßerhaltende Abbildung T und X ∈ L1 (P) auf einem Wahrscheinlichkeitsraum (Ω, F, P) gilt n−1 1X X ◦ T i = E[X|IT ] n→∞ n i=0 f.s. und in L1 -Konvergenz. lim Ist T ergodisch, dann gilt n−1 1X X ◦ T i = E[X] n→∞ n i=0 f.s. und in L1 -Konvergenz. lim Beweis. Schritt 1: Setze Rn := 1 n Pn−1 i=0 X := lim sup Rn X ◦ T i . Wir zeigen: und X := lim inf Rn n→∞ n→∞ Es gilt n+1 n Rn+1 = Rn ◦ T + n1 X, wobei X n X := lim sup Rn = lim sup n→∞ n→∞ sind T -invariant. → 0. Das impliziert n+1 · Rn+1 = lim sup Rn ◦ T = X ◦ T, n n→∞ sodass X invariant ist. Analog folgt die Behauptung für X. Schritt 2: Es gilt X = X f.s.: Für a < b betrachten wir P(X < a, X > b). Wir wollen nun das Maximal-Ergodenlemma auf Y = (X − b)1{X<a,X>b} anwenden. Es gilt für Mn wie oben [ {Mn > 0} = n n>1 o 1 Sn > 0 n>1 n sup n−1 o 1X (X ◦ T i − b)1{X◦T i <a,X◦T i >b} > 0 n>1 n i=0 o n = sup(Rn − b)1{X<a,X>b} > 0 = n sup n>1 = {X < a, X > b}. 30 Lemma 4.11 und dominierte Konvergenz liefern also 0 6 E (X − b)1{X<a,X>b} 1{Mn >0} → E (X − b)1{X<a,X>b} n → ∞. Daraus folgt E X 1{X<a,X>b} > bP(X < a, X > b) und analog erhalten wir für Y = (a − X)1{X<a,X>b} , dass E X 1{X<a,X>b} 6 aP(X < a, X > b). Es folgt 0 6 (a − b)P(X < a, X > b). Daher muss P(X < a, X > b) = 0 für alle a < b, a, b ∈ Q, gelten. Wir erhalten P(X < X) = 0. Schritt 3: (Rn )n>1 ist gleichgradig integrierbar (zur Erinnerung: limC→∞ supn E[|Rn |1{|Rn |>C} ] = 0). Dies ist äquivalent dazu, dass L := supn E[|Rn |] < ∞ und ∀ε > 0∃δε > 0 : ∀B ∈ F mit P(B) < δε gilt sup E[|Rn |1B ] < ε n (Übung 2 ). Wegen lim sup E |X ◦ T i |1{|X◦T i |>C} = lim sup E |X|1{|X|>C} = 0, C→∞ i∈N C→∞ i∈N0 folgt, dass für jedes ε > 0 ein δ > 0 existiert, sodass für alle B ∈ F mit P(B) < δ supi E[|X ◦ T i |1B ] < ε gilt. Außerdem folgt aus der Dreiecksungleichnung und der Maßtreue von T , dass sup E[|Rn |] 6 sup E[|X ◦ T n |] = E[|X|] < ∞. n n Wir erhalten also für jedes B ∈ F mit P(B) < δ: sup E[|Rn |1B ] 6 sup n n n−1 1X E |X ◦ T i |1B < ε. n i=0 Schritt 4: Wir zeigen die f.s. und L1 -Konvergenz gegen X = X = E[X|IT ] f.s.. Aus Schritt 2 und 3 folgt, dass Rn → X = X f.s. und in L1 (P). Damit folgt entlang einer Teilfolge (Rnm )m>1 f.s. E[Rnm |IT ] −→ E[X|IT ] = X m→∞ f.s. Nun ist E[X ◦ T |IT ] = E[X|IT ], denn für alle A ∈ IT gilt Z Z Z Z E[X|IT ]1A dP = E[X|IT ]1T −1 (A) dP = X 1T −1 (A) dP = X ◦ T 1A dP. Ω Ω Ω Ω Wir schließen hieraus E[Rn |IT ] = n−1 n−1 1X 1X E[X ◦ T i |IT ] = E[X|IT ] = E[X|IT ], n i=0 n i=0 also X = E[X|IT ] f.s. folgt. Schritt 5: Ist T ergodisch, so ist jede IT -messbare Abbildung f.s. konstant, woraus E[X|IT ] = E[X] f.s. folgt. Satz 4.13 (Lp -Ergodensatz von Neumann). Für eine maßerhaltende Abbildung T und X ∈ Lp (P), p > 1, auf einem Wahrscheinlichkeitsraum (Ω, F, P) gilt n−1 1X X ◦ T i = E[X|IT ] n→∞ n i=0 lim Beweis. Übung 2 . f.s. und in Lp -Konvergenz. Pn−1 Beispiel 4.14. Ist (Xn , n > 0) ein ergodischer Prozess in L1 (P), dann gilt limn→∞ n1 k=0 Xk = E[X0 ] f.s. und in L1 . Wir erhalten insbesondere Kolmogorovs starkes Gesetz der großen Zahlen für u.i.v. (Xn )n>0 aus L1 (P). 31 4.3 Anwendung auf Markovketten Wann ist eine Markovkette stationär oder ergodisch? Wir betrachten wieder eine homogene Markovkette X = (Xn , n ∈ N0 ) in diskreter Zeit mit Übergangsmatrix P . Eine Verteilung µ war invariant, wenn µP = µ (in Matrixnotation) gilt. Für jeden Zustand y ∈ S erinnern wir uns an die Stoppzeit Ty := inf{n > 0 : Xn = y}. y hieß rekurrent, falls Py (Ty < ∞) = 1. Definition 4.15. Ein rekurrenter Zustand x ∈ S heißt positiv rekurrent, falls Ex [Tx ] < ∞, und andernfalls nullrekurrent. p q Beispiel 4.16. Auf S = {1, 2} sei (Xn , n > 0) eine Markovkette mit Übergangsmatrix q p mit p, q > 0 und p + q = 1. Dann sind beide Zustände positiv rekurrent: E1 [T1 ] = 1p + 2q 2 + 3pq 2 + · · · + (k + 2)pk q 2 + . . . X = p + (1 − 2p + p2 ) (k + 2)pk k>0 =p+ X k kp + k>0 X (k + 2)pk+2 + 2 k>0 X pk − 2 k>0 X (k + 2)pk+1 = 2 < ∞. k>0 Satz 4.17. Sei x ∈ S positiv rekurrent. Dann existiert ein invariantes Maß µ gegeben durch PTx −1 P∞ Ex [ n=0 1{Xn =y} ] Px (Xn = y, Tx > n) = n=0 , y ∈ S. µ({y}) := Ex [Tx ] Ex [Tx ] µ ist also der erwartete Anteil der Besuche von y auf einer Exkursion von x nach x. Beweis. Da x positiv rekurrent ist, gilt Ex [Tx ] < ∞ und PTx −1 P X Ex [ n=0 y∈S 1{Xn =y} ] = 1. µ({y}) = Ex [Tx ] y∈S Setzen wir nun qn,x (y) := Px (Xn = y, Tx > n), so ist µP = µ äquivalent zu XX X ∀y ∈ S : qn,x (z)pzy = qn,x (y). z∈S n>0 n>0 Sei zunächst y 6= x, dann X X qn,x (z)pzy = Px (Xn = z, Tx > n, Xn+1 = y) = Px (Tx > n + 1, Xn+1 = y) = qn+1,x (y). | {z } z∈S z∈S X ∈Fn Da q0,x (y) = 0 wegen y 6= x, erhalten wir XX X X qn,x (z)pzy = qn,x (y) = qn,x (y). z∈S n>0 n>1 n>0 Andererseits gilt für y = x X X qn,x (z)pzx = Px (Xn = z, Tx > n, Xn+1 = x) = Px (Tx = n + 1) z∈S z∈S und damit XX z∈S n>0 qn,x (z)pzy = X Px (Tx = n) = 1 = Ex x −1 h TX n=0 n>1 32 i 1{Xn =x} = X n>0 qn,x (x). Lemma 4.18. Ist X irreduzibel, so hat X höchstens eine invariante Verteilung. P∞ Beweis. Wir definieren die stochastische Matrix Pe = (e pxy )x,y∈S via pexy := n=1 2−n (P n )x,y für alle x, y ∈ S. Für jede invariante Verteilung µ von X gilt dann µPe = µ. Da X irreduzibel ist, folgt außerdem pexy > 0 für alle x, y ∈ S. Wir führen nun einen Widerspruchsbeweis. Seien µ = (µx )x∈S und ν = (νx )x∈S zwei invariante Verteilungen mit µ 6= ν. Dann existieren zwei Zustände x1 , x2 ∈ S mit µx1 > νx1 und µx2 < νx2 . Damit gilt (µx1 − νx1 )e px1 y + (µx2 − νx2 )e px2 y < |µx1 − νx1 |e px1 y + |µx2 − νx2 |e p x2 y Da µ und ν invariant sind, folgt X X (µ − ν)Pe |µy − νy | = y y∈S y∈S = X X | (µx − νx )e px,y | y∈S x∈S < XX |µx − νx |e px,y = y∈S x∈S X |µx − νx |. x∈S Dies ist ein Widerspruch. Satz 4.19. Ist X eine irreduzible Markovkette mit einem positiv rekurrenten Zustand, dann existiert eine eindeutige invariante Verteilung µ, X ist ein ergodischer Prozess unter Pµ und es gilt für alle x ∈ S n−1 1X 1{Xk =x} n→∞ −→ µ({x}), Pµ -f.s. n k=0 Beweis. Es bleibt nur zu zeigen, dass X unter Pµ ergodisch ist. Unter Pµ ist X stationär und es gilt (Xk )k>n = ϑn (X) für den ShiftTϑ. Sein nun A ∈ Iϑ . Wegen {X ∈ A} = {X ∈ ϑ−n (A)} = {(Xk )k>n ∈ A} für jedes n, ist A ∈ n>1 σ(Xk , k > n). Für jede endliche Stoppzeit τ gilt Pµ (X ∈ A|Fτ ) = PXτ (X ∈ A), (5) denn für jedes B ∈ Fτ erhalten wir aus der starken Markoveigenschaft Eµ [1{X∈B} 1{X∈A} ] = = ∞ X X n=0 x∈S ∞ X X n=0 x∈S M arkov = ∞ X X Pµ X ∈ B, τ = n, Xn = x, X ∈ A Pµ X ∈ B, τ = n, Xn = x, ϑn (X) ∈ A | {z } X ∈Fn Pµ X ∈ B, τ = n, Xn = x Px (X ∈ A) n=0 x∈S =Eµ 1{X∈B} PXτ (X ∈ A) . Da X eine irreduzible Markovkette mit einem rekurrenten Zustand ist, ist jedes x ∈ S rekurrent (Satz 3.18). Wir können also für jedes x ∈ S die Stoppzeit τ = Tx wählen. Dann gilt Tx < ∞ f.s. und aus (5) ergibt sich Pµ (X ∈ A) = Eµ [Pµ (X ∈ A|FTx )] = Px (X ∈ A) ∀x ∈ S. Insbesondere ist PXn (X ∈ A) = Pµ (X ∈ A) f.s. und mit τ = n in (5) Pµ (X ∈ A|X0 , . . . , Xn ) = PXn (X ∈ A) = Pµ (X ∈ A) f.s. 33 Mit dem Martingalkonvergenzsatz ergibt sich für jedes A ∈ Iϑ ⊆ σ(Xk , k > 0) Pµ (X ∈ A|X0 , . . . , Xn ) −→ Pµ (X ∈ A|σ(Xk , k > 0)) = 1{X∈A} n→∞ Pµ − f.s. Damit folgt Pµ (X ∈ A) ∈ {0, 1}, sodass X unter Pµ ergodisch ist. Die Konvergenzaussage für Pn−1 1 k=0 1{Xk =x} ergibt sich schließlich aus Birkhoffs Ergodensatz. n Unter den Voraussetzungen des vorherigen Satzes ist also µ({x}) die mittlere Aufenthaltsdauer von X in x. Satz 4.20. Besitzt eine irreduzible Markovkette X eine invariante Verteilung µ, dann sind alle Zustände positiv rekurrent und es gilt: µ({y}) = 1 , Ey [Ty ] y ∈ S. Beweis. Da X irreduzibel und stationär unter µ ist, gilt für jedes y ∈ S: X µ({y}) = Pµ (X0 = y) = Pµ (X1 = y) = µ({x})px,y > 0. x∈S Nun ist ein y ∈ S genau dann rekurrent, wenn Ex [ Diese Bedingung ist aber erfüllt, wegen Eµ n hX P k>1 1{Xk =y} ] = ∞ (Satz 3.17) für ein x ∈ S. i 1{Xk =y} = nµ({y}) → ∞ für n → ∞. k=1 Aus dem Beweis von Satz 4.19 folgt nun, dass X ergodisch ist (wir benötigen lediglich die Existenz eines invarianten Maßes sowie die Rekurrenz der Zustände). Pk−1 Wir betrachten nun die Folge (Ty ◦ϑTyl )l>0 . Diese ist unter Py u.i.v. mit Tyk = l=0 Ty ◦ϑTyl für die k-te Eintrittszeit und Py (Tyk < ∞) = 1 (Satz 3.15). Somit gilt für k → ∞ (also auch Tyk → ∞) k Ty k−1 1 X −1 Tyk 1 1X Ty ◦ ϑTyl = = 1 (X ) → n {y} k k k Ty n=1 µ({y}) Pµ -f.s. l=0 Pk−1 Ty ◦ ϑTyl = µ({y})−1 Py -f.s.. Aus dem starken Pk−1 Gesetz der großen Zahlen folgt nun einerseits, dass E[Ty ] < ∞ (weil sonst limk→∞ k1 l=0 Ty ◦ ϑTyl = ∞ f.s. gelten würde) und anderseits Wegen µ({y}) > 0 gilt dann auch limk→∞ 1 k l=0 k−1 1X 1 = lim Ty ◦ ϑTyl = Ey [Ty ] Py − f.s. µ({y}) k→∞ k l=0 Da die linke und die rechte Seite deterministisch sind, muss also µ({y}) = 1 Ey [Ty ] gelten. Fassen wir die vorangegangen Sätze zusammen, so erhalten wir: Korollar 4.21. Es sei X = (Xn , n > 0) eine homogene, irreduzible Markovkette. Dann sind folgende Bedingungen äquivalent: (i) Es gibt einen positiv rekurrenten Zustand. (ii) Alle Zustände sind positiv rekurrent. (iii) Es existiert eine eindeutige invariante Verteilung µ. Ist eine und somit alle Bedingungen erfüllt, dann ist X ergodisch. 34 5 Brownsche Bewegung 5.1 Stetige Pfade In Beispiel 3.9 hatten wir bereits einen (Markov-)Prozess X = (Xt , t > 0) diskutiert mit unabhängigen, stationären und normalverteilten Zuwächsen. Genauer galt Xt − Xs ∼ N (0, t − s) für alle 0 6 s < t (unter P = P0 ). Häufig ist man aber nicht nur an Verteilungseigenschaften interessiert, sondern möchte auch das Verhalten der Pfade t 7→ Xt beschreiben, bspw. über das Funktional F (X) := supt∈[0,1] Xt . A priori muss aber F (X) nicht mal eine Zufallsvariable sein. Wir werden in diesem Kapitel zeigen, dass X eine Modifikation B (also P(Xt = Bt ) = 1 für alle t > 0) mit stetigen Pfaden besitzt, was insbesondere die Messbarkeit von F (X) und anderen interessanten Funktionalen impliziert. Der resultierende Prozess ist das zentrale Objekt in der Theorie stochastischer Prozesse: die Brownsche Bewegung. Definition 5.1. Ein reellwertiger stochastischer Prozess B = (Bt , t > 0) auf einem Wahrscheinlichkeitsraum (Ω, F, P) heißt Brownsche Bewegung, falls (i) B0 = 0, (ii) B besitzt unabhängige Zuwächse, d.h. für alle n ∈ N, 0 6 t0 < · · · < tn sind Bt1 − Bt0 , . . . , Btn − Btn−1 unabhängig, d (iii) B besitzt stationäre Zuwächse, d.h. für alle 0 6 s < t gilt Bt − Bs = Bt−s , (iv) Bt ∼ N (0, t), (v) Für P-f.a. ω ∈ Ω ist t 7→ Bt (ω) stetig. Wir haben bereits gesehen, dass ein Prozess mit den Eigenschaften (i)-(iv) existiert, wissen aber nicht, ob dieser eine stetige Modifikation besitzt. Um das zu beweisen, werden wir das KolmogorovChentsov-Kriterium verwenden, welches uns über die Stetigkeit hinaus sogar Hölder-Regularität liefert. Definition 5.2. Für γ ∈ (0, 1] und I ⊆ R heißt eine Funktion f : I → Rd lokal Hölder-stetig der Ordnung γ oder kurz lokal γ-Hölder-stetig, falls für alle x ∈ I Konstanten ε, C > 0 existieren, sodass ∀y1 , y2 ∈ I mit |x − y1 | ∨ |x − y2 | 6 ε : |f (y1 ) − f (y2 )| 6 C|y1 − y2 |γ . f heißt Hölder-stetig auf I von der Ordnung γ, falls ε beliebig groß gewählt werden kann und C nicht von x abhängt. Satz 5.3 (Kolmogorov-Chentsov). Es sei X = (Xt , t > 0) ein reellwertiger Prozess. Für jedes T > 0 gebe es Konstanten α, β, C > 0 mit ∀s, t ∈ [0, T ] : E |Xt − Xs |α 6 C|t − s|1+β . Dann gilt: (i) Es existiert eine Modifikation Y = (Yt , t > 0) von X, die lokal Hölder-stetige Pfade von jeder Ordnung γ ∈ (0, β/α) hat. (ii) Ist γ ∈ (0, β/α), so existiert zu allen ε, T > 0 eine Zahl K = K(ε, T, α, β, C, γ) > 0 (unabhängig von ω!) mit P ∀s, t ∈ [0, T ] : |Ys − Yt | 6 K|t − s|γ > 1 − ε. 35 Beweis. (i) Es reicht für jedes T > 0 zu zeigen, dass X auf [0, T ] eine Modifikation X T besitzt, die γ-Hölder-stetig für jedes γ ∈ (0, β/α) ist. Für S, T > 0 sind dann die Prozesse X S und X T auf [0, S ∧ T ] ununterscheidbar (Übung 2 ). Damit sind [ ΩS,T und Ω∞ := ΩS,T := ∃t ∈ [0, S ∧ T ] : XtS 6= XtT S,T ∈N Nullmengen. Definieren wir nun dte t > 0, ω ∈ Ω \ Ω∞ , Yt (ω) := Xt (ω), dann ist Y eine lokal Hölder-stetige Modifikation von X. O.B.d.A. sei nun T = 1. Wir werden zeigen, dass X eine auf [0, 1] γ-Hölder-stetige Modifikation besitzt. Die Chebyshev-Ungleichung liefert für alle ε > 0 C (6) P |Xt − Xs | > ε 6 α |t − s|1+β ∀s, t > 0. ε P Insbesondere gilt die stochastische Stetigkeit Xs → Xt für s → t. Wir werden zunächst Y auf dyadischen Gittern konstruieren. Nach (6) gilt für γ > 0, n ∈ N und k ∈ {1, . . . , 2n }: P |Xk2−n − X(k−1)2−n | > 2−γn 6 C2−n(1+β−αγ) . Wir setzen An,γ := ω : ∃k ∈ {1, . . . , 2n } mit |Xk2−n (ω) − X(k−1)2−n (ω)| > 2−γn sowie ∞ [ Bn,γ := Am,γ , N := lim sup An,γ = n→∞ m=n ∞ \ Bn,γ . n=1 Es folgt für jedes n ∈ N n P(An,γ ) 6 2 X P |Xk2−n − X(k−1)2−n | > 2−γn 6 C2−n(β−αγ) . k=1 Wählen wir nun ein γ ∈ (0, β/α), ergibt sich P(Bn,γ ) 6 ∞ X P(Am,γ ) 6 C m=n 2−(β−αγ)n → 0, 1 − 2αγ−β n → ∞. Das S Lemma von Borel-Cantelli liefert P(N ) = 0. Sei nun ω ∈ N c fest und n0 = n0 (ω) so, dass ∞ ω∈ / n=n0 An,γ . Also gilt |Xk2−n (ω) − X(k−1)2−n (ω)| < 2−γn ∀k ∈ {1, . . . , 2n }, n > n0 . (7) Wir definieren nun die Menge der dyadischen Zahlen auf [0, 1] Dm := {k2−m , k = 0, . . . , 2m } und D := [ Dm . m∈N Pm −i Jedes t ∈ Dm besitzt eine eindeutige Binärdarstellung t = für gewisse bi (t) ∈ i=0 bi (i)2 {0, 1}, i = 1, . . . , m. Seien m > n > n0 sowie s, t ∈ Dm mit s 6 t und |s − t| 6 2−n . Für u := max(Dn ∩ [0, s]) ist dann u 6 s < u + 2−n und u 6 t < u + 21−n . 36 Damit gilt auch bi (t − u) = bi (s − u) = 0 für i < n. Setzen wir tl := u + l X bi (t − u)2−i für l = n − 1, . . . , m, i=n erhalten wir tn−1 = u, tm = t, tl ∈ Dl sowie tl − tl−1 6 2−l für l = n, . . . , m. Also ist nach (7) |Xt (ω) − Xu (ω)| 6 m m X X Xt (ω) − Xt (ω) 6 2−γl 6 l l−1 l=n und analog |Xs (ω) − Xu (ω)| 6 2−γn 1−2−γ . l=n 2−γn 1 − 2−γ Wir erhalten |Xt (ω) − Xs (ω)| 6 2 2−γn . 1 − 2−γ Wir setzen C0 := 21+γ /(1 + 2−γ ). Für alle s, t ∈ D mit s 6= t, |s − t| 6 2−n0 erhalten wir nun für n > n0 mit der Eigenschaft 2−n−1 6 |t − s| 6 2−n , dass |Xt (ω) − Xs (ω)| 6 C0 |t − s|γ . Für beliebige s, t ∈ D mit s < t erhalten wir mit rk := s + (t − s)k2−n0 , k = 0, . . . 2n0 n 2 0 γ X Xr (ω) − Xr (ω) 6 C0 2n0 t − s |Xt (ω) − Xs (ω)| 6 = C0 2(1−γ)n0 |t − s|γ . k k−1 | {z } 2n0 k=1 (8) =:K X(ω) ist also auf D γ-Hölder-stetig mit einer globalen Konstante und wir können es eindeutig stetig auf [0, 1] fortsetzen. Für t ∈ D setzen wir Yt := Xt . Für t ∈ [0, 1] \ D und eine Folge (sn )n∈N ⊆ D mit sn → t ist (Xsn (ω))n eine Cauchyfolge und es existiert der Grenzwert Yt (ω) := lim Xs (ω). D3s→t Es gilt damit für beliebige s, t ∈ [0, 1] |Yt (ω) − Ys (ω)| 6 K|t − s|γ , P sodass Y Hölder-stetig von der Ordnung γ ist. Aufgrund der Konvergenzen Xs → Xt und Ys (ω) → Yt (ω) für alle s → t und P-f.a. ω ∈ Ω gilt P(Xt 6= Yt ) = 0. Also ist Y tatsächlich eine Modifikation von X. (ii) Sei ε > 0 und n ∈ N so groß, dass P(Bn,γ ) 6 C 2−(β−αγ)n < ε. 1 − 2αγ−β Für ω ∈ / Bn,γ gilt nach dem oben gezeigten (8), was gerade die Behauptung mit T = 1 ist. Die Aussage für beliebige T folgt analog. Korollar 5.4. Es existiert ein Wahrscheinlichkeitsraum (Ω, F, P) und eine Brownsche Bewegung B auf (Ω, F, P). Die Pfade von B sind f.s. lokal γ-Hölder-stetig für jedes γ ∈ (0, 1/2). 37 Beweis. Wie in Beispiel 3.9 gesehen, existiert ein Prozess X mit den Eigenschaften (i)-(iv) auf einem Wahrscheinlichkeitsraum (Ω, F, P). Für alle 0 6 s < t gilt d √ Xt − Xs = t − sX1 ∼ N (0, t − s) und daher für jedes n ∈ N und Cn := E[X12n ] = (2n)! 2n n! < ∞: √ 2n E (Xt − Xs )2n = E t − sX1 = Cn |t − s|n . Für jedes beliebige γ ∈ (0, 1/2) wählen wir nun n so, dass γ < n−1 2n und erhalten aus Satz 5.3 die Existenz einer Version B von X mit f.s. γ-Hölder-stetigen Pfaden. Da alle stetigen Versionen äquivalent sind, sind die Pfade von B γ-Hölder-stetig für jedes γ ∈ (0, 1/2). Mit der quadratischen Variaion lernen wir nun noch eine weitere wichtige Pfadeigenschaft (neben der Hölder-Regularität) der Brownschen Bewegung kennen. Unter einer Partition oder Zerlegung von [0, 1] verstehen wir eine endliche, geordnete Menge π = {t0 , t1 , . . . , tI } ⊆ [0, 1] für ein I ∈ N mit t0 = 0 und tI = 1. Satz 5.5. Sei (πn )n>1 eine Folge von Partitionen von [0, 1] mit πn ⊆ πn+1 für alle n ∈ N sowie maxti ∈πn |ti+1 − ti | → 0 für n → ∞. Für jedes t ∈ [0, 1] und X Stn := (Bti+1 ∧t − Bti )2 ti ∈πn ,ti <t gilt lim Stn = t f.s. und in L2 (P). P Beweis. L2 -Konvergenz: Es gilt E[Stn ] = ti ∈πn ,ti <t (ti+1 ∧ t − ti ) = t und X Var(Stn ) = Var (Bti+1 ∧t − Bti )2 n→∞ ti ∈πn ,ti <t =2 X (ti+1 ∧ t − ti )2 ti ∈πn ,ti <t X 6 2 max |ti+1 − ti | ti ∈πn (ti+1 ∧ t − ti ) → 0, n → ∞. ti ∈πn ,ti <t {z | =t } L2 Damit gilt Stn → t. Fast sichere Konvergenz: Wir definieren Fn := σ (Bti+1 ∧t − Bti )2 , ti ∈ πm , m > n , sodass Fn ⊇ Fn+1 . Da sign(X) und |X| für jede normalverteilte, zentrierte Zufallsvariable X unabhängig sind, gilt h X 2 i E[Bt2 |Fn ] = E (Bti+1 ∧t − Bti ) Fn ti ∈πn ,ti <t + X E (Bti+1 ∧t − Bti )(Btj+1 ∧t − Btj )Fn + X = Stn = Stn = Stn . i6=j |Bti+1 ∧t − Bti | · |Btj+1 ∧t − Btj | · E sign(Bti+1 ∧t − Bti ) sign(Btj+1 ∧t − Btj ) i6=j Also ist Stn = E[Bt2 |Fn ], n > 1, ein Rückwärtsmartingal bzgl. (Fn ) (interpretiere „n“ als „−n“) und konvergiert Stn f.s.. Aufgrund der L2 -Konvergenz gegen t muss der f.s. Grenzwert ebenfalls t sein. 38 Bemerkung 5.6. Der Grenzwert limn→∞ Stn heißt quadratische Variation von B in Analogie zur Totalvariation einer Funktion f : X T V[0,t] (f ) = sup |f (ti+1 ) − f (ti )|, π ti ∈π,ti <t wobei das Supremum über alle Partitionen von [0, t] betrachtet wird. Ist f stetig, so gilt X T V[0,t] (f ) = lim |f (ti+1 ) − f (ti )| n→∞ ti ∈πn ,ti <t für jede Folge von Partitionen (πn )n>1 mit maxti ∈πn |ti+1 − ti | → 0 für n → ∞. Für die quadratische Variation gilt dieser Zusammenhang nicht! Oben haben wir den Grenzwert von Stn entlang einer Folge von feiner werdenden Partitionen bestimmt. Im Gegensatz dazu kann man zeigen, dass das Supremum über alle Partitionen der summierten, quadrierten Inkremente der Brownschen Bewegung f.s. unendlich ist. Korollar 5.7. Die Pfade der Brownschen Bewegung besitzen f.s. auf keinem Intervall endliche Variation: P ∃0 6 a < b 6 1 : T V[a,b] (B) < ∞ = 0. Insbesondere ist die Brownsche Bewegung auf keinem Intervall differenzierbar mit Wahrscheinlichkeit 1. Beweis. Übung 2 . Bemerkung 5.8. Die Aussage des Korollars kann man noch deutlich verschärfen. Der Satz von Paley-Wiener-Zygmund besagt, dass für jedes γ > 12 die Pfade der Brownschen Bewegung f.s. in keinem Punkt γ-Hölder-stetig sind. 5.2 Verteilungseigenschaften Die Brownsche Bewegung ist ein zentrierter Gaußprozess: Definition 5.9. Ein stochastischer Prozess X = (Xt , t ∈ I) für ein Intervall I ⊆ R heißt Gaußprozess, falls für jedes n ∈ N und alle t1 , . . . , tn > 0 der Vektor (Xt1 , . . . , Xtn ) n-dimensional normalverteilt ist. X heißt zentriert, falls E[Xt ] = 0 für alle t > 0 gilt. Die Funktion Γ(s, t) := Cov(Xs , Xt ), s, t ∈ I, heißt Kovarianzfunktion von X. Bemerkung 5.10. Durch die Kovarianzfunktion sind die endlichdimensionalen Verteilungen eines zentrierten Gaußprozesses eindeutig festgelegt. Lemma 5.11. Für einen stochastischen Prozess X = (Xt , t > 0) sind äquivalent: (i) X ist eine Brownsche Bewegung. (ii) X ist ein stetiger, zentrierter Gaußprozess mit Kovarianzfunktion Γ(s, t) = s ∧ t für alle s, t > 0. Beweis. Nach obiger Bemerkung ist X durch (ii) eindeutig bestimmt. Es genügt also zu zeigen, dass die Kovarianzfunktion der Brownschen Bewegung gerade Γ(s, t) = s ∧ t ist. Es gilt für jedes 0 6 s < t aufgrund der Unabhängigkeit von Xs und Xt − Xs , dass Γ(s, t) = Cov(Xs , Xt ) = Cov(Xs , Xt − Xs ) + Cov(Xs , Xs ) = Var(Xs ) = s. Aus dieser Äquivalenz folgt sofort folgende Skalierungseigenschaft: 39 Korollar 5.12 (Skalierungsinvarianz). Ist B eine Brownsche Bewegung, dass ist für jedes α 6= 0 der Prozess (α−1 Bα2 t , t > 0) ebenfalls eine Brownsche Bewegung. Beispiel 5.13. Ein weiteres Beispiel für einen stetigen Gaußprozess X = (Xt , t ∈ [0, 1]) ist die Brownsche Brücke, welche durch die Kovarianzfunktion Γ(s, t) = s ∧ t − st für s, t ∈ [0, 1] definiert ist. Ist B eine Brownsche Bewegung, so kann man X mittels Xt := Bt − tB1 , t ∈ [0, 1], konstruieren. Offenbar ist X dann ein stetiger, zentrierter Gaußprozess. Wir rechnen nach: Γ(s, t) = Cov(Xs , Xt ) = Cov(Bs − sB1 , Bt − tB1 ) = Cov(Bs , Bt ) − s Cov(B1 , Bt ) − t Cov(Bs , B1 ) + st Cov(B1 , B1 ) = s ∧ t − st. Aus unserer Konstruktion der Brownschen Bewegung wissen wir bereits, dass B ein Markovprozess ist: Wir definieren die Verteilungsfamilie Px für x ∈ R so, dass auf dem Wahrscheinlichkeitsraum (Ω, F, Px ) der Prozess (Bt − x, t > 0) eine Brownsche Bewegung ist. Mit anderen Worten ist B unter Px eine in x gestartete Brownsche Bewegung und die (schwache) Markoveigenschaft folgt aus der Definition. Tatsächlich erfüllt die Brownsche Bewegung sogar die starke Markoveigenschaft, vgl. Satz 3.12, wie folgender Satz zeigt. Satz 5.14 (Starke Markoveigenschaft). Für die Brownsche Bewegung B auf (Ω, F, P) mit natürlicher Filtration Ft = σ(Bs , s 6 t) für t > 0 und für jede f.s.-endliche Stoppzeit τ bgzl. (Ft )t>0 ist et := Bt+τ − Bτ , t > 0, eine Brownsche Bewegung, die unabhängig von Fτ ist. B Beweis. Für deterministische τ = s > 0 folgt direkt aus der Definition, dass (Bt+s − Bs )t>s wieder eine Brownsche Bewegung unabhängig von Bs ist. Da die Verteilung von B durch die endlich-dimensionalen Verteilungen festgelegt ist, genügt es zu zeigen, dass für jede beschränkte Fτ -messbare Funktion ϕ : Ω → R und jede beschränkte, messbare Funktion f : R[0,∞) → R, die nur von endlich vielen Koordinaten t1 , . . . , tn > 0, n ∈ N, abhängt, e = E[ϕ]E f B E ϕf B gilt. Mittels Approximationsargumenten können wir f als stetig annehmen. Sei also f (B) = g(Bt1 , . . . , Btn ) für eine stetige, beschränkte Funktion g : Rn → R. Für jedes m ∈ N definieren wir τ m := 2−m b2m τ + 1c (τ m ist also kleinste Zahl auf dem dyadischen Gitter N2−m , die größer als τ ist), sodass τ m ebenfalls eine Stoppzeit ist mit τ m ↓ τ für m → ∞. Wir etm := Bt+τ m − Bτ m , t > 0. Dann gilt definieren außerdem den Prozess B h i e m = E ϕg B etm , . . . , B etm E ϕf B 1 n X h i = E ϕ1{τ m =k2−m } g Bt1 +k2−m − Bk2−m , . . . , Btn +k2−m − Bk2−m {z } {z } | | k>0 unabhängig von Fk2−m messbar bzgl. Fk2−m X = E ϕ1{τ m =k2−m } E[f (B)] k>1 = E[ϕ]E[f (B)]. e folgt f (B e m ) → f (B) e f.s. Zusammen mit der Aufgrund der fast sicheren Stetigkeit von f und B Beschränktheit von ϕ und f ergibt sich e = lim E ϕf B e m = E[ϕ]E[f (B)]. E ϕf B n→∞ Als Anwendung der starken Markoveigenschaft, erhalten wir das so genannte Reflexionsprinzip, welches uns schon für Irrfahrten begegnet ist. 40 Satz 5.15 (Reflexionsprinzip). Für ein beliebiges b > 0 und die Stoppzeit τb := inf{t > 0 : Bt > b} gilt P sup Bs > b = P(τb 6 t) = 2P(Bt > b) = P(|Bt | > b) für alle t > 0. s∈[0,t] et := Bτ +t − Bτ = Bτ +t − b erhalten wir Beweis. Es gilt P(Bt > b) = P(Bt > b, τb 6 t). Mit B b b b h i et−τ )Fτ 1{τ 6t} . P(Bt > b) = E E 1[0,∞) (B b b b et−τ > 0) = P(B et−τ < 0) = Aufgrund der Symmetrie P(B b b P(Bt > b) = 1 2 folgt also 1 P(τb 6 t). 2 Korollar 5.16. Für jedes t > 0 haben die Zufallsvariablen Mt := max06s6t Bs , |Bt | sowie Mt −Bt die gleiche Verteilung. Beweis. Für die ersten beiden Zufallsvariablen folgt aus dem Reflexionsprinzip und der Symmetrie der Verteilung von Bt , dass für alle b > 0 gilt: P(Mt > b) = P(τb 6 t) = P(|Bt | > b) d es := Bt−s − Bt auf und damit Mt = |Bt |. Für die dritte Zufallsvariable verwenden wir, dass B s ∈ [0, t] wieder eine Brownsche Bewegung ist und damit gilt eu =: M ft . Mt − Bt = max (Bs − Bt ) = max (Bt−u − Bt ) = max B 06s6t 06u6t 06u6t d d ft = Wegen M Mt erhalten wir Mt − Bt = Mt . Bemerkung 5.17. Als weitere Anwendung des Reflexionsprinzip, kann man zeigen (Übung 2 ), dass für eine Brownsche Bewegung B der Prozess X = (Xt , t > 0) mit ( tB1/t , falls t > 0, Xt = 0, sonst, ebenfalls eine Brownsche Bewegung ist (Zeitinvertierung). 5.3 Schwache Konvergenz und der Satz von Donsker Wir wollen nun die Brownsche Bewegung als kanonischen Prozess auf dem Raum Ω = C([0, ∞)) der stetigen Pfade auf R+ betrachten. Wir erinnern uns, dass C([0, T ]) bzw. C([0, ∞)) ausgestattet mit der Supremumsnorm kf k∞ = supt∈[0,T ] |f (t)| ( gleichmäßige Konvergenz) bzw. der SupreP mumsnorm auf Kompakta kf kc,∞ = n>1 2−n (kf 1[0,n] k∞ ∧ 1) ( gleichmäßige Konvergenz auf Kompakta) separable Banachräume (=polnischer Raum) sind und deren Borel-σ-Algebren durch die Koordinatenprojektionen erzeugt werden: BC([0,T ]) = σ πt , t ∈ [0, T ] . BC([0,∞)) = σ πt , t > 0 , wobei πt (f ) := f (t) (Übung 2 ). Insbesondere wird eine Verteilung P auf C([0, ∞)) durch die endlich-dimensionalen Verteilungen −1 P(π{t (Bn )), 1 ,...,tn } n ∈ N, Bn ∈ BRn , t1 , . . . , tn > 0 eindeutig beschrieben. 41 Definition 5.18. Sei P das Wahrscheinlichkeitsmaß auf Ω = C([0, ∞)) mit F = BC([0,∞)) , bzgl. dessen der kanonische Prozess X = (Xt , t > 0) (d.h. Xt = πt ) eine Brownsche Bewegung ist. Dann heißt P Wiener-Maß und das Tripel (Ω, F, P) Wiener-Raum. Der Prozess X wird dann auch Wiener-Prozess genannt. In diesem stochastischen Modell wird sofort klar, dass Funktionale wie das eingangs erwähnte F (X) := supt∈[0,1] Xt tatsächlich Zufallsvariablen auf dem Wiener-Raum sind. Das Ziel dieses Abschnittes ist eine explizite Konstruktion des Wiener-Maßes. Das gibt uns insbesondere eine Möglichkeit die Brownsche Bewegung zu konstruieren bzw. zu simulieren. Hierzu werden wir nachweisen, dass der Wiener-Prozess der schwache Grenzwert (d.h. Grenzwert bzgl. der schwachen Konvergenz = Konvergenz in Verteilung) von geeignet skalierten Irrfahren auf dem Raum der stetigen Funktionen ist. Wir wiederholen (bzw. verallgemeinern) hierzu die Konvergenz in Verteilung. Definition 5.19. Sei (S, BS ) ein metrischer Raum mit der Borel-σ-Algebra. Eine Folge von Wahrscheinlichkeitsmaßen (Pn ) auf (S, BS ) konvergiert schwach gegen ein Wahrscheinlichkeitsmaß P auf (S, BS ), falls Z Z n→∞ ∀f ∈ Cb (S) : f dPn −→ S f dP, S w wobei Cb (S) := {f : S → R|f stetig, beschränkt}. Wir schreiben Pn ⇒ P (alternativ Pn → P oder d Pn → P). (S, BS )-wertige Zufallsvariablen Xn konvergieren in Verteilung gegen eine (S, BS )wertige Zufallsvariable X, falls PXn ⇒ PX , d.h. falls ∀f ∈ Cb (S) : E[f (Xn )] → E[f (X)]. Wir schreiben auch Xn ⇒ X. Beispiel 5.20. (i) Aus der „Mathematischen Stochastik“ ist bekannt, dass Pn ⇒ P auf (R, BR ) äquivalent zur n→∞ punktweisen Konvergenz der Verteilungsfunktionen Pn ((−∞, x]) −→ F (x) := P((−∞, x]) an allen Stetigkeitsstellen x von F ist. (ii) Für eine Folge von Dirac-Maßen (δyn )n>1 auf (S, BS ) mit yn → y (bzgl. der Metrik auf S) für ein y ∈ S gilt δyn ⇒ δy , denn für alle f ∈ Cb (S) gilt Z Z f dδyn = f (yn ) → f (y) = f dδ, n → ∞. (iii) Aus der Konvergenz in Totalvariationsnorm kPn − PkT V := supA∈BS |Pn (A) − P(A)| → 0 folgt Pn ⇒ P, denn für alle f ∈ Cb (S) gilt: Z Z Z n → ∞. f dPn − f dP = f d(Pn − P) 6 kf k∞ kPn − Pn kT V → 0, Beachte, dass kδyn − δy kT V = 1 für alle yn 6= y, sodass schwache Konvergenz tatsächlich schwächer ist, als Konvergenz in Totalvariationsnorm. Lemma 5.21. Für Wahrscheinlichkeitsmaße (Pn )n>0 und P auf (S, BS ) folgt Pn ⇒ P bereits aus Z Z n→∞ f dPn −→ f dP S S für alle beschränkten, Lipschitz-stetigen Funktionen f : S → R, d.h. ∃L > 0 : ∀x, y ∈ S : |f (x) − f (y)| 6 Ld(x, y). 42 Beweis. Wir werden zeigen, dass für jedes f ∈ Cb (S) Lipschitz-stetige Funktionen (gk )k>1 existieren mit gk ↑ f und gk > −kf k∞ > −∞. Daraus folgt für alle k > 1 Z Z Z lim inf f dPn > lim inf gk dPn = gk dP. n→∞ n→∞ S S S und mit monotoner Konvergenz Z n→∞ Z Z f dPn > lim lim inf gk dP = k→∞ S f dP. S Zusammen mit der analogen Aussage für −f , erhalten wir die Behauptung. Es bleibt die Folge (gk )k>1 zu konstruieren. Durch Betrachten von fe = f + kf k∞ können können wir o.B.d.A. f > 0 annehmen. Für r ∈ Q, r > 0 und m ∈ N setze n o hm,r (x) := min r, m · min d(x, y) ∈ [0, r]. y∈S:f (y)6r Dann folgt aus der Dreiecksungleichung für d, dass |hm,r (x1 ) − hm,r (x2 )| 6 md(x1 , x2 ) und es gilt hm,r (x) 6 f (x), denn f (x) 6 r ⇒ hm,r (x) = 0, f (x) > r ⇒ hm,r (x) 6 r. Für jedes x ∈ S und ε > 0 existiert ein r ∈ Q mit f (x) − ε < r < f (x), sodass lim hm,r (x) = r > f (x) − ε m→∞ und damit sup hm,r (x) : m ∈ N, r ∈ Q = f (x). Wählen wir nun eine Abzählung (pl )l>1 von Q+ × N, dann erfüllt die Folge gk := max{hp1 , . . . , hpk }, k > 1, die gewünschten Eigenschaften. Tragen wir einige Eigenschaften der schwachen Konvergenz zusammen: Lemma 5.22. (Xn )n>1 , (Yn )n>1 und X seien (S, BS )-wertige Zufallsvariablen. Es gilt: (i) Continuous mapping: Für zwei metrische Räume S, T und eine stetige Abbildung g : S → T folgt aus Xn ⇒ X die Konvergenz g(Xn ) ⇒ g(X). P (ii) Slutskys Lemma: Aus Xn ⇒ X und d(Xn , Yn ) → 0 folgt Yn ⇒ X. P (iii) d(Yn , X) → 0 impliziert Yn ⇒ X. Beweis. (i) Da f ◦ g ∈ Cb (S) für jedes f ∈ Cb (T ), folgt die Behauptung aus der Definition. (ii) Gemäß Lemma 5.21, genügt es eine beschränkte, Lipschitz-stetige Funktion mit |f (x) − f (y)| 6 Ld(x, y) für alle x, y ∈ S und ein L > 0 zu betrachten. Dann gilt für alle ε > 0: lim |E[f (Xn ) − f (Yn )]| 6 lim E[|f (Xn ) − f (Yn )|] n→∞ n→∞ 6Lε + lim sup E[|f (Xn ) − f (Yn )|1{d(Xn ,Yn )>ε} ] n→∞ 6Lε + 2kf k∞ lim sup P(d((Xn , Yn ) > ε) = Lε. n→∞ Da ε beliebig war, folgt limn→∞ E[f (Yn )] = limn→∞ E[f (Xn )] = E[f (X)]. (iii) folgt aus (ii) mit Xn = X. 43 Kommen wir nun zur schwachen Konvergenz auf (C([0, T ]), k · k∞ ) bzw. (C([0, ∞)), k · kc,∞ ). Definition 5.23. Seien (Pn )n>1 und P Wahrscheinlichkeitsmaße auf C([0, T ]) (bzw. C([0, ∞))). Wir sagen, dass die endlichdimensionalen Verteilungen (finite dimensional distributions) von (Pn )n>1 gegen die von P konvergieren, falls für alle k ∈ N und t1 , . . . , tk ∈ [0, T ] (bzw. t1 , . . . , tk > 0) π{t ,...,t } Pn 1 k =⇒ Pπ{t1 ,...,tk } fdd gilt. Wir schreiben kurz Pn ⇒ P. fdd fdd Bemerkung 5.24. Gilt Pn ⇒ P0 und Pn ⇒ P00 , folgt P0 = P00 . Aus dem Continous-Mapping-Theorem folgt sofort, dass schwache Konvergenz auf (C([0, ∞)), k · kc,∞ ) die Konvergenz der endlichdimensionalen Verteilungen impliziert. Die Umgegkehrte Richtung gilt nur unter einer Zusatzannahme. Definition 5.25. Es sei S ein metrischer Raum mit Borel-σ-Algebra BS . Eine Familie (Pi )i∈I von Wahrscheinlichkeitsmaßen auf (S, BS ) heißt (schwach) relativkompakt, falls jede Folge (Pik )k>1 eine schwach konvergente Teilfolge (Pikl )l>1 besitzt. Die Familie (Pi )i∈I heißt (gleichmäßig) straff, falls für jedes ε > 0 eine kompakte Menge Kε ⊆ S existiert, sodass für alle i ∈ I Pi (Kε ) > 1 − ε gilt. Beispiel 5.26. (i) Für eine Familie von Zufallsvariablen Xi , i ∈ I, sind die Verteilungen (PXi )i∈I straff, falls (a) limR→∞ supi∈I P(|Xi | > R) = 0 oder (b) supi∈I E[|Xi |p ] < ∞ für ein p > 0 (Lp -beschränkt). (ii) Die Folge (δn )n>1 von Dirac-Maßen besitzt weder schwach konvergente Teilfolgen noch ist sie straff. Ein zentrales Resultat für die schwache Konvergenz ist folgender Satz, den wir hier ohne Beweis angeben: Satz 5.27 (Prohorov). Auf einem polnischen Raum S ist eine Familie (Pi )i∈I genau dann relativkompakt, wenn sie straff ist. Beweisskizze. Die Hinrichtung ist relativ einfach zu zeigen (unter Verwendung von Portemanteaus Satz), allerdings auch weniger nützlich. Wir werden hier nur die Rückrichtung im Spezialfall S = R zeigen. Für den allgemeinen Fall sei auf [Klenke, 2006 Satz 13.29] verwiesen. Es sei also (Pi )i∈I eine straffe Familie von Wahrscheinlichkeitsmaßen auf R und (Pn )n>1 eine Teilfolge. Bezeichnen wir die Verteilungsfunktionen mit Fn (x) := Pn ((−∞, x]), x ∈ R, dann müssen wir die Existenz einer Teilfolge (Fnk )k>1 und einer Verteilungsfunktion F zeigen mit Fnk (x) → F (x) für alle Stetigkeitstellen x ∈ R von F . Sei Q = {q1 , q2 , . . . } eine Abzählung von Q. Nach dem Satz von Bolzano-Weierstraß („Jede beschränkte Folge aus Rn besitzt eine konvergente Teilfolge.“) besitzt die Folge (Fn (q1 ))n>1 eine konvergente Teilfolge (Fn1k (q1 ))k>1 . Induktiv folgt für jedes l > 1 die Existenz einer Teilfolge l (nl+1 k )k>1 von (nk )k>1 , sodass (Fnl+1 (ql+1 ))k konvergiert. Damit konvergiert (Fnl (ql ))k>1 für jedes k k l > 1. Für die Diagonalfolge nk := nkk , k > 1, konvergiert (Fnk (q))k>1 für jedes q ∈ Q. Wir definieren nun Fe(q) := limk→∞ Fnk (q) für alle q ∈ Q und F (x) := inf Fe(q) : q ∈ Q, q > x . Da Fe monoton wachsend ist, ist F rechtsstetig und monoton wachsend. Ist F an x ∈ R stetig, so existieren für jedes ε > 0 Zahlen q± ∈ Q mit q− < x < q+ und Fe(q+ ) − ε 6 F (x) 6 Fe(q− ) + ε. 44 Damit gilt lim sup Fnk (x) 6 lim sup Fnk (q+ ) = Fe(q+ ) 6 F (x) + ε k→∞ k→∞ also lim supk→∞ Fnk (x) 6 F (x). Analog folgt aus lim inf k→∞ Fnk (x) > Fe(q− ) > F (x) − ε, dass lim inf k→∞ Fnk (x) > F (x). Wir haben also limk→∞ Fnk (x) = F (x) gezeigt. Es bleibt nur zu zeigen, dass limx→∞ F (x) = 1, wobei hier 6 1 klar ist. Um lim F (x) > lim sup lim Fnk (x) = 1 x→∞ k→∞ x→∞ nachzuweisen (und analog limx→−∞ F (x) = 0), verwenden wir die Straffheit. Dies impliziert, dass für jedes ε > 0 ein K > 0 existiert mit 1 − Fn (x) < ε ∀n > 1, x > K. Da F als rechtsstetige Funktion nur abzählbar viele Sprungstellen haben kann, existiert eine Stetigkeitsstelle x∗ > K von F , sodass 1 6 lim sup Fnk (x∗ ) + ε = F (x∗ ) + ε 6 lim F (x) + ε. x→∞ k→∞ Korollar 5.28. Seien (Pn )n>1 und P Wahrscheinlichkeitsmaße auf C([0, ∞)). Dann sind äquivalent: fdd (i) Pn ⇒ P für n → ∞ und (Pn )n>1 ist straff. (ii) Pn ⇒ P. Beweis. (ii)⇒(i): Aus dem Satz von Prohorov folgt direkt die Straffheit. Da π{t1 ,...,tk } stetig ist, folgt aus dem Continuous-Mapping-Satz und Pn ⇒ P die Konvergenz der endlichdimensionalen Verteilungen. (i)⇒(ii): Nach dem Satz von Prohorov ist (Pn )n>1 relativ folgendkompakt, d.h. alle Teilfolgen haben konvergierende Teilteilfolgen. Nach Bemerkung 5.24 stimmen alle Grenzwerte (= alle Häufungspunkte) überein, sodass (Pn )n>1 selbst schwach konvergiert. Es folgt ein nützliches hinreichendes Kriterium für Relativkompaktheit: Satz 5.29. Für jedes f ∈ C([0, T ]) und δ > 0 definieren wir das Stetigkeitsmodul ωδ (f ) := sup |f (s) − f (t)| : s, t ∈ [0, T ], |s − t| 6 δ . Eine Folge von Wahrscheinlichkeitsmaßen (Pn )n>1 auf BC([0,T ]) ist genau dann straff, wenn (i) limR→∞ supn Pn {f ∈ C([0, T ]) : |f (0)| > R} = 0 und (ii) limδ→0 lim supn→∞ Pn {f ∈ C([0, T ]) : ωδ (f ) > ε} = 0 für jedes ε > 0. Bedingung (ii) wird impliziert von (ii’) limδ→0 lim supn→∞ supt∈[0,T −δ] 1δ Pn {f ∈ C([0, T ]) : sups∈[t,t+δ] |f (s) − f (t)| > ε} = 0 für jedes ε > 0. Beweisskizze. Die Charakterisierung von Straffheit mittels (i) und (ii) folgt aus dem Satz von Arzelà-Ascoli, vgl. [Klenke, 2008, Satz 21.40]. Die Implikation (ii’)⇒(ii) folgt durch Zerlegung von [0, T ] in hinreichend kleine Teilintervalle. Bemerkung 5.30. (i) Da C([0, ∞)) mit der gleichmäßigen Konvergenz auf Kompakta versehen ist, ist eine Folge (Pn )n>1 auf BC([0,∞)) straff, falls (i) und (ii’) für jedes T > 0 erfüllt ist. 45 (ii) Sind (Xtn , t ∈ [0, T ]) stetige stochastische Prozesse, so finden wir mit Hilfe des Satzes von n Kolmogorov-Chentsov folgendes Momentenkriterium: (PX )n>1 ist auf BC([0,T ]) straff, falls: (a) limR→∞ supn>1 P(|X0n | > R) = 0 und (b) Es existieren α, β, K > 0, sodass für alle n > 1, s, t ∈ [0, T ]: E |Xsn − Xtn |α 6 K · |s − t|1+β . Wir haben jetzt alle nötigen Vorbereitungen und kommen zum Hauptresultat dieses Abschnittes. Betrachten wir u.i.v. (Xk )k>1 aus L2 (P) auf einem Wahrscheinlichkeitsraum (Ω, F, P). Dann impliziert der zentrale Grenzwertsatz für die normierten Partialsummen Sn := n X Xk − µ k=1 µ := E[X1 ], σ 2 := Var(X1 ), dass σ , n−1/2 Sn ⇒ N (0, 1). Wir interpretieren nun den Prozess (Sn , n > 0) mit S0 := 0 als Irrfahrt. Um einen stetigen Prozess zu erhalten, interpolieren wir: nt − bntc Xbntc+1 − µ 1 √ , Ytn := √ Sbntc + σ n n t ∈ [0, 1]. n Es gilt also Yk/n = n−1/2 Sk und Y n ist linear auf jedem Intervall [ nk , k+1 n ]. Lemma 5.31. Seien (Xk )k>1 ⊆ L2 (P) u.i.v. mit E[X1 ] = 0 und Var(X1 ) = 1. Dann gilt PY PB für eine Brownsche Bewegung B. Beweis. Da Y0n = B0 = 0, können wir 0 = t0 < t1 < · · · < tm 6 1 betrachten. Mit bntk c X Zkn := i=bntk−1 c+1 X √i , n k = 1, . . . , m, erhalten wir die Darstellung Ytnk = k X l=1 Zln + ntk − bntk c √ Xbntk c+1 . n Aus dem zentralen Grenzwertsatz folgt bntk c X i=bntk−1 Wegen bntk c−bntk−1 c n Xi p ⇒ N (0, 1). bntk c − bntk−1 c c+1 → tk − tk−1 für n → ∞, folgt aus Slutskys Lemma Zkn ⇒ N (0, tk − tk−1 ). Da die Familie (Zkn )k=1,...,m unabhängig ist für jedes n > 1 erhalten wir den Grenzwert n (Z1n , . . . , Zm ) ⇒ N 0, diag(t1 − t0 , . . . , tm − tm−1 ) . Continuous-mapping impliziert n (Z1n , Z1n + Z2n , . . . , Z1n + · · · + Zm ) ⇒ N Z 1, Z 1 + Z 2, . . . , Z 1 + · · · + Z m 46 n fdd ⇒ d für unabhängige Z k ∼ N (0, tk − tk−1 ). Insbesondere gilt (Z 1 , Z 1 + Z 2 , . . . , Z 1 + · · · + Z m ) = (Bt1 , Bt1 + Bt2 − Bt1 , . . . , Btm ). Wegen ntk − bntk c P √ Xbntk c+1 → 0, n | {z } | {z } =O (1) √ 61/ n P liefert Slutskys Lemma schließlich (Ytn1 , . . . , Ytnm ) ⇒ (Bt1 , . . . , Btm ). Der Satz von Donsker besagt, dass nicht nur die endlichdimensionalen Verteilungen konvergien ren, sondern auch die Folge der Bildmaße PY auf (C([0, 1]), BC([0,1]) ) schwach gegen das WienerMaß konvergiert. 2 Satz 5.32 (Donsker, funktionaler zentraler Grenzwertsatz). Es sei (XP k )k>1 ⊆ L (P) eine Folge n von u.i.v. Zufallsvariablen mit E[Xk ] = 0 und Var(Xk ) = 1. Für Sn := k=1 Xk und nt − bntc 1 √ Xbntc+1 , Ytn := √ Sbntc + n n t ∈ [0, 1], gilt Y n =⇒ B in C([0, 1]) für eine Brownsche Bewegung B = (Bt , t ∈ [0, 1]). Bevor wir den Satz von Donsker beweisen, benötigen wir noch ein Hilfsresultat. √ Lemma 5.33. In der Situation von Satz 5.32 gilt für alle λ > 2 und N ∈ N folgende Maximalungleichung: √ √ √ P max |Sn | > λ N 6 2P |SN | > (λ − 2) N . 16n6N √ Beweis. Sei τ := inf{n > 0 : |Sn | > λ N } ∧ (N + 1). Dann gilt √ P max |Sn | > λ N = P(τ 6 N ) 16n6N 6 P |SN | > (λ − N √ √ X √ √ 2) N + P τ = n, |SN | < (λ − 2) N n=1 N √ √ X √ √ 6 P |SN | > (λ − 2) N + P τ = n, |SN − Sn | > 2 N . n=1 √ √ Aufgrund der Unabhängigkeit der Ereignisse {τ = n} und {|SN − Sn | > 2 N } erhalten wir zusammen mit Markovs Ungleichung √ √ √ √ P τ = n, |SN − Sn | > 2 N = P(τ = n)P |SN − Sn | > 2 N 6 P(τ = n)E[(SN − Sn )2 ] 1 6 P(τ = n). 2N 2 Somit gilt √ √ 1 2) N + P(τ 6 N ). 2 Subtrahieren von P(τ 6 N ) ergibt die Behauptung. P(τ 6 N ) 6 P |SN | > (λ − n Beweis von Satz 5.32. Es bleibt nur die Straffheit von (PY )n>1 zu zeigen. Hierzu verwenden wir Satz 5.29, wobei (i) wegen Y0n = 0 für alle n > 1 trivial ist. Es bleibt also (ii’) nachzuweisen: ∀ε > 0 : lim lim sup δ→0 n→∞ 1 P t∈[0,1−δ] δ sup 47 sup t6s6t+δ |Ysn − Ytn | > ε = 0. Da Y n stückweise linear ist, gilt für t = sup t6s6t+δ k n und t + δ = |Ysn − Ytn | = max j n: 16i6j−k |Sk+i − Sk | √ . n j−1 j Im allgemeineren Fall t ∈ [ nk , k+1 n ], t + δ ∈ [ n , n ] und für n > 1 1 √ sup |Ysn − Ytn | 6 √ n t6s6t+δ n sup j k n 6s6 n 1 δ erhalten wir n n n |Ys − Yk/n | + |Ytn − Yk/n | 2 max |Sk+i − Sk | 6√ n 16i6j−k 2 d 2 6√ max |Sk+i − Sk | = √ max |Si |. n 16i63nδ n 16i63nδ Mit Lemma 5.33 ergibt sich 1 1 2 lim sup sup P sup |Ysn − Ytn | > ε 6 lim sup P √ max |Si | > ε n 16i63nδ n→∞ t∈[0,1−δ] δ n→∞ δ t6s6t+δ √ p ε 2 6 lim sup P |Sb3nδc | > √ − 2 b2nδc . n→∞ δ 2 3δ Nach dem zentralen Grenzwertsatz konvergiert (b2nδc)−1/2 Sb2nδc gegen eine StandardnormalverRy 2 teilung. Bezeichnen wir mit Φ(y) := −∞ (2π)−1/2 e−x /2 dx die Verteilungsfunktion von N (0, 1), ergibt sich 2 √ ε 1 P sup |Ysn − Ytn | > ε 6 · 2 1 − Φ √ − 2 . lim sup sup δ n→∞ t∈[0,1−δ] δ 2 3δ t6s6t+δ Da 1 − Φ(y) exponentiell gegen 0 konvergiert für y → ∞, konvergiert die rechte Seite für δ → 0 gegen 0. Bemerkung 5.34. Der Satz von Donsker liefert uns insbesondere einen alternativen Beweis der Existenz der Brownschen Bewegung. Er wird auch funktionaler zentraler Grenzwertsatz genannt, da Y n als Prozess auf C([0, 1]) gegen die Brownsche Bewegung konvergiert. Da die Grenzverteilung nicht von der Verteilung der (Xk ) abhängt, also universell ist, spricht man vom Invarianzprinzip. Literaturemfehlung • Klenke, A. (2006). Wahrscheinlichkeitstheorie. Springer. (Auch als englische Ausgabe unter dem Titel “Probability theory” erhältlich) • Jacod, J. und Protter, P. (2002). Probability Essentials. Springer. • Stroock, D.W. (2014). An Introduction to Markov Processes. Springer. • Bauer, H. (1992). Wahrscheinlichkeitstheorie. de Gruyter. • Bauer, H. (1992). Maß-und Integrationstheorie. de Gruyter. • Georgii, H.-O. (2007). Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. de Gruyter. 48