Skript - Universität Hamburg

Werbung
Stochastische Prozesse
Wintersemester 2016/17
Mathias Trabs∗
Universität Hamburg
6. Februar 2017
Inhaltsverzeichnis
1 Allgemeine Theorie stochastischer Prozesse
1.1 Beispiele . . . . . . . . . . . . . . . . . . . . .
1.1.1 Martingale . . . . . . . . . . . . . . .
1.1.2 Poisson-Prozess . . . . . . . . . . . . .
1.1.3 Markov-Ketten . . . . . . . . . . . . .
1.2 Grundbegriffe . . . . . . . . . . . . . . . . . .
1.3 Erweiterungssatz von Kolmogorov . . . . . .
.
.
.
.
.
.
2
2
2
2
5
7
8
2 Martingale
2.1 Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
13
14
17
3 Markovprozesse
3.1 Existenz von Markovprozessen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Markov-Ketten in diskreter Zeit: Rekurrenz und Transienz . . . . . . . . . . . . . .
3.3 Markovketten in stetiger Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
18
23
25
4 Ergodentheorie
4.1 Stationäre und ergodische Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Ergodensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Anwendung auf Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
27
30
32
5 Brownsche Bewegung
5.1 Stetige Pfade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Verteilungseigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Schwache Konvergenz und der Satz von Donsker . . . . . . . . . . . . . . . . . . .
35
35
39
41
∗ Email:
[email protected]
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Allgemeine Theorie stochastischer Prozesse
1.1
1.1.1
Beispiele
Martingale
Martingale kennen wir bereits aus der Maßtheorievorlesung. Sie dienen der Formalisierung von
fairen Spielen und sind bspw. in der Finanzmathematik zentral, um den Handel mit Aktien an
(vollständigen) Märkten zu modellieren. Zur Erinnerung:
Definition 1.1. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, I ⊆ R und (Ft )t∈I eine Filtration
(also eine Familie von σ-Algebren mit Fs ⊆ Ft für s 6 t). Ein stochastischer Prozess X = (Xt )t∈I
heißt Martingal (bzw. Submartingal oder Supermartingal) bzgl. (Ft )t∈I , falls gilt:
(i) Xt ∈ L1 (P), t ∈ I,
(ii) Xt ist Ft -messbar für jedes t ∈ I (X ist adaptiert an (Ft )t∈I ) und
(iii) E[Xt |Fs ] = Xs P-f.s. für alle s, t ∈ I, t > s (bzw. E[Xt |Fs ] > Xs für Sub- oder E[Xt |Fs ] 6 Xs
für Supermartingale).
Beispiel 1.2.
(i) Sind (Xi )i∈N unabhängige, integrierbare Zufallsvariablen
mit E[Xi ] = 0 (bzw. > 0 oder 6 0)
Pn
für alle i ∈ N, so ist (Sn )n>0 mit Sn := i=1 Xi , n ∈ N, und S0 := 0 ein Martingal (bzw.
Sub- oder Supermartingal) bzgl. seiner natürlichen Filtration Fn := σ(Sm : m 6 n). Im
Spezialfall P(Xi = 1) = P(Xi = −1) = 21 sprechen wir von einer (symmetrischen) Irrfahrt.
(ii) Sei X0 das Startkapital eines Spielers und Xn modelliere das Kapital nach n Runden. Die
Filtration Fn interpretieren wir als die Information der Ausgänge der ersten n ∈ N Runden.
Dann ist E[Xn+1 − Xn |Fn ] die Vorhersage des Gewinns (bzw. Verlustes) in Runde n + 1
gegeben aller Informationen bis zur “Zeit” n. Ist (Xn )n>0 ein Martingal, handelt es sich
also um ein faires Spiel (das Kapital bleibt im Durchschnitt konstant). Ein Submartingal ist
vorteilhaft für den Spieler, wohingegen ein Supermartingal im Mittel zu Verlusten führt.
1.1.2
Poisson-Prozess
Beispiel 1.3. Wir zählen die Anzahl Nt der Klicks eines Geigerzählers (=Anzahl der Emissionen
einer radioaktiven Substanz) im Zeitintervall [0, t]. Die Werte Nt sind zufällig und werden durch
einen Zählprozess modelliert.
Definition 1.4. Seien (Sk )k>1 Zufallsvariablen auf (Ω, F, P) mit 0 6 S1 (ω) 6 S2 (ω) 6 . . . für
alle ω ∈ Ω. Dann heißt N = (Nt , t > 0) mit N0 = 0 und
X
Nt :=
1{Sk 6t} , t > 0,
k>1
Zählprozess mit Sprungzeiten (Sk ).
Beispiel 1.3 (Fortsetzung). Die Anzahl der Klicks in einem kurzen Zeitintervall [t, t + h] sollte
entweder 0 oder 1 und die Wahrscheinlichkeit eines Klicks sollte (approximativ) proportional
zu h sein. Außerdem sollten die Klickanzahlen in den Intervallen (0, t1 ], . . . , (tn−1 , tn ] für Zeiten
0 < t1 < · · · < tn unabhängig sein und ihre Verteilung sollte nur von der Intervalllänge abhängen.
Definition 1.5. Ein Zählprozess N heißt Poisson-Prozess mit Intensität λ > 0, falls
(i) P(Nt+h − Nt = 1) = λh + o(h) für h ↓ 0;
(ii) P(Nt+h − Nt = 0) = 1 − λh + o(h) für h ↓ 0;
2
(iii) (Nti − Nti−1 )16i6n sind für beliebige Zeitpunkte 0 = t0 < t1 < · · · < tn unabhängig (unabhängige Inkremente);
d
(iv) Nt − Ns = Nt−s für alle t > s > 0 (stationäre Inkremente)
Notation:
d
• X = Y für Zufallsvariablen X, Y heißt, dass X und Y die gleiche Verteilung haben: P X =
PY .
• A(h) = o(h) für h ↓ 0 heißt limh↓0
A(h)
h
= 0.
Satz 1.6. Für einen Zählprozess N mit Sprungzeiten (Sk ) sind folgende Eigenschaften äquivalent:
(i) N ist ein Poisson-Prozess mit Intensität λ > 0.
(ii) N erfüllt die Bedingungen (iii) und (iv) eines Poisson-Prozesses und es gilt Nt ∼ P oiss(λt)
für alle t > 0.
(iii) T1 := S1 , Tk := Sk − Sk−1 , k > 2, sind unabhängig und Exp(λ)-verteilt.
(iv) Nt ∼ P oiss(λt) gilt für alle t > 0 und die Verteilung von (S1 , . . . , Sn ) gegeben {Nt = n}
besitzt die Dichte
n!
(1)
f (x1 , . . . , xn ) = n 1{06x1 6...6xn 6t} .
t
(v) N erfüllt Bedingung (iii) eines Poisson-Prozesses, E[N1 ] = λ und (1) ist die Dichte von
(S1 , . . . , Sn ) gegeben {Nt = n}.
Bemerkung 1.7.
• Wir schlussfolgern die Poisson-Verteilung aus den Bedingung (i) und (ii) ohne weitere Verteilungsannahmen.
• Die Existenz des Poisson-Prozesses
Pn folgt aus (iii): Für unabhängige und Exp(λ)-verteilte
(Tk )k∈N ist Nt = max{n ∈ N : k=1 Tn 6 t} ein Poissonprozess.
• Die Dichte f aus (1) ist auch die Dichte der Ordnungsstatistiken U(1) , . . . , U(n) von unabhänigen U([0, t])-verteilten Zufallsvariablen U1 , . . . , Un (Übung 2
).
Beweis. (i)⇒(ii) Wir setzen pn (t) := P(Nt = n). Aus der Definition des Poisson-Prozesses folgt
für h > 0
p0 (t + h) = P(Nt = 0, Nt+h − Nt = 0) = P(Nt = 0)P(Nh = 0)
= p0 (t)p0 (h) = p0 (t) 1 − λh + o(h) .
Daraus folgt
p0 (t + h) − p0 (t)
o(h) h↓0
= −λp0 (t) +
−→ −λp0 (t) = p00 (t).
h
h
Zusammen mit p0 (0) = 1 ergibt sich p0 (t) = e−λt .
Für n > 1 erhalten wir analog
pn (t + h) = P {Nt+h = n} ∩ ({Nt 6 n − 2} ∪ {Nt = n − 1} ∪ {Nt = n})
= o(h) + pn−1 (t) λh + o(h) + pn (t) 1 − λh + o(h)
3
und somit
pn (t + h) − pn (t)
h
o(h) + pn−1 (t) λh + o(h) + pn (t) − λh + o(h)
= lim
h↓0
h
= λpn−1 (t) − λpn (t).
p0n (t) = lim
h↓0
n
−λt
also Nt ∼ P oiss(λt).
Wegen pn (0) = 0, folgt pn (t) = (λt)
n! e
(ii) ⇒ (iii) Für 0 = b0 6 a1 < b1 6 . . . 6 an < bn berechnen wir
n
\
P
{ak 6 Sk 6 bk }
k=1
n−1
\
=P
{Nak − Nbk−1 = 0, Nbk − Nak = 1} ∩ {Nan − Nbn−1 = 0, Nbn − Nan > 1}
k=1
=
n−1
Y
P(Nak −bk−1 = 0)P(Nbk −ak = 1) P(Nan −bn−1 = 0)P(Nbn −an > 1)
k=1
=
n−1
Y
λ(bk − ak )e−λ(bk −ak )−λ(ak −bk−1 ) e−λ(an −bn−1 ) (1 − e−λ(bn −an ) )
k=1
= (e−λan − e−λbn )λn−1
Z
b1
Z
b2 −x1
Z
n−1
Y
(bk − ak )
k=1
bn −x1 −···−xn−1
···
=
a1
a2 −x1
λn e−λ(x1 +···+xn ) dxn · · · dx1 .
an −x1 −···−xn−1
Damit besitzt (T1 , . . . , Tn ) = (S1 , S2 − S1 , . . . , Sn − Sn−1 ) die Dichte λn e−λ(x1 +···+xn ) für xi > 0.
Da dies eine Produktdichte ist, folgern wir, dass Ti unabhängig und Exp(λ) verteilt sind.
(iii) ⇒ (iv) Es gilt P(Nt = 0) = P(S1 > t) = e−λt und
P(Nt = n) = P(Nt > n) − P(Nt > n + 1) = P(Sn 6 t) − P(Sn+1 6 t).
Da Sn = T1 + · · · + Tn ∼ Γ(λ, n), folgt
Z t n n−1
λn+1 xn −λx
(λt)n −λt
λ x
−
e
dx =
e
P(Nt = n) =
(n − 1)!
n!
n!
0
und somit Nt ∼ P oiss(λt). Nach dem Dichtetransformationssatz ist die Dichte von (S1 , . . . , Sn+1 )
gegeben durch
f S1 ,...,Sn+1 (s1 , . . . , sn+1 ) =
n+1
Y
λe−λ(sk −sk−1 ) = λn+1 e−λsn+1 .
k=1
Da {Nt = n} = {Sn 6 t, Sn+1 > t}, berechnen wir für 0 6 a1 < b1 6 . . . 6 an < bn 6 t die
bedingte Wahrscheinlichkeit
P S1 ∈ [a1 , b1 ], . . . , Sn ∈ [an , bn ], Sn+1 > t
P S1 ∈ [a1 , b1 ], . . . , Sn ∈ [an , bn ] Nt = n =
(λt)n −λt
n! e
Z b1
Z bn
n!
=
···
1
dsn · · · ds1 ,
n {06s1 6···6sn 6t}
a1
an t
was den Integranden als die bedingte Dichte identifiziert.
4
(iv) ⇒ (v) E[N1 ] = λ folgt direkt aus
Pnder Annahme. Für 0 = t0 < t1 < · · · < tn = t und
k1 , . . . , kn ∈ N0 betrachten wir mit K := l=1 kl :
P ∀l = 1, . . . , n : Ntl − Ntl−1 = kl
= P(Ntn = K)P ∀l = 1, . . . , n : Nt − Nt = kl Ntn = K
l
l−1
K
(λt) −λt
e P Sk1 6 t1 < Sk1 +1 , . . . , SK 6 tn < SK+1 Ntn = K
K!
n
(λt)K −λt K! Y (tl − tl−1 )kl
=
e
K!
tK
kl !
=
l=1
=
n
Y
P(Ntl − Ntl−1 = kl ).
l=1
Damit sind (Ntl − Ntl−1 )l unabhängig.
(v) ⇒ (i) Für t, h > 0, k ∈ N0 und K > k gilt die Verschiebungsinvarianz
P(Nt+h − Nh = k|Nt+h = K) = P(Nh = K − k, Nt+h − Nh = k|Nt+h = K)
hK−k
K! (t + h − h)k
·
(t + h)K
k!
(K − k)!
= P(Nt+h − Nt = K − k, Nt = k|Nt+h = K)
=
= P(Nt = k|Nt+h = M ).
d
Durch Summieren über alle K > k erhalten wir Nt+h − Nh = Nt , also Stationarität der Zuwächse.
Weiterhin ergibt sich für 0 < h < 1
P(Nh = 0) =
∞
X
P(N1 = k)P(N1 − Nh = k|N1 = k) =
∞
X
P(N1 = k)(1 − h)k .
k=0
k=0
P
Da k>0 P(N1 = k)k = E[N1 ] = λ < ∞ ist die Funktion p(h) := P(Nh = 0) differenzierbar auf
[0, 1] mit p0 (0) = −λ. Wir erhalten
P(Nh = 0) = P(N0 = 0) − λh + o(h).
Analog folgt
P(Nh = 1) =
=
∞
X
k=1
∞
X
P(N1 = k)P(N1 − Nh = k − 1|N1 = k).
P(N1 = k)kh(1 − h)k−1 ,
k=1
sodass P(Nh = 1) = λh + o(h).
1.1.3
Markov-Ketten
Definition 1.8. Sei T = N0 (diskrete Zeit) oder T = [0, ∞) (stetige Zeit) und S ein abzählbarer
(Zustands-)Raum. Dann heißt eine Familie X = (Xt , t ∈ T ) von Zufallsvariablen mit Werten
in (S, P(S)) Markov-Kette, falls für alle n ∈ N, t1 < t2 < · · · < tn+1 , s1 , . . . , sn+1 ∈ S mit
P(Xt1 = s1 , . . . , Xtn = sn ) > 0 die folgende Markov-Eigenschaft erfüllt ist:
P Xtn+1 = sn+1 Xt1 = s1 , . . . , Xtn = sn = P Xtn+1 = sn+1 Xtn = sn .
Beispiel 1.9.
5
(i) Poisson-Prozess N mit T = [0, ∞), S = N0 . Die Markoveigenschaft ergibt sich aus der
Unabhängigkeit der Inkremente (setze t0 = 0, s0 = 0):
P Nt1 = s1 , . . . , Ntn+1 = sn+1
P Ntn+1 = sn+1 Nt1 = s1 , . . . , Ntn = sn =
P Nt1 = s1 , . . . , Ntn = sn
Qn+1
P(Ntk − Ntk−1 = sk − sk−1 )
= Qk=1
n
k=1 P(Ntk − Ntk−1 = sk − sk−1 )
=P(Ntn+1 − Ntn = sn+1 − sn )
P(Ntn = sn , Ntn+1 − Ntn = sn+1 − sn )
P(Ntn = sn )
=P(Ntn+1 = sn+1 |Ntn = sn ).
=
Pn
(ii) Die einfache Irrfahrt Sn :=
k=1 Xk , n > 1, mit S0 := 0 und Xk u.i.v. Bin(1, p)Zufallsvariablen für p ∈ (0, 1). Wir setzen T = N0 und S = Z. Dann folgt die Markoveigenschaft wieder aus der Unabhängigkeit der Inkremente Sn − Sn−1 = Xn .
Definition 1.10. Für eine Markov-Kette X und t1 6 t2 , i, j ∈ S sind die Übergangswahrscheinlichkeiten vom Zustand i zum Zeitpunkt t1 in den Zustand j zur Zeit t2 definiert als
(
P(Xt2 = j|Xt1 = i), falls P(Xt1 = i) > 0,
pij (t1 , t2 ) :=
0,
sonst.
Die Übergangsmatrix ist gegeben durch
P (t1 , t2 ) := pij (t1 , t2 ) i,j∈S .
Die Übergangsmatrix und die zugehörige Markov-Kette heißen (zeit-)homogen, falls P (t1 , t2 ) =
P (0, t2 − t1 ) =: P (t2 − t1 ) für alle 0 6 t1 6 t2 gilt.
Satz 1.11. Ist P (t1 , t2 ) die Übergangsmatrix einer Markov-Kette, so gilt die ChapmanKolmogorov-Gleichung
P (t1 , t3 ) = P (t1 , t2 )P (t2 , t3 )
für alle t1 6 t2 6 t3 .
Im zeitlich homogenen Fall ergibt sich die Halbgruppeneigenschaft
P (t + s) = P (s)P (t)
für alle s, t > 0
und insbesondere P (n) = P (1)n für n ∈ N.
Beweis. Nach Definition ergibt sich aus der Markoveigenschaft für alle i, j ∈ S:
P (t1 , t3 )ij = P(Xt3 = j|Xt1 = i)
X
=
P(Xt3 = j, Xt2 = k|Xt1 = i)
k∈S
=
X
P(Xt3 = j|Xt2 = k, Xt1 = i)P(Xt2 = k|Xt1 = i)
k∈S
=
X
P(Xt3 = j|Xt2 = k)P(Xt2 = k|Xt1 = i)
k∈S
=
X
P (t2 , t3 )kj P (t1 , t2 )ik
k∈S
= P (t1 , t2 )P (t2 , t3 ) i,j .
Im zeitlich homogenen Falle reduziert sich diese Gleichheit auf P (t3 − t1 ) = P (t2 − t1 )P (t3 − t2 ),
was die Behauptung für s = t2 − t1 und t = t3 − t2 impliziert.
6
Beispiel 1.12 (US-Präsidentenwahl). Wir betrachten folgendes sehr einfaches Wählermodell: Es
gibt N Wahlberechtigte in den USA die entweder für H. Clinton oder für D. Trump stimmen
wollen. Zu jedem Zeitpunkt n ∈ N (z.B. in Minuten) ändert eine zufällig ausgewählte Person ihre
Meinung. Wir setzen diesen Vorgang beliebig lange fort und bezeichnen mit Xn die Anzahl der
Stimmen für Clinton zum Zeitpunkt n. Es ergeben sich folgende Übergangswahrscheinlichkeiten
N −i
, i ∈ {0, . . . , N − 1}
N
i
P(Xn+1 = i − 1|Xn = i) = ,
i ∈ {1, . . . , N },
N
P(Xn+1 = j|Xn = i) = 0, i = 0, . . . , N, j ∈
/ {i − 1, i + 1}.
P(Xn+1 = i + 1|Xn = i) =
Die zugehörige Ein-Schritt-Übergangsmatrix ist

N
0 N
1
N

2
P (1) = 

N


0
N −1
N
..
.
..
.
..
.
N
N
0




.


1
N
0
Wir haben also für jeden Anfangswert X0 eine positive Wahrscheinlichkeit jede andere Stimmenzahl irgendwann in der Zukunft zu erreichen. Frage: Gibt es ein asymptotisches Verhalten?
Antwort: Ergodentheorie (Kapitel 4).
1.2
Grundbegriffe
Definition 1.13. Eine Familie X = (Xt , t ∈ T ) von Zufallsvariablen auf einem gemeinsamen
Wahrscheinlichkeitsraum (Ω, F, P) heißt stochastischer Prozess. Wir sprechen von diskreter Zeit,
falls T = N0 , und von stetiger Zeit, falls T = [0, ∞). Nehmen alle Xt Werte in (S, S) an, so heißt
(S, S) Zustandsraum von X. Für jedes ω ∈ Ω heißt die Abbildung t 7→ Xt (ω) Pfad, Trajektorie
oder Realisierung von X.
Lemma 1.14. Für einen stochastischen Prozess (Xt , t ∈ T ) mit Zustandsraum (S, S) ist die
Abbildung X : Ω → S T mit X(ω)(t) := Xt (ω) eine (S T , S ⊗T )-wertige Zufallsvariable.
Beweis. Wir müssen die Messbarkeit von X zeigen. Da S ⊗T von den Projektionen πt : S T → S auf
die t. Koordinate für t ∈ T erzeugt wird, genügt die Messbarkeit der Verknüpfungen πt ◦X : Ω → S
für alle t ∈ T zu zeigen. Diese folgt wiederum aus πt ◦ X(ω) = Xt (ω), ω ∈ Ω, t ∈ T , und da Xt als
Zufallsvariable selbst messbar ist.
Bemerkung 1.15. Wir werden auch kleinere Funktionenräume als S T betrachten wie z.B. C(R+ )
+
statt RR (Übung 2
).
Definition 1.16. Es sei (Xt , t ∈ T ) ein stochastischer Prozess, dann heißen die Wahrscheinlichkeitsverteilungen des Vektors (Xt1 , . . . , Xtn ) für n ∈ N, t1 , . . . , tn ∈ T endlichdimensionale Verteilungen von X. Wir schreiben P{t1 ,...,tn } = P(Xt1 ,...,Xtn ) (man beachte, dass trotz dieser Notation
die Reihenfolge der Zeitpunkte eine Rolle spielt).
Beispiel
1.17. Seien (Tk )k>1 unabhängige
Exp(λ)-verteilte Zufallsvariablen und Sn :=
Pn
P
T
,
n
>
1.
Dann
ist
N
:=
1
k
t
k=1
n>1 {Sn 6t} ein Poisson-Prozess mit Intensität λ. Der ProP
zess Xt := n>1 1{Sn <t} , t > 0, hat die gleichen endlichdimensionalen Verteilungen wie N :
P(Nt1 ∈ A1 , . . . , Ntn ∈ An ) = P(Xt1 ∈ A1 , . . . , Xtn ∈ An )
für Borel-Mengen A1 , . . . , An , denn P(∃k > 1 : Sk = ti ) = 0 für alle i = 1, . . . , n. Andererseits
haben N und X völlig unterschiedliche Pfade:
P t 7→ Nt ist rechts-stetig = 1, aber P t 7→ Xt ist rechts-stetig = 0.
7
Definition 1.18. Zwei Prozesse (Xt , t ∈ T ) und (Yt , t ∈ T ) auf (Ω, F, P) heißen
(i) ununterscheidbar, falls P(∀t ∈ T : Xt = Yt ) = 1;
(ii) Versionen oder Modifikationen voneinander, falls ∀t ∈ T : P(Xt = Yt ) = 1.
Bemerkung 1.19. Offensichtlich sind ununterscheidbare Prozesse Versionen voneinander. Das Gegenteil gilt nicht: Die Prozesse N und X aus Beispiel 1.17 sind Versionen voneinander, aber sie sind
nicht ununterscheidbar, denn P(∀t > 0 : Nt = Xt ) = 0 wegen P(NSk = XSk ) = 0 für jedes k > 1.
Ist X eine Version von Y , so haben X und Y die gleichen endlichdimensionalen Verteilungen: Für
alle t1 , . . . , tn ∈ T folgt aus P(Xti = Yti ) = 1, i = 1, . . . , n, dass P(Xt1 = Yt1 , . . . , Xtn = Ytn ) also
d
(Xt1 , . . . , Xtn ) = (Yt1 , . . . , Ytn ).
Definition 1.20. Ein Prozess X = (Xt , t ∈ T ) heißt stetig, falls alle Trajektorien stetig sind. X
P
heißt stochastisch stetig, falls tn → t die stochastische Konvergenz Xtn → Xt impliziert.
Bemerkung 1.21. Jeder stetige Prozess ist auch stochastisch stetig, da fast sichere Konvergenz die
stochastische Konvergenz impliziert. Die umgekehrte Richtung gilt nicht, da bspw. der PoissonProzess nicht stetig, aber stochastisch stetig ist:
∀ε ∈ (0, 1) : lim P(|Nt − Ntn | > ε) = lim (1 − e−λ|t−tn | ) = 0.
tn →t
1.3
tn →t
Erweiterungssatz von Kolmogorov
Ziel dieses Abschnittes ist ein allgemeines Existenzresultat für stochastische Prozesse. Genauer
wollen wir die Frage untersuchen, ob für eine vorgegebene Familie von endlichdimensionalen Verteilungen ein zugehöriger stochastischer Prozess existiert. Zunächst finden wir folgende notwendige
Bedingung an die Verteilungsfamilie:
Lemma 1.22. Es sei (Xt , t ∈ T ) ein stochastischer Prozess mit Zustandsraum (S, S). Für I ⊆
J ⊆ T definieren wir die Koordinatenprojektion
πJ,I :
SJ → SI ,
(sj )j∈J 7→ (sj )j∈I .
Dann erfüllen die endlichdimensionalen Verteilungen von X folgende Konsistenzbedingung
−1
∀I ⊆ J ⊆ T mit I, J endlich, ∀A ∈ S ⊗I : PJ (πJ,I
(A)) = PI (A).
Beweis. Wir schreiben
−1
(A)
PI (A) = P (Xt )t∈I ∈ A = P X ∈ πT,I
−1
−1
(A) = PJ (πJ,I
(A)).
= P X ∈ (πJ,I ◦ πT,J )−1 (A) = P (Xt )t∈J ∈ πJ,I
Definition 1.23. Es sei T 6= ∅ eine Indexmenge und (S, S) ein messbarer Raum. Für jede Teilmenge J ⊆ T sei ein Wahrscheinlichkeitsmaß PJ auf dem Produktraum (S J , S ⊗J ) gegeben. (PJ )J⊆T
heißt projektive Familie, falls für alle endlichen I ⊆ J ⊆ T gilt, dass
−1
∀A ∈ S ⊗I : PI (A) = PJ πJ,I
(A) .
Es wird sich herausstellen, dass unter einer recht allgemeinen Strukturannahme an den Zustandsraum diese notwendige Bedingung bereits genügt, um für jede projektive Familie die Existenz eines zugehörigen Prozesses zu beweisen.
Definition 1.24. Ein metrischer Raum (S, d) heißt polnischer Raum, falls er separabel und vollständig ist. Als kanonische σ-Algebra auf S wählen wir die Borel-σ-Algebra BS .
8
Zur Erinnerung: S heißt vollständig, falls jede Cauchy-Folge konvergiert und S heißt separabel,
falls es eine abzählbare, dichte Teilfolge in S gibt, d.h. jede nichtleere, offene Teilmenge aus S
enthält mindestens ein Element dieser Folge.
Bemerkung 1.25. In polnischen Räumen existiert eine abzählbare Basis (der Topologie), d.h. es
existiert eine abzählbare Folge offener Mengen derart, dass jede offene Teilmenge von S als die
Vereinigung von Elementen dieser Folge dargestellt werden kann. Ist (sn )n∈N eine dichte Folge in
S, so kann diese Basis als {Bε (sn ) : n ∈ N, ε ∈ Q+ } gewählt werden, wobei Bε (sn ) := {y ∈ S :
d(sn , y) < ε}.
Beispiel 1.26.
(i) Der euklidische Raum Rd jeder Dimension d > 1 ist polnisch.
(ii) Für endlich viele polnische Räume
Pn (Sk , dk ), k = 1, . . . , n ist das Produkt
mit der Metrik d((sk ), (tk )) := k=1 dk (sk , tk ) wieder polnisch.
×nk=1 Sk versehen
(iii) Abgeschlossene Teilmengen eines polnischen Raumes sind wieder polnisch.
(iv) Der Raum der stetigen Funktionen C([a, b]) := {f : [a, b] → R} auf dem Intervall [a, b], a, b ∈
R, ausgestattet mit der Supremumsnorm kf k∞ := supx∈[a,b] |f (x)| ist vollständig (die Gleichmäßige Konvergenz garantiert die Stetigkeit) und separabel (Weierstraß’ Theorem: die Polynome liegen dicht). Damit ist (C([a, b]), k · k∞ ) polnisch.
Lemma 1.27. SeienN
S1 , . . . , Sn polnische Räume, dann gilt für die Borel-σ-Algebra des Produktn
raumes B×n Sk = k=1 BSk .
k=1
N
Beweis.
k BSk ist die kleinste σ-Algebra, sodass die Koordinatenprojektionen πi : ×k>1 Sk →
Si , i > 1, messbar sind. Andererseits ist die Produkttopologie die raueste
Topologie, sodass alle πi
N
stetig sind. Folglich sind alle πi B× Sk -messbar, was B× Sk ⊇ k BSk impliziert.
k
k
Aufgrund der Separabilität
kann jede offene Menge O ⊆ ×k Sk als abzählbare Vereinigung
Tn
offener Mengen der Form i=1 πi−1 (Oi ) mit N ∈ N und offenen
NMengen Oi aus der (topologischen)
N
Basis von Si , dargestellt werden. Letztere sind Elemente von k BSk , sodass B× Sk ⊆ k BSk .
k
Der Beweis zeigt, dass die ⊇-Relation für alle topologischen Räume und Produkte beliebiger
Kardinalität gilt. Die ⊆-Richtung kann jedoch bereits mit zwei nicht-polnischen Räumen fehlschlagen.
Definition 1.28. Ein Wahrscheinlichkeitsmaß P auf einem metrischen Raum (S, BS ) heißt
(i) straff, falls für alle ε > 0 eine kompakte Menge K ⊆ S existiert, sodass P(K) > 1 − ε.
(ii) regulär, falls für alle ε > 0, B ∈ BS eine kompakte Menge K ⊆ B existiert mit P(B \ K) 6 ε
und eine offene Menge O ⊇ B existiert mit P(O \ B) 6 ε.
Lemma 1.29. Jedes Wahrscheinlichkeitsmaß auf einem polnischen Raum ist straff.
Beweis. Sei (sn )n>1 eine dichte Folge in S.SWir betrachten für einen Radius ρ > 0 die abgeschlossenen Bälle Bρ (sn ) um sn . Dann gilt S = n>1 Bρ (sn ) und die σ-Stetigkeit liefert
N
[
lim P
Bρ (sn ) = 1.
N →∞
n=1
Für jedes ε > 0 und ρ = 1/k gibt es also ein Nk , sodass
Nk
[
P
B1/k (sn ) > 1 − ε2−k .
n=1
9
Dann ist K :=
T∞ SN k
k=1
n=1
B1/k (sn ) eine abgeschlossene Teilmenge für die
Nk
∞ \
[
X
P(S \ K) = P
ε2−k = ε.
B1/k (sn )c 6
k=1 n=1
k>1
Es bleibt also zu zeigen, dass die abgeschlossene Menge K sogar kompakt ist. Da für jedes δ > 0
eine endliche Überdeckung aus Bällen B1/k (sn ) mit Durchmesser kleiner als δ existiert, ist K
total-beschränkt und abgeschlossen, also wegen der Vollständigkeit des metrischen Raumes auch
kompakt.
Lemma 1.30. Jedes Wahrscheinlichkeitsmaß auf einem polnischen Raum (S, d) ist regulär.
Beweis. Wir betrachten folgende Menge
n
D := B ∈ BS : P(B) =
K⊆B
o
sup
P(K) =
inf
P(O) .
O⊇B offen
kompakt
Nach dem vorherigen Lemma ist S ∈ D. Wir zeigen nun, dass jede abgeschlossene Menge F in
D liegt. Aufgrund der Straffheit von P gibt es für jedes ε > 0 eine kompakte Menge Kε , sodass
P(Kε ) > 1 − ε gilt. Dann ist F ∩ Kε ⊆ F ebenfalls eine kompakte Menge mit
P F \ (F ∩ Kε ) 6 P(Kεc ) 6 ε.
T
Daraus folgt P(F ) = sup{P(K) : K ⊆ F kompakt}. Andererseits gilt F = n>1 On für die offenen
Mengen On := {s ∈ S : inf x∈F d(s, x) < 1/n}. Da P σ-stetig ist folgt
P(F ) = inf P
N >1
N
\
On .
n=1
| {z }
offen
Damit haben wir F ∈ D gezeigt.
Weiterhin ist D ein Dynkin-System (Übung 2
). Da die Menge der abgeschlossenen Mengen
∩-stabil ist und BS erzeugt, folgt D = BS .
Nun sind wir bereit für das Hauptresultat dieses Abschnittes:
Satz 1.31 (Kolmogorovs Erweiterungssatz). Ist (S, BS ) ein polnischer Raum und T eine beliebige
nichtleere Indexmenge, so existiert zu jeder projektiven Familie (PJ )J⊆T endlich von Wahrscheinlichkeitsmaßen über S genau ein Wahrscheinlichkeitsmaß P auf dem Produktraum (S T , BS⊗T ),
sodass für alle endlichen J ⊆ T und B ∈ BS⊗J
−1
PJ (B) = P(πT,J
(B))
gilt.
Das Maß P wird auch projektiver Limes der Familie (PJ ) genannt.
Beweis. Wir betrachten die Algebra der Zylindermengen
[
−1
A :=
πT,J
(BS⊗J ).
J⊆T endlich
Da A ∩-stabil ist und BS⊗T = σ(A) gilt, wird P eindeutig durch seine Werte auf A festgelegt.
Die Existenz von P folgt aus Caratheodorys Fortsetzungssatz, falls P auf A ein Prämaß ist. Die
Konsistenzbedingung an (PJ ) garantiert, dass P auf A wohldefiniert und additiv ist: Für disjunkte
10
−1
Mengen A, B ∈ A gibt es ein endliches J ⊆ T und A0 , B 0 ∈ BS⊗J , sodass A = πT,J
(A0 ) und
−1
B = πT,J
(B 0 ). Da PJ ein Maß ist, folgt
P(A ∪ B) = PJ (A0 ∪ B 0 ) = PJ (A0 ) + PJ (B 0 ) = P(A) + P(B).
Offensichtlich gilt außerdem P(S T ) = PJ (S J ) = 1 für jedes endliche J ⊆ T . Es bleibt die σAdditivität von P auf A zu zeigen oder äquivalent die Stetigkeit in ∅: Für jede monoton fallende
Folge (Bn )n>1 ⊆ A mit Bn ↓ ∅ gilt P(Bn ) → 0.
−1
O.B.d.A. können wir Bn = πT,J
(An ) für endliche Jn ⊆ Jn+1 ⊆ T und An ∈ BS⊗Jn schreiben.
n
Sei ε > 0. Aufgrund der Regularität von PJn gibt es für alle n ∈ N kompakte Mengen Kn ⊆ An
mit PJn (An \ Kn ) 6 ε2−n . Dann ist auch
Kn0 =
n−1
\
πJ−1
(Kl ) ∩ Kn ⊆ S Jn
n ,Jl
l=1
−1
als abgeschlossene Teilmenge einer kompakten Menge kompakt. Für Cn := πT,J
(Kn0 ) =
n
Tn
−1
l=1 πT,Jl (Kl ) ⊆ Bn gilt dann ebenfalls Cn ↓ ∅. Wir zeigen gleich, dass ein n0 ∈ N mit Cn0 = ∅
existiert. Daraus folgt
lim sup P(Bn ) 6 P(Bn0 ) = P(Bn0 \ Cn0 ) 6
n→∞
n0
X
PJl (Al \ Kl ) 6 ε.
l=1
Da ε > 0 beliebig war, zeigt dies P(Bn ) → 0.
Um die Existenz von n0 zu zeigen, führen wir einen Widerspruchsbeweis und nehmen an,
dass für alle n > 1 ein yn ∈ Cn existiert. Da Kn0 ⊆ S Jn kompakt ist, existiert eine Teilfolge
0
(1)
(2)
(nl )l , sodass (πT,J1 (yn(1) ))l>1 in K1 konvergiert. Für eine weitere Teilteilfolge (nl )l konverl
S
0
giert (πT,J2 (yn(2) ))l>1 in K2 und so weiter. Aufgrund der Abzählbarkeit von J := n>1 Jn =
l
P
{i1 , i2 , . . . }, können wir S J mit der Produktmetrik d((si )i∈J , (ti )i∈J ) := k>1 2−k (d(sik , tik ) ∧ 1)
0
konvergiert, konverversehen. Da die Diagonalfolge (πT,Jm (yn(l) ))l>1 für jedes m > 1 in Km
l
giert auch (πT,J (yn(l) ))l>1 in der Produktmetrik gegen ein z ∈ S J . Da Cn+1 ⊆ Cn , n > 1, folgt
l
T
T
z ∈ πT,J (Cn ) für alle n > 1 also auch z ∈ πT,J ( n>1 Cn ). Dies widerspricht n>1 Cn = ∅.
Korollar 1.32. Ist S ein polnischer Raum und T 6= ∅ eine beliebige Indexmenge, so existiert zu
jeder projektiven Familie (PJ )J⊆T,endlich ein stochastischer Prozess (Xt , t ∈ T ) mit Zustandsraum
(S, BS ), dessen endlichdimensionale Verteilungen durch (PJ ) gegeben sind.
Beweis. Nach Kolmogorovs Erweiterungssatz existiert ein Maß P auf (S T , BS⊗T ) mit
−1
P πT,{t
(A) = Pt1 ,...,tn (A)
1 ,...,tn }
für alle n ∈ N, A ∈ BS⊗n und t1 , . . . , tn ∈ T . Wir definieren X als den Koordinatenprozess auf
(S T , BS⊗T , P) via
Xt ((sr )r∈T ) := st .
Dann ist Xt für alle t ∈ T messbar und es gilt
−1
P (Xt1 , . . . , Xtn ) ∈ A = P πT,{t
(A) = Pt1 ,...,tn (A) für alle A ∈ BS⊗n .
1 ,...,tn }
Bemerkung 1.33. Es gibt Gegenbeispiele, die zeigen, dass Kolmogorovs Erweiterungssatz für nichtpolnische Räume im Allgmeinen nicht gilt. Andererseits liefert der Satz von Ionesu-Tulcea (vgl.
Maßtheorie) die Existenz von allgemeinen Maßräumen für abzählbare Indexmengen und unter
einer Markovschen Abhängigkeitsstruktur. Im Spezialfall des Produktmaßes kann man die Existenz sogar für beliebige Indexmengen und ohne Annahme an den Zustandsraum zeigen (vgl. Bauer
(1992)). Für polnische Räume folgt die Existenz des Produktmaßes und damit die Existenz beliebig
vieler unabhängiger Zufallsvariablen bereits aus Kolmogorovs Erweiterungssatz (Übung 2
).
11
Beispiel 1.34 (Markov-Ketten in diskreter Zeit). Sei (S, P(S)) ein abzählbarer Zustandsraum.
Dieser ist polnisch, wenn S mit der diskreten Metrik d(s, t) = 1s6=t versehen wird. Nehmen wir ein
Wahrscheinlichkeitsmaß µ(0) auf (S, P(S)) als gegeben an (die Anfangsverteilung) und betrachten
so genannte stochastische Matrizen
X (n)
(n)
(n)
P (n) = (pi,j )i,j∈S mit pi,j ∈ [0, 1],
pi,j = 1 für alle i, j ∈ S.
j∈S
(n)
Dann gibt es eine Markov-Kette (Xn , n > 0) mit PX0 = µ(0) und P(Xn = j|Xn−1 = i) = pi,j .
Dies weisen wir mit Kolomogorovs Erweiterungssatz nach. Wir weisen zunächst Konsistenz der
Verteilungen
X X
X
(1)
(n)
µn (A) :=
···
1A (i0 , . . . , in )µ(0)
für alle A ⊆ S n+1
i0 Pi0 ,i1 · · · Pin−1 ,in
i0 ∈S i1 ∈S
in ∈S
nach. Dies folgt induktiv aus der Konsistenz von µn und µn+1 , für die gilt
X X
X
(1)
(n+1)
−1
µn+1 (π{0,...,n+1},{0,...,n}
(A)) =
···
1A×S (i0 , . . . , in+1 )µ(0)
i0 Pi0 ,i1 · · · Pin ,in+1
i0 ∈S i1 ∈S
=
X X
in+1 ∈S
···
i0 ∈S i1 ∈S
X
(1)
(n)
1A (i0 , . . . , in )µ(0)
i0 Pi0 ,i1 · · · Pin−1 ,in
X
in ∈S
(n+1)
Pin ,in+1
in+1 ∈S
= µn (A).
Für beliebige endliche J ⊆ N0 setzen wir
−1
µJ (A) := µmax J (π{0,...,max
J},J (A)),
A ⊆ SJ .
Dann ist (µJ )J⊆N0 tatsächlich eine projektive Familie, denn für alle endlichen J ⊆ J 0 und A ⊆ S J
folgt
−1
µJ 0 (πJ−1
0 ,J (A)) = µmax J 0 (π{0,...,max J 0 },J (A))
−1
−1
= µmax J 0 (π{0,...,max
J 0 },{0,...,max J} (π{0,...,max J},J (A)))
−1
= µmax J (π{0,...,max
J},J (A)) = µJ (A).
Somit kann die Markov-Kette als Koordinatenprozess auf (S N0 , P(S)⊗N0 ) mit einem geeignetem
Wahrscheinlichkeitsmaß P konstruiert werden.
2
Martingale
Im Folgenden sei (Ω, F, (Fn )n>0 , P) stets ein filtrierter Wahrscheinlichkeitsraum. In diesem Kapitel
wollen wir die Eigenschaften von Martingalen M = (Mn , n ∈ N0 ) genauer untersuchen. Aus der
Maßtheorievorlesung wissen wir bereits:
• Eine Zufallsvariable τ mit Werten N ∪ {0, ∞} heißt Stoppzeit (bzgl. (Fn )n>0 ), falls für jedes
n > 0 gilt, dass {τ 6 n} ∈ Fn .
• Für eine Stoppzeit τ ist die σ-Algebra der τ -Vergangenheit gegeben durch
Fτ := {A ∈ F : A ∩ {τ 6 n} ∈ Fn für alle n > 0}.
Insbesondere ist das gestoppte Martingal Mτ Fτ -messbar.
• Es seien M = (Mn , n ∈ N0 ) ein Martingal (bzw. Submartingal) und σ, τ Stoppzeiten (alle
bzgl. derselben Filtration) mit σ 6 τ 6 C für eine Konstante C > 0. Dann gilt der OptionalSampling-Satz
E[Mτ |Fσ ] = Mσ (bzw. E[Mτ |Fσ ] > Mσ ).
12
2.1
Ungleichungen
Wir erinnern uns an die Markov-Ungleichung: Für eine Zufallsvariable M ∈ L1 (P) und α > 0 gilt
P(|M | > α) 6
E[|M |]
.
α
Wir betrachten nun das laufende Maximum
|M |∗n := max |Mk | für n > 1.
k=0,...,n
Die einfache Anwendung von Markovs Ungleichung liefert lediglich
n
X
P |M |∗n > α 6 α−1 E[ max |Mk |] 6 α−1
E[|Mk |].
06k6n
k=0
Die Martingaleigenschaft von M erlaubt eine deutlich bessere Abschätzung.
Satz 2.1 (Doobs Maximalungleichung). Sei M = (Mk , k ∈ N0 ) ein Martingal, α > 0 und n ∈ N.
Dann gilt
1
1 P |M |∗n > α 6 E |Mn |1{|M |∗n >α} 6 E[|Mn |].
α
α
Beweis. Wir definieren τ := inf{n > 0 : |Mn | > α}. Dann ist τ eine Stoppzeit und es gilt
{|M |∗n > α} = {τ 6 n}. Da R 3 x 7→ |x| konvex ist, ist (|Mk |, k ∈ N0 ) ein Submartingal (Jensens
Ungleichung) und somit folgt aus dem Optional-Sampling-Satz
E[|Mn |] > E[|Mτ ∧n |] = E[1{τ 6n} |Mτ ∧n |] + E[1{τ >n} |Mτ ∧n |]
> αP(|M |∗n > α) + E[1{τ >n} |Mn |].
Also gilt αP(|M |∗n > α) 6 E[1{τ 6n} |Mn |].
Satz 2.2 (Doobs Lp -Martingalungleichung). Sei M = (Mk , k ∈ N0 ) ein Martingal mit Mk ∈ Lp (P)
für alle k ∈ N0 und ein p > 1. Dann gilt
p p
E (|M |∗n )p 6
E[|Mn |p ].
p−1
Beweis. Für jedes K > 0 folgt aus Doobs Maximalungleichung und dem Satz von Fubini
h Z |M |∗n ∧K
i
E (|M |∗n ∧ K)p = E
pαp−1 dα
0
K
hZ
=E
0
Z
pαp−1 1{|M |∗n >α} dα
i
K
pαp−1 P(|M |∗n > α)dα
=
0
Z
6
0
K
pαp−2 E |Mn |1{|M |∗n >α} dα
Z
h
= pE |Mn |
|M |∗
n ∧K
i
αp−2 dα =
0
p
E |Mn | · (|M |∗n ∧ K)p−1 .
p−1
Hölders Ungleichung liefert nun
(p−1)/p 1/p
p
p
E (|M |∗n ∧ K)p 6
E |Mn | · (|M |∗n ∧ K)p−1 6
E (|M |∗n ∧ K)p
E |Mn |p
.
p−1
p−1
Da E[(|M |∗n ∧ K)p ] < ∞ folgt
1/p
E (|M |∗n ∧ K)p
6
1/p
p
E |Mn |p
.
p−1
Schließlich können wir mit monotoner Konvergenz K → ∞ betrachten.
13
2.2
Konvergenzsätze
In diesem Abschnitt wollen wir untersuchen, unter welchen Bedingungen ein Martingal (Mn )n>0
auf einem filtrierten Wahrscheinlichkeitsraum (Ω, F, (Fn )n>0 , P) für n → ∞ gegen einen Grenzwert
konvergiert. Als Hilfsmittel benötigen noch eine weitere Ungleichung.
Definition 2.3. Seien (Mn )n>0 Zufallsvariablen und a < b reelle Zahlen. Die Anzahl der Aufkreuzungen (aufsteigende Überquerungen) von [a, b] durch (Mn ) bis zur Zeit n ist gegeben durch
Un[a,b] := sup{k > 1|τk 6 n}
(mit sup ∅ := 0),
wobei
τ0 :=0,
σk+1 := inf{l > τk : Ml 6 a},
τk+1 := inf{l > σk+1 : Ml > b},
k > 0.
Lemma 2.4 (Doobs Aufkreuzungsungleichung). Für ein Submartingal (Mn , n > 0) und reelle
Zahlen a < b gilt
1
E (Mn − a)+ ,
E[Un[a,b] ] 6
b−a
wobei A+ := max{A, 0}.
Beweis. Es gilt (Mn − a)+ ∈ L1 (P). Xn := (Mn − a)+ ist ein Submartingal, da x 7→ (x − a)+
konvex ist (Jensens Ungleichung). Da die Anzahl der Aufkreuzungen von [0, b − a] durch Xn gleich
[a,b]
Un sind, können wir o.B.d.A a = 0 und Mn > 0 setzen. Mit der Konvention ∞ ∧ n := n gilt
E[Mn ] = E[Mσ1 ∧n ] +
n
X
E[Mτk ∧n − Mσk ∧n ] +
k=1
n
X
E[Mσk+1 ∧n − Mτk ∧n ].
k=1
Da (Mn ) ein nichtnegatives Submartingal ist, impliziert der Optional-Sampling-Satz, dass alle
Summanden nichtnegativ sind. Weiterhin gilt
n
X
(Mτk ∧n − Mσk ∧n ) > bUn[0,b] ,
k=1
[0,b]
woraus E[Mn ] > bE[Un
] folgt.
Satz 2.5 (1. Martingalkonvergenzsatz). Sei (Mn , n > 0) ein Sub- oder ein Supermartingal mit
supn>0 E[|Mn |] < ∞ und definiere F∞ := σ(Fn : n > 0). Dann existiert der F∞ -messbare Grenzwert M∞ := limn→∞ Mn f.s. und es gilt M∞ ∈ L1 (P).
[a,b]
Beweis. Nehmen wir an, (Mn ) ist ein Submartingal (sonst betrachte (−Mn )n ). Da (Un )n
eine monoton wachsende Folge ist, liefert der Satz über monotone Konvergenz für U [a,b] :=
[a,b]
limn→∞ Un zusammen mit Doobs Aufkreuzungsungleichung:
E[U [a,b] ] = lim E[Un[a,b] ] 6 sup
n→∞
n
6
1
E[(Mn − a)+ ]
b−a
1
sup E[(Mn )+ ] + |a| < ∞.
b−a n
Somit gilt P(U [a,b] < ∞) = 1, d.h. (Mn ) hat f.s. nur endlich viele Aufkreuzungen jedes beliebigen
Intervalls [a, b]. Wir setzen nun
Λa,b := ω ∈ Ω : lim sup Mn (ω) > b, lim inf Mn (ω) 6 a .
n→∞
n→∞
14
S
Dann gilt P(Λa,b ) = 0 für alle a < b und folglich P( a,b∈Q:a<b Λa,b ) = 0. Wir erhalten also
P lim supn→∞ Mn > lim inf n→∞ Mn = 0, d.h. (Mn ) konvergiert f.s. und da alle Mn F∞ -messbar
sind, ist auch M∞ F∞ -messbar (modulo einer evtl. nötigen Abänderung auf einer Nullmenge).
Schließlich liefert das Lemma von Fatou
E[ lim |Mn |] 6 lim inf E[|Mn |] 6 sup E[|Mn |] < ∞,
n→∞
n→∞
n
sodass M∞ := limn→∞ Mn ∈ L1 (P) (insbesondere ist M∞ f.s. endlich).
Bemerkung 2.6. Die Konvergenz gilt im Allgmeinen nicht in L1 (P). Ein Gegenbeispiel ist das
Petersburger Spiel (Übung 2
).
Korollar 2.7. Jedes nichtnegative Supermatringal konvergiert f.s..
Beweis. Es sei (Mn , n > 0) ein nichtnegatives Supermartingal. Nn := (−Mn ) ist ein Submartingal
mit E[(Nn )+ ] = E[0] = 0. Weiterhin gilt E[(Nn )− ] = E[(Nn )+ ] − E[Nn ] 6 E[(Nn )+ ] − E[N0 ] und
daher
sup E[|Mn |] = sup E[|Nn |] 6 sup E[(Nn )+ ] + sup E[(Nn )− ]
n>0
n>0
n>0
n>0
6 2 sup E[(Nn )+ ] + E[−N0 ] < ∞.
n>0
Um das erste Martingalkonvergenzresultat auf L1 -Konvergenz zu verstärken benötigen wir eine
Zusatzannahme:
Definition 2.8. Eine Familie von Zufallsvariablen (Xi )i∈i mit einer beliebigen Indexmenge I
heißt gleichgradig integrierbar, falls
lim sup E |Xi |1{|Xi |>R} = 0.
R→∞ i∈I
Lemma 2.9. Es sei (Xi )i∈i eine Familie von Zufallsvariablen mit einer beliebigen Indexmenge I.
(i) Ist (Xi )i∈I gleichgradig integrierbar, so gilt supi∈I E[|Xi |] < ∞.
(ii) Gilt supi∈I E[|Xi |p ] < ∞ für ein p > 1, so ist (Xi )i∈I gleichgradig integrierbar.
(iii) Existiert ein Y ∈ L1 (P), sodass |Xi | 6 Y f.s. für alle i ∈ I gilt, dann ist (Xi )i∈I gleichgradig
integrierbar.
Beweis. (i) Es gilt
sup E[|Xi |] 6 R + sup E |Xi |1{|Xi |>R} ,
i∈I
i∈I
wobei letzterer Term für ein gewisses R endlich ist.
(ii) Es gilt
h
|X | p−1 i
1
R→∞
i
sup E |Xi |1{|Xi |>R} 6 sup E |Xi | ·
= p−1 sup E[|Xi |p ] −→ 0.
R
R
i∈I
i∈I
i∈I
(iii) Da x 7→ x1{x>R} monoton wachsend ist, folgt
R→∞
sup E |Xi |1{|Xi |>R} 6 E |Y |1{|Y |>R} −→ 0.
i∈I
Lemma 2.10. Es seien (Xn )n>1 Zufallsvariablen, die stochastisch gegen ein X konvergieren:
P
Xn → X. Dann folgt aus gleichgradiger Intergierbarkeit von (Xn )n>1 die Konvergenz in L1 (P):
E[|Xn − X|] → 0.
15
Bemerkung 2.11. Liegt die stochastische Konvergenz vor, so ist die L1 -Konvergenz sogar äquivalent
zur gleichgradigen Integrierbarkeit (Satz von Vitali).
Beweis. Nehmen wir an, Xn konvergiert nicht gegen X in L1 (P). Dann existiert für jedes ε > 0
eine Teilfolge (Xnk )k>1 , sodass
E |Xnk − X| > ε für alle k ∈ N.
P
Da Xn → X, besitzt die (jede) Teilfolge (Xnk ) eine Teilteilfolge (Xn0k )k , die f.s. gegen X konvergiert. Nach dem Lemma von Fatou und aufgrund der Beschränktheit in L1 (P) gilt dann
E[|X|] 6 lim inf E[|Xn0k |] < ∞.
k→∞
1
Also ist X ∈ L (P). Wir setzen nun ϕM (x) := (−M ) ∨ (x ∧ M ) und wählen M > 0 so, dass
sup E[|Xn0k |1{|Xn0 |>M } ] + E[|X|1{|X|>M } ] < ε/2
k
k
(möglich dank gleichgradiger Integrierbarkeit). Dominierte Konvergenz liefert ein n0 ∈ N mit
E[|ϕM (Xn0k ) − ϕM (X)|] < ε/2
für alle k > n0 .
Somit folgt
E[|Xn0k − X|] 6 E[|ϕM (Xn0k ) − ϕM (X)|] + E[|Xn0k |1{|Xn0 |>M } ] + E[|X|1{|X|>M } ] < ε.
k
Dies widerspricht E |Xnk − X| > ε.
Satz 2.12 (2. Martingalkonvergenzsatz). Setze F∞ = σ(Fn , n > 0).
(i) Ist (Mn , n > 0) ein gleichgradig integrierbares Martingal, dann konvergiert (Mn ) f.s. und in
L1 gegen ein F∞ -messbares M∞ ∈ L1 (P) und es gilt Mn = E[M∞ |Fn ].
(ii) Ist (Mn , n > 0) ein Martingal mit Mn = E[M |Fn ] für ein M ∈ L1 (P), dann ist (Mn )n>0
gleichgradig integrierbar und (i) gilt mit M∞ = E[M |F∞ ].
Beweis. (i) Der erste Martingalkonvergenzsatz liefert zusammen mit Lemma 2.10 die Konvergenz
in L1 . Weiterhin gilt für jedes n > m > 0 und alle A ∈ Fm , dass E[Mm 1A ] = E[Mn 1A ]. Die
Konvergenz kMn − M∞ kL1 → ∞ impliziert E[|Mn − M∞ |1A ] → 0. Zusammen erhalten wir
E[Mm 1A ] = E[M∞ 1A ] also Mm = E[M∞ |Fm ].
(ii) Wir bemerken zuerst, dass E[|Mn |] = E[|E[M |Fn ]|] 6 E[|M |] nach Jensens Ungleichung.
Für R > 0 ist 1{|Mn |>R} Fn -messbar und damit
E |Mn |1{|Mn |>R} 6 E E[|M | |Fn ]1{|Mn |>R}
= E |M |1{|Mn |>R}
6 R1/2 P(|Mn | > R) + E |M |1{|M |>R1/2 } .
Der zweite Term konvergiert für R → ∞ gegen 0 (dominierte Konvergenz). Für den ersten Term
liefert die Markov-Ungleichung
R1/2 P(|Mn | > R) 6
E[|Mn |]
E[|M |]
6
−→ 0
1/2
R
R1/2
für R → ∞.
Damit ist die gleichgradige Integrierbarkeit gezeigt und wir können (i) anwenden.
Es existiert also der f.s. und L1 -Grenzwert M∞ mit Mn = E[M∞ |Fn ], n > 1. Daraus folgt für
alle n ∈ N und B ∈ Fn , dass
E[M∞ 1B ] = E[Mn 1B ] = E[M 1B ].
Also stimmen die endlichen (signierten) Maße µ1 (B) := E[M∞ 1B ] und µ2 (B) := E[M 1B ] auf
S
n>1 Fn überein. Letzteres ist ein ∩-stabiler Erzeuger von F∞ , sodass µ1 und µ2 auf F∞ identisch
sind. Daraus folgt M∞ = E[M |F∞ ].
16
2.3
Anwendungen
Satz 2.13 (0-1-Gesetz von Kolmogorov). Für eine Folge (Xn )n∈N von unabhängigen Zufallsvariablen heißt
\
σ Xm : m > n
T :=
n>1
die terminale σ-Algebra. Für alle A ∈ T gilt P(A) ∈ {0, 1}.
Die terminale σ-Algebra enthält alle Ereignisse, deren Eintreten von jeder festen endlichen
Teilfamilie der Xi nicht abhängt.
Beweis. Wir definieren die Filtration Fn := σ(Xm : m 6 n). Für A ∈ T betrachten wir das
Martingal Mn := E[1A |Fn ], n > 1. Aus dem 2. Martingalkonvergenzsatz folgt, dass Mn f.s. gegen
M∞ = E[1A |F∞ ] konvergiert. Nun ist das Ereignis A ∈ T ⊆ F∞ unabhängig von Fn für alle
n > 1, woraus folgt
f.s.
P(A) = E[1A |Fn ] −→ M∞ = E[1A |F∞ ] = 1A .
Damit haben wir P(A) = 1A ∈ {0, 1} gezeigt.
Die Konzepte der Filtration und des Martingals erfodern nicht, dass die Indexmenge aus R+
stammt. Wir können daher auch negative Indexmengen zulassen.
Definition 2.14. Ein Prozess (M−n )n>0 heißt Rückwärtsmartingal bzgl. (F−n )n>0 (σ-Algebren
mit F−n ⊆ F−n+1 ), falls M−n ∈ L1 (P), M−n F−n -messbar ist und E[M−n+1 |F−n ] = M−n für alle
n > 0 gilt.
Satz 2.15 (Rückwärtsmartingalkonvergenzsatz). Jedes Rückwärtsmartingal (M−n )n>0 konvergiert f.s. und in L1 (P) für n → ∞ gegen ein M−∞ ∈ L1 (P).
[a,b]
Beweis. Wir bezeichnen mit U−n die Anzahl der Aufkreuzungen von [a, b] durch (M−n )n>0 in
[a,b]
der Zeit [−n, 0]. Dann gilt nach Lemma 2.4 und U [a,b] := limn→∞ U−n
[a,b]
E[U [a,b] ] = lim E[U−n ] 6
n→∞
1
E[(M0 − a)+ ] < ∞
b−a
wie im 1. Martingalkonvergenzsatz. Damit folgt M−n → M−∞ f.s.. Da M−n = E[M0 |F−n ] ist
(M−n )n>0 nach dem 2. Martingalkonvergenzsatz gleichgradig integrierbar, sodass auch M−n →
M−∞ in L1 (P) folgt.
Korollar 2.16 (Starkes Gesetz der großen Zahlen). Es seien (Xk )k>1 reelle u.i.v. Zufallsvariablen
in L1 (P). Dann gilt
n
1X
n→∞
Xk −→ E[X1 ] f.s.
n
k=1
Pn
Beweis. Wir setzen Sn := k=1 Xk , S0 = 0 sowie F−n := σ(Sk , k > n). Dann gilt F−n−1 ⊆ F−n
und aus Symmetriegründen gilt
E[Xj |F−n ] = E[X1 |F−n ] für alle j = 1, . . . , n.
Da E[Sn |F−n ] = Sn , erhalten wir
n
M−n := E[X1 |F−n ] =
Sn
1X
E[Xj |F−n ] =
n
n
k=1
und (M−n )n>0 ist ein Rückwärtsmartingal. Damit folgt M−n → M−∞ für n → ∞ f.s. und in
L1 (P) sowie
E[M−∞ ] = lim E[M−n ] = E[X1 ].
n→∞
Da für jedes A ∈ BR das Ereignis {M−∞ ∈ A} in der terminalen σ-Algebra der (Xk )k>1 folgt
aus Kolmogorovs 0-1-Gesetz P(M−∞ ∈ A) ∈ {0, 1}. Also muss M−∞ konstant sein und es gilt
f.s.
insbesondere M−∞ = E[M−∞ ] = E[X1 ].
17
3
Markovprozesse
3.1
Existenz von Markovprozessen
Nachdem wir mit Kolmogorovs Erweiterungssatz ein sehr starkes Resultat zur Hand haben, können wir sogar noch eine Verallgemeinerung von Markovketten untersuchen. Nehmen wir nicht an,
dass der Zustandsraum abzählbar ist, so sprechen wir von Markovprozessen. Um die Übergangswahrscheinlichkeit rigoros beschreiben zu können, benötigen wir die aus der Maßtheorie bekannten
Markovkerne.
Wiederholung zu Markovkernen:
Es seien (Ei , Ai ), i = 0, 1, 2, drei messbare Räume.
• Eine Abbildung κ : E1 × A2 → [0, ∞] heißt Markovkern von (E1 , A1 ) nach (E2 , A2 ), falls
(i) x1 7→ κ(x1 , A2 ) eine A1 -messbare Abbildung für jedes A2 ∈ A2 ist und
(ii) A2 7→ κ(x1 , A2 ) ein Wahrscheinlichkeitsmaß auf A2 für jedes x1 ∈ E1 ist.
• Ist κ1 ein Markovkern von (E0 , A0 ) nach (E1 , A1 ) sowie κ2 ein Markovkern von (E0 ×E1 , A0 ⊗
A1 ) nach (E2 , A2 ), dann ist die Abbildung
κ1 ⊗ κ2 : E0 × (A1 ⊗ A2 ) → [0, ∞]
Z Z
(ω0 , A) 7→
E1
1A (x1 , x2 )κ2 ((x0 , x1 ), dx2 ) κ1 (x0 , dx1 )
E2
ein Markovkern von (E0 , A0 ) nach (E1 × E2 , A1 ⊗ A2 ) und heißt der Produktkern von κ1
und κ2 .
• Ist κ2 ein Kern von (E1 , A1 ) nach (E2 , A2 ), so definieren wir das Produkt κ1 ⊗ κ2 analog,
wobei wir κ2 als Kern von (E0 × E1 , A0 ⊗ A1 ) nach (E2 , A2 ) auffassen, der nicht von der
E0 -Koordinate abhängt.
• Ist µ ein Wahrscheinlichkeitsmaß auf (E1 , A1 ) und κ ein Markovkern
von (E1 , A1 ) nach
R
R
(E2 , A2 ), dann definiert µ ⊗ κ(A) := E1
1 (x , x2 )κ1 (x1 , dx2 ) µ(dx1 ), A ∈ A1 ⊗ A2 ,
E2 A 1
ein Wahrscheinlichkeitsmaß auf A1 ⊗ A2 und heißt Kopplung.
• Ist κ1 ein Markovkern von (E0 , A0 ) nach (E1 , A1 ) sowie κ2 ein Markovkern von (E1 , A1 )
nach (E2 , A2 ), dann heißt
Z
κ1 · κ2 : E0 × A2 → [0, ∞], (x0 , A) 7→
κ2 (x1 , A2 )κ1 (x0 , dx1 )
E1
Verkettung von κ1 und κ2 und ist ein Markovkern (E0 , A0 ) nach (E2 , A2 ), da (κ1 ·κ2 )(x0 , A) =
(κ1 ⊗ κ2 )(x0 , π2−1 (A)).
• Sind X, Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in einem
polnischen Raum E, dann existiert ein Markovkern κX,Y von (Ω, F) nach (E, BE ) mit
κX,Y (y, A) = E 1X −1 (A) |Y = y .
κX,Y wird reguläre Version der bedingten Wahrscheinlichkeit genannt.
Definition 3.1. Sei T = N0 (diskrete Zeit) oder T = [0, ∞) (stetige Zeit) und E ein polnischer Raum. Dann heißt eine (E, BE )-wertige Familie X = (Xt , t ∈ T ) von Zufallsvariablen mit
Verteilungen (Px )x∈E (homogener) Markovprozess, falls gilt:
(i) Für jedes x ∈ E ist X ein stochastischer Prozess auf (Ω, F, Px ) mit Px (X0 = x) = 1.
18
⊗T
(ii) Die Abbildung κ : E × BE
→ [0, 1], (x, A) 7→ Px (X ∈ A) := P(X ∈ A|X0 = x) ist ein
Markovkern.
(iii) Für jedes s, t ∈ T, x ∈ E und A ∈ BE gilt die (schwache) Markoveigenschaft
Px Xt+s ∈ AFs = κt (Xs , A), Px -f.s.,
wobei Fs := σ(Xr , r 6 s) und
κt (x, A) := κ(x, πt−1 (A)) = P(Xt ∈ A|X0 = x)
die Übergangswahrscheinlichkeit von X zur Zeitdifferenz t beschreibt.
Bemerkung 3.2. Eigenschaft (i) besagt, dass unter dem Maß Px der Markovprozess im Punkt
X0 = x beginnt. Wir schreiben Ex für den Erwartungswert unter Px und PY := κ(Y, ·) für eine
E-wertige Zufallsvariable Y . Die Markoveigenschaft besagt also
Px Xt+s ∈ AFs = Px Xt+s ∈ AXs = PXs (Xt ∈ A).
Die Verteilung von Xt+s gegeben der Vergangenheit bis zum Zeitpunkt s hängt also nur von Xs
(Markoveigenschaft, wie oben) und der Zeitdifferenz t (Homogenität) ab.
Beispiel 3.3. Ist (Xn , n ∈ N0 ) eine Markovkette in diskreter Zeit und abzählbarem Zustandsraum
(S, S) mit 1-Schritt-Übergangsmatrix P = (pij )i,j∈S , pij = P(X1 = j|X0 = i) = Pi (X1 = j), dann
sind die zugehörigen Markovkerne gegeben durch
X
X
κn (i, A) = P(Xn ∈ A|X0 = i) =
1A (j)(P n )ij =
(P n )ij · δj (A), n ∈ N, i ∈ S, A ∈ S.
j∈S
j∈S
Unser Ziel ist es, die Existenz von Markovprozessen nachzuweisen. Wir werden also insbesondere
Kolmogorovs Erweiterungssatz anwenden. Im Spezialfall von Markov-Ketten in diskreter Zeit haben wir die Existenz bereits in Beispiel 1.34 nachgewiesen. Auch in stetiger Zeit und für polnische
Zustandsräume ist die Struktur der endlichdimensionalen Verteilungen durch die Markoveigenschaft bestimmt und relativ einfach.
Definition 3.4. Es seien E ein polnischer Raum und T = N0 oder T = [0, ∞). Eine Familie
(κt , t ∈ T ) von Markovkernen von E nach E heißt Markov’sche Halbgruppe, falls κ0 (x, ·) = δx für
alle x ∈ E und die Chapman-Kolmogorov-Gleichung erfüllt ist:
κs · κt = κs+t
für alle s, t ∈ T.
Beispiel 3.5. Betrachte die Familie (κt , t > 0) von Markovkernen auf R, wobei κ0 (x, ·) = δx und
κt (x, ·) das Wahrscheinlichkeitsmaß der N (x, t)-Verteilung für t > 0 sei. Dann gilt für unabhängige
Zufallsvariablen X ∼ N (0, s), Y ∼ N (0, t)
Z
Z
κs · κt (x0 , A) =
κt (x, A)κs (x0 , dx) =
P(x + Y ∈ A)κs (x0 , dx)
R
R
= P(x0 + X + Y ∈ A) = κs+t (x0 , A),
da X + Y ∼ N (0, s + t). Also ist (κt , t > 0) eine Markov’sche Halbgruppe.
Lemma 3.6. Für jeden Markovprozess X = (Xt , t ∈ T ) in einem polnischen Raum E mit Übergangswahrscheinlichkeiten
Px (Xt ∈ A) = κt (x, A)
für alle x ∈ E, A ∈ BE , t ∈ T,
(2)
ist (κt , t ∈ T ) eine Markov’sche Halbgruppe. Die Verteilung von X ist durch (2) eindeutig bestimmt.
19
Beweis. Zum Zeitpunkt 0 gilt κ0 (x, ·) = δx nach Bedingung (i). Aufgrund der Markoveigenschaft
gilt weiter
κs+t (x, A) = Px (Xs+t ∈ A)
= Ex Px (Xs+t ∈ A|Xs )
Z
=
κt (y, A)κs (x, dy) = κs · κt (A).
E
Die Eindeutigkeit folgt, da die endlichdimensionalen Randverteilungen durch (κt , t ∈ T ) festgelegt
sind.
Andersherum lässt sich zeigen, dass jede Markov’sche Halbgruppe einen Markovprozess definiert.
Satz 3.7. Es seien E ein polnischer Raum, T = N0 oder T = [0, ∞) und (κt , t ∈ T ) eine
Markov’sche Halbgruppe von Kernen auf E. Dann exisitert ein Markovkern κ von (E, BE ) nach
⊗T
(E T , BE
), sodass für jedes x ∈ E und beliebige J := {t0 , . . . , tn } ⊆ T mit 0 = t0 < t1 < · · · < tn
und n ∈ N gilt
n
O
−1
κ x, πT,J
(A) = δx ⊗
κtk −tk−1 (A)
⊗J
für alle A ∈ BE
.
(3)
k=1
Beweis. Wir zeigen zunächst, dass (3) für jedes feste x ∈ E ein Wahrscheinlichkeitsmaß definiert. Nach Komlmogorovs Erweiterungssatz genügt es zu zeigen, dass die Familie {PJ : J ⊆
T endlich,0 ∈ J} definiert durch
n
O
PJ := δx ⊗
κtk −tk−1
k=1
konsistent ist, d.h. für alle 0 ∈ I ⊆ J ⊆ T mit I, J endlich gilt
⊗I
∀A ∈ BE
:
−1
PJ (πJ,I
(A)) = PI (A).
⊗I
Da die Rechteckmengen ein ∩-stabiler Erzeuger von BE
sind, genügt es, die Gleichheit für A :=
×i∈I Ai mit Aj ∈ BE , j ∈ I, zu zeigen. Wir können außerdem annehmen, dass I = J \ {ti } für
ein i = 1, . . . , n ist, woraus der allgemeine Fall induktiv folgt.
Ist i = n, dann gilt
−1
PJ (πJ,I
(A)) = PJ (A × E) = PI ⊗ κtn −tn−1 (A × E)
Z
=
κtn −tn−1 (xn−1 , E)PI d(x0 , . . . , xn−1 ) = PI (A).
A
Sein nun i ∈ {1, . . . , n − 1} und setze Ai = E. Wir definieren für j = 0, . . . , n − 1
fj (xj ) :=
n
O
κtk+1 −tk (xj , Aj+1 × · · · × An ).
k=1
Nach dem Satz von Fubini und der Chapman-Kolmogorov-Gleichung gilt
Z Z
fi−1 (xi−1 ) =
fi+1 (xi+1 )κti+1 −ti (xi , dxi+1 )κti −ti−1 (xi−1 , dxi )
E Ai+1
Z
=
fi+1 (xi+1 )κti+1 −ti−1 (xi−1 , dxi+1 ).
Ai+1
20
Daraus folgt
−1
PJ (πJ,I
(A)) =
Z
A0 ×···×Ai−1
Z
=
A0 ×···×Ai−1
fi−1 (xi−1 )P{t0 ,...,ti−1 } (d(x0 , . . . , xi−1 ))
Z
fi+1 (xi+1 )κti+1 −ti−1 (xi−1 , dxi+1 )P{t0 ,...,ti−1 } (d(x0 , . . . , xi−1 ))
Ai+1
= PI (A).
⊗T
Es bleibt zu zeigen, dass für jedes A ∈ BE
die Abbildung x 7→ κ(x, A) (BE , B[0,1] )-messbar
ist, wobei wir wieder A als Rechteckzylindermenge annehmen können. Dann folgt die Messbarkeit
aus der Darstellung
n
O
−1
κ x, πT,J
(A0 × · · · × An ) = δx ⊗
κtk −tk−1 (A0 × · · · × An )
k=1
=
n
O
κtk −tk−1 (x, A1 × · · · × An )1A0 (x)
k=1
für J = {t0 , . . . , tn } ⊆ T und A0 , . . . , An ∈ BE .
Korollar 3.8. Für einen polnischen Raum E, T = N0 oder T = [0, ∞) und eine Markov’sche
Halbgruppe (κt , t ∈ T ) von Markovkernen von E nach E, existiert ein messbarer Raum (Ω, F)
und ein Markovprozess X = (Xt , t ∈ T ) mit Verteilungen (Px )x∈E auf (Ω, F) mit Übergangswahrscheinlichkeiten
Px (Xt ∈ A) = κt (x, A) für alle x ∈ E, A ∈ BE , t ∈ T.
⊗T
Beweis. Wir konstruieren X als kanonischen Prozess und setzen daher Ω := E T , F := BE
und
Xt = πt die Projektion auf die t-te Koordinate. Für den Markovkern κ aus Satz 3.7 für jedes
x ∈ E definieren wir Px := κ(x, ·). Nach Konstruktion gilt dann für endlich viele Zeitpunkte
⊗(n+1)
0 = t0 < t1 < · · · < tn und A ∈ BE
n
O
−1
Px (Xt0 , . . . , Xtn ) ∈ A = Px (πT,{t
(A))
=
δ
⊗
κtk −tk−1 (A).
x
0 ,...,tn }
k=1
Insbesondere gilt für Mengen A0 , . . . , An ∈ BE
Px Xt0 ∈ A0 , . . . , Xtn ∈ An
Z
=
κtn −tn−1 (xn−1 , An )Px (Xt0 ∈ A0 , . . . , Xtn−2 ∈ An−2 , Xtn−1 = dxn−1 ),
An−1
also Px (Xtn ∈ A|Ftn−1 ) = κtn −tn−1 (Xn−1 , An ). Damit ist X tatsächlich ein Markovprozess und es
gilt
Px (Xt ∈ A) = (δx · κt )(A) = κt (x, A), A ∈ BE .
Beispiel 3.9. Für den Markov-Prozess X = (Xt , t > 0), welcher durch die Markov’sche Halbgruppe der Normalverteilungen aus Beispiel 3.5 gegeben ist, gilt
P0 (Xt − Xs ∈ A|Xs ) = κt−s (Xs , A + Xs ) = κt−s (0, A) ∀A ∈ BR .
Daher ist P0 (Xt − Xs ∈ A) = E0 [P0 (Xt − Xs ∈ A|Xs )] = κt−s (0, A), also sind die Zuwächse
d
Xt −Xs = Xt−s ∼ N (0, t−s) stationär und normalverteilt. Zudem sind die Zuwächse unabhängig:
Für 0 = t0 < t1 < · · · < tn und A1 , . . . , An ∈ BR gilt
Z Y
n
P0 (∀i = 1, . . . , n : Xti − Xti−1 ∈ Ai ) =
1Ai (xi − xi−1 )κtn −tn−1 (xn−1 , dxn ) · · · κt1 −t0 (0, dx1 )
Rn i=1
=
n
Y
κti −ti−1 (0, Ai ) =
i=1
n
Y
i=1
21
P0 (Xti − Xti−1 ∈ Ai ).
Wir haben damit fast die (standard) Brownsche Bewegung (siehe Kapitel 5) konstruiert, für die
wir allerdings noch stetige Pfade fordern werden. Ob es eine Version von X mit stetigen Pfad gibt,
ist allerdings zu diesem Zeitpunkt noch ungeklärt.
Sofern keine Verwechslung vorkommen kann, werden wir die Verteilungen (Px )x∈E nicht mehr
explizit erwähnen. Die schwache Markoveigenschaft kann auch wie folgt charakterisiert werden.
Lemma 3.10. Ein stochastischer Prozess (Xt , t ∈ T ) mit T = R+ oder T = N0 ist genau dann
⊗T
ein Markovprozess, wenn es einen Markovkern κ : E ×BE
→ [0, 1] gibt, sodass für alle messbaren
T
und beschränkten Funktionen f : E → R und alle s ∈ T, x ∈ E gilt:
Z
Ex f ((Xt+s )t∈T )|Fs = EXs f (X) :=
f (y) κ(Xs , dy).
(4)
ET
Beweis. „⇐=“ Die Markoveigenschaft folgt aus (4) mit f (y) := 1A (yt ), denn Px (Xt+s ∈ A) =
PXs (Xt ∈ A) = κt (Xs , A).
„=⇒“ Wir verwenden maßtheoretische Induktion. Da die Menge der Rechteckzylindermengen
⊗T
ein ∩-stabiler Erzeuger von BE
ist, genügt es Indikatorfunktionen der Form
m
Y
fm ((xt )t∈T ) = 1{A0 ×···×Am } ((xt0 , . . . , xtm )) =
1An (xtn )
n=0
für m ∈ N, t0 = 0, t1 , . . . , tm ∈ T und A0 , . . . , Am ∈ BE zu betrachten. Wir zeigen nun (4)
induktiv.
Für m = 1 ist (4) äquivalent zu der (schwachen) Markoveigenschaft
Ex [f1 (Xs , Xs+t1 )|Fs ] = Px (Xs+t1 ∈ A1 |Fs )1A0 (Xs ) = PXs (Xt1 ∈ A1 )1A0 (Xs ).
Mittels maßtheoretischer Induktion folgt die Gleichheit für alle beschränkten, messbaren Funktionen, die nur von (x0 , xt1 ) abhängen.
Nun schließen wir induktiv
Ex fm+1 (Xt+s )t∈T Fs = Ex Ex fm+1 (Xt+s )t∈T Fs+tm Fs
m
Y
1An (Xs+tn )Fs
= Ex Ex 1Am+1 (Xs+tm+1 )Fs+tm
n=0
M arkov
=
m
Y
1An (Xs+tn )Fs
Ex EXs+tm 1Am+1 (Xtm+1 −tm )
n=0
m
Y
IV
= EXs EXtm 1Am+1 (Xtm+1 −tm )
1An (Xtn )
n=0
M arkov
=
m
Y
EXs EX0 1Am+1 (Xtm+1 )|Ftm
1An (Xtn )
n=0
= EXs EX0
m+1
Y
1An (Xtn )|Ftm
= EXs [f ((Xn )n∈T )].
n=0
Erneut folgt hieraus die Behauptung für alle beschränkten, messbaren Funktionen, die von
(xt0 , . . . , xm+1 ) abhängen.
In diskreter Zeit gilt sogar automatisch eine stärkere Form der Markoveigenschaft.
Definition 3.11. Für n > 0 definieren wir den Shift-Operator
ϑn :
E N0 → E N0 ,
(xk )k>0 7→ (xn+k )k>0 .
22
Satz 3.12. Jeder Markovprozess X = (Xn , n ∈ N0 ) in diskreter Zeit erfüllt die starke Markovei⊗T
genschaft: Für jede Stoppzeit τ und jede (BE
, BE )-messbare, beschränkte Funktion f : E T → R
sowie jedes x ∈ E gilt
Z
Ex [f ◦ ϑτ (X))|Fτ ] = EXτ [f (X)] =
f (y)κ(Xτ , dy) f.s..
ET
Beweis. Aus (4) folgt für A ∈ Fτ = {A ∈ F : A ∩ {τ = n} ∈ Fn ∀n ∈ N0 }
X
Ex [f ((Xτ +n )n∈T )1A ] =
Ex [f ((Xτ +n )n∈T )1A∩{τ =k} ]
k>0
=
X
Ex Ex [f ((Xk+n )n∈T )|Fk ]1A∩{τ =k}
k>0
=
X
Ex EXk [f ((Xn )n∈T )]1A∩{τ =k}
k>0
= Ex EXτ [f ((Xn )n∈T )]1A .
3.2
Markov-Ketten in diskreter Zeit: Rekurrenz und Transienz
Im Folgenden sei X = (Xn , n ∈ N0 ) eine homogene Markovkette mit diskretem Zustandsraum
S, Übergangswahrscheinlichkeiten pij = P(X1 = j|X0 = i) = Pi (X1 = j) und Übergangsmatrix
P = (pij )i,j∈S . Wie aus Kolmogorovs Erweiterungssatz gefolgert, kann X als kanonischer Prozess
auf (Ω, F, Px ) mit Ω = S N0 und F = P(S)⊗N0 definiert werden, sodass Xn (ω) = ωn . Als Filtration
verwenden wir die natürliche Filtration von X.
Definition 3.13. Für jedes y ∈ S sei Ty0 = 0 und
Tyk := inf n > Tyk−1 : Xn = y ,
k ∈ N.
Tyk heißt k-te Eintrittszeit von X in y oder Rückkehrzeit nach y. Für x, y ∈ S ist
ρx,y := Px (Ty1 < ∞)
die Wahrscheinlichkeit, jemals von x nach y zu gehen.
Bemerkung 3.14. Tyk ist eine Stoppzeit. ρx,x ist insbesondere die Rückkehrwahrscheinlichkeit von
x nach x. Beachte, dass Tx1 > 0 selbst beim Start in x gilt.
Satz 3.15. Für alle x, y ∈ S und k ∈ N gilt Px (Tyk < ∞) = ρx,y · ρk−1
y,y .
Beweis. Die Behauptung folgt induktiv. Für k = 1 ist nichts zu zeigen.
Sein nun k > 2. Für Y := 1{Ty1 <∞} gilt {Tyk < ∞} = {Ty1 ◦ ϑTyk−1 < ∞} = {Y ◦ ϑTyk−1 = 1}.
Aus der starken Markoveigenschaft folgt
Px (Tyk < ∞) =Ex 1{Tyk <∞} 1{Tyk−1 <∞}
=Ex Ex Y ◦ ϑTyk−1 |FTyk−1 1{Tyk−1 <∞}
=Ex EX k−1 [Y ]1{Tyk−1 <∞}
Ty
=Ex Py (Ty1 < ∞)1{Tyk−1 <∞} = ρy,y Px (Tyk−1 < ∞).
Definition 3.16. Ein Zustand y ∈ S heißt rekurrent, falls ρyy = 1 und er heißt transient, falls
ρyy < 1. Die Anzahl der Besuche von X in y bezeichnen wir mit
X
Ny :=
1{Xn =y} .
n>1
23
Satz 3.17.
(i) Ist y ∈ S transient, dann gilt Ex [Ny ] =
ρxy
1−ρyy .
(ii) Sind x, y ∈ S mit ρx,y > 0, so ist y genau dann rekurrent, wenn Ex [Ny ] = ∞.
Beweis. (i) Es gilt
Ex [Ny ] =
=
∞
X
k=1
∞
X
Px (Ny > k) =
P∞
k=1
Px (Tyk < ∞)
k=1
ρx,y · ρk−1
y,y =
k=1
(ii) Ex [Ny ] =
∞
X
ρx,y
.
1 − ρyy
ρx,y · ρk−1
y,y = ∞ ⇔ ρyy = 1.
Satz 3.18. Ist x ∈ S rekurrent und ρxy > 0 für ein y ∈ S, dann ist auch y rekurrent und
ρxy = ρyx = 1.
Beweis. (i) Aus ρxx = 1, ρxy > 0 folgt, dass ρyx = 1 gilt: Da ρx,y > 0 existiert ein k ∈ N und
x1 , . . . , xk ∈ S \ {x} mit xk = y und
Px (X1 = x1 , . . . , Xk = xk ) > 0.
Die Markoveigenschaft ergibt dann:
0 = 1 − ρxx = Px (Tx = ∞) >Px (X1 = x1 , . . . , Xk = xk , Tx = ∞)
=Px (X1 = x1 , . . . , Xk = xk )Py (Tx = ∞)
=Px (X1 = x1 , . . . , Xk = xk )(1 − ρyx ).
Da ρxy > 0, muss also ρyx = 1 gelten.
(ii) y ist rekurrent: Da ρxy > 0, ρyx > 0, existieren k1 , k2 ∈ N mit (P k1 )yx , (P k2 )x,y > 0. Dann
gilt
Ey [Ny ] =
∞
X
Py (Xn = y) >
n=1
=
∞
X
n=1
∞
X
Py (Xk1 = x, Xk1 +n = x, Xk1 +k2 +n = y)
(P k1 )yx (P n )xx (P k2 )x,y
n=1
= (P k1 )yx (P k2 )x,y
∞
X
Px (Xn = x)
n=1
= (P k1 )yx (P k2 )x,y Ex (Nx ) = ∞.
Aus Symmetrie folgt, dass auch ρxy = 1 gilt.
Definition 3.19. Die Markovkette X = (Xn , n ∈ N0 ) heißt irreduzibel, falls ρxy > 0 für alle
x, y ∈ S.
Aus Satz 3.18 folgt direkt, dass in einer irreduziblen Markovkette entweder alle Zustände
rekurrent oder alle Zustände transient sind. Ist der Zustandsraum endlich, schließt sich sogar
zusätzlich die zweite Möglichkeit aus.
Satz 3.20. Für eine irreduzible homogene Markovkette in einem endlichen Zustandsraum S ist
jeder Zustand rekurrent.
24
Beweis. Nehmen wir an, alle Zustände sind transient. Dann folgt aus Satz 3.17 und dem Satz von
Fubini:
X
XX
∞>
Ex [Ny ] =
Px (Xn = y)
y∈S
y∈S n>1
=
XX
Px (Xn = y) = ∞.
n>1 y∈S
|
{z
}
=1
Dieser Widerspruch zeigt, dass alle Zustände rekurrent sein müssen.
Beispiel 3.21.
(i) Für endliche Zustandsräume können wir Rekurrenz/ Transienz und Irreduzibilität leicht
anhand der Übergangswahrscheinlichkeiten ablesen.
Pn
(ii) Für die einfache Irrfahrt Sn = k=1 Xk mit u.i.v. (Xk )k>1 und P(X1 = 1) = p ∈ (0, 1) und
P(X1 = −1) = 1 − p =: q gilt (Übung 2
):
P0 (Tb1 < ∞) = min 1,
p b
q
für alle b ∈ N.
(a) Symmetrischer Fall p = 12 : Dann gilt P0 (Tb1 < ∞) = 1 für alle b ∈ Z \ {0} wegen
Symmetrie. Aufgrund der Homogenität des Zustandsraumes folgt auch ρxy = Px (Ty <
∞) = 1 für alle x, y ∈ Z mit x 6= y. Aus der Markoveigenschaft folgt nun
ρxx = Px (Tx1 < ∞) = Px (X1 = x + 1, Tx < ∞) + Px (X1 = x − 1, Tx < ∞)
1
1
= Px+1 (Tx < ∞) + Px−1 (Tx < ∞)
2
2
1
= (ρx+1,x + ρx−1,x ).
2
Damit ist die symmetrische einfache Irrfahrt irreduzibel und rekurrent.
(b) Asymmetrischer Fall p < 1/2 : Aus P0 (Tb1 < ∞) < 1 und Symmetrie/ Homogenität
folgt ρxy = ( pq )y−x < 1 für x < y und ρxy = 1 für x > y. Die Markoveigenschaft ergibt
wieder
p 1
ρxx = pρx+1,x + qρx−1,x = p · 1 + q
= 2p < 1.
q
Damit ist die asymmetrische einfache Irrfahrt irreduzibel und transient.
Höhere Dimensionen? Die symmetrische einfache Irrfahrt in Zd mit d > 1 ist genau dann
rekurrent, falls d 6 2 (Satz von Polya, vgl. [Klenke, Satz 17.39]).
3.3
Markovketten in stetiger Zeit
Es sei X = (Xt , t > 0) eine homogene Markovkette in stetiger Zeit mit abzählbarem Zustandsraum
S und Übergangswahrscheinlichkeiten pij (t) = Pi (Xt = j), i, j ∈ S, und Übergangsmatrizen Pt :=
(pij (t))i,j∈S .
Definition 3.22. Gilt für die Halbgruppe (Pt , t > 0), dass
(i) der Grenzwert qij := limt↓0 1t Pi (Xt = j) für alle i, j ∈ S mit i 6= j existiert und
P
(ii) |qii | < ∞ für qii := − i6=j qij und alle i ∈ S gilt,
dann heißt die Matrix Q = (qij )i,j∈S ∈ RS×S Generator der Halbgruppe.
25
Aus dieser Definition folgt die Gleichheit
lim
t↓0
1
Pi (Xt = j) − 1{i=j} = qij
t
∀i, j ∈ S.
Beispiel 3.23. Ist N ein Poisson-Prozess mit Intensität λ > 0, so ist sein Generator gegeben
durch Q = (qij )i,j∈N0 mit qij = λ(1j=i+1 − 1{i=j} ).
Satz 3.24. P
Erfüllt eine Matrix Q = (qij )i,j∈S ∈ RS×S die Bedingungen qij > 0 für alle i 6=
j, qii = − i6=j qij und alle i ∈ S sowie λ := supi∈S |qii | < ∞, dann ist Q der Generator
einer eindeutig bestimmten homogenen Markov-Kette X = (Xt , t > 0). In diesem Fall gilt für die
Übergangsmatrizen
X (tQ)n
für alle t > 0.
Pt = etQ :=
n!
n>0
P
Bemerkung 3.25. Für jede stochastische Matrix P , d.h. pij > 0 und
j pij = 1 für alle
i, j ∈ S, gilt kP k2 = 1. Dies sieht man wie folgt: kP k2 ist der größte Eigenwert. Für den Vektor
1 = (1, . . . , 1)> gilt P 1 = 1 also ist 1 ein Eigenwert. Sei nun λ > 0 ein weiterer Eigenwert mit Eigenvektor y ∈ RS , so gilt λy = P y 6 (supi∈S |yi |)1 und damit λ supi∈S |yi | 6 supi∈S |yi |. Folglich
ist λ 6 1 und 1 ist der größte Eigenwert, d.h. kP k2 = 1.
Unter den Annahmen des Satzes ist P = λ1 Q + I mit der Einheitsmatrix I ∈ RS×S eine
stochastische Matrix. Damit gilt kQk2 6 λ(kP k2 +kIk2 ) = 2λ, sodass Q ein beschränkter Operator
PN
n
n
n
6 PN t kQk2 für N → ∞ und das Matrixauf RS ist. Insbesondere konvergiert n=0 (tQ)
n=0
n!
n!
2
Exponential etQ (im Sinne obiger Reihe) ist wohldefiniert.
Beweis von Satz 3.24. Existenz: Ohne Einschränkung sei S ⊆ N. Wir betrachten die stochastische
Matrix
1
P := (pij )i,j∈S := Q + I.
λ
Sei Y = (Yn , n > 0) eine homogene Markov-Kette (in diskreter Zeit) mit Ein-SchrittÜbergangsmatrix P und Startwert i unter Pi sowie N = (Nt , t > 0) ein unabhängiger PoissonProzess mit Intensität λ. Dann ist X = (Xt , t > 0) mit Xt := YNt eine Markov-Kette in stetiger
Zeit mit Übergangswahrscheinlichkeiten
pij (t) = Pi (Xt = j) =
X
P(Nt = n, Yn = j) = e−λt
n>0
X (λt)n
(P n )ij ,
n!
i, j ∈ S.
n>0
Die Potenzreihe in t ist überall konvergent, da P als linearer Operator auf RS eine endliche Norm
hat (Bemerkung 3.25). Damit erhalten wir für Pt = (pij (t))i,j∈S
Pt = e−λt etλP = etλ(P −I) = etQ .
d
Durch summandenweises Ableiten erhalten wir dt
pij (t)t=0 = qij . Somit ist X der gewünschte
Markov-Prozess.
Eindeutigkeit: Nehmen wir an, dass Pet = (e
pij (t))ij , t > 0, die Übergangswahrscheinlichkeiten
e
eines weiteren Markovprozesses X mit dem selben Generator Q sind. Dann ist (nachrechnen!)
lim
s↓0
pij (t + s) − pij (t)
= (Q · Pt )ij
s
und analog für Pet , sodass
Z
pij (t) − peij (t) =
t
0
26
q(p − pe)(s) ij ds.
Wir erhalten
sup Ps − Pes 2 6 sup
s6t
s6t
Z
0
s
Q(Pr − Per ) dr 6 kQk2 sup kPs − Pes k2 t 6 2λt sup kPs − Pes k2 .
2
s6t
s6t
Für t < (2λ)−1 folgt hieraus Pt = Pet . Für ein allgemeines t > 0 wählen wir n ∈ N, sodass
t/n < (2λ)−1 . Dann ist Pet = (Pet/n )n = (Pt/n )n = Pt .
4
4.1
Ergodentheorie
Stationäre und ergodische Prozesse
d
Erinnern wir uns, dass X = Y für zwei Zufallsvariablen X, Y heißt, dass PX = PY (oder L(X) =
L(Y )).
Definition 4.1. Ein stochastischer Prozess (Xt , t ∈ T ) mit T ∈ {R+ , N0 } heißt stationär, falls
d
(Xt1 , . . . , Xtn ) = (Xt1 +s , . . . , Xtn +s )
für alle n > 1 und t1 , . . . , tn , s ∈ T gilt.
Beispiel 4.2 (Markovketten). Sei X = (Xn , n ∈ N0 ) eine homogene Markovkette in diskreter
Zeit mit abzählbarem Zustandsraum (S, P(S)) Verteilungsfamilie (Pi )i∈S . Für eine Verteilung µ
von X0 betrachten wir das Maß
X
Pµ :=
Pi µ({i}) = E[PX0 ] mit X0 ∼ µ.
i∈S
Die Anfangsverteilung µ heißt invariant, falls
Pµ (X1 = i) = Pµ (X0 = i) = µ({i}) ∀i ∈ S.
Ist P = (pij )i,j∈S die (1-Schritt-)Übergangsmatrix und bezeichnen wir mit µ = (µi )i∈S =
(µ({i}))i∈S den Anfangsverteilungsvektor, dann besagt die Invarianz von µ gerade
X
∀i ∈ S :
µj pj,i = µi
⇐⇒
µ · P = µ,
j∈S
d.h. µ ist ein linker Eigenvektor der Matrix P zum Eigenwert 1.
Die Markoveigenschaft impliziert nun, dass X unter einem invarianten Maß stationär ist: Für
alle s > 1 und i0 , . . . , i1 ∈ S gilt
X
Pµ (X0+s = i0 , . . . , Xn+s = in ) =
µj0 pj0 ,j1
· · · pjs−2 js−1 pjs−1 i0 pi0 i1 · · · pin−1 in
| {z }
j0 ,...,js−1 ∈S P
j0
µj0 pj0 ,j1 =µj1
=µi0 pi0 i1 · · · pin−1 in = Pµ (X0 = i0 , . . . , Xn = in ).
p q
Ein einfaches konkretes Beispiel mit S = {1, 2} ist P =
für p ∈ [0, 1], q = 1 − p und
q p
1 1
µ( 2 , 2 ).
Definition 4.3. Eine messbare Abbildung T : Ω → Ω auf einem Wahrscheinlichkeitsraum
(Ω, F, P) heißt maßerhaltend oder maßtreu, falls PT = P gilt, d.h. P(T −1 (A)) = P(A) für alle
A ∈ F.
Beispiel 4.4. Betrachte Ω = {z ∈ C : |z| = 1} mit F = BΩ sowie die Ω-wertige Zufallsvariable
Z = eiU mit U ∼ U([0, 2π]). Dann ist für jedes r ∈ R die Rotation T (z) = z · eir , z ∈ Ω,
maßerhaltend auf (Ω, F, PZ ).
27
Wir betrachten im Folgenden den zeitdiskreten Fall T = N0 .
Lemma 4.5.
(i) Jeder (S, S)-wertige stationäre Prozess X = (Xn , n ∈ N0 ) induziert eine maßerhaltende
Abbildung T = ϑ1 auf (S N0 , S ⊗N0 , PX ) durch den (Links-)Shift
T (Xn )n>0 = (Xn )n>1 .
In diesem Fall gilt Xn = π0 ◦ T n (X), wobei π0 die Projektion auf die 0-te Koordinate und
T n die n-fache Verknüfung von T mit sich selbst bezeichnet.
(ii) Ist Y eine Zufallsvariable und T maßerhaltend auf einem Wahrscheinlichkeitsraum (Ω, F, P),
dann definiert
Xn (ω) := Y (T n (ω)),
n > 0,
einen stationären Prozess (Xn , n ∈ N0 ).
Beweis. (i) Für Zylindermengen A = πN−1
(Bn ), n > 0, Bn ∈ S ⊗(n+1) gilt aufgrund der
0 ,{0,...,n}
Stationärität
PX (T −1 (A)) = P X ∈ T −1 (A)
= P(T ◦ X ∈ A)
= P (X1 , . . . , Xn+1 ) ∈ Bn
= P (X0 , . . . , Xn ) ∈ Bn = P(X ∈ A) = PX (A).
Also stimmen PX (T −1 (·)) und PX auf einem ∩-stabilen Erzeuger von S ⊗N0 überein und sind damit
identisch.
(ii) Für A ∈ S ⊗(n+1) folgt aus der Maßtreue von T
P (Xm , Xm+1 , . . . , Xm+n ) ∈ A =P {ω ∈ Ω : (Y ◦ T m (ω), . . . , Y ◦ T m+n (ω)) ∈ A}
=P T −m ({ω ∈ Ω : (Y ◦ T 0 (ω), . . . , Y ◦ T n (ω)) ∈ A})
=P {ω ∈ Ω : (Y ◦ T 0 (ω), . . . , Y ◦ T n (ω)) ∈ A}
=P (X0 , X1 , . . . , Xn ) ∈ A .
Damit ist (Xn , n ∈ N0 ) stationär.
Falls (Xn , n > 0) stationär ist, dann sind insbesondere die Verteilungen PXn für alle n gleich.
Die Xn sind also gleich verteilt, aber nicht notwendigerweise unabhängig. Wann können wir dennoch auf ein Gesetz der großen Zahlen hoffen?
Beispiel 4.6. Betrachte Ω = {a, b, c, d, e}, F = P(Ω) und T : Ω → Ω mit
T
T
T
a 7→ b 7→ c 7→ a,
T
T
d 7→ e 7→ d.
Dann ist T für jedes Wahrscheinlichkeitsmaß P mit P({a}) = P
P({b}) = P({c}) = p1 und P({d}) =
n
P({e}) = p2 maßerhaltend. Was ist der Grenzwert limn→∞ n1 i=1 Xi für Xn = 1{a,d} ◦ T n ?
(
n
1
,
ω ∈ {a, b, c},
1X
lim
Xi (ω) = 13
n→∞ n
,
ω ∈ {d, e}.
2
i=1
Andererseits ist E[Xi ] = p1 + p2 im Allgemeinen weder
28
1
3
noch 12 .
Definition 4.7. Ein Ereignis A ∈ F heißt (quasi-)invariant bezüglich der maßerhaltendenden
Transformation T auf (Ω, F, P), falls 1T −1 (A) = 1A P-f.s. (äquivalent P(T −1 (A)∆A) = 0 mit
A∆B := {B \ A} ∪ {A \ B}). A heißt strikt invariant, falls T −1 (A) = A. Die Menge aller (quasi)
invarianten Ereignisse bilden eine σ-Algebra (!) IT . T heißt ergodisch, falls IT trivial ist, d.h.
P(A) ∈ {0, 1} für alle A ∈ IT .
Ein stationärer Prozess X = (Y ◦ T n , n > 0) für eine Zufallsvariable Y und eine maßerhaltende
Abbildung T auf (Ω, F, P) heißt ergodisch, falls T ergodisch ist.
Man beachte, dass Nullmengen und Einsmengen immer in IT liegen.
Lemma 4.8.
(i) Eine reelle Zufallsvariable Y ist genau dann IT -messbar, wenn Y ◦T = Y f.s. gilt. Insbesondere ist genau dann T ergodisch, wenn für alle beschränkten Zufallsvariablen die Invarianz
Y ◦ T = Y f.s. impliziert, dass Y f.s. konstant ist.
(ii) Für jedes invariante Ereignis A ∈ IT existiert ein strikt invariantes Ereignis B, sodass
P(A∆B) = 0.
Beweis. Übung 2
.
Bemerkung 4.9. Aufgrund von (ii) ist T ergodisch, falls T −1 (A) = A bereits P(A) ∈ {0, 1} impliziert.
Beispiel 4.10.
(i) U.i.v. Zufallsvariablen (Xn )n>0 bilden einen ergodischen Prozess: Wir setzen Ω := S N0 , F :=
σ(Xn , n > 0) und betrachten den Shift T auf (Ω, F, P) und A ∈ F mit T −1 (A) = A. Dann
gilt:
A ∈ σ((Xn+k )k>0 ) für jedes n ∈ N0 ,
denn ω = (ωn )n>0 ∈ T −1 (A) ist äquivalent zu (ωn )n>1 ∈ A, sodass A = T −1 (A) ∈
σ(X1 , X2 , . . . ). Wir erhalten induktiv A = T −n (A) ∈ σ(Xn , Xn+1 , . . . ) für jedes n.
T
Damit liegt A in der terminalen σ-Algebra n>0 σ((Xn+k )k>0 ) und Kolmogorovs 0-1-Gesetz
impliziert (dank der Unabhängigkeit) P(A) ∈ {0, 1}.
(ii) Wir betrachten die Rotation um einen festen Winkel. Sei hierzu Ω = [0, 1], F = BΩ und P
die Gleichverteilung auf [0, 1]. Wir betrachten T (ω) = (ω + ϑ) mod 1 für alle ω ∈ Ω und ein
festes ϑ ∈ R. Dann ist T maßerhaltend.
Sq−1
(a) Sei ϑ = pq ∈ Q, p, q ∈ N: Betrachte A = k=0 [ kq , k+1/2
). Dann gilt A = (A + pq ) mod 1
q
und P(A) = 21 . Folglich ist T nicht ergodisch für rationale ϑ.
(b) Sei ϑ irrational: Nehmen wir an f = 1A ∈ L2 ([0, 1]) für ein A ∈ F ist invariant: f ◦T = f
f.s. Wir können f als Fourierreihe entwickeln:
f (x) =
∞
X
ck e2πikx
(in L2 ).
k=−∞
und damit
f (T (x)) =
∞
X
ck e2πik(x+ϑ) =
k=−∞
∞
X
ck e2πikϑ e2πikx .
k=−∞
Da die Fourierkoeffizienten eindeutig bestimmt sind, impliziert f = f ◦ T , dass
ck = ck e2πikϑ
∀k ∈ Z.
Ist ϑ ∈
/ Q, folgt aber e2πikϑ 6= 1 für alle k ∈ Z \ {0} und somit f = c0 f.s. Somit ist
f = 1A f.s. konstant und T ergodisch.
29
4.2
Ergodensätze
Wie oben gesehen ist X = (Xn , n ∈ N0 ) mit Xn = Y ◦T n , n > 0, für eine Zufallsvariable Y und eine
maßerhaltende AbbildungPT ein stationärer Prozess. Wir wollen nun Gesetze der großen Zahlen
n−1
für Partialsummen Sn = i=0 Xn untersuchen. Vorbereitend benötigen folgendes Hilfsresultat:
Lemma 4.11 (Maximal-Ergodenlemma). Sei Y ∈ L1 (P) und T maßerhaltend. Setzen wir Sn =
Pn−1
i
i=0 Y ◦ T , S0 = 0 und Mn = max{S0 , S1 , . . . , Sn }, dann gilt für alle n ∈ N
E[Y 1{Mn >0} ] > 0.
Beweis. Für 1 6 j 6 n gilt Mn−1 (T (ω)) > Sj−1 (T (ω)) und daher
Y + Mn ◦ T > Y + Mn−1 ◦ T > Y + Sj−1 ◦ T = Sj .
Auf {Mn > 0} ist Mn = max{S1 , . . . , Sn } und somit
Y + M n ◦ T > Mn .
Wir erhalten
E (Y + Mn ◦ T )1{Mn >0} > E Mn 1{Mn >0} = E Mn ,
Da Mn > 0, folgt
E Y 1{Mn >0} + Mn ◦ T > E Mn .
Da T maßerhaltend ist, gilt E[Mn ◦ T ] = E[Mn ] und deshalb E Y 1{Mn >0} ] > 0.
Satz 4.12 (Ergodensatz von Birkhoff). Für eine maßerhaltende Abbildung T und X ∈ L1 (P) auf
einem Wahrscheinlichkeitsraum (Ω, F, P) gilt
n−1
1X
X ◦ T i = E[X|IT ]
n→∞ n
i=0
f.s. und in L1 -Konvergenz.
lim
Ist T ergodisch, dann gilt
n−1
1X
X ◦ T i = E[X]
n→∞ n
i=0
f.s. und in L1 -Konvergenz.
lim
Beweis. Schritt 1: Setze Rn :=
1
n
Pn−1
i=0
X := lim sup Rn
X ◦ T i . Wir zeigen:
und X := lim inf Rn
n→∞
n→∞
Es gilt
n+1
n Rn+1
= Rn ◦ T + n1 X, wobei
X
n
X := lim sup Rn = lim sup
n→∞
n→∞
sind T -invariant.
→ 0. Das impliziert
n+1
· Rn+1 = lim sup Rn ◦ T = X ◦ T,
n
n→∞
sodass X invariant ist. Analog folgt die Behauptung für X.
Schritt 2: Es gilt X = X f.s.:
Für a < b betrachten wir P(X < a, X > b). Wir wollen nun das Maximal-Ergodenlemma auf
Y = (X − b)1{X<a,X>b} anwenden. Es gilt für Mn wie oben
[
{Mn > 0} =
n
n>1
o
1
Sn > 0
n>1 n
sup
n−1
o
1X
(X ◦ T i − b)1{X◦T i <a,X◦T i >b} > 0
n>1 n i=0
o
n
= sup(Rn − b)1{X<a,X>b} > 0
=
n
sup
n>1
= {X < a, X > b}.
30
Lemma 4.11 und dominierte Konvergenz liefern also
0 6 E (X − b)1{X<a,X>b} 1{Mn >0} → E (X − b)1{X<a,X>b} n → ∞.
Daraus folgt E X 1{X<a,X>b} > bP(X < a, X > b) und analog erhalten wir für Y = (a −
X)1{X<a,X>b} , dass E X 1{X<a,X>b} 6 aP(X < a, X > b). Es folgt
0 6 (a − b)P(X < a, X > b).
Daher muss P(X < a, X > b) = 0 für alle a < b, a, b ∈ Q, gelten. Wir erhalten P(X < X) = 0.
Schritt
3:
(Rn )n>1
ist
gleichgradig
integrierbar
(zur
Erinnerung:
limC→∞ supn E[|Rn |1{|Rn |>C} ] = 0). Dies ist äquivalent dazu, dass L := supn E[|Rn |] < ∞
und
∀ε > 0∃δε > 0 : ∀B ∈ F mit P(B) < δε gilt sup E[|Rn |1B ] < ε
n
(Übung 2
).
Wegen
lim sup E |X ◦ T i |1{|X◦T i |>C} = lim sup E |X|1{|X|>C} = 0,
C→∞ i∈N
C→∞ i∈N0
folgt, dass für jedes ε > 0 ein δ > 0 existiert, sodass für alle B ∈ F mit P(B) < δ supi E[|X ◦
T i |1B ] < ε gilt. Außerdem folgt aus der Dreiecksungleichnung und der Maßtreue von T , dass
sup E[|Rn |] 6 sup E[|X ◦ T n |] = E[|X|] < ∞.
n
n
Wir erhalten also für jedes B ∈ F mit P(B) < δ:
sup E[|Rn |1B ] 6 sup
n
n
n−1
1X E |X ◦ T i |1B < ε.
n i=0
Schritt 4: Wir zeigen die f.s. und L1 -Konvergenz gegen X = X = E[X|IT ] f.s..
Aus Schritt 2 und 3 folgt, dass Rn → X = X f.s. und in L1 (P). Damit folgt entlang einer
Teilfolge (Rnm )m>1
f.s.
E[Rnm |IT ] −→ E[X|IT ] = X
m→∞
f.s.
Nun ist E[X ◦ T |IT ] = E[X|IT ], denn für alle A ∈ IT gilt
Z
Z
Z
Z
E[X|IT ]1A dP =
E[X|IT ]1T −1 (A) dP =
X 1T −1 (A) dP =
X ◦ T 1A dP.
Ω
Ω
Ω
Ω
Wir schließen hieraus
E[Rn |IT ] =
n−1
n−1
1X
1X
E[X ◦ T i |IT ] =
E[X|IT ] = E[X|IT ],
n i=0
n i=0
also X = E[X|IT ] f.s. folgt.
Schritt 5: Ist T ergodisch, so ist jede IT -messbare Abbildung f.s. konstant, woraus E[X|IT ] =
E[X] f.s. folgt.
Satz 4.13 (Lp -Ergodensatz von Neumann). Für eine maßerhaltende Abbildung T und X ∈
Lp (P), p > 1, auf einem Wahrscheinlichkeitsraum (Ω, F, P) gilt
n−1
1X
X ◦ T i = E[X|IT ]
n→∞ n
i=0
lim
Beweis. Übung 2
.
f.s. und in Lp -Konvergenz.
Pn−1
Beispiel 4.14. Ist (Xn , n > 0) ein ergodischer Prozess in L1 (P), dann gilt limn→∞ n1 k=0 Xk =
E[X0 ] f.s. und in L1 . Wir erhalten insbesondere Kolmogorovs starkes Gesetz der großen Zahlen
für u.i.v. (Xn )n>0 aus L1 (P).
31
4.3
Anwendung auf Markovketten
Wann ist eine Markovkette stationär oder ergodisch? Wir betrachten wieder eine homogene Markovkette X = (Xn , n ∈ N0 ) in diskreter Zeit mit Übergangsmatrix P . Eine Verteilung µ war
invariant, wenn µP = µ (in Matrixnotation) gilt. Für jeden Zustand y ∈ S erinnern wir uns an
die Stoppzeit
Ty := inf{n > 0 : Xn = y}.
y hieß rekurrent, falls Py (Ty < ∞) = 1.
Definition 4.15. Ein rekurrenter Zustand x ∈ S heißt positiv rekurrent, falls Ex [Tx ] < ∞, und
andernfalls nullrekurrent.
p q
Beispiel 4.16. Auf S = {1, 2} sei (Xn , n > 0) eine Markovkette mit Übergangsmatrix
q p
mit p, q > 0 und p + q = 1. Dann sind beide Zustände positiv rekurrent:
E1 [T1 ] = 1p + 2q 2 + 3pq 2 + · · · + (k + 2)pk q 2 + . . .
X
= p + (1 − 2p + p2 )
(k + 2)pk
k>0
=p+
X
k
kp +
k>0
X
(k + 2)pk+2 + 2
k>0
X
pk − 2
k>0
X
(k + 2)pk+1 = 2 < ∞.
k>0
Satz 4.17. Sei x ∈ S positiv rekurrent. Dann existiert ein invariantes Maß µ gegeben durch
PTx −1
P∞
Ex [ n=0
1{Xn =y} ]
Px (Xn = y, Tx > n)
= n=0
, y ∈ S.
µ({y}) :=
Ex [Tx ]
Ex [Tx ]
µ ist also der erwartete Anteil der Besuche von y auf einer Exkursion von x nach x.
Beweis. Da x positiv rekurrent ist, gilt Ex [Tx ] < ∞ und
PTx −1 P
X
Ex [ n=0
y∈S 1{Xn =y} ]
= 1.
µ({y}) =
Ex [Tx ]
y∈S
Setzen wir nun qn,x (y) := Px (Xn = y, Tx > n), so ist µP = µ äquivalent zu
XX
X
∀y ∈ S :
qn,x (z)pzy =
qn,x (y).
z∈S n>0
n>0
Sei zunächst y 6= x, dann
X
X
qn,x (z)pzy =
Px (Xn = z, Tx > n, Xn+1 = y) = Px (Tx > n + 1, Xn+1 = y) = qn+1,x (y).
|
{z
}
z∈S
z∈S
X
∈Fn
Da q0,x (y) = 0 wegen y 6= x, erhalten wir
XX
X
X
qn,x (z)pzy =
qn,x (y) =
qn,x (y).
z∈S n>0
n>1
n>0
Andererseits gilt für y = x
X
X
qn,x (z)pzx =
Px (Xn = z, Tx > n, Xn+1 = x) = Px (Tx = n + 1)
z∈S
z∈S
und damit
XX
z∈S n>0
qn,x (z)pzy =
X
Px (Tx = n) = 1 = Ex
x −1
h TX
n=0
n>1
32
i
1{Xn =x} =
X
n>0
qn,x (x).
Lemma 4.18. Ist X irreduzibel, so hat X höchstens eine invariante Verteilung.
P∞
Beweis. Wir definieren die stochastische Matrix Pe = (e
pxy )x,y∈S via pexy := n=1 2−n (P n )x,y für
alle x, y ∈ S. Für jede invariante Verteilung µ von X gilt dann µPe = µ. Da X irreduzibel ist, folgt
außerdem pexy > 0 für alle x, y ∈ S.
Wir führen nun einen Widerspruchsbeweis. Seien µ = (µx )x∈S und ν = (νx )x∈S zwei invariante
Verteilungen mit µ 6= ν. Dann existieren zwei Zustände x1 , x2 ∈ S mit µx1 > νx1 und µx2 < νx2 .
Damit gilt
(µx1 − νx1 )e
px1 y + (µx2 − νx2 )e
px2 y < |µx1 − νx1 |e
px1 y + |µx2 − νx2 |e
p x2 y
Da µ und ν invariant sind, folgt
X
X
(µ − ν)Pe |µy − νy | =
y
y∈S
y∈S
=
X X
|
(µx − νx )e
px,y |
y∈S x∈S
<
XX
|µx − νx |e
px,y =
y∈S x∈S
X
|µx − νx |.
x∈S
Dies ist ein Widerspruch.
Satz 4.19. Ist X eine irreduzible Markovkette mit einem positiv rekurrenten Zustand, dann existiert eine eindeutige invariante Verteilung µ, X ist ein ergodischer Prozess unter Pµ und es gilt
für alle x ∈ S
n−1
1X
1{Xk =x} n→∞
−→ µ({x}),
Pµ -f.s.
n
k=0
Beweis. Es bleibt nur zu zeigen, dass X unter Pµ ergodisch ist. Unter Pµ ist X stationär und es
gilt (Xk )k>n = ϑn (X) für den ShiftTϑ. Sein nun A ∈ Iϑ . Wegen {X ∈ A} = {X ∈ ϑ−n (A)} =
{(Xk )k>n ∈ A} für jedes n, ist A ∈ n>1 σ(Xk , k > n). Für jede endliche Stoppzeit τ gilt
Pµ (X ∈ A|Fτ ) = PXτ (X ∈ A),
(5)
denn für jedes B ∈ Fτ erhalten wir aus der starken Markoveigenschaft
Eµ [1{X∈B} 1{X∈A} ] =
=
∞ X
X
n=0 x∈S
∞ X
X
n=0 x∈S
M arkov
=
∞ X
X
Pµ X ∈ B, τ = n, Xn = x, X ∈ A
Pµ X ∈ B, τ = n, Xn = x, ϑn (X) ∈ A
|
{z
}
X
∈Fn
Pµ X ∈ B, τ = n, Xn = x Px (X ∈ A)
n=0 x∈S
=Eµ
1{X∈B} PXτ (X ∈ A) .
Da X eine irreduzible Markovkette mit einem rekurrenten Zustand ist, ist jedes x ∈ S rekurrent
(Satz 3.18). Wir können also für jedes x ∈ S die Stoppzeit τ = Tx wählen. Dann gilt Tx < ∞ f.s.
und aus (5) ergibt sich
Pµ (X ∈ A) = Eµ [Pµ (X ∈ A|FTx )] = Px (X ∈ A)
∀x ∈ S.
Insbesondere ist PXn (X ∈ A) = Pµ (X ∈ A) f.s. und mit τ = n in (5)
Pµ (X ∈ A|X0 , . . . , Xn ) = PXn (X ∈ A) = Pµ (X ∈ A) f.s.
33
Mit dem Martingalkonvergenzsatz ergibt sich für jedes A ∈ Iϑ ⊆ σ(Xk , k > 0)
Pµ (X ∈ A|X0 , . . . , Xn ) −→ Pµ (X ∈ A|σ(Xk , k > 0)) = 1{X∈A}
n→∞
Pµ − f.s.
Damit folgt Pµ (X ∈ A) ∈ {0, 1}, sodass X unter Pµ ergodisch ist. Die Konvergenzaussage für
Pn−1
1
k=0 1{Xk =x} ergibt sich schließlich aus Birkhoffs Ergodensatz.
n
Unter den Voraussetzungen des vorherigen Satzes ist also µ({x}) die mittlere Aufenthaltsdauer
von X in x.
Satz 4.20. Besitzt eine irreduzible Markovkette X eine invariante Verteilung µ, dann sind alle
Zustände positiv rekurrent und es gilt:
µ({y}) =
1
,
Ey [Ty ]
y ∈ S.
Beweis. Da X irreduzibel und stationär unter µ ist, gilt für jedes y ∈ S:
X
µ({y}) = Pµ (X0 = y) = Pµ (X1 = y) =
µ({x})px,y > 0.
x∈S
Nun ist ein y ∈ S genau dann rekurrent, wenn Ex [
Diese Bedingung ist aber erfüllt, wegen
Eµ
n
hX
P
k>1
1{Xk =y} ] = ∞ (Satz 3.17) für ein x ∈ S.
i
1{Xk =y} = nµ({y}) → ∞ für n → ∞.
k=1
Aus dem Beweis von Satz 4.19 folgt nun, dass X ergodisch ist (wir benötigen lediglich die Existenz
eines invarianten Maßes sowie die Rekurrenz der Zustände).
Pk−1
Wir betrachten nun die Folge (Ty ◦ϑTyl )l>0 . Diese ist unter Py u.i.v. mit Tyk = l=0 Ty ◦ϑTyl für
die k-te Eintrittszeit und Py (Tyk < ∞) = 1 (Satz 3.15). Somit gilt für k → ∞ (also auch Tyk → ∞)
k
Ty
k−1
1 X
−1
Tyk
1
1X
Ty ◦ ϑTyl =
=
1
(X
)
→
n
{y}
k
k
k
Ty n=1
µ({y})
Pµ -f.s.
l=0
Pk−1
Ty ◦ ϑTyl = µ({y})−1 Py -f.s.. Aus dem starken
Pk−1
Gesetz der großen Zahlen folgt nun einerseits, dass E[Ty ] < ∞ (weil sonst limk→∞ k1 l=0 Ty ◦
ϑTyl = ∞ f.s. gelten würde) und anderseits
Wegen µ({y}) > 0 gilt dann auch limk→∞
1
k
l=0
k−1
1X
1
= lim
Ty ◦ ϑTyl = Ey [Ty ] Py − f.s.
µ({y}) k→∞ k
l=0
Da die linke und die rechte Seite deterministisch sind, muss also µ({y}) =
1
Ey [Ty ]
gelten.
Fassen wir die vorangegangen Sätze zusammen, so erhalten wir:
Korollar 4.21. Es sei X = (Xn , n > 0) eine homogene, irreduzible Markovkette. Dann sind
folgende Bedingungen äquivalent:
(i) Es gibt einen positiv rekurrenten Zustand.
(ii) Alle Zustände sind positiv rekurrent.
(iii) Es existiert eine eindeutige invariante Verteilung µ.
Ist eine und somit alle Bedingungen erfüllt, dann ist X ergodisch.
34
5
Brownsche Bewegung
5.1
Stetige Pfade
In Beispiel 3.9 hatten wir bereits einen (Markov-)Prozess X = (Xt , t > 0) diskutiert mit unabhängigen, stationären und normalverteilten Zuwächsen. Genauer galt Xt − Xs ∼ N (0, t − s)
für alle 0 6 s < t (unter P = P0 ). Häufig ist man aber nicht nur an Verteilungseigenschaften
interessiert, sondern möchte auch das Verhalten der Pfade t 7→ Xt beschreiben, bspw. über das
Funktional F (X) := supt∈[0,1] Xt . A priori muss aber F (X) nicht mal eine Zufallsvariable sein.
Wir werden in diesem Kapitel zeigen, dass X eine Modifikation B (also P(Xt = Bt ) = 1 für alle
t > 0) mit stetigen Pfaden besitzt, was insbesondere die Messbarkeit von F (X) und anderen interessanten Funktionalen impliziert. Der resultierende Prozess ist das zentrale Objekt in der Theorie
stochastischer Prozesse: die Brownsche Bewegung.
Definition 5.1. Ein reellwertiger stochastischer Prozess B = (Bt , t > 0) auf einem Wahrscheinlichkeitsraum (Ω, F, P) heißt Brownsche Bewegung, falls
(i) B0 = 0,
(ii) B besitzt unabhängige Zuwächse, d.h. für alle n ∈ N, 0 6 t0 < · · · < tn sind
Bt1 − Bt0 , . . . , Btn − Btn−1 unabhängig,
d
(iii) B besitzt stationäre Zuwächse, d.h. für alle 0 6 s < t gilt Bt − Bs = Bt−s ,
(iv) Bt ∼ N (0, t),
(v) Für P-f.a. ω ∈ Ω ist t 7→ Bt (ω) stetig.
Wir haben bereits gesehen, dass ein Prozess mit den Eigenschaften (i)-(iv) existiert, wissen aber
nicht, ob dieser eine stetige Modifikation besitzt. Um das zu beweisen, werden wir das KolmogorovChentsov-Kriterium verwenden, welches uns über die Stetigkeit hinaus sogar Hölder-Regularität
liefert.
Definition 5.2. Für γ ∈ (0, 1] und I ⊆ R heißt eine Funktion f : I → Rd lokal Hölder-stetig der
Ordnung γ oder kurz lokal γ-Hölder-stetig, falls für alle x ∈ I Konstanten ε, C > 0 existieren,
sodass
∀y1 , y2 ∈ I mit |x − y1 | ∨ |x − y2 | 6 ε :
|f (y1 ) − f (y2 )| 6 C|y1 − y2 |γ .
f heißt Hölder-stetig auf I von der Ordnung γ, falls ε beliebig groß gewählt werden kann und C
nicht von x abhängt.
Satz 5.3 (Kolmogorov-Chentsov). Es sei X = (Xt , t > 0) ein reellwertiger Prozess. Für jedes
T > 0 gebe es Konstanten α, β, C > 0 mit
∀s, t ∈ [0, T ] :
E |Xt − Xs |α 6 C|t − s|1+β .
Dann gilt:
(i) Es existiert eine Modifikation Y = (Yt , t > 0) von X, die lokal Hölder-stetige Pfade von jeder
Ordnung γ ∈ (0, β/α) hat.
(ii) Ist γ ∈ (0, β/α), so existiert zu allen ε, T > 0 eine Zahl K = K(ε, T, α, β, C, γ) > 0 (unabhängig von ω!) mit
P ∀s, t ∈ [0, T ] : |Ys − Yt | 6 K|t − s|γ > 1 − ε.
35
Beweis. (i) Es reicht für jedes T > 0 zu zeigen, dass X auf [0, T ] eine Modifikation X T besitzt,
die γ-Hölder-stetig für jedes γ ∈ (0, β/α) ist. Für S, T > 0 sind dann die Prozesse X S und X T auf
[0, S ∧ T ] ununterscheidbar (Übung 2
). Damit sind
[
ΩS,T
und Ω∞ :=
ΩS,T := ∃t ∈ [0, S ∧ T ] : XtS 6= XtT
S,T ∈N
Nullmengen. Definieren wir nun
dte
t > 0, ω ∈ Ω \ Ω∞ ,
Yt (ω) := Xt (ω),
dann ist Y eine lokal Hölder-stetige Modifikation von X. O.B.d.A. sei nun T = 1. Wir werden
zeigen, dass X eine auf [0, 1] γ-Hölder-stetige Modifikation besitzt. Die Chebyshev-Ungleichung
liefert für alle ε > 0
C
(6)
P |Xt − Xs | > ε 6 α |t − s|1+β ∀s, t > 0.
ε
P
Insbesondere gilt die stochastische Stetigkeit Xs → Xt für s → t.
Wir werden zunächst Y auf dyadischen Gittern konstruieren. Nach (6) gilt für γ > 0, n ∈ N
und k ∈ {1, . . . , 2n }:
P |Xk2−n − X(k−1)2−n | > 2−γn 6 C2−n(1+β−αγ) .
Wir setzen
An,γ := ω : ∃k ∈ {1, . . . , 2n } mit |Xk2−n (ω) − X(k−1)2−n (ω)| > 2−γn
sowie
∞
[
Bn,γ :=
Am,γ ,
N := lim sup An,γ =
n→∞
m=n
∞
\
Bn,γ .
n=1
Es folgt für jedes n ∈ N
n
P(An,γ ) 6
2
X
P |Xk2−n − X(k−1)2−n | > 2−γn 6 C2−n(β−αγ) .
k=1
Wählen wir nun ein γ ∈ (0, β/α), ergibt sich
P(Bn,γ ) 6
∞
X
P(Am,γ ) 6 C
m=n
2−(β−αγ)n
→ 0,
1 − 2αγ−β
n → ∞.
Das S
Lemma von Borel-Cantelli liefert P(N ) = 0. Sei nun ω ∈ N c fest und n0 = n0 (ω) so, dass
∞
ω∈
/ n=n0 An,γ . Also gilt
|Xk2−n (ω) − X(k−1)2−n (ω)| < 2−γn
∀k ∈ {1, . . . , 2n }, n > n0 .
(7)
Wir definieren nun die Menge der dyadischen Zahlen auf [0, 1]
Dm := {k2−m , k = 0, . . . , 2m }
und D :=
[
Dm .
m∈N
Pm
−i
Jedes t ∈ Dm besitzt eine eindeutige Binärdarstellung t =
für gewisse bi (t) ∈
i=0 bi (i)2
{0, 1}, i = 1, . . . , m. Seien m > n > n0 sowie s, t ∈ Dm mit s 6 t und |s − t| 6 2−n . Für
u := max(Dn ∩ [0, s]) ist dann
u 6 s < u + 2−n
und u 6 t < u + 21−n .
36
Damit gilt auch bi (t − u) = bi (s − u) = 0 für i < n. Setzen wir
tl := u +
l
X
bi (t − u)2−i
für l = n − 1, . . . , m,
i=n
erhalten wir tn−1 = u, tm = t, tl ∈ Dl sowie
tl − tl−1 6 2−l
für l = n, . . . , m.
Also ist nach (7)
|Xt (ω) − Xu (ω)| 6
m
m
X
X
Xt (ω) − Xt (ω) 6
2−γl 6
l
l−1
l=n
und analog |Xs (ω) − Xu (ω)| 6
2−γn
1−2−γ .
l=n
2−γn
1 − 2−γ
Wir erhalten
|Xt (ω) − Xs (ω)| 6 2
2−γn
.
1 − 2−γ
Wir setzen C0 := 21+γ /(1 + 2−γ ). Für alle s, t ∈ D mit s 6= t, |s − t| 6 2−n0 erhalten wir nun für
n > n0 mit der Eigenschaft 2−n−1 6 |t − s| 6 2−n , dass
|Xt (ω) − Xs (ω)| 6 C0 |t − s|γ .
Für beliebige s, t ∈ D mit s < t erhalten wir mit rk := s + (t − s)k2−n0 , k = 0, . . . 2n0
n
2 0
γ
X
Xr (ω) − Xr (ω) 6 C0 2n0 t − s
|Xt (ω) − Xs (ω)| 6
= C0 2(1−γ)n0 |t − s|γ .
k
k−1
| {z }
2n0
k=1
(8)
=:K
X(ω) ist also auf D γ-Hölder-stetig mit einer globalen Konstante und wir können es eindeutig
stetig auf [0, 1] fortsetzen. Für t ∈ D setzen wir Yt := Xt . Für t ∈ [0, 1] \ D und eine Folge
(sn )n∈N ⊆ D mit sn → t ist (Xsn (ω))n eine Cauchyfolge und es existiert der Grenzwert
Yt (ω) := lim Xs (ω).
D3s→t
Es gilt damit für beliebige s, t ∈ [0, 1]
|Yt (ω) − Ys (ω)| 6 K|t − s|γ ,
P
sodass Y Hölder-stetig von der Ordnung γ ist. Aufgrund der Konvergenzen Xs → Xt und Ys (ω) →
Yt (ω) für alle s → t und P-f.a. ω ∈ Ω gilt P(Xt 6= Yt ) = 0. Also ist Y tatsächlich eine Modifikation
von X.
(ii) Sei ε > 0 und n ∈ N so groß, dass
P(Bn,γ ) 6 C
2−(β−αγ)n
< ε.
1 − 2αγ−β
Für ω ∈
/ Bn,γ gilt nach dem oben gezeigten (8), was gerade die Behauptung mit T = 1 ist. Die
Aussage für beliebige T folgt analog.
Korollar 5.4. Es existiert ein Wahrscheinlichkeitsraum (Ω, F, P) und eine Brownsche Bewegung
B auf (Ω, F, P). Die Pfade von B sind f.s. lokal γ-Hölder-stetig für jedes γ ∈ (0, 1/2).
37
Beweis. Wie in Beispiel 3.9 gesehen, existiert ein Prozess X mit den Eigenschaften (i)-(iv) auf
einem Wahrscheinlichkeitsraum (Ω, F, P). Für alle 0 6 s < t gilt
d √
Xt − Xs = t − sX1 ∼ N (0, t − s)
und daher für jedes n ∈ N und Cn := E[X12n ] = (2n)!
2n n! < ∞:
√
2n E (Xt − Xs )2n = E
t − sX1
= Cn |t − s|n .
Für jedes beliebige γ ∈ (0, 1/2) wählen wir nun n so, dass γ < n−1
2n und erhalten aus Satz 5.3
die Existenz einer Version B von X mit f.s. γ-Hölder-stetigen Pfaden. Da alle stetigen Versionen
äquivalent sind, sind die Pfade von B γ-Hölder-stetig für jedes γ ∈ (0, 1/2).
Mit der quadratischen Variaion lernen wir nun noch eine weitere wichtige Pfadeigenschaft
(neben der Hölder-Regularität) der Brownschen Bewegung kennen. Unter einer Partition oder
Zerlegung von [0, 1] verstehen wir eine endliche, geordnete Menge π = {t0 , t1 , . . . , tI } ⊆ [0, 1] für
ein I ∈ N mit t0 = 0 und tI = 1.
Satz 5.5. Sei (πn )n>1 eine Folge von Partitionen von [0, 1] mit πn ⊆ πn+1 für alle n ∈ N sowie
maxti ∈πn |ti+1 − ti | → 0 für n → ∞. Für jedes t ∈ [0, 1] und
X
Stn :=
(Bti+1 ∧t − Bti )2
ti ∈πn ,ti <t
gilt
lim Stn = t f.s. und in L2 (P).
P
Beweis. L2 -Konvergenz: Es gilt E[Stn ] = ti ∈πn ,ti <t (ti+1 ∧ t − ti ) = t und
X
Var(Stn ) =
Var (Bti+1 ∧t − Bti )2
n→∞
ti ∈πn ,ti <t
=2
X
(ti+1 ∧ t − ti )2
ti ∈πn ,ti <t
X
6 2 max |ti+1 − ti |
ti ∈πn
(ti+1 ∧ t − ti ) → 0,
n → ∞.
ti ∈πn ,ti <t
{z
|
=t
}
L2
Damit gilt Stn → t.
Fast sichere Konvergenz: Wir definieren
Fn := σ (Bti+1 ∧t − Bti )2 , ti ∈ πm , m > n ,
sodass Fn ⊇ Fn+1 . Da sign(X) und |X| für jede normalverteilte, zentrierte Zufallsvariable X
unabhängig sind, gilt
h X
2 i
E[Bt2 |Fn ] = E
(Bti+1 ∧t − Bti ) Fn
ti ∈πn ,ti <t
+
X E (Bti+1 ∧t − Bti )(Btj+1 ∧t − Btj )Fn
+
X
=
Stn
=
Stn
=
Stn .
i6=j
|Bti+1 ∧t − Bti | · |Btj+1 ∧t − Btj | · E sign(Bti+1 ∧t − Bti ) sign(Btj+1 ∧t − Btj )
i6=j
Also ist Stn = E[Bt2 |Fn ], n > 1, ein Rückwärtsmartingal bzgl. (Fn ) (interpretiere „n“ als „−n“)
und konvergiert Stn f.s.. Aufgrund der L2 -Konvergenz gegen t muss der f.s. Grenzwert ebenfalls t
sein.
38
Bemerkung 5.6. Der Grenzwert limn→∞ Stn heißt quadratische Variation von B in Analogie zur
Totalvariation einer Funktion f :
X
T V[0,t] (f ) = sup
|f (ti+1 ) − f (ti )|,
π
ti ∈π,ti <t
wobei das Supremum über alle Partitionen von [0, t] betrachtet wird. Ist f stetig, so gilt
X
T V[0,t] (f ) = lim
|f (ti+1 ) − f (ti )|
n→∞
ti ∈πn ,ti <t
für jede Folge von Partitionen (πn )n>1 mit maxti ∈πn |ti+1 − ti | → 0 für n → ∞.
Für die quadratische Variation gilt dieser Zusammenhang nicht! Oben haben wir den Grenzwert
von Stn entlang einer Folge von feiner werdenden Partitionen bestimmt. Im Gegensatz dazu kann
man zeigen, dass das Supremum über alle Partitionen der summierten, quadrierten Inkremente
der Brownschen Bewegung f.s. unendlich ist.
Korollar 5.7. Die Pfade der Brownschen Bewegung besitzen f.s. auf keinem Intervall endliche
Variation:
P ∃0 6 a < b 6 1 : T V[a,b] (B) < ∞ = 0.
Insbesondere ist die Brownsche Bewegung auf keinem Intervall differenzierbar mit Wahrscheinlichkeit 1.
Beweis. Übung 2
.
Bemerkung 5.8. Die Aussage des Korollars kann man noch deutlich verschärfen. Der Satz von
Paley-Wiener-Zygmund besagt, dass für jedes γ > 12 die Pfade der Brownschen Bewegung f.s. in
keinem Punkt γ-Hölder-stetig sind.
5.2
Verteilungseigenschaften
Die Brownsche Bewegung ist ein zentrierter Gaußprozess:
Definition 5.9. Ein stochastischer Prozess X = (Xt , t ∈ I) für ein Intervall I ⊆ R heißt Gaußprozess, falls für jedes n ∈ N und alle t1 , . . . , tn > 0 der Vektor (Xt1 , . . . , Xtn ) n-dimensional
normalverteilt ist. X heißt zentriert, falls E[Xt ] = 0 für alle t > 0 gilt. Die Funktion
Γ(s, t) := Cov(Xs , Xt ),
s, t ∈ I,
heißt Kovarianzfunktion von X.
Bemerkung 5.10. Durch die Kovarianzfunktion sind die endlichdimensionalen Verteilungen eines
zentrierten Gaußprozesses eindeutig festgelegt.
Lemma 5.11. Für einen stochastischen Prozess X = (Xt , t > 0) sind äquivalent:
(i) X ist eine Brownsche Bewegung.
(ii) X ist ein stetiger, zentrierter Gaußprozess mit Kovarianzfunktion Γ(s, t) = s ∧ t für alle
s, t > 0.
Beweis. Nach obiger Bemerkung ist X durch (ii) eindeutig bestimmt. Es genügt also zu zeigen,
dass die Kovarianzfunktion der Brownschen Bewegung gerade Γ(s, t) = s ∧ t ist. Es gilt für jedes
0 6 s < t aufgrund der Unabhängigkeit von Xs und Xt − Xs , dass
Γ(s, t) = Cov(Xs , Xt ) = Cov(Xs , Xt − Xs ) + Cov(Xs , Xs ) = Var(Xs ) = s.
Aus dieser Äquivalenz folgt sofort folgende Skalierungseigenschaft:
39
Korollar 5.12 (Skalierungsinvarianz). Ist B eine Brownsche Bewegung, dass ist für jedes α 6= 0
der Prozess (α−1 Bα2 t , t > 0) ebenfalls eine Brownsche Bewegung.
Beispiel 5.13. Ein weiteres Beispiel für einen stetigen Gaußprozess X = (Xt , t ∈ [0, 1]) ist die
Brownsche Brücke, welche durch die Kovarianzfunktion Γ(s, t) = s ∧ t − st für s, t ∈ [0, 1] definiert
ist. Ist B eine Brownsche Bewegung, so kann man X mittels
Xt := Bt − tB1 ,
t ∈ [0, 1],
konstruieren. Offenbar ist X dann ein stetiger, zentrierter Gaußprozess. Wir rechnen nach:
Γ(s, t) = Cov(Xs , Xt ) = Cov(Bs − sB1 , Bt − tB1 )
= Cov(Bs , Bt ) − s Cov(B1 , Bt ) − t Cov(Bs , B1 ) + st Cov(B1 , B1 )
= s ∧ t − st.
Aus unserer Konstruktion der Brownschen Bewegung wissen wir bereits, dass B ein Markovprozess ist: Wir definieren die Verteilungsfamilie Px für x ∈ R so, dass auf dem Wahrscheinlichkeitsraum (Ω, F, Px ) der Prozess (Bt − x, t > 0) eine Brownsche Bewegung ist. Mit anderen
Worten ist B unter Px eine in x gestartete Brownsche Bewegung und die (schwache) Markoveigenschaft folgt aus der Definition. Tatsächlich erfüllt die Brownsche Bewegung sogar die starke
Markoveigenschaft, vgl. Satz 3.12, wie folgender Satz zeigt.
Satz 5.14 (Starke Markoveigenschaft). Für die Brownsche Bewegung B auf (Ω, F, P) mit natürlicher Filtration Ft = σ(Bs , s 6 t) für t > 0 und für jede f.s.-endliche Stoppzeit τ bgzl. (Ft )t>0 ist
et := Bt+τ − Bτ , t > 0, eine Brownsche Bewegung, die unabhängig von Fτ ist.
B
Beweis. Für deterministische τ = s > 0 folgt direkt aus der Definition, dass (Bt+s − Bs )t>s
wieder eine Brownsche Bewegung unabhängig von Bs ist. Da die Verteilung von B durch die
endlich-dimensionalen Verteilungen festgelegt ist, genügt es zu zeigen, dass für jede beschränkte
Fτ -messbare Funktion ϕ : Ω → R und jede beschränkte, messbare Funktion f : R[0,∞) → R, die
nur von endlich vielen Koordinaten t1 , . . . , tn > 0, n ∈ N, abhängt,
e = E[ϕ]E f B
E ϕf B
gilt. Mittels Approximationsargumenten können wir f als stetig annehmen.
Sei also f (B) = g(Bt1 , . . . , Btn ) für eine stetige, beschränkte Funktion g : Rn → R. Für jedes
m ∈ N definieren wir τ m := 2−m b2m τ + 1c (τ m ist also kleinste Zahl auf dem dyadischen Gitter
N2−m , die größer als τ ist), sodass τ m ebenfalls eine Stoppzeit ist mit τ m ↓ τ für m → ∞. Wir
etm := Bt+τ m − Bτ m , t > 0. Dann gilt
definieren außerdem den Prozess B
h
i
e m = E ϕg B
etm , . . . , B
etm
E ϕf B
1
n
X h
i
=
E ϕ1{τ m =k2−m } g Bt1 +k2−m − Bk2−m , . . . , Btn +k2−m − Bk2−m
{z
}
{z
} |
|
k>0
unabhängig von Fk2−m
messbar bzgl. Fk2−m
X =
E ϕ1{τ m =k2−m } E[f (B)]
k>1
= E[ϕ]E[f (B)].
e folgt f (B
e m ) → f (B)
e f.s. Zusammen mit der
Aufgrund der fast sicheren Stetigkeit von f und B
Beschränktheit von ϕ und f ergibt sich
e = lim E ϕf B
e m = E[ϕ]E[f (B)].
E ϕf B
n→∞
Als Anwendung der starken Markoveigenschaft, erhalten wir das so genannte Reflexionsprinzip,
welches uns schon für Irrfahrten begegnet ist.
40
Satz 5.15 (Reflexionsprinzip). Für ein beliebiges b > 0 und die Stoppzeit τb := inf{t > 0 : Bt > b}
gilt
P sup Bs > b = P(τb 6 t) = 2P(Bt > b) = P(|Bt | > b) für alle t > 0.
s∈[0,t]
et := Bτ +t − Bτ = Bτ +t − b erhalten wir
Beweis. Es gilt P(Bt > b) = P(Bt > b, τb 6 t). Mit B
b
b
b
h i
et−τ )Fτ 1{τ 6t} .
P(Bt > b) = E E 1[0,∞) (B
b
b
b
et−τ > 0) = P(B
et−τ < 0) =
Aufgrund der Symmetrie P(B
b
b
P(Bt > b) =
1
2
folgt also
1
P(τb 6 t).
2
Korollar 5.16. Für jedes t > 0 haben die Zufallsvariablen Mt := max06s6t Bs , |Bt | sowie Mt −Bt
die gleiche Verteilung.
Beweis. Für die ersten beiden Zufallsvariablen folgt aus dem Reflexionsprinzip und der Symmetrie
der Verteilung von Bt , dass für alle b > 0 gilt:
P(Mt > b) = P(τb 6 t) = P(|Bt | > b)
d
es := Bt−s − Bt auf
und damit Mt = |Bt |. Für die dritte Zufallsvariable verwenden wir, dass B
s ∈ [0, t] wieder eine Brownsche Bewegung ist und damit gilt
eu =: M
ft .
Mt − Bt = max (Bs − Bt ) = max (Bt−u − Bt ) = max B
06s6t
06u6t
06u6t
d
d
ft =
Wegen M
Mt erhalten wir Mt − Bt = Mt .
Bemerkung 5.17. Als weitere Anwendung des Reflexionsprinzip, kann man zeigen (Übung 2
), dass
für eine Brownsche Bewegung B der Prozess X = (Xt , t > 0) mit
(
tB1/t , falls t > 0,
Xt =
0,
sonst,
ebenfalls eine Brownsche Bewegung ist (Zeitinvertierung).
5.3
Schwache Konvergenz und der Satz von Donsker
Wir wollen nun die Brownsche Bewegung als kanonischen Prozess auf dem Raum
Ω = C([0, ∞))
der stetigen Pfade auf R+ betrachten. Wir erinnern uns, dass C([0, T ]) bzw. C([0, ∞)) ausgestattet
mit der Supremumsnorm kf k∞ = supt∈[0,T ] |f (t)| ( gleichmäßige Konvergenz) bzw. der SupreP
mumsnorm auf Kompakta kf kc,∞ = n>1 2−n (kf 1[0,n] k∞ ∧ 1) ( gleichmäßige Konvergenz auf
Kompakta) separable Banachräume (=polnischer Raum) sind und deren Borel-σ-Algebren durch
die Koordinatenprojektionen erzeugt werden:
BC([0,T ]) = σ πt , t ∈ [0, T ] .
BC([0,∞)) = σ πt , t > 0 ,
wobei πt (f ) := f (t) (Übung 2
). Insbesondere wird eine Verteilung P auf C([0, ∞)) durch die
endlich-dimensionalen Verteilungen
−1
P(π{t
(Bn )),
1 ,...,tn }
n ∈ N, Bn ∈ BRn , t1 , . . . , tn > 0
eindeutig beschrieben.
41
Definition 5.18. Sei P das Wahrscheinlichkeitsmaß auf Ω = C([0, ∞)) mit F = BC([0,∞)) , bzgl.
dessen der kanonische Prozess X = (Xt , t > 0) (d.h. Xt = πt ) eine Brownsche Bewegung ist.
Dann heißt P Wiener-Maß und das Tripel (Ω, F, P) Wiener-Raum. Der Prozess X wird dann
auch Wiener-Prozess genannt.
In diesem stochastischen Modell wird sofort klar, dass Funktionale wie das eingangs erwähnte
F (X) := supt∈[0,1] Xt tatsächlich Zufallsvariablen auf dem Wiener-Raum sind.
Das Ziel dieses Abschnittes ist eine explizite Konstruktion des Wiener-Maßes. Das gibt uns
insbesondere eine Möglichkeit die Brownsche Bewegung zu konstruieren bzw. zu simulieren. Hierzu
werden wir nachweisen, dass der Wiener-Prozess der schwache Grenzwert (d.h. Grenzwert bzgl.
der schwachen Konvergenz = Konvergenz in Verteilung) von geeignet skalierten Irrfahren auf dem
Raum der stetigen Funktionen ist. Wir wiederholen (bzw. verallgemeinern) hierzu die Konvergenz
in Verteilung.
Definition 5.19. Sei (S, BS ) ein metrischer Raum mit der Borel-σ-Algebra. Eine Folge von
Wahrscheinlichkeitsmaßen (Pn ) auf (S, BS ) konvergiert schwach gegen ein Wahrscheinlichkeitsmaß
P auf (S, BS ), falls
Z
Z
n→∞
∀f ∈ Cb (S) :
f dPn −→
S
f dP,
S
w
wobei Cb (S) := {f : S → R|f stetig, beschränkt}. Wir schreiben Pn ⇒ P (alternativ Pn → P oder
d
Pn → P). (S, BS )-wertige Zufallsvariablen Xn konvergieren in Verteilung gegen eine (S, BS )wertige Zufallsvariable X, falls PXn ⇒ PX , d.h. falls
∀f ∈ Cb (S) :
E[f (Xn )] → E[f (X)].
Wir schreiben auch Xn ⇒ X.
Beispiel 5.20.
(i) Aus der „Mathematischen Stochastik“ ist bekannt, dass Pn ⇒ P auf (R, BR ) äquivalent zur
n→∞
punktweisen Konvergenz der Verteilungsfunktionen Pn ((−∞, x]) −→ F (x) := P((−∞, x])
an allen Stetigkeitsstellen x von F ist.
(ii) Für eine Folge von Dirac-Maßen (δyn )n>1 auf (S, BS ) mit yn → y (bzgl. der Metrik auf S)
für ein y ∈ S gilt δyn ⇒ δy , denn für alle f ∈ Cb (S) gilt
Z
Z
f dδyn = f (yn ) → f (y) = f dδ,
n → ∞.
(iii) Aus der Konvergenz in Totalvariationsnorm kPn − PkT V := supA∈BS |Pn (A) − P(A)| → 0
folgt Pn ⇒ P, denn für alle f ∈ Cb (S) gilt:
Z
Z
Z
n → ∞.
f dPn − f dP = f d(Pn − P) 6 kf k∞ kPn − Pn kT V → 0,
Beachte, dass kδyn − δy kT V = 1 für alle yn 6= y, sodass schwache Konvergenz tatsächlich
schwächer ist, als Konvergenz in Totalvariationsnorm.
Lemma 5.21. Für Wahrscheinlichkeitsmaße (Pn )n>0 und P auf (S, BS ) folgt Pn ⇒ P bereits aus
Z
Z
n→∞
f dPn −→
f dP
S
S
für alle beschränkten, Lipschitz-stetigen Funktionen f : S → R, d.h. ∃L > 0 : ∀x, y ∈ S : |f (x) −
f (y)| 6 Ld(x, y).
42
Beweis. Wir werden zeigen, dass für jedes f ∈ Cb (S) Lipschitz-stetige Funktionen (gk )k>1 existieren mit gk ↑ f und gk > −kf k∞ > −∞. Daraus folgt für alle k > 1
Z
Z
Z
lim inf
f dPn > lim inf
gk dPn =
gk dP.
n→∞
n→∞
S
S
S
und mit monotoner Konvergenz
Z
n→∞
Z
Z
f dPn > lim
lim inf
gk dP =
k→∞
S
f dP.
S
Zusammen mit der analogen Aussage für −f , erhalten wir die Behauptung.
Es bleibt die Folge (gk )k>1 zu konstruieren. Durch Betrachten von fe = f + kf k∞ können
können wir o.B.d.A. f > 0 annehmen. Für r ∈ Q, r > 0 und m ∈ N setze
n
o
hm,r (x) := min r, m ·
min d(x, y) ∈ [0, r].
y∈S:f (y)6r
Dann folgt aus der Dreiecksungleichung für d, dass
|hm,r (x1 ) − hm,r (x2 )| 6 md(x1 , x2 )
und es gilt hm,r (x) 6 f (x), denn
f (x) 6 r
⇒
hm,r (x) = 0,
f (x) > r
⇒
hm,r (x) 6 r.
Für jedes x ∈ S und ε > 0 existiert ein r ∈ Q mit f (x) − ε < r < f (x), sodass
lim hm,r (x) = r > f (x) − ε
m→∞
und damit
sup hm,r (x) : m ∈ N, r ∈ Q = f (x).
Wählen wir nun eine Abzählung (pl )l>1 von Q+ × N, dann erfüllt die Folge
gk := max{hp1 , . . . , hpk },
k > 1,
die gewünschten Eigenschaften.
Tragen wir einige Eigenschaften der schwachen Konvergenz zusammen:
Lemma 5.22. (Xn )n>1 , (Yn )n>1 und X seien (S, BS )-wertige Zufallsvariablen. Es gilt:
(i) Continuous mapping: Für zwei metrische Räume S, T und eine stetige Abbildung g : S → T
folgt aus Xn ⇒ X die Konvergenz g(Xn ) ⇒ g(X).
P
(ii) Slutskys Lemma: Aus Xn ⇒ X und d(Xn , Yn ) → 0 folgt Yn ⇒ X.
P
(iii) d(Yn , X) → 0 impliziert Yn ⇒ X.
Beweis. (i) Da f ◦ g ∈ Cb (S) für jedes f ∈ Cb (T ), folgt die Behauptung aus der Definition.
(ii) Gemäß Lemma 5.21, genügt es eine beschränkte, Lipschitz-stetige Funktion mit |f (x) −
f (y)| 6 Ld(x, y) für alle x, y ∈ S und ein L > 0 zu betrachten. Dann gilt für alle ε > 0:
lim |E[f (Xn ) − f (Yn )]| 6 lim E[|f (Xn ) − f (Yn )|]
n→∞
n→∞
6Lε + lim sup E[|f (Xn ) − f (Yn )|1{d(Xn ,Yn )>ε} ]
n→∞
6Lε + 2kf k∞ lim sup P(d((Xn , Yn ) > ε) = Lε.
n→∞
Da ε beliebig war, folgt limn→∞ E[f (Yn )] = limn→∞ E[f (Xn )] = E[f (X)].
(iii) folgt aus (ii) mit Xn = X.
43
Kommen wir nun zur schwachen Konvergenz auf (C([0, T ]), k · k∞ ) bzw. (C([0, ∞)), k · kc,∞ ).
Definition 5.23. Seien (Pn )n>1 und P Wahrscheinlichkeitsmaße auf C([0, T ]) (bzw. C([0, ∞))).
Wir sagen, dass die endlichdimensionalen Verteilungen (finite dimensional distributions) von
(Pn )n>1 gegen die von P konvergieren, falls für alle k ∈ N und t1 , . . . , tk ∈ [0, T ] (bzw.
t1 , . . . , tk > 0)
π{t ,...,t }
Pn 1 k =⇒ Pπ{t1 ,...,tk }
fdd
gilt. Wir schreiben kurz Pn ⇒ P.
fdd
fdd
Bemerkung 5.24. Gilt Pn ⇒ P0 und Pn ⇒ P00 , folgt P0 = P00 .
Aus dem Continous-Mapping-Theorem folgt sofort, dass schwache Konvergenz auf
(C([0, ∞)), k · kc,∞ ) die Konvergenz der endlichdimensionalen Verteilungen impliziert. Die Umgegkehrte Richtung gilt nur unter einer Zusatzannahme.
Definition 5.25. Es sei S ein metrischer Raum mit Borel-σ-Algebra BS . Eine Familie (Pi )i∈I von
Wahrscheinlichkeitsmaßen auf (S, BS ) heißt (schwach) relativkompakt, falls jede Folge (Pik )k>1 eine
schwach konvergente Teilfolge (Pikl )l>1 besitzt. Die Familie (Pi )i∈I heißt (gleichmäßig) straff, falls
für jedes ε > 0 eine kompakte Menge Kε ⊆ S existiert, sodass für alle i ∈ I Pi (Kε ) > 1 − ε gilt.
Beispiel 5.26.
(i) Für eine Familie von Zufallsvariablen Xi , i ∈ I, sind die Verteilungen (PXi )i∈I straff, falls
(a) limR→∞ supi∈I P(|Xi | > R) = 0 oder
(b) supi∈I E[|Xi |p ] < ∞ für ein p > 0 (Lp -beschränkt).
(ii) Die Folge (δn )n>1 von Dirac-Maßen besitzt weder schwach konvergente Teilfolgen noch ist
sie straff.
Ein zentrales Resultat für die schwache Konvergenz ist folgender Satz, den wir hier ohne Beweis
angeben:
Satz 5.27 (Prohorov). Auf einem polnischen Raum S ist eine Familie (Pi )i∈I genau dann relativkompakt, wenn sie straff ist.
Beweisskizze. Die Hinrichtung ist relativ einfach zu zeigen (unter Verwendung von Portemanteaus
Satz), allerdings auch weniger nützlich. Wir werden hier nur die Rückrichtung im Spezialfall S = R
zeigen. Für den allgemeinen Fall sei auf [Klenke, 2006 Satz 13.29] verwiesen.
Es sei also (Pi )i∈I eine straffe Familie von Wahrscheinlichkeitsmaßen auf R und (Pn )n>1 eine
Teilfolge. Bezeichnen wir die Verteilungsfunktionen mit Fn (x) := Pn ((−∞, x]), x ∈ R, dann müssen
wir die Existenz einer Teilfolge (Fnk )k>1 und einer Verteilungsfunktion F zeigen mit Fnk (x) →
F (x) für alle Stetigkeitstellen x ∈ R von F .
Sei Q = {q1 , q2 , . . . } eine Abzählung von Q. Nach dem Satz von Bolzano-Weierstraß („Jede
beschränkte Folge aus Rn besitzt eine konvergente Teilfolge.“) besitzt die Folge (Fn (q1 ))n>1 eine
konvergente Teilfolge (Fn1k (q1 ))k>1 . Induktiv folgt für jedes l > 1 die Existenz einer Teilfolge
l
(nl+1
k )k>1 von (nk )k>1 , sodass (Fnl+1 (ql+1 ))k konvergiert. Damit konvergiert (Fnl (ql ))k>1 für jedes
k
k
l > 1. Für die Diagonalfolge nk := nkk , k > 1, konvergiert (Fnk (q))k>1 für jedes q ∈ Q.
Wir definieren nun Fe(q) := limk→∞ Fnk (q) für alle q ∈ Q und
F (x) := inf Fe(q) : q ∈ Q, q > x .
Da Fe monoton wachsend ist, ist F rechtsstetig und monoton wachsend. Ist F an x ∈ R stetig, so
existieren für jedes ε > 0 Zahlen q± ∈ Q mit
q− < x < q+
und Fe(q+ ) − ε 6 F (x) 6 Fe(q− ) + ε.
44
Damit gilt
lim sup Fnk (x) 6 lim sup Fnk (q+ ) = Fe(q+ ) 6 F (x) + ε
k→∞
k→∞
also lim supk→∞ Fnk (x) 6 F (x). Analog folgt aus lim inf k→∞ Fnk (x) > Fe(q− ) > F (x) − ε, dass
lim inf k→∞ Fnk (x) > F (x). Wir haben also limk→∞ Fnk (x) = F (x) gezeigt.
Es bleibt nur zu zeigen, dass limx→∞ F (x) = 1, wobei hier 6 1 klar ist. Um
lim F (x) > lim sup lim Fnk (x) = 1
x→∞
k→∞ x→∞
nachzuweisen (und analog limx→−∞ F (x) = 0), verwenden wir die Straffheit. Dies impliziert, dass
für jedes ε > 0 ein K > 0 existiert mit
1 − Fn (x) < ε ∀n > 1, x > K.
Da F als rechtsstetige Funktion nur abzählbar viele Sprungstellen haben kann, existiert eine
Stetigkeitsstelle x∗ > K von F , sodass
1 6 lim sup Fnk (x∗ ) + ε = F (x∗ ) + ε 6 lim F (x) + ε.
x→∞
k→∞
Korollar 5.28. Seien (Pn )n>1 und P Wahrscheinlichkeitsmaße auf C([0, ∞)). Dann sind äquivalent:
fdd
(i) Pn ⇒ P für n → ∞ und (Pn )n>1 ist straff.
(ii) Pn ⇒ P.
Beweis. (ii)⇒(i): Aus dem Satz von Prohorov folgt direkt die Straffheit. Da π{t1 ,...,tk } stetig ist,
folgt aus dem Continuous-Mapping-Satz und Pn ⇒ P die Konvergenz der endlichdimensionalen
Verteilungen.
(i)⇒(ii): Nach dem Satz von Prohorov ist (Pn )n>1 relativ folgendkompakt, d.h. alle Teilfolgen haben konvergierende Teilteilfolgen. Nach Bemerkung 5.24 stimmen alle Grenzwerte (= alle
Häufungspunkte) überein, sodass (Pn )n>1 selbst schwach konvergiert.
Es folgt ein nützliches hinreichendes Kriterium für Relativkompaktheit:
Satz 5.29. Für jedes f ∈ C([0, T ]) und δ > 0 definieren wir das Stetigkeitsmodul
ωδ (f ) := sup |f (s) − f (t)| : s, t ∈ [0, T ], |s − t| 6 δ .
Eine Folge von Wahrscheinlichkeitsmaßen (Pn )n>1 auf BC([0,T ]) ist genau dann straff, wenn
(i) limR→∞ supn Pn {f ∈ C([0, T ]) : |f (0)| > R} = 0 und
(ii) limδ→0 lim supn→∞ Pn {f ∈ C([0, T ]) : ωδ (f ) > ε} = 0 für jedes ε > 0.
Bedingung (ii) wird impliziert von
(ii’) limδ→0 lim supn→∞ supt∈[0,T −δ] 1δ Pn {f ∈ C([0, T ]) : sups∈[t,t+δ] |f (s) − f (t)| > ε} = 0 für
jedes ε > 0.
Beweisskizze. Die Charakterisierung von Straffheit mittels (i) und (ii) folgt aus dem Satz von
Arzelà-Ascoli, vgl. [Klenke, 2008, Satz 21.40]. Die Implikation (ii’)⇒(ii) folgt durch Zerlegung von
[0, T ] in hinreichend kleine Teilintervalle.
Bemerkung 5.30.
(i) Da C([0, ∞)) mit der gleichmäßigen Konvergenz auf Kompakta versehen ist, ist eine Folge
(Pn )n>1 auf BC([0,∞)) straff, falls (i) und (ii’) für jedes T > 0 erfüllt ist.
45
(ii) Sind (Xtn , t ∈ [0, T ]) stetige stochastische Prozesse, so finden wir mit Hilfe des Satzes von
n
Kolmogorov-Chentsov folgendes Momentenkriterium: (PX )n>1 ist auf BC([0,T ]) straff, falls:
(a) limR→∞ supn>1 P(|X0n | > R) = 0 und
(b) Es existieren α, β, K > 0, sodass für alle n > 1, s, t ∈ [0, T ]:
E |Xsn − Xtn |α 6 K · |s − t|1+β .
Wir haben jetzt alle nötigen Vorbereitungen und kommen zum Hauptresultat dieses Abschnittes. Betrachten wir u.i.v. (Xk )k>1 aus L2 (P) auf einem Wahrscheinlichkeitsraum (Ω, F, P). Dann
impliziert der zentrale Grenzwertsatz für die normierten Partialsummen
Sn :=
n
X
Xk − µ
k=1
µ := E[X1 ], σ 2 := Var(X1 ), dass
σ
,
n−1/2 Sn ⇒ N (0, 1).
Wir interpretieren nun den Prozess (Sn , n > 0) mit S0 := 0 als Irrfahrt. Um einen stetigen Prozess
zu erhalten, interpolieren wir:
nt − bntc Xbntc+1 − µ
1
√
,
Ytn := √ Sbntc +
σ
n
n
t ∈ [0, 1].
n
Es gilt also Yk/n
= n−1/2 Sk und Y n ist linear auf jedem Intervall [ nk , k+1
n ].
Lemma 5.31. Seien (Xk )k>1 ⊆ L2 (P) u.i.v. mit E[X1 ] = 0 und Var(X1 ) = 1. Dann gilt PY
PB für eine Brownsche Bewegung B.
Beweis. Da Y0n = B0 = 0, können wir 0 = t0 < t1 < · · · < tm 6 1 betrachten. Mit
bntk c
X
Zkn :=
i=bntk−1 c+1
X
√i ,
n
k = 1, . . . , m,
erhalten wir die Darstellung
Ytnk =
k
X
l=1
Zln +
ntk − bntk c
√
Xbntk c+1 .
n
Aus dem zentralen Grenzwertsatz folgt
bntk c
X
i=bntk−1
Wegen
bntk c−bntk−1 c
n
Xi
p
⇒ N (0, 1).
bntk c − bntk−1 c
c+1
→ tk − tk−1 für n → ∞, folgt aus Slutskys Lemma
Zkn ⇒ N (0, tk − tk−1 ).
Da die Familie (Zkn )k=1,...,m unabhängig ist für jedes n > 1 erhalten wir den Grenzwert
n
(Z1n , . . . , Zm
) ⇒ N 0, diag(t1 − t0 , . . . , tm − tm−1 ) .
Continuous-mapping impliziert
n
(Z1n , Z1n + Z2n , . . . , Z1n + · · · + Zm
) ⇒ N Z 1, Z 1 + Z 2, . . . , Z 1 + · · · + Z m
46
n
fdd
⇒
d
für unabhängige Z k ∼ N (0, tk − tk−1 ). Insbesondere gilt (Z 1 , Z 1 + Z 2 , . . . , Z 1 + · · · + Z m ) =
(Bt1 , Bt1 + Bt2 − Bt1 , . . . , Btm ). Wegen
ntk − bntk c
P
√
Xbntk c+1 → 0,
n
| {z }
|
{z
} =O (1)
√
61/ n
P
liefert Slutskys Lemma schließlich (Ytn1 , . . . , Ytnm ) ⇒ (Bt1 , . . . , Btm ).
Der Satz von Donsker besagt, dass nicht nur die endlichdimensionalen Verteilungen konvergien
ren, sondern auch die Folge der Bildmaße PY auf (C([0, 1]), BC([0,1]) ) schwach gegen das WienerMaß konvergiert.
2
Satz 5.32 (Donsker, funktionaler zentraler Grenzwertsatz). Es sei (XP
k )k>1 ⊆ L (P) eine Folge
n
von u.i.v. Zufallsvariablen mit E[Xk ] = 0 und Var(Xk ) = 1. Für Sn := k=1 Xk und
nt − bntc
1
√
Xbntc+1 ,
Ytn := √ Sbntc +
n
n
t ∈ [0, 1],
gilt
Y n =⇒ B
in C([0, 1])
für eine Brownsche Bewegung B = (Bt , t ∈ [0, 1]).
Bevor wir den Satz von Donsker beweisen, benötigen wir noch ein Hilfsresultat.
√
Lemma 5.33. In der Situation von Satz 5.32 gilt für alle λ > 2 und N ∈ N folgende Maximalungleichung:
√ √ √ P max |Sn | > λ N 6 2P |SN | > (λ − 2) N .
16n6N
√
Beweis. Sei τ := inf{n > 0 : |Sn | > λ N } ∧ (N + 1). Dann gilt
√ P max |Sn | > λ N = P(τ 6 N )
16n6N
6 P |SN | > (λ −
N
√ √ X
√ √ 2) N +
P τ = n, |SN | < (λ − 2) N
n=1
N
√ √ X
√ √ 6 P |SN | > (λ − 2) N +
P τ = n, |SN − Sn | > 2 N .
n=1
√ √
Aufgrund der Unabhängigkeit der Ereignisse {τ = n} und {|SN − Sn | > 2 N } erhalten wir
zusammen mit Markovs Ungleichung
√ √ √ √ P τ = n, |SN − Sn | > 2 N = P(τ = n)P |SN − Sn | > 2 N
6
P(τ = n)E[(SN − Sn )2 ]
1
6 P(τ = n).
2N
2
Somit gilt
√ √ 1
2) N + P(τ 6 N ).
2
Subtrahieren von P(τ 6 N ) ergibt die Behauptung.
P(τ 6 N ) 6 P |SN | > (λ −
n
Beweis von Satz 5.32. Es bleibt nur die Straffheit von (PY )n>1 zu zeigen. Hierzu verwenden wir
Satz 5.29, wobei (i) wegen Y0n = 0 für alle n > 1 trivial ist. Es bleibt also (ii’) nachzuweisen:
∀ε > 0 :
lim lim sup
δ→0 n→∞
1
P
t∈[0,1−δ] δ
sup
47
sup
t6s6t+δ
|Ysn − Ytn | > ε = 0.
Da Y n stückweise linear ist, gilt für t =
sup
t6s6t+δ
k
n
und t + δ =
|Ysn − Ytn | =
max
j
n:
16i6j−k
|Sk+i − Sk |
√
.
n
j−1 j
Im allgemeineren Fall t ∈ [ nk , k+1
n ], t + δ ∈ [ n , n ] und für n >
1
1
√
sup |Ysn − Ytn | 6 √
n t6s6t+δ
n
sup
j
k
n 6s6 n
1
δ
erhalten wir
n
n
n
|Ys − Yk/n
| + |Ytn − Yk/n
|
2
max |Sk+i − Sk |
6√
n 16i6j−k
2
d 2
6√
max |Sk+i − Sk | = √
max |Si |.
n 16i63nδ
n 16i63nδ
Mit Lemma 5.33 ergibt sich
1 1 2
lim sup sup
P
sup |Ysn − Ytn | > ε 6 lim sup P √
max |Si | > ε
n 16i63nδ
n→∞ t∈[0,1−δ] δ
n→∞ δ
t6s6t+δ
√ p
ε
2
6 lim sup P |Sb3nδc | > √ − 2 b2nδc .
n→∞ δ
2 3δ
Nach dem zentralen Grenzwertsatz konvergiert (b2nδc)−1/2 Sb2nδc gegen eine StandardnormalverRy
2
teilung. Bezeichnen wir mit Φ(y) := −∞ (2π)−1/2 e−x /2 dx die Verteilungsfunktion von N (0, 1),
ergibt sich
2 √ ε
1 P
sup |Ysn − Ytn | > ε 6 · 2 1 − Φ √ − 2 .
lim sup sup
δ
n→∞ t∈[0,1−δ] δ
2 3δ
t6s6t+δ
Da 1 − Φ(y) exponentiell gegen 0 konvergiert für y → ∞, konvergiert die rechte Seite für δ → 0
gegen 0.
Bemerkung 5.34. Der Satz von Donsker liefert uns insbesondere einen alternativen Beweis der
Existenz der Brownschen Bewegung. Er wird auch funktionaler zentraler Grenzwertsatz genannt,
da Y n als Prozess auf C([0, 1]) gegen die Brownsche Bewegung konvergiert. Da die Grenzverteilung
nicht von der Verteilung der (Xk ) abhängt, also universell ist, spricht man vom Invarianzprinzip.
Literaturemfehlung
• Klenke, A. (2006). Wahrscheinlichkeitstheorie. Springer. (Auch als englische Ausgabe unter
dem Titel “Probability theory” erhältlich)
• Jacod, J. und Protter, P. (2002). Probability Essentials. Springer.
• Stroock, D.W. (2014). An Introduction to Markov Processes. Springer.
• Bauer, H. (1992). Wahrscheinlichkeitstheorie. de Gruyter.
• Bauer, H. (1992). Maß-und Integrationstheorie. de Gruyter.
• Georgii, H.-O. (2007). Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik.
de Gruyter.
48
Herunterladen