Stochastik II Herbstsemester 15

Werbung
Stochastik II
Herbstsemester 15
Erwin Bolthausen
Inhaltsverzeichnis
1 Bedingte Wahrscheinlichkeiten und Erwartungswerte
1.1 Zusammenstellung von masstheoretischen Begri¤en . . .
1.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . .
1.3 Bedingte Erwartungswerte . . . . . . . . . . . . . . . . .
1.4 Reguläre bedingte Wahrscheinlichkeiten . . . . . . . . .
1.5 Anhang: Ergänzungen zu Unabhängigkeit . . . . . . . .
2 Marko¤-Ketten
2.1 Grundlegende Begri¤e . . . . . . . . . . . .
2.2 Beispiele von Marko¤-Ketten . . . . . . . .
2.3 Klasseneigenschaften, Rekurrenz, Transienz
2.4 Stoppzeiten, starke Marko¤-Eigenschaft . .
2.5 Invariante Masse . . . . . . . . . . . . . . .
2.6 Konvergenz gegen die invariante Verteilung
2.7 Reversible stochastische Matrizen . . . . . .
2.8 Anhang: Der Satz von Ionescu-Tulcea . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
. 3
. 7
. 9
. 14
. 16
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
20
24
28
35
40
46
49
51
3 Brownsche Bewegung
3.1 Normalverteilungen . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Stochastische Prozesse . . . . . . . . . . . . . . . . . . . . . .
3.3 Die Lévy–Ciesielski Konstruktion der Brownschen Bewegung
3.4 Einfache Eigenschaften der Brownschen Bewegung . . . . . .
3.5 Prozesse mit unabhängigen Zuwächsen, Marko¤eigenschaft .
3.6 Die starke Marko¤-Eigenschaft . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
57
57
62
66
73
75
80
4 Martingale mit diskretem Zeitparameter
4.1 De…nitionen und Beispiele . . . . . . . . . . . .
4.2 Stoppzeiten und der Stoppsatz für Martingale .
4.3 Martingal-Ungleichungen . . . . . . . . . . . .
4.4 Konvergenz von Martingalen . . . . . . . . . .
4.5 Anwendung auf Äquivalenz von Produktmassen
4.5.1 Das Kakutani-Kriterium . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
88
88
91
95
98
104
104
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4.5.2
Die Cameron-Martin Formel . . . . . . . . . . . . . . . . . . . . . 107
2
1
1.1
Bedingte Wahrscheinlichkeiten und Erwartungswerte
Zusammenstellung von masstheoretischen Begri¤en
Notationen: Ich schreibe N für die natürlichen Zahl, exklusive der 0. N0 := N[ f0g :
R ist die Menge der reellen Zahlen, R+ die Menge der nicht negativen reellen Zahlen
und R die Menge der nicht positiven. R+ und R enthalten also beide die 0: BR ist die
Borel- -Algebra auf R, also die kleinste -Algebra, welche die o¤enen Mengen enthält.
Manchmal wird der Index R in BR auch weggelassen, wenn klar ist, von welcher Menge
die Rede ist. Wenn in Bezug auf R von „Messbarkeit“ die Rede ist, so bezieht sich diese
auf die Borel- -Algebra, falls nichts anderes bemerkt ist.
Ein messbarer Raum ist ein Paar ( ; F), wobei
eine nicht leere Menge und
F eine -Algebra auf F ist. Ist
eine Menge, so bezeichnet P ( ) die Potenzmenge, d.h. die Menge aller Teilmengen von . ( ; P ( )) ist ein messbarer Raum, ebenso
wie ( ; f;; g) : Für zwei messbare Räume ( 1 ; F1 ) ; ( 2 ; F2 ) ist der Produktraum
( 1
F2 ) wie folgt de…niert: 1
2 ; F1
2 ist die übliche Produktmenge und F1 F2
ist die -Algebra, die erzeugt wird vom Mengensystem fA1 A2 : A1 2 F1 ; A2 2 F2 g.
Ein Massraum ist ein Tripel ( ; F; ) ; wobei eine nicht leere Menge, F eine Algebra auf und ein Mass auf F ist. heisst -endlich,
falls eine Folge f n gn2N von
S
Mengen in F existiert mit ( n ) < 1; 8n; und = n n : heisst Wahrscheinlichkeitsmass falls ( ) = 1 ist. In diesem Fall schreiben wir meist P anstelle von : Wir
werden in dieser Vorlesung nur -endliche Masse betrachten, ohne dies jedesmal explizit
vorauszusetzen.
Eine Teilmenge A
heisst -Nullmenge, falls A0 2 F; A
A0 existiert mit
(A0 ) = 0: Ein Massraum heisst vollständig, wenn F alle -Nullmengen enthält. Jeder
Massraum lässt sich in einfacher Weise vervollständigen: Bezeichnet N die Menge der
-Nullmengen und F := (F [ N ) die kleinste -Algebra, welche die Mengen in F und
in N enthält, so lässt sich zu einem Mass auf F erweitern und
; F;
ist ein
vollständiger Massraum (siehe Stochstik I). Der Nachteil der Konstruktion ist, dass F
von abhängig ist.
Sind ( ; F) ; ( 0 ; F 0 ) zwei messbare Räume, so heisst eine Abbildung f :
! 0
0
1
messbar (genauer F-F -messbar), wenn f (B) := f! 2 : f (!) 2 Bg 2 F ist, für alle
B 2 F 0 . Wir schreiben oft auch f 1 (F 0 ) := f 1 (B) : B 2 F 0 . Die Messbarkeit von f
besagt dann einfach f 1 (F 0 ) F. Ist aus dem Kontext klar, welche -Algebra F 0 auf
0 man betrachten, so schreiben wir auch einfach
(f ) für f 1 (F 0 ) : Dies insbesondere
im Fall ( 0 ; F 0 ) = (R; BR ) : Für eine Menge ffi g von Abbildungen schreiben wir (ffi g)
für die kleinste -Algebra auf bezüglich der alle fi messbar sind. Das ist die kleinste
-Algebra, welche alle (fi ) enthält.
Ist ein Mass auf F und f :
! 0 ; so ist das Mass f 1 auf ( 0 ; F 0 ) de…niert
1
1
(B) :=
f (B) das sogenannte induzierte Mass.
durch f
Wichtig ist in diesem Zusammenhang der folgende Transformationssatz
Satz 1.1
Sei : 0 ! R eine F 0 -BR -m.b. Funktion (BR ist die Borel- -Algebra auf R)
3
a) Ist
0 so gilt
Z
(
f) d =
Z
b) Ist reellwertig, so ist es genau dann f
bezüglich ist und es gilt ebenfalls (1.1.
d
f
1
:
1 -integrierbar,
(1.1)
wenn
f integrierbar
Wenn
ein Wahrscheinlichkeitsmass ist, so schreiben wir auch häu…g (f 2 dz)
anstelle von f 1 (dz) :1
Für einen Wahrscheinlichkeitsraum ( ; F; P ) nennt man eine F-BR -messbare
AbbilR
dung X :
! R eine Zufallsvariable. Ist X integrierbar, so ist EX := XdP der
Erwartungswert von X: Für X 0 (d.h. X (!) 0; 8!) kann man den Erwartungswert in jedem Fall de…nieren; er kann dann aber 1 sein.
Das induzierte Wahrscheinlichkeitsmass P X 1 nennt man die Verteilung von X:
P X 1 ist ein Wahrscheinlichkeitsmass auf (R; BR ) : Nach dem Transformationssatz ist
X genau dann integrierbar, wenn die identische Abbildung auf R integrierbar bezüglich
P X 1 ist und es gilt in diesem Fall
Z
Z
EX = XdP = x P X 1 (dx) :
X hat eine Dichte, wenn P X 1 absolut stetig bezüglich des Lebesgue-Masses
der Erwartungswert lässt sich in diesem Fall als
Z
EX = xf (x) (dx)
darstellen, wobei f die Dichte d P X 1 =d ist.
Ein anderer Spezialfall liegt vor,
P wenn die Verteilung diskret ist: P X
mit xn 2 R; n 2 N und pn 0;
n pn = 1: In diesem Fall ist
Z
X
EX = x P X 1 (dx) =
pn xn
1
=
ist, und
P
n p n xn
n
sofern die Reihe auf der rechten Seite absolut konvergiert.
Im Zusammenhang mit bedingten Erwartungswerten ist der folgende Faktorisierungssatz zu messbaren Abbildungen wichtig.
Satz 1.2
Es sei eine Menge, ( 0 ; F 0 ) messbarer Raum, und T : ! 0 eine Abbildung. Mit (T )
bezeichnen wir die von T auf erzeugte -Algebra auf : (T ) := T 1 (B) : B 2 F 0 :
Eine Abbildung f : ! R ist genau dann (T )-BR -m.b., wenn eine F 0 -BR -m.b. Abbildung f 0 : 0 ! R existiert mit f = f 0 T:
R
R
Ich schreibe
für Integrale stets f d oder bei Betonung der Integrationsvariablen f (x) (dx) ;
R
jedoch
nie f (x) d (x) : Gelegentlich schreibe ich das Mass auch direkt hinter das Integrationssymbol:
R
(dx) f (x), insbesondere bei mehreren Integrationen im selben Ausdruck.
1
4
Beweis. Eine Richtung ist einfach: Falls f 0 existiert, so ist f 0
Abbildung.
Wir zeigen die Umkehrung und setzen also voraus, dass f
gehen in einzelnen Schritten vor.
T eine
(T )-BR -m.b
(T )-BR -m.b. ist. Wir
Ist f eine Indikatorfunktion, f = 1A ; mit A 2 (T ) ; so existiert A0 2 F 0 mit
A = T 1 (A0 ) und 1A = 1A0 T . Wir nehmen also f 0 = 1A0 :
Pn
Ist f eine nicht-negative
einfache
Funktion
f
=
i=1 ai 1Ai ; ai 2 R+ ; Ai 2 (T ) ;
Pn
0
so können wir f als i=1 ai 1A0i de…nieren, wobei A0i gemäss Ai = T 1 (A0i ) gewählt
ist.
Ist f eine nicht-negative (T )-BR -m.b Abbildung, so existiert eine Folge von
nicht-negativen messbaren Funktionen ffn g mit fn " f: Zu fn existieren gemäss
dem zweiten Schritt Funktionen fn0 : 0 ! R, welche F 0 -BR -m.b. sind, und für die
fn = fn0 T gilt. Wir setzen dann f 0 := supn fn0 : Dann folgt f = f 0 T . Der sehr
einfache Beweis sei dem Leser überlassen.
Für beliebige messbare Funktionen f ergibt sich die Existenz von f 0 durch eine
Zerlegung von f in Positiv- und Negativteil.
Wir werden gelegentlich eine Verallgemeinerung des Satzes von Fubini verwenden.
Dazu zunächst ein für die Wahrscheinlichkeitstheorie wichtiges Konzept.
De…nition 1.3
Es seien (S1 ; S1 ), (S2 ; S2 ) zwei messbare Räume. Ein Marko¤kern K von (S1 ; S1 ) nach
(S2 ; S2 ) ist eine Abbildung K : S1 S2 ! [0; 1] mit den folgenden zwei Eigenschaften:
1. Für alle x 2 S1 ist K(x; ) ein Wahrscheinlichkeitsmass auf (S2 ; S2 ).
2. Für alle A 2 S2 ist K( ; A) eine S1 -messbare Funktion auf S1 .
Beispiel 1.4
Drei Spezialfälle von Marko¤kernen:
a) K(x; A) := (A) für ein Wahrscheinlichkeitsmass
der Kern gar nicht von x ab.
auf (S2 ; S2 ). Hier hängt also
b) K(x; A) := 1A (f (x)) für eine messbare Abbildung f von (S1 ; S1 ) nach (S2 ; S2 ).
c) Sei I eine höchstens abzählbare
PMenge, (pij )i;j2I eine stochastische Matrix, d.h.
eine Matrix mit pij 0; 8i; j; j pij = 1; 8i; und (S1 ; S1 ) = (S2 ; S2 ) = (I; P(I)).
Für i 2 I, A I wird ein Marko¤kern K durch
X
K(i; A) :=
pij
j2A
de…niert.
5
Man stellt sich einen Kern am besten als eine Art “fuzzy” oder “verrauschte” Abbildung vor. Wir werden auch die folgende Notation verwenden, die diesen Aspekt betont: Ist K ein Marko¤kern von (S1 ; S1 ) nach (S2 ; S2 ); so schreiben wir K : (S1 ; S1 )
(S2 ; S2 ) oder kurz K : S1
S2 : (Vorsicht: Diese Notation ist in der wahrscheinlichkeitstheoretischen Literatur nicht üblich). Wichtig ist, dass sich mit Kernen der Begri¤ des
Produktmasses verallgemeinern lässt:
De…nition 1.5
Sei ein Wahrscheinlichkeitsmass auf (S1 ; S1 ) und K : (S1 ; S1 )
(S2 ; S2 ). Dann ist das
Wahrscheinlichkeitsmass
K auf S1 S2 wie folgt de…niert:
Z
•r A 2 S1 S2 ;
(1.2)
(
K)(A) =
(d! 1 )K(! 1 ; A!1 ) f u
wobei A!1 = f ! 2 2 S2 : (! 1 ; ! 2 ) 2 A g der ! 1 -Schnitt der Menge A ist.
Damit dies eine sinnvolle De…nition ist, müssen einige Punkte geprüft werden:
Für die Schnitte gilt A!1 2 S2 ; 8! 1 2 S1 , und demzufolge ist K(! 1 ; A!1 ) für jedes
! 1 2 S1 de…niert.
Nun muss nachgewiesen werden, dass ! 1 7! K(! 1 ; A!1 ) eine S1 -messbare Funktion
ist. Dies sieht man wie folgt ein:
D = f A 2 S1
S2 : ! 1 7! K(! 1 ; A!1 ) ist S 1 messbar g
ist ein Dynkinsystem (einfache Übungsaufgabe) und enthält die Mengen der Form
A1 A2 mit Ai 2Si für i = 1; 2, denn es gilt
K (! 1 ; (A1
A2 )!1 ) = 1A1 (! 1 )K(! 1 ; A2 ):
Diese Produktmengen bilden ein durchschnittstabiles Erzeugendensystem von S1
S2 : Nach dem „Hauptsatz“ über Dynkinsysteme folgt D = S1 S2 . Damit ist das
Integral auf der rechten Seite von (1.2) eindeutig de…niert und damit ist (
K)(A)
für jedes A 2 S1 S2 de…niert.
Mit Hilfe des Satzes von der majorisierten Konvergenz (Satz von Lebesgue) zeigt
man sofort, dass
K -additiv und somit ein Wahrscheinlichkeitsmass ist.
Bemerkung 1.6
a) Ist K : (S1 ; S1 )
(S2 ; S2 ) gemäss Beispiel 1.4 a) durch ein Wahrscheinlichkeitsmass auf (S2 ; S2 ) gegeben, so ist
K einfach das Produktmass
:
b) Man bezeichnet
K gelegentlich als das semidirekte Produkt von
Wir betrachten die beiden Randverteilungen von
Sind i : S1 S2 ! Si die Projektionen, so ist
(
K)
1
1
(A) = (
K) (A
6
S2 ) =
mit K:
K auf (S1 ; S1 ) bzw. (S2 ; S2 ):
(A) ; A 2 S1 ;
d.h.
(
1
K)
1
= :
(1.3)
Die zweiten Randverteilung ist gegeben durch
(
K)
1
2
(A) = (
K) (S1
A) =
Z
(dx) K (x; A) ; A 2 S2 :
(1.4)
Diese Randverteilung auf (S2 ; S2 ) bezeichnet man meist mit K:
Nun zur Verallgemeinerung des Satzes von Fubini-Tonelli:
Satz 1.7
Sei ein Wahrscheinlichkeitsmass auf (S1 ; S1 ) und K : (S1 ; S1 )
f : S1 S2 ! R eine messbare Funktion.
a) Ist f
(S2 ; S2 ): Ferner sei
0 so gilt
Z
f d(
K) =
Z
Z
f (x; y) K (x; dy)
(dx) :
(1.5)
b) Ist f 2 L1 (
K) ; so ist für -fast alle xR2 S1 die Abbildung S2 3 y ! f (x; y)
integrierbar bezüglich K (x; ). Ferner ist f (x; y) K (x; dy) als Funktion von x
-integrierbar, und es gilt (1.5).
Beweis. Der Beweis folgt dem üblichen Schema: Für f = 1A ; A 2 S1 S2 , ergibt
sich (1.5) aus der De…nition. Für allgemeine f folgt man dem üblichen Schema für
den Beweis des Satzes von Fubini. Erst einfache Funktionen, dann nicht-negative via
monotone Konvergenz und schliesslich für allgemeine f über eine Zerlegung in Positivund Negativteil. Die Details seien dem Leser überlassen.
1.2
Bedingte Wahrscheinlichkeiten
Wir führen in diesem Kapitel eine wichtige Verallgemeinerung der elementaren De…nition
bedingter Wahrscheinlichkeiten ein. Zur Erinnerung:
De…nition 1.8
Sei ( ; F; P ) ein Wahrscheinlichkeitsraum. Sind A; B 2 F mit P (B) > 0, so ist die bedingte Wahrscheinlichkeit von A gegeben B durch P (A j B) := P (A \ B)=P (B) de…niert.
Als Motivation für die nachfolgenden Diskussionen betrachten wir die Situation, dass
B via eine Zufallsvariable X :
! R de…niert ist, etwa B = f! : X (!) = yg für
y 2 R. In vielen Fällen ist jedoch P (X = y) = 0; z.B. wenn X normalverteilt ist,
oder allgemeiner, wenn die Verteilung von X eine Dichte bezüglich des Lebesgue-Masses
hat. In einem solchen Fall kann P (A j X = y) o¤enbar nicht elementar de…niert werden.
Der entscheidende Punkt ist, dieses Objekt nicht “isoliert” für einzelne y zu de…nieren,
sondern als Funktion in y: Grundlage ist der Satz über die totale Wahrscheinlichkeit.
7
Betrachten wir zunächst die elementare Situation: Es sei fB1 ; : : : ; Bn g eine Zerlegung
von in paarweise disjunkte messbare Teilmengen mit P (Bi ) > 0. Für ein feste A 2 F
können wir die Folge P (A j Bi ), i = 1; : : : ; n de…nieren. Nach dem Satz über die totale
Wahrscheinlichkeit gilt für jedes Teilmenge J f1; : : : ; ng :
P A\
[
j2J
Bj
[
(A \ Bj )
= P
j2J
X
X
=
P (A \ Bj ) =
P (A j Bj )P (Bj ) :
(1.6)
j2J
j2J
Wir können das etwas komplizierter interpretieren und fassen fP (A j Bj )g als Funktion
auf auf, nennen wir sie A :
A (!)
:= P (A j Bj ); f u
•r ! 2 Bj :
Wir bezeichnen
S mit G die von den Bj erzeugte -Algebra. G enthält genau die Mengen,
die sich als j2J Bj mit J
f1; : : : ; ng darstellen lassen. Da A konstant auf den Bj
ist, ist es eine G-m.b. Funktion. Um dies zu betonen, schreiben wir A;G : Wir können
die Eigenschaften dieser Funktion wie folgt zusammenfassen:
Lemma 1.9
In der obigen Situation gelten
A;G
:
und
P (A \ B) =
! [0; 1] ist G messbar:
(1.7)
Z
(1.8)
B
A;G
(!) P (d!) ; 8B 2 G:
Beweis. (1.7) ist o¤ensichtlich nach der Konstruktion von A;G : (1.8) ergibt sich unmittelbar aus (1.6).
Es ist ziemlich o¤ensichtlich, dass diese beiden Eigenschaften A;G eindeutig charakterisieren. Der (sehr einfache) Beweis sei dem Leser überlassen.
Diese Diskussion legt eine Verallgemeinerung von bedingten Wahrscheinlichkeiten
nahe. Wir betrachten eine beliebige Teil- -Algebra G von F:
De…nition 1.10
Sei A 2 F: Eine Abbildung A;G :
! [0; 1] heisst bedingte Wahrscheinlichkeit
von A gegeben G; wenn (1.7) und (1.8) erfüllt sind.
Satz 1.11
Sei A 2 F und G eine Teil- -Algebra von F: Dann existiert eine bis auf f.s.-Gleichheit
eindeutige bedinge Wahrscheinlichkeit von A gegeben G:
Beweis. Wir betrachten die Abbildung G 3 B ! (B) := P (A \ B) : Dies ist ein Mass
auf G welches absolut stetig bezüglich P ist:
P , denn ist P (B) = 0; so ist (B) =
8
P (A \ B)
P (B) = 0: Nach dem Satz von Radon-Nikodym (Satz 2.4, Stochastik I)
existiert eine bis auf P -f.s.-Gleichheit eindeutige G-m.b. Funktion A;G : ! R+ mit
Z
A;G dP = (B) = P (A \ B) ;
B
für alle B 2 G: A;G ist die gewünschte bedingte Wahrscheinlichkeit, denn diese Funktion
erfüllt die Eigenschaften (1.7) und (1.8). Wir müssen allerdings noch nachweisen, dass
1 für alle ! 2 gilt. Erfüllt A;G :
A;G so gewählt werden kann, dass 0
A;G (!)
! R+ die obige Gleichung, so setzen wir C := ! : A;G (!) > 1 2 G: Dann folgt
Z
Z
1dP;
P (C) =
A;G dP = P (A \ C)
C
C
Z
1
0:
A;G dP
C
Wegen A;G > 1 auf C folgt P (C) = 0: Wir können daher A;G durch min A;G ; 1
ersetzen. Diese Funktion stimmt mit A;G P -f.ü. überein und nimmt nur Werte in [0; 1]
an.
In Zukunft schreiben wir P (A j G) anstelle von A;G : Man muss sich klar darüber
sein, dass bedingte Wahrscheinlichkeiten im obigen Sinn nur bis auf f.s.-Gleichheit eindeutig gegeben sind. Man spricht dann oft von einer Version der bedingten Wahrscheinlichkeit, wenn eine bestimmte G-m.b. Funktion gewählt wird.
1.3
Bedingte Erwartungswerte
Nun zu bedingten Erwartungswerten. Sei X eine auf ( ; F; P ) de…nierte Zufallsgrösse und G eine Teil- -Algebra von F: Man konstruiert die bedingten Erwartungswerte
ebenfalls direkt über den Satz von Radon-Nikodym:
Satz 1.12
Sei X 2 L1 ( ; F; P ) und G eine Teil- -Algebra von F: Dann existiert eine bis auf P f.s.-Gleichheit eindeutig de…nierte integrierbare und G-m.b. Zufallsgrösse E (X j G) mit
Z
Z
E (X j G) dP =
X dP
(1.9)
B
B
für alle B 2 G:
R
Beweis. Wir nehmen zunächst an, dass X 0 gilt. Dann ist (B) := B X dP; B 2 G,
ein Mass auf ( ; G) ; das absolutstetig bezüglich P ist. Aus dem Satz von Radon-Nikodym
folgt daher die Existenz einer G-m.b. nicht negativen Zufallsgrösse E (X j G) ; die die
Eigenschaft (1.9) erfüllt. Ist X integrierbar, so gilt
Z
Z
E (X j G) dP =
X dP < 1:
9
Daher ist E (X j G) integrierbar und insbesondere fast überall endlich. Ist X 2 L1 ( ; F; P ) ;
so zerlegen wir X in Positiv- und Negativteil X = X + X und setzen
E (X j G) = E X + j G
E X
jG :
Diese Zufallsgrösse erfüllt o¤ensichtlich (1.9) und ist integrierbar.
R
R
Eindeutigkeit: Sind f; g zwei G-m.b. Zufallsgrössen mit B f dP = B g dP für alle
B 2 G; so folgt sehr einfach f = g P -f.ü. Das sollte aus der Analysis III bekannt sein.
Man beachte, dass bedingte Wahrscheinlichkeiten einfach Spezialfälle von bedingten
Erwartungswerten sind:
P (A j G) = E (1A j G) :
Der folgende Satz ist eine Au‡istung der wichtigsten Eigenschaften bedingter Erwartungswerte.
Satz 1.13
Es seien X; X1 ; X2 2 L1 ( ; F; P ), und G sowie G 0 seien Teil- -Algebren von F. Dann
gelten:
a) Ist G die triviale -Algebra, das heisst G = f;; g, so gilt E(X j G) = E(X) fast
sicher.
b) Ist X G-messbar, so gilt E(X j G) = X fast sicher.
c) Sind a1 ; a2 2 R, so gilt E(a1 X1 + a2 X2 j G) = a1 E(X1 j G) + a2 E(X2 j G) fast sicher.
d) Ist X 0, so ist E(X j G)
E(X j G) E(Y j G):
e) Es gilt jE(X j G)j
f) Ist G 0
0 fast sicher. Ferner folgt aus X
Y die Ungleichung
E(jXj j G) fast sicher.
G, so gilt E(X j G 0 ) = E(E(X j G) j G 0 ) fast sicher.
g) Sind X und G unabhängig, so gilt E(X j G) = E(X) fast sicher.2
R
RBeweis. a): Da E(X j G) G-m.b. ist, so muss es fast sicher konstant sein. Wegen E(X j G)dP =
X dP folgt die Behauptung.
b) folgt RunmittelbarR aus der De…nition des bedingten Erwartungswertes: Per Tautologie gilt B XdP = B XdP und da X als G-m.b. vorausgesetzt wird, erfüllt X die
gewünschten Eigenschaften.
2
Für Puristen in Formalitäten sind die obigen Formulierungen leicht anrüchig: Der Satz von RadonNidkodym liefert die entsprechenden Objekte ohnehin nur bis auf f.s.-Gleichheit. Genau genommen sollte
man daher die bedingten Erwartungswerte als Äquivalenzklassen unter f.s.-Gleichheit au¤assen. Dann
sind die obigen Gleichungen einfach Gleichungen zwischen Äquivalenzklassen und man könnte sich die
ständige Wiederholung von „fast sicher“ ersparen.
10
c): Sei Y die rechte Seite der behaupteten Gleichung. Dann gilt für alle D 2 G:
Z
Z
Z
E(X2 j G) dP
E(X1 j G) dP + a2
Y dP = a1
D
D
Z
Z
ZD
X2 dP =
(a1 X1 + a2 X2 ) dP:
X1 dP + a2
= a1
D
D
D
Ausserdem ist Y natürlich G-messbar, erfüllt also die de…nierenden Eigenschaften für
einen bedingten Erwartungswert
von a1 X1 +Ra2 X2 gegeben G.
R
d) Für alle D 2 G gilt D E(X j G) dP = D X dP
0. Ist D = f E(X j G) < 0 g, so
folgt P (D) = 0. Der Zusatz folgt aus Y X 0 und der Linearität c).
e) Wegen E(X j G) = E(X + j G) E(X j G) folgt
jE(X j G)j
E(X + j G) + E(X j G) = E X + + X j G = (jXj j G):
f)
Gleichung, und sei D0 2 G 0 . Dann
R Sei wiederRY die rechte SeiteRder behaupteten
gilt D0 Y dP = D0 E(X j G) dP = D0 X dP , da D0 2 G ist. Da Y G 0 -messbar ist, folgt
die Aussage.
g) Die konstante Abbildung ! 7! E(X) ist natürlich G-messbar. Für D 2 G gilt
wegen der Unabhängigkeit
Z
Z
X dP = E(1D X) = P (D)E(X) =
E(X) dP:
D
D
Für bedingte Erwartungswerte gelten die üblichen Konvergenzsätze:
Satz 1.14
Seien Xn , n 2 N; und X integrierbare Zufallsgrössen und G sei eine Teil- -Algebra von
F.
a) Gilt Xn
0 und Xn " X f:s:; so folgt E(Xn j G) " E(X j G) f.s.
b) Gilt Xn
0 und Xn ! X f.s., so gilt das Lemma von Fatou:
E(X j G)
c) Existiert Y 2 L1 mit jXn j
lim inf E(Xn j G) f:s.
n!1
Y f.s. für alle n 2 N , und Xn ! X f.s., so gilt:
E(X j G) = lim E(Xn j G) f:s.
n!1
Beweis. Wir beweisen nur a). b) und c) folgen dann in gleicher Weise wie das Lemma
von Fatou und der Satz von Lebesgue.
11
Aus Xn
Xn+1
X fast sicher für alle n 2 N folgt E(Xn j G)
E(Xn+1 j G)
E(X j G) fast sicher für alle n 2 N. Die Folge (E(Xn j G))n2N konvergiert also fast sicher
gegen eine G-messbare Zufallsgrösse Y mit Y
E(X j G). Für alle D 2 G gilt
Z
Z
Z
(E(X j G) Y ) dP =
X dP
Y dP
D
ZD
ZD
=
X dP
lim E(Xn j G) dP
D n!1
Z
ZD
E(Xn j G) dP
X dP
lim
=
n!1 D
Z
ZD
Xn dP = 0:
X dP
lim
=
n!1 D
D
Somit folgt Y = E(X j G) fast sicher.
Satz 1.15
Seien X; Y 2 L1 und X Y 2 L1 . Ist Y G-messbar, so gilt E(Y X j G) = Y E(X j G) fast
sicher.
Beweis. Sind X 0 und Y = 1D mit D 2 G, so folgt für jedes D0 2 G
Z
Z
Z
Z
Y E(X j G) dP =
E(X j G) dP =
X dP =
1D X dP:
D0
D\D0
D\D0
D0
Somit erfüllt Y E(X j G) die de…nierenden Eigenschaften eines bedingten Erwartungswertes von Y X gegeben G, das heisst, es gilt Y E(X j G) = E(XY j G) fast sicher.
Der allgemeine Fall folgt dann auf die übliche Weise mit einem montonen Klassenargument (erst für einfache Y mit der Linearität, dann für nicht negative via monotone
Konvergenz und schliesslich allgemein mit Zerlegung in Positiv- und Negativteil.
Wir wollen noch den wichtigen Spezialfall betrachten, wo G die von einer Zufallsgrösse
Z erzeugt -Algebra ist. Wir können annehmen, dass Z Werte in einem allgemeinen
messbaren Raum (S; S) annimmt. Dann schreiben wir (Z) := Z 1 (B) : B 2 S für
die von Z erzeugte -Algebra. Ist X eine integrierbare Zufallsgrösse (reellwertig), so
schreibt man meist E (X j Z) anstelle von E (X j (Z)) : E (X j Z) ist also eine auf
de…nierte, integrierbare, (Z) messbare Zufallsgrösse. Gemäss Satz 1.2 können wir sie
über S faktorisieren: Es existiert eine S-BR -messbare Abbildung, nennen wir sie ad hoc
' : S ! R, mit
E (X j Z) (!) = ' (Z (!)) :
Der Satz 1.2 besagt nichts über Eindeutigkeit von '; wir werden jedoch gleich sehen,
dass in unserem Fall ' eindeutig bis auf P Z 1 -f.s.-Gleichheit ist. Zunächst passen wir
die Gleichung (1.9) auf die spezielle Situation G = (Z) an. Eine Menge B 2 G lässt
sich als Z 1 (C) mit C 2 S schreiben. Wir erhalten daher
Z
Z
(' Z) dP =
XdP; 8C 2 S:
Z
1 (C)
Z
12
1 (C)
Die linke Seite ist wegen 1Z 1 (C) = 1C Z und dem Transformationssatz 1.1
Z
Z
Z
(' Z) dP =
(1C Z) (' Z) dP = ((1C ') Z) dP
Z 1 (C)
Z
Z
1
=
(1C ') d P Z
=
'd P Z 1 :
C
Die Bedingung an ' ist daher
Z
'd P Z
C
1
=
Z
Z
1 (C)
XdP; 8C 2 S:
Man schreibt für die Abbildung s ! ' (s) meist s ! E (X j Z = s), bzw als Abbildung
E (X j Z = ) ; sodass sich die Bedingung
Z
Z
1
XdP; 8C 2 S:
E (X j Z = s) P Z
(ds) =
Z
C
1 (C)
Die Notation ist jedoch etwas tückisch und man sollte sich stets klar darüber sein, dass
E (X j Z = s) nicht wirklich individuell für festes s de…niert wird, sondern die Funktion
in s als Ganzes. Aus der obigen Bedingung ergibt sich sofort, dass E (X j Z = ) eindeutig
bis auf P Z 1 -f.s. Gleichheit festgelegt ist, denn die Gleichung legt alle Integrale über
Mengen C 2 S fest.
Wenn Z eine Zufallsgrösse ist, die nur abzählbar viele Werte annimmt, mit P (Z = z) >
0 für alle z im Wertebereich von Z; so ist E (X j Z = z) einfach der elementar de…nierte
bedingte Erwartungswert, d.h. der Erwartungswert von X bezüglich des Wahrscheinlichkeitsmasses A ! P (A j Z = z) ; das wegen P (Z = z) > 0 elementar de…niert ist. Der
Leser möge sich das als Übungsaufgabe überlegen.
Bemerkung 1.16
Manchmal ist es nützlich, bedingte Erwartungswerte auch für nicht-integrierbare Zufallsvariablen zu de…nieren. Das ist zunächst immer möglich, wenn X
0 gilt: Wir setzen
Xn := min (X; n) und de…nieren
E (X j G) = lim E (Xn j G) :
n!1
Die Folge fE (Xn j G)g ist nach Satz 1.13 d) f.s. ansteigend. Dieser Limes kann durchaus
endlich sein, auch wenn X nicht integrierbar ist, z.B. im Trivialfall G = F, für den
E (X j G) = X ist.
Ist X eine R-wertige Zufallsvariable, so zerlegen wir sie in Positiv- und Negativteil:
X = X + X : Sind E (X + j G) und E (X j G) endliche Zufallsvariablen, so können
wir E (X j G) durch E (X + j G) E (X j G) de…nieren.
Wir werden in der Regel bedingte Erwartungswerte nur für integrierbare Zufallsvariablen betrachten, ausser in Fällen, wo wir explizit darauf hinweisen.
Wir werden später die Jensen-Ungleichung für bedingte Erwartungswerte verwenden:
13
Lemma 1.17
Sei ' : R ! R eine konvexe Funktion, X eine integrierbare Zufallsgrösse und G eine
Teil- -Algebra von F: Ist ' (X) integrierbar, so gilt
' (E (X j G))
E (' (X) j G) :
(1.10)
Beweis. Zu einer konvexe Funktion '; existiert eine monoton ansteigende Funktion
: R ! R (die somit messbar ist), mit
' (y)
' (x) + (x) (y
x) :
Da X als integrierbar vorausgesetzt ist, ist E (X j G) eine endliche G-m.b. Zufallsgrösse
und wir erhalten
' (X)
' (E (X j G)) + (E (X j G)) (X
E (X j G)) :
Anwendung des bedingten Erwartungswertes ergibt (1.10).
Bemerkung 1.18
Ist ' im obigen Lemma konvex und nicht-negativ, so lässt sich E (' (X) j G) de…nieren,
ohne dass die Integrierbarkeit von ' (X) vorausgesetzt wird. (1.10) gilt dann auch ohne
diese Voraussetzung, was sich der Leser als Übungsaufgabe überlegen möge.
1.4
Reguläre bedingte Wahrscheinlichkeiten
Dem Leser ist wahrscheinlich aufgefallen, dass wir bedingte Erwartungswerte quasi neu
de…niert haben und nicht via Integrale über bedingte Wahrscheinlichkeiten. Nachdem
bedingte Wahrscheinlichkeiten einmal de…niert und konstruiert sind, wäre es naheliegend,
E (X j G) als
Z
E (X j G) =
X (!) P (d! j G)
festzulegen. Dies würde jedoch voraussetzen, dass A ! P (A j G) ein Wahrscheinlichkeitsmass ist. Wir haben jedoch bisher P (A j G) lediglich für festes A als G-m.b. Funktion de…niert, wobei man sich klar sein muss, dass diese Funktion nur bis auf P -f.s.
Eindeutigkeit festgelegt ist. Eine naheliegende Frage ist, ob das tatsächlich eine Wahrscheinlichkeit als Funktion von A ist. Präziser ausgedrückt: Ist es möglich, für jedes
A 2 F; eine G-m.b. Version von P (A j G) so zu wählen, dass für alle ! 2 die Abbildung A ! P (A j G) (!) ein Wahrscheinlichkeitsmass auf F ist? Anstelle einer Antwort
zunächst die präzise De…nition.
De…nition 1.19
( ; F; P ) sei ein Wahrscheinlichkeitsraum und G sei eine Teil- -Algebra von F: Eine
reguläre bedingte Wahrscheinlichkeit von P gegeben G ist ein Marko¤kern Q von
( ; G)
( ; F) mit der Eigenschaft, dass für jedes A 2 F die Abbildung
3 ! !
Q(!; A) eine Version der bedingten Wahrscheinlichkeit von A gegeben G ist, d.h. dass
Z
P (A \ B) =
Q(!; A)P (d!) ;
B
14
für alle A 2 F und alle B 2 G gilt. (Wir schreiben in Zukunft natürlich wieder P (A j
G) (!) anstelle von Q(!; A) auch für eine reguläre bedingte Wahrscheinlichkeit).
Unglücklicherweise existieren reguläre bedingte Wahrscheinlichkeiten nicht immer.
Es gilt jedoch:
Satz 1.20
Ist
ein vollständiger, separabler metrischer Raum und F = B die Borel- -Algebra,
das heisst die von den o¤enen Mengen in erzeugte -Algebra, so existiert für Teil- Algebra G eine reguläre bedingte Wahrscheinlichkeit.
Von Interesse ist, dass reguläre bedingte Verteilungen für praktische jede Situation von Interesse existieren. Hier interessiert man sich nur für die bedingten Wahrscheinlichkeiten von Ereignissen, die durch Zufallsvariablen de…niert sind:
De…nition 1.21
Sei X eine Zufallsvariable mit Werten in einem messbaren Raum (S; S) (d.h. einfach eine
messbare Abbildung ( ; F) ! (S; S)) und G eine Teil- -Algebra von F. Eine reguläre
bedingte Verteilung von X gegeben G ist ein Marko¤-Kern von : ( ; G)
(S; S)
mit der Eigenschaft, dass für jedes B 2 S die G-m.b. Funktion
!!
(!; B)
eine Version der bedingten Wahrscheinlichkeit von fX 2 Bg gegeben G ist, d.h. dass für
alle D 2 G die Gleichung
Z
(!; B) P (d!) = P (fX 2 Bg \ D) :
D
Satz 1.22
Ist S ein vollständiger separabler metrischer Raum und S die Borel- -Algebra auf S;
d.h. die von den o¤enen Mengen in S erzeugte -Algebra, so existiert für jede Zufallsvariable X mit Werten in (S; S) und jede Teil- -Algebra G von F eine reguläre bedingte
Verteilung von X gegeben G.
Bemerkung 1.23
a) Satz 1.20 ist ein Spezialfall mit (S; S) = ( ; F) und X die identische Abbildung.
b) Euklidsche Räume Rn sind vollständig und separabel und allgemeiner separable
Banach- und Hilberträume. Der obige Satz lässt sich deshalb auf die üblichen
Zufallsvariablen anwenden.
Der Beweis soll hier nicht ausgeführt werden. Für eine ausführliche Diskussion, siehe
[2], § 44.
Zum Schluss schauen wir uns noch den am Ende des Abschnitts 1.3 diskutierten
Spezialfall an, wo G die von einer Zufallsvariablen erzeugte -Algebra ist: G = (Z) ;
wobei Z eine messbare Abbildung ( ; F) ! (S 0 ; S 0 ).
15
De…nition 1.24
Eine reguläre bedingte Verteilung von X gegeben die Werte von Z ist in diesem Fall
ein Marko¤-Kern (S 0 ; S 0 )
(S; S) meist geschrieben als
s0 ; B 7 ! P X 2 B j Z = s0 ;
mit der Eigenschaft, dass
Z
P X 2 B j Z = s0 P Z
1
D
ds0 = P (X 2 B; Z 2 D)
für alle Mengen D 2 S 0 gilt.
Zwei Spezialfälle:
1. Nimmt Z nur abzählbar viele Werte an mit P (Z = s0 ) > 0 für alle s0 2 S 0 ; so ist
P X 2 A j Z = s0 =
P (X 2 A; Z = s0 )
:
P (Z = s0 )
2. Sei (S 0 ; S 0 ) = (S; S) = (R; B) und (X; Y ) habe die gemeinsame Dichte f : R2 ! R+
bezüglich des 2-dimensionalen Lebesgue-Masses. Sie f2 die zweite Randdichte:
Z
f2 (z) = f (x; z) dx
Wir de…nieren
f (x j z) =
(
f (x;z)
f2 (z)
0
falls f2 (z) 6= 0
:
falls f2 (z) = 0
Dann ist f (x j z) die Dichte der bedingten Verteilung
Z
P (X 2 A j Z = z) =
f (x j z) dx
A
1.5
Anhang: Ergänzungen zu Unabhängigkeit
Es sei ( ; F; P ) ein Wahrscheinlichkeitsraum. Im folgenden wird von Familien von Teilmengen von stets stillschweigend vorausgesetzt, dass sie enthalten.
De…nition 1.25
a) Teilmengen E1 ; : : : ; En von F (mit 2 Ei !) heissen unabhängig, wenn für Ai 2 Ei ,
1 i n, die folgende Gleichung gilt:
P (A1 \
\ An ) = P (A1 )
P (An ):
(1.11)
b) Seien eine Indexmenge I und Ei für i 2 I Teilmengen von F. Sie heissen unabhängig, wenn je endlich viele unabhängig sind.
16
c) Ereignisse Ai für i 2 I heissen unabhängig, wenn die Mengensysteme fAi ; g,
i 2 I, unabhängig sind.
d) Zufallsvariablen Xi ; i 2 I; die auf ( ; F; P ) de…niert sind, heissen unabhängig
falls die (Xi ) ; i 2 I; unabhängig sind. (Die Xi können Werte in beliebigen
messbaren Räumen (Si ; Si ) annehmen, sie müssen jedoch auf demselben Wahrscheinlichkeitsraum ( ; F; P ) de…niert sein, damit die De…nition Sinn macht).
Notation: Für zwei unabhängige Teilmengen E1 , E2 von F schreiben wir E1 ? E2 .
Die Voraussetzung, dass die Mengensysteme stets
enthalten, dient nur der bequemen Notation. Dies hat nämlich zur Folge, dass für unabhängige Mengensysteme
E1 ; : : : ; En auch stets
k
Y
\ Aik ) =
P (Aij )
(1.12)
P (Ai1 \
j=1
für fi1 ; : : : ; ik g f1; : : : ; ng und Aij 2 Eij ist. Setzt man 2 Ei nicht voraus, so muss
man (1.12) als De…nition verwenden, was o¤ensichtlich stets einen grösseren Schreibaufwand erfordert.
Lemma 1.26
a) Sind die Ei für i 2 I unabhängig und gilt Di
unabhängig.
S
b) Gilt D ? Ei für i 2 I, so gilt D ? i2I Ei .
Ei für i 2 I, so sind die Di für i 2 I
Beweis. a) ist klar.
S
b) Für A 2 D und B 2 i2I Ei existiert ein i 2 I mit B 2 Ei , das heisst, dass
P (A \ B) = P (A)P (B) gilt.
Wir diskutieren nun einige Möglichkeiten, Unabhängigkeitsaussagen von Mengensystemen auf grössere Mengensysteme hochzuziehen.
Satz 1.27
Es seien Di für i 2 I unabhängige Teilmengen von F (stets
durchschnittstabil, so sind die (Di ) für i 2 I unabhängig.
2 Di ). Sind die Di
Beweis. Es genügt den Satz zu zeigen, wenn I endlich ist. Sei etwa I = f1; : : : ; ng. Wir
müssen (1.11) für Ai 2 (Di ) nachweisen. Für 0 k n sei Lk die folgende Aussage:
P (A1 \
\ An ) = P (A1 )
P (An ); 8Ai 2 (Di ) f u
•r i
k; 8Ai 2 Di f u
•r i > k:
Die Aussage L0 gilt wegen der Unabhängigkeit der Di . Ln ist die behauptete Unabhängigkeit der (Di ).
Wir zeigen Lk ) Lk+1 für 0 k n 1. Damit folgt dann Ln :
Wir betrachten dazu das Mengensystem Ak+1 bestehend aus den Mengen Ak+1 2
(Dk+1 ); die die Eigenschaft haben, dass die Gleichung (1.11) für 8A1 2 (D1 ); : : : ; 8Ak 2
(Dk ); 8Ak+2 2 Dk+2 ; : : : ; 8An 2 Dn gilt
Aus Lk folgt Ak+1 Dk+1 . Wir zeigen, dass Ak+1 ein Dynkin-System ist.
17
1.
2 Ak+1 gilt wegen
2 Dk+1 .
2. Für D 2 Ak+1 gilt
0
1
0
1
k
n
k
n
\
\
\
\
P@
Aj \ D c \
Aj A = P @
Aj \
Aj A
j=1
j=k+2
=
Y
j=1
P (Aj )
j=k+2
P (D)
j:j6=k
=
Y
Y
0
P@
k
\
j=1
Aj \ D \
P (Aj )
n
\
j=k+2
Aj A
j:j6=k
P (Aj ) P (Dc ):
j:j6=k
für alle Ai gemäss den obigen Bedingungen, das heisst Dc 2 Ak+1 .
S
3. Für paarweise disjunkte Di 2 Ak+1 , i 2 N, folgt analog 1
i=1 Di 2 Ak+1 .
Nach dem Hauptsatz über Dynkin-Systeme folgt Ak+1 = (Dk+1 ), das heisst, dass
Lk+1 gilt.
Bemerkung 1.28
Da das Mengensystem fA; g durchschnittstabil ist, folgt, wenn die Ereignisse Ai für
i 2 I unabhängig sind, dass auch die -Algebren f;; Ai ; Aci ; g unabhängig sind; insbesondere dann auch die Komplemente Aci .
Korollar 1.29
Es seien Di
F für i 2 I unabhängig und durchschnittstabil. Es sei S(Ik )k2K eine
Familie von paarweise disjunkten Teilmengen von I. Dann sind die ( j2Ik Dj ) für
k 2 K unabhängig.
^ k die Familie der endlichen Durchschnitte von Elementen aus
Beweis. Für k 2 K sei D
^ k ist o¤enbar durchschnittstabil, und da die Dj
Dj für j 2 Ik . Das Mengensystem D
^ k die Gestalt Aj \
durchschnittstabil sind, hat jedes Element aus D
\ Ajn mit n 2 N,
1
^ k für k 2 K
Aj 2 Dj und verschiedenen j1 ; : : : ; jn 2 Ik . Daraus folgt
sofort,
dass
die
D
S
^ k Dj für alle j 2 Ik ist, gilt (
^
unabhängig sind. Da D
j2Ik Dj ) = (Dk ). Das Korollar
folgt nun aus Satz 1.27.
Als Folgerung ergibt sich das folgende Resultat:
Satz 1.30 (Kolmogoro¤s 0-1-Gesetz)
Sei fFn gn2N eine Folge von unabhängigen Teil- -Algebren Fn von F. Seien Fn :=
W1
T1
k=n Fk und T1 =
n=1 Fn . Für A 2 T1 gilt P (A) 2 f0; 1g.
Notation:
Für
schreiben wir
W
S eine Familie fFi gi2I von -Algebren auf einer Menge
i2I Fi . Zur Erinnerung: Die Vereinigung von -Algebren ist in der Regel
i2I Fi für
keine -Algebra, aber der Durchschnitt von -Algebren ist stets eine -Algebra.
T1 heisst die -Algebra der terminalen Ereignisse der Folge fFn gn2N oder auch
terminale -Algebra der Fn .
18
1
Wn
Beweis.
Nach
Korollar
1.29
gilt
F
?
n+1
k=1 Fk , also nach Lemma 1.26
Wn
S1 a):
WnT1 ?
k=1 Fk für alle n 2 N. Somit gilt nach Teil b) desselben Lemmas T1 ?
n=1 k=1 Fk .
Da die rechte Seite als Vereinigung einer aufsteigenden Folge von -Algebren durchschnittstabil ist, folgt nach Satz 1.27
!
1 _
n
1
[
_
T1 ?
Fk =
Fn :
n=1 k=1
n=1
W1
W1
Nun ist aber Fn
k=1 Fk für alle n 2 N, also auch T1
n=1 Fn . Nach Lemma 1.26
folgt also T1 ? T1 , das heisst, für A 2 T1 gilt P (A) = P (A \ A) = P (A)2 , das heisst
P (A) 2 f0; 1g.
19
2
2.1
Marko¤-Ketten
Grundlegende Begri¤e
Marko¤-Ketten kann man anschaulich wie folgt beschreiben: Ein Teilchen bewegt sich in
diskreter Zeit auf einer höchstens abzählbaren Menge I. Be…ndet es sich auf einem Platz
i 2 I, so wechselt es mit gewissen Wahrscheinlichkeiten (die von i abhängen) zu einem
anderen Platz j 2 I. Diese Übergangswahrscheinlichkeiten hängen aber nicht weiter von
der Vorgeschichte ab, das heisst vom Weg, auf dem das Teilchen zum Platz i gekommen
ist. Die Elemente in I nennen wir auch die “Zustände”, in denen sich die Kette be…nden
kann.
De…nition 2.1
Es sei I eine nichtleere, höchstens abzählbare Menge. Eine Matrix
= (pij )i;j2I heisst
P
stochastische Matrix, wenn pij 2 [0; 1] für alle i; j 2 I und j2I pij = 1 für alle i 2 I
gelten. Die Komponenten pij nennt man die Übergangswahrscheinlichkeiten.
De…nition 2.2
Sei ein stochastische Matrix. Eine endlich oder unendlich lange Folge X0 ; X1 ; X2 ; : : :
I-wertiger Zufallsgrössen (de…niert auf einem Wahrscheinlichkeitsraum ( ; F; P )) heisst
(zeitlich homogene) Marko¤-Kette mit stochastischer Matrix , wenn für alle n 0
und alle i0 ; i1 ; : : : ; in ; in+1 2 I; die P (X0 = i0 ; : : : ; Xn = in ) > 0 erfüllen, die Gleichung
P ( Xn+1 = in+1 j X0 = i0 ; X1 = i1 ; : : : ; Xn = in ) = pin in+1
gilt. Die Startverteilung
i 2 I.
(2.1)
einer Marko¤-Kette ist de…niert durch (i) = P (X0 = i),
Notationen: Manchmal will man die Startverteilung betonen und schreibt P wenn
diese ist. Für den Fall = i schreiben wir einfach Pi . Für die (unendlich lange) Folge
(X0 ; X1 ; : : :) schreiben wir oft X.
Aus der De…nition folgt sofort
P (X0 = i0 ; X1 = i1 ; : : : ; Xn = in )
=
(i0 ) pi0 ;i1 pi1 ;i2
pin
1 ;in
(2.2)
:
(siehe Skript Stochastik I, Formel (58)). Umgekehrt, wenn diese Gleichung für alle n 2
N0 ; i0 ; : : : ; in 2 I gilt, so ist fXn g eine Marko¤-Kette mit stochastischer Matrix und
Startverteilung : Die Gleichung (2.1) ergibt sich sofort aus (2.2) und der (elementaren)
De…nition der bedingten Wahrscheinlichkeit,
Man kann die gesamte unendlich lange Folge X = (X0 ; X1 ; X2 ; : : :) als Abbildung
! I N0 au¤assen. Diese ist messbar wenn I N0 mit der Produkt- -Algebra der P (I)
versehen wird (was nicht die Potenzmenge von I N0 ist). Diese Produkt- -Algebra bezeichnen wir mit P (I) N0 : Wie Verteilung Q := P X 1 der Folge X ist dann ein Wahrscheinlichkeitsmass auf I N0 ; P (I) N0 : Typischerweise interessiert nur diese Verteilung
und man könnte sich daher darauf beschränken, „konkrete“ Wahrscheinlichkeitsräume
20
I N0 ; P (I) N0 ; Q zu betrachten, wobei die Xn die Projektionen I N0 ! I sind. Es wird
sich jedoch herausstellen, dass die Flexibilität, die man durch die Wahl allgemeinerer
Wahrscheinlichkeitsräume hat, manchmal nützlich ist.
Mit Fn bezeichnen wir die -Algebra (X0 ; X1 ; : : : ; Xn ) : Da I abzählbar ist, besteht
Fn einfach aus den Mengen, die sich als Vereinigungen von Zylindermengen der Form
f! 2
: X0 (!) = j0 ; : : : ; Xn (!) = jn g ; jk 2 I;
darstellen lassen.
Satz 2.3
Für jede Startverteilung ; jedes n 2 N0 und jede beschränkte messbare Funktion
I N0 ! R gilt
E ( ( n X) j Fn ) = EXn ( ) ; P f:s:
Hier bezeichnet
nX
:
die Folge (Xn ; Xn+1 ; : : :)
Die linke Seite der obigen Gleichung ist der bedingte Erwartungswert im Sinne der
Diskussion des letzten Kapitels. Die rechte Seite ist die Komposition von Xn : ! I
mit der Abbildung I ! R, gegeben durch i 7 ! Ei ( ). Ei ist der Erwartungswert
unter dem Wahrscheinlichkeitsmass Pi . Für den Spezialfall, dass eine Indikatorfunktion
1A ; A 2 P (I) N0 ist, ergibt sich
P (
nX
2 A j Fn ) = PXn (X 2 A) :
Beweis. Es genügt, die Aussage für eine Indikatorfunktion
endlich vielen Komponenten abhängt, also
(2.3)
zu beweisen, die nur von
(!) = 1f!0 =i0 ;:::;!k =ik g
für ein k 2 N und i0 ; : : : ; ik 2 I: Dann steht auf der linken Seite
P (Xn = i0 ; : : : ; Xn+k = ik j Fn )
um die behauptete Gleichung zu zeigen, müssen wir also nachweisen, dass für alle B 2 Fn
die Gleichung
Z
P (B \ fXn = i0 ; : : : ; Xn+k = ik g) =
PXn (X0 = i0 ; : : : ; Xk = ik ) dP
B
nachzuweisen. In unserer diskreten Situation genügt es, den Spezialfall
B = fX0 = j0 ; : : : ; Xn = jn g
zu betrachten, weil jedes B 2 Fn sich als abzählbare Vereinigung derartiger Mengen
darstellen lässt. Sowohl die rechte wie die linke Seite ist gleich 0 falls nicht jn = i0 ist.
Ist dies der Fall, so ist die linke Seite nach (2.2) gleich
(j0 ) pj0 j1
pjn
1 i0
21
pi0 i1
pik
1 ;ik
:
(2.4)
Die rechte Seite ist gleich
P (X0 = j0 ; : : : ; Xn
1
= jn
1 ; Xn
= i0 ) Pi0 (X0 = i0 ; : : : ; Xk = ik ) ;
was wiederum nach (2.2) mit (2.4) übereinstimmt.
Die im obigen Satz verwendete Formulierung der Marko¤-Eigenschaft lässt sich auf
sehr viel allgemeinere Situationen anwenden. In dem hier betrachteten Fall ist eine „konkretere“ Version nützlich:
Korollar 2.4
Seien A 2 P (I) N0 ; B I f0;:::;n 1g und i 2 I. Sofern P ((X0 ; : : : ; Xn 1 ) 2 B; Xn = i) >
0 ist, gilt
P ( n X 2 A j (X0 ; : : : ; Xn 1 ) 2 B; Xn = i) = Pi (X 2 A) :
Beweis. C := f(X0 ; : : : ; Xn 1 ) 2 B; Xn = ig 2 Fn . Anwendung von (2.3) ergibt:
Z
Z
P ( n X 2 A j Fn ) dP
PXn (X 2 A) dP =
C
C
= P (
nX
2 A; C) ;
die zweite Gleichung nach der de…nierenden Eigenschaft der bedingten Wahrscheinlichkeit. Die linke Seite ist
Pi (X 2 A) P (C) :
Division durch P (C) ergibt
P (
nX
2 A j C) =
P (
2 A; C)
= Pi (X 2 A) :
P (C)
nX
Bemerkung 2.5
a) Eine stochastische Matrix de…niert einen Marko¤-Kern von I nach I (I versehen
mit der -Algebra der Potenzmenge). Die Gleichung (2.1) besagt dann, dass durch
die Matrix die bedingte Verteilung von Xn+1 gegeben die Werte von (X0 ; X1 ; : : : ; Xn )
im Sinne von De…nition (1.24) beschrieben wird.
Die De…nition 2.2 kann sehr einfach auf eine Folge mit Werten in einem allgemeinen
messbaren Raum verallgemeinert werden. Sei (S; S) ein messbarer Raum und
ein Marko¤kern (S; S)
(S; S) : Eine Folge X0 ; X1 ; X2 ; : : : von (S; S)-wertigen
Zufallsvariablen heisst Marko¤-Kette mit Übergangskern ; wenn
P ( Xn+1 2 B j (X0 ; X1 ; : : : ; Xn ) = (s0 ; s1 ; : : : ; sn )) =
(sn ; A)
(2.5)
im Sinne von De…nition (1.24) ist. Die Startverteilung der Kette ist die Verteilung von X0 . Wir werden uns jedoch im Moment auf Ketten mit abzählbarem
Wertebereich beschränken.
22
b) Eine naheliegende Frage ist, ob zu jedem Marko¤kern und zu jeder Startverteilung eine unendlich lange Marko¤-Kette im Sinne der vorherigen Bemerkung
existiert, d.h. gibt es stets einen Wahrscheinlichkeitsraum ( ; F; P ) und eine (unendliche) Folge von (S; S)-wertigen Zufallsvariablen X0 ; X1 ; : : : mit
= P X0 1
und (2.5) für alle n 2 N0 : Die Antwort ist ohne jede Einschränkung an (S; S) „Ja“.
Beweis im Abschnitt 2.8.
c) Eine Verallgemeinerung sind Marko¤-Ketten deren Übergangswahrscheinlichkeiten
[n]
vom „Zeitpunkt“ abhängen können. Hier betrachtet man eine Folge
,
n2N
[n]
[n]
= pij ; von stochastischen Matrizen (bzw. allgemeiner stochastische Kerne)
und verlangt, dass
[n]
P ( Xn+1 = in+1 j X0 = i0 ; X1 = i1 ; : : : ; Xn = in ) = pin in+1
gilt. Man spricht dann auch von einer zeitlich inhomogenen Marko¤-Kette.
Es gibt einen einfachen Trick, wie man zeitlich inhomogene Ketten auf homo^n =
gene zurückführen kann: Man betrachtet anstelle der Folge fXn g die Folge X
(Xn ; n) ; die Werte in I N0 annimmt. Diese Folge ist eine Marko¤kette auf I N0 ,
welche die Übergangswahrscheinlichkeiten
p^(i;n);(j;m) :=
[n]
m;n+1 pij
besitzt. Der Leser möge sich das als Übungsaufgabe überlegen.
Der Trick ist zwar einfach, aber auch billig: In der Tat sind viele Probleme für inhomogene Ketten schwierig, und der obige Trick ist tatsächlich nicht sehr hilfreich,
da entscheidende Eigenschaften durch die „Homogenisierung“ verlorengehen. Wir
werden uns in dieser Vorlesung fast ausschliesslich mit homogenen Ketten beschäftigen.
Eine stochastische Matrix = (pij )i;j2I kann man stets ohne Probleme potenzieren:
(n)
(0)
Für n 2 N0 de…niert man die n-te Potenz n = (pij )i;j2I rekursiv durch pij = ij und
X (n)
(n+1)
pij
=
pik pkj
k2I
n
für alle i; j 2 I, das heisst,
ist das n-fache Matrixprodukt von mit sich selbst. Aus
der rekursiven De…nition folgt, dass n selbst eine stochastische Matrix ist. Es gelten
die aus der linearen Algebra bekannten Rechenregeln für Matrizen, insbesondere gilt
m n = m+n , das heisst
X (m) (n)
(m+n)
pik pkj = pij
; i; j 2 I:
(2.6)
k2I
Diese Gleichung nennt man auch die Chapman-Kolmogoro¤-Gleichungen.3
3
Es sieht etwas eigenartig aus, dass diese Gleichung die Namen von zwei bekannten Mathematikern
trägt. Für Marko¤-Prozesse, die etwas allgemeiner sind als die hier vorgestellten, ist die Gleichung jedoch
nicht mehr völlig trivial.
23
(n)
Die Komponenten pij der Matrix
wahrscheinlichkeiten.
n
(n)
= (pij )i;j2I heissen n-stu…ge Übergangs-
Lemma 2.6
Es sei X0 ; X1 ; X2 ; : : : eine Marko¤-Kette mit Startverteilung
Es gilt
X
(n)
P (Xn = j) =
(i)pij
und Übergangsmatrix .
i2I
für alle n 2 N0 und j 2 I. Ist die Startverteilung
(n)
Pi (Xn = j) = pij .
auf i 2 I konzentriert, so gilt
Beweis. Aus Satz (2.2) folgt
P (Xn = j) =
X
i0 ;:::;in
=
X
i0 ;:::;in
P (X0 = i0 ; : : : ; Xn
1
1 2I
(i0 )pi0 i1 : : : pin
1j
=
= in
X
1;
Xn = j)
(n)
(i)pij :
i2I
1 2I
Lemma 2.7
(m+n)
Für alle m; n 2 N0 und i; j; k 2 I gilt pij
(m) (n)
pik pkj .
Beweis. Dies ergibt sich sofort aus (2.6).
2.2
Beispiele von Marko¤-Ketten
Beispiel 2.8
a) Irrfahrt auf Z: Es sei Y1 ; Y2 ; : : : eine Folge unabhängiger, f1; 1g-wertiger Zufallsgrössen mit P (YjP
= 1) = p und P (Yj = 1) = 1 p, wobei p 2 [0; 1] ist. Sei
1. Dann ist X0 ; X1 ; : : : eine Marko¤-Kette
X0 := 0 und Xn := nj=1 Yj für n
auf Z. Die Übergangsmatrix = (pij )i;j2Z erfüllt pi;i+1 = p und pi;i 1 = 1 p,
und die Startverteilung ist in 0 konzentriert. Für p = 1=2 ergibt sich die bekannte
symmetrische Irrfahrt.
b) Symmetrische Irrfahrt auf Zd : Hier ist I = Zd und p(i1 ;:::;id );(j1 ;:::;jd ) = 1=(2d),
falls ji jj = 1 ist. Alle anderen Übergangswahrscheinlichkeiten müssen dann Null
sein. Die zugehörige Marko¤-Kette bezeichnet man als die symmetrische Irrfahrt
auf Zd : Wir können die Irrfahrt endlicher Länge auch wie folgt beschreiben: Sei
N 2 N und N die Menge aller Pfade auf dem Gitter der Länge N; die in 0
beginnen, und die Sprünge nur zu benachbarten Gitterpunkten machen. O¤enbar
gibt es (2d)N derartige Pfade. Unter der Gleichverteilung auf der Menge dieser
Pfade ist die Folge der Positionen entlang des Pfades eine symmetrische Irrfahrt.
c) Irrfahrt auf I = f0; : : : ; ng mit Absorption: 0 und n seien absorbierend, also
p00 = 1 und pnn = 1. Für i 2 f1; 2; : : : ; n 1g geschehe ein Schritt nach rechts
24
mit Wahrscheinlichkeit p 2 (0; 1) und ein Schritt nach links mit Wahrscheinlichkeit
q := 1 p,0also pi;i+1 = p und 1
pi;i 1 = q. Die stochastische Matrix hat somit die
1 0
0
Bq 0
C
p
B
C
B .. .. ..
C
Form = B
C:
.
.
.
B
C
@
q
0 pA
0
0 1
d) Irrfahrt mit Re‡exion: Das gleiche Modell wie in Beispiel d) mit der Änderung,
dass p01 = pn;n 1 = 1 sein soll.
Einige interessante Beispiele können als sogenannte Urnenmodelle realisiert werden.
Beispiel 2.9
a) Polyas Urnenschema: In einer Urne liegen rote und schwarze Kugeln. Eine
wird zufällig gezogen und zusammen mit einer neuen Kugel der gleichen Farbe
zurückgelegt. Hier ist I = f (r; s) j r; s 2 N g sowie p(r;s);(r+1;s) = r=(r + s) und
p(r;s);(r;s+1) = s=(r + s) für alle r; s 2 N. Polya hatte dies als einfaches Modell für
Ansteckungen vorgeschlagen.
b) Ehrenfests Urnenmodell: Insgesamt n Kugeln liegen in zwei Urnen. Man wählt
eine der Urnen jeweils mit Wahrscheinlichkeit proportional zur Anzahl der Kugeln
in dieser Urne. Enthält die Urne 1 also k Kugeln (die Urne 2 dann n k); so wählt
man die Urne 1 mit Wahrscheinlichkeit k=n und die Urne 2 mit Wahrscheinlichkeit 1 k=n: Anschliessend verschiebt man eine Kugel von der gewählten Urne
in die andere. Auf diese Weise fährt man weiter. Wir können I als die Menge
der möglichen Belegungen der Urne 1 nehmen, also I := f0; : : : ; ng : Der obige
Zufallsvorgang lässt sich durch die stochastische Matrix pk;k 1 = k=n; pk;k+1 :=
1 k=n, pk;j = 0 für j 2
= fk 1; k + 1g beschreiben. Das Beispiel ist von Ehrenfest
zur Illustration irreversibler Vorgänge in der Statistischen Mechanik angegeben
worden. Beginnen wir mit je gleich vielen Kugeln in beiden Urnen, so ist die Wahrscheinlichkeit 1; dass irgend wann einmal eine der Urnen leer ist. Dies werden wir
später nachweisen. Ist n nicht zu klein, so muss man jedoch sehr lange darauf
warten. Beginnt man umgekehrt mit allen Kugeln in einer Urne, so gelangt man
sehr viel schneller zu einem Ausgleich.
Zwei weitere wichtige Klassen von Beispielen sind Irrfahrten auf Graphen und Irrfahrten auf Gruppen. Ein Graph besteht aus “Knoten”und “Kanten”oder „Verbindungen“,
wobei die Kanten jeweils zwei verschiedene Knoten verbinden. Wir setzen nicht voraus,
dass die Menge der Knoten oder Kanten endlich ist, jedoch, dass jeder Knoten nur zu
endlich vielen Kanten gehört. Einen derartigen Graphen nennt man lokal endlich. Wir
schreiben einen Graphen als (K; V ) ; wobei K, die Knotenmenge, eine abzählbare Menge ist und V eine Teilmenge der Menge der zweielementigen Teilmengen von K: Sind
x; y 2 K; x 6= y; so schreiben wir fx; yg 2 V; falls es eine Kante zwischen x und y gibt.
25
Die Tatsache, dass (K; V ) lokal endlich ist, besagt, dass für jedes x 2 K; die Menge
der Nachbarn von x :
Nx := fy 2 K : fx; yg 2 V g
endlich ist. Wir setzen voraus, dass jedes x 2 K mindestens einen Nachbarn hat.
Manchmal ist es bequem, sogenannte gewichtete Graphen zu betrachten. Hier ist
noch eine „Gewichtsfunktion“ ' : V ! R+ gegeben. Wir setzen voraus, dass das Gewicht
echt positiv auf jeder Kante ist.
Beispiel 2.10
Sei (K; V; ') ein gewichteter Graph gemäss der obigen De…nition. Wir de…nieren eine
Marko¤-Kette auf K. Anschaulich soll folgendes passieren: Be…ndet sich das Teilchen
im Knoten x 2 K, so wählt es (sofern vorhanden) einen der Nachbarknoten aus Nx aus
und springt zu diesem mit einer Wahrscheinlichkeit, die proportional zum Gewicht der
Kante ist. Formal
(
P '(fx;yg)
fu
• r y 2 Nx
z2Nx '(fx;zg)
px;y :=
:
0
fu
•r y 2
= Nx
Ist ' konstant, so wählt man o¤enbar unter allen Nachbarn mit gleicher Wahrscheinlichkeit aus, zu welchem man springt. Die symmetrische Irrfahrt auf Zd ein Spezialfall
des Beispiels 2.10 mit K = Zd und V der Menge der Verbindungen nächster Nachbarn
(und ' 1).
Eine weitere Verallgemeinerung der symmetrischen Irrfahrt auf Zd sind Irrfahrten
auf Gruppen.
Beispiel 2.11
Es seien G eine abzählbare Gruppe mit neutralem Element 1 und sei eine beliebige
Wahrscheinlichkeitsverteilung auf G. Wir de…nieren pg;h = (g 1 h) für alle g; h 2 G.
Wegen der Gruppeneigenschaft ist für jedes g 2 G die Abbildung h 7! g 1 h bijektiv auf
G, und es gilt
X
X
X
pg;h =
(g 1 h) =
(h0 ) = 1:
h2G
h0 2G
h2G
Also ist = (pg;h )g;h2G eine stochastische Matrix. Die zugehörige Marko¤-Kette heisst
-Irrfahrt auf G.
Die symmetrische Irrfahrt auf Zd ist wieder ein Spezialfall, denn Zd ist bezüglich
der Addition eine abelsche Gruppe und die Wahrscheinlichkeitsverteilung
ist in diePd
jx
j
=
1
ist,
und
durch
sem Fall gegeben durch ((x1 ; : : : ; xd )) = 1=(2d), falls
i=1 i
d
((x1 ; : : : ; xd )) = 0 für alle anderen (x1 ; : : : ; xd ) 2 Z .
Irrfahrten auf nichtabelschen Gruppen spielen bei der Modellierung von Mischvorgängen eine grosse Rolle. Das Mischen von Spielkarten z.B. kann als Marko¤-Kette auf
der Permutationsgruppe verstanden werden.
Beispiel 2.12
Zum Schluss diskutieren wir noch kurz ein einfaches Beispiel eines sogenannten Verzweigungsprozesses, den sogenannten Galton-Watson Prozess. Damit wird eine sich
26
verändernde Population von Individuen modelliert. Mit Xn bezeichnen wir die Grösse
der Population zum Zeitpunkt n: Der Übergang von Xn nach Xn+1 wir nun wie folgt
beschrieben. Jedes Individuum der n-Population hinterlässt eine zufällige Anzahl von
Nachkommen und stirbt selbst ab, und zwar ist die Anzahl der Nachkommen (die auch
0 sein kann) durch eine Verteilung q auf N0 gegeben. Wir nehmen weiter an, dass die
Anzahlen der Nachkommen der Individuen unabhängig sind. Wir bezeichnen mit i die
Anzahl der Nachkommen des Individuums i. Wir nehmen also an, dass die i unabhängige N0 -wertige Zufallsgrössen mit P ( i = k) = q (k) sind, wobei q ein Wahrscheinlichkeit
auf N0 ist. Ist Xn = r; so ist Xn+1 als
r
X
Xn+1 =
i
i=1
de…niert. Falls r = 0 ist, so setzt man natürlich Xn+1 = 0: Die Verteilung von Xn+1 (bei
fester Populationsgrösse r zum Zeitpunkt n) ist durch das r-fache Konvolutionsprodukt
von q gegeben:
Xr
r
P (Xn+1 = s j Xn = r) = P
i = s = q (s) ;
i=1
r
wobei die Verteilung q
wie folgt de…niert ist:
q
0
(s) :=
q
r
(s) :=
0;s ;
s
X
q
(r 1)
(j) q (s
j) ; r
1:
j=0
Dies folgt mit Induktion nach r aus der Unabhängigkeit der
P
Xr
i=1 i
=s =
=
s
X
j=0
s
X
P
P
j=0
=
s
X
q
Xr
1
i=1
Xr
(r 1)
i
= j;
i
=j P(
1
i=1
i
(j) q (s
r
:
=s
r
j
=s
j)
j) :
j=0
Es ist auch klar, dass
lichkeiten durch
P
s2N0
q
r
(s) = 1 gilt. Wir de…nieren daher Übergangswahrscheinprs := q
r
(s) :
Es gilt p0;j = 0;j ; p1;j = q (j) : Die anderen Übergangswahrscheinlichkeiten sind in
der Regel nicht mehr explizit berechenbar. Eine Marko¤-Kette mit dieser stochastischen
Matrix nennt man Galton-Watson Kette. 0 ist, wie man sagt, ein absorbierender Zustand:
Wenn die Population einmal ausgestorben ist, bleibt sie ausgestorben. Von besonderem
Interesse ist die Diskussion der Aussterbewahrscheinlichkeit
Pi (9n mit Xn = 0) :
Wir können im Moment jedoch nicht darauf eingehen.
27
2.3
Klasseneigenschaften, Rekurrenz, Transienz
Notation: Wir verwenden nachfolgend manchmal die folgende Notation: Ist fXn gn2N0
eine Marko¤-Kette und m < n; so schreiben wir X[m;n] für die Menge fXm ; Xm+1 ; : : : ; Xn g :
De…nition 2.13
Es sei
= (pij )i;j2I eine stochastische Matrix. Man sagt, j 2 I sei von i 2 I aus
(n)
erreichbar, wenn ein n 2 N0 existiert mit pij > 0. Notation: i
Die Relation
alle i 2 I. Falls i
(m+n)
und dann ist pik
Die durch
j.
(0)
auf I ist re‡exiv und transitiv. Wegen pii = 1 > 0 gilt i
i für
(m)
(n)
j und j
k gelten, so gibt es m; n 2 N0 mit pij > 0 und pjk > 0,
(m) (n)
pij pjk > 0 nach Lemma 2.7.
i
j , (i
j und j
i) f u
•r i; j 2 I
(2.7)
de…nierte Relation ist o¤enbar eine Äquivalenzrelation auf I. Wir werden i j für den
Rest dieses Kapitels stets in diesem Sinne verwenden.
Sind A; B
I zwei Äquivalenzklassen der obigen Äquivalenzrelation, so sagen wir,
B sei von A aus erreichbar und schreiben A
B, wenn i 2 A und j 2 B existieren mit
i
j. O¤ensichtlich hängt dies nicht von den gewählten Repräsentanten in A und B
ab.
De…nition 2.14
Es sei eine stochastische Matrix.
a) Eine Teilmenge I 0 von I heisst abgeschlossen, wenn keine Elemente i 2 I 0 und
j 2 I n I 0 existieren mit i
j.
b) Die Matrix
(und dann auch eine Marko¤-Kette mit stochastischer Matrix )
heisst irreduzibel, wenn je zwei Elemente aus I äquivalent gemäss der (2.7) sind.
Bemerkung 2.15
Es sei = (pij )i;j2I eine stochastische Matrix.
a) Ist I 0 I abgeschlossen, so ist die zu I 0 gehörige Einschränkung der stochastischen
Matrix 0 := (pij )i;j2I 0 eine stochastische Matrix für I 0 .
b) Ist
irreduzibel, so existieren keine abgeschlossenen echten Teilmengen von I.
Beispiel 2.16
a) Die symmetrische Irrfahrt auf Zd ist irreduzibel.
b) Polyas Urnenschema: Keine zwei Elemente von I = f (r; s) j r; s 2 N g sind äquivalent. Es gibt aber sehr viele abgeschlossene Teilmengen von I, zum Beispiel ist für
jede Wahl von r0 ; s0 2 N die Menge f (r; s) j r r0 ; s s0 g abgeschlossen.
28
c) Die Irrfahrt auf f0; : : : ; ng mit absorbierenden Rändern (Beispiel 2.8 d)) hat drei
Äquivalenzklassen, nämlich f0g, f1; : : : ; n 1g und fng. Die Mengen f0g und fng
sind abgeschlossen, und es gelten f1; : : : ; n 1g
fng und f1; : : : ; n 1g
f0g.
d) Eine symmetrische Irrfahrt auf einem Graphen ist o¤enbar genau dann irreduzibel, wenn der Graph zusammenhängend ist. (Ein Graph heisst zusammenhängend,
wenn je zwei Knoten über einen endlichen Zug verbunden werden können.)
Für die nachfolgenden Diskussionen gehen wir stets davon aus, dass eine unendlich
lange Marko¤-Kette X = fXn gn2N0 vorliegt, die auf einem Wahrscheinlichkeitsraum
( ; F; P ) de…niert ist. Wie schon angemerkt, schreiben wir Pi ; wenn wir den Startpunkt
betonen wollen (oder P bei einer nicht trivialen Startverteilung). Für eine Teilmenge
A I de…nieren wir
TA := inf fn 1 : Xn 2 Ag
(2.8)
mit der Konvention inf ; = 1: TA nimmt also Werte in N := N[ f1g an. Für die nachfolgenden Diskussionen ist es wichtig, dass wir den Zeitpunkt 0 nicht in der De…nition
von TA berücksichtigen. Wir schreiben Ti im Falle A = fig : Es ist o¤ensichtlich, dass
TA eine messbare Abbildung ! N; N versehen mit der Potenzmenge, ist. Wir setzen
für n 2 N
(n)
fii := Pi (Ti = n):
P
(n)
Wegen der Möglichkeit, dass Ti = 1 ist, kann möglicherweise fii := 1
n=1 fii < 1 sein,
aber natürlich gilt stets fii 1:
Lemma 2.17
Es gilt die sogenannte Erneuerungsgleichung
(n)
pii
=
n
X
(k) (n k)
fii pii
;
k=1
n 2 N:
(2.9)
(n)
Beweis. Gemäss Lemma 2.6 gilt pii = Pi (Xn = i). Aufspalten des Ereignisses fXn = ig
nach dem ersten Zeitpunkt, an dem die Marko¤-Kette wieder i erreicht, ergibt nach der
Marko¤ Eigenschaft (Korollar 2.4)
(n)
pii =
n
X
Pi (Ti = k; Xn = i) =
k=1
k=1
=
n
X
n
X
Pi (Xn
(k)
k
= i) fii =
k=1
n
X
(k)
Pi (Xn = i j Ti = k) fii
(k) (n k)
fii pii
:
k=1
De…nition 2.18
Sei eine stochastische Matrix. Ein Element i 2 I heisst rekurrent falls
fii = 1
gilt, andernfalls heisst i transient.
29
Satz 2.19
P
(n)
i 2 I ist genau dann transient, wenn 1
n=0 pii < 1 gilt.
Beweis. Aus der Erneuerungsgleichung (2.9) erhalten wir
1
X
(n)
pii = 1 +
n=0
=1+
1
X
n=1
1
X
(n)
pii = 1 +
1 X
n
X
(k) (n k)
fii pii
(2.10)
n=1 k=1
(n)
pii fii :
n=0
Da alle Grössen nicht negativ sind, ist diese Gleichung in jedem Fall korrekt, sofern wir
P
(n)
für eine divergente Reihe 1
n=0 pii = 1 setzen. (Dies sollte aus der Analysis bekannt
P
(n)
sein). Wenn also fii = 1 ist, so folgt 1
n=0 pii = 1: Die Umkehrung folgt jedoch nicht
ganz so einfach: Aus fii < 1 kann aus der obigen Gleichung nicht auf die Konvergenz
P
(n)
von 1
n=0 pii geschlossen werden. Wir argumentieren wie folgt: Für 0 < s < 1 setzen
wir
1
1
X
X
(n) n
(n)
(s) :=
pii s ; (s) :=
fii sn :
n=0
n=0
Wegen s < 1 konvergieren diese Reihen und wir erhalten auf dieselbe Weise wie die
Gleichung (2.10)
1
(s) = 1 + (s) (s) ; (s) =
:
1
(s)
Ist
(1) = fii < 1, so folgt nun
1
X
1
(n)
pii = lim (s) =
s"1
n=0
1
fii
< 1:
Rekurrenz und Transienz sind Klasseneigenschaften:
Satz 2.20
Es seien i; j 2 I mit i
j. Dann ist i genau dann rekurrent, wenn j es ist.
(M )
Beweis. Aus i j folgt, dass M 2 N0 mit pij
Dann ist gemäss Lemma 2.7
(M +n+N )
pii
(M +n+N )
Analog folgt pjj
(M ) (n) (N )
pij pjj pji
(N )
> 0 und N 2 N0 mit pji
(n)
= pjj mit
(n)
pii . Somit gilt
1
X
n=0
(n)
pii < 1 ,
Die Behauptung folgt nun aus Satz 2.19.
30
1
X
n=0
(n)
(M ) (N )
:= pij pji
pjj < 1:
> 0:
> 0 existieren.
(n)
Wir verallgemeinern die De…nition von fii
und setzen für i; j 2 I :
(n)
fij := Pi (Tj = n) ; n
und
fij :=
1
X
n=1
1;
(n)
fij = lim Pi (Tj < 1)
Lemma 2.21
Seien i; j 2 I. Dann gilt
(n)
pij
1:
N !1
=
n
X
(k) (n k)
fij pjj
:
k=1
(n)
Beweis. Für alle i 2 I und n 2 N gilt pij = Pi (Xn = j), und analog zum Beweis von
Lemma 2.17 folgt
(n)
pij =
=
n
X
k=1
n
X
k=1
=
n
X
k=1
Pi (j 2
= X[1;k
1] ;
Xk = j; Xn = j)
Pi (Xn = j j j 2
= X[1;k
1] ;
(k)
Xk = j)fij
(k)
Pi (Xn = j j Xk = j)fij =
n
X
(k) (n k)
fij pjj
:
k=1
Aus dem Lemma ergibt sich
1
X
(n)
pij
=
n=1
1 X
n
X
(k) (n k)
fij pjj
n=1 k=1
=
1
X
(k)
fij
k=1
1
X
(n k)
pjj
n=k
= fij
1
X
(n)
pjj ;
n=0
und daher
Korollar 2.22
Sind i; j 2 I und ist j transient so gilt
1
X
n=1
(n)
pij < 1:
Wie wir gesehen haben, sind Rekurrenz und Transienz Klasseneigenschaften bezüglich unserer Äquivalenzrelation : Wir sprechen daher auf von rekurrenten bzw. transienten Klassen. Wir zeigen nun, dass Klassen, die nicht abgeschlossen sind, transient sein
müssen. Abgeschlossene Klassen können sowohl rekurrent wie transient sein.
Lemma 2.23
Es seien i; j 2 I mit i
rekurrent.
j. Ist i rekurrent, so gilt auch j
31
i, und j ist dann ebenfalls
(N )
Beweis. Wir können i 6= j annehmen. Sei N 2 N die kleinste Zahl mit pij > 0.
Wir wollen ein Widerspruchsbeweis führen und nehmen dafür an, dass i nicht von j
(n)
aus erreichbar ist, also dass pji = 0 für alle n 2 N0 gilt. Für alle n > N gilt dann
(N ) (n N )
Pi (XN = j; Xn = i) = pij pji
i) =
(n) (N n)
pii pij
= 0. Für alle n 2 f1; 2; : : : ; N g gilt Pi (XN = j; Xn =
(N )
= 0, da N de…nitionsgemäss die kleinste Zahl mit pij
> 0 ist.
1 = fii = Pi (Ti < 1)
= Pi (Ti < 1; XN = j) + Pi (Ti < 1; XN 6= j)
Pi (Ti < 1; XN = j) + Pi (XN 6= j)
= Pi (Ti < 1; XN = j) + 1
Nun gilt
1
X
Pi (Ti < 1; XN = j)
Pi (Xn = i; XN = j) = 0:
n=1
Somit folgt
1
(N )
pij :
1
(N )
pij
< 1;
ein Widerspruch.
Korollar 2.24
Rekurrente Äquivalenzklassen sind abgeschlossen.
Transiente Klassen können abgeschlossen sein, brauchen es aber nicht. Ein Beispiel
mit einer transienten, nicht abgeschlossenen Klasse ist die Galton-Watson-Kette (Beispiel
2.12). 0 2 I = N0 ist, wie man sagt, absorbierend, das heisst, es gilt p00 = 1. Folglich ist
f0g eine Klasse für sich, die natürlich rekurrent ist. Ist q (0) > 0, so gilt o¤ensichtlich
pj0 = q (0)j > 0 für jedes j 2 N, und daher j
0. Somit ist jedes j 2 N transient. Man
überlegt sich leicht, dass, wenn zum Beispiel q (0), q (1), q (2) > 0 gilt, die Menge N eine
einzige transiente, nicht abgeschlossene Klasse ist.
Aus Korollar 2.24 und der Bemerkung 2.15 a) folgt, dass die Einschränkung einer
stochastischen Matrix auf eine rekurrente Klasse wieder eine stochastische Matrix ist,
die dann natürlich irreduzibel ist. Die einzelnen rekurrenten Klassen lassen sich daher
getrennt diskutieren.
Lemma 2.25
Sind i und j in derselben rekurrenten Klasse, so gilt fij = fji = 1.
Beweis. Wir müssen nur noch i 6= j diskutieren. Sei N 2 N0 die kleinste Zahl mit
(N )
pji > 0. Wegen Pj (Tj < 1) = 1 folgt
(N )
pji
= Pj (Tj < 1; XN = i)
= Pj (Tj < N; XN = i) + Pj (N < Tj < 1; XN = i):
32
Genau gleich wie im Beweis von Lemma 2.23 folgt, dass der erste Summand = 0 ist.
Ferner gilt nach der Marko¤-Eigenschaft
Pj (N < Tj < 1; XN = i) = Pj (XN = i; Xk 6= j f u
•r k
Pj (XN = i) fij =
also
(N )
(N )
pji fij :
N ) Pi (Tj < 1)
(N )
pji
pji fij :
Daraus ergibt sich fij = 1:
Eine weitere wichtige Klasseneigenschaft ist die Periodizität:
De…nition 2.26
Sei eine stochastische Matrix und i 2 I: Die Periode di von i ist de…niert durch
n
di := ggT n
o
(n)
1 : pii > 0 ;
wobei wir ggT (;) := 1 setzen. i heisst aperiodisch, wenn di = 1 ist.
Lemma 2.27
(nd )
a) Ist di < 1; so existiert n0 2 N; sodass pii i > 0 für alle n
b) Für i
n0 gilt.
j gilt di = dj :
Beweis. Stochastik I, Lemma 7.7
Wir werden uns hier nicht sehr ausführlich mit Periodizität beschäftigen. Jede irreduzible Kette, für die ein i 2 I existiert mit pii > 0; ist aperiodisch. In der Regel müssen
Sätze, die für aperiodische Ketten gelten, für periodische etwas modi…ziert werden. Das
Standardbeispiel für eine nicht aperiodische Kette, ist die symmetrische Irrfahrt auf Zd ;
die o¤ensichtlich Periode 2 hat. Hier noch einige Beispiele von rekurrenten Ketten.
Proposition 2.28
Endliche irreduzible Ketten sind rekurrent.
P (n)
Beweis. I sei endlich. Wegen
j pij = 1 folgt, dass für jedes i ein j existiert mit
P (n)
P (n)
n pij = 1: Aus Lemma 2.21 folgt
n pjj = 1:
Irreduzible Ketten mit unendlichem I brauchen nicht rekurrent zu sein. Eines der
bekanntesten und wichtigsten Beispiele sind Irrfahrten auf Zd : Diese ist natürlich irreduzibel (aber hat Periode 2):
Satz 2.29
Die symmetrische Irrfahrt auf Zd (Beispiel 2.8 c)) ist rekurrent für d = 1; 2 und transient
für d 3:
33
Beweis. Die Rekurrenz für d = 1 ist einfach zu zeigen als für d = 2. Wir untersuchen
also zunächst d = 2: Um die Rekurrenz zu zeigen, müssen wir nachweisen, dass
1
X
(2n)
p00
=
n=0
1
X
n=0
P0 (X2n = 0) = 1
(2.11)
ist. Nun haben alle Pfade der Länge 2n dieselbe Wahrscheinlichkeit 4 2n : Um P0 (X2n = 0)
zu berechnen, müssen wir dies mit der Anzahl aller Pfade, die nach 2n Schritten in 0
sind, multiplizieren. Sind 2k Schritte in “Ost-West-Richtung”, so sind 2n 2k Schritte in “Nord-Süd-Richtung”. Von den 2k Ost-West-Schritten mussen k nach “Ost” und
ebensoviele nach “West”gehen und analog müssen sich die Nord-Süd-Schritte aufteilen,
damit der Pfad nach den 2n Schritten wieder im 0-Punkt ist. Somit ist die Anzahl der
Pfade, die wieder nach 0 gelangen, durch
n
X
2n
2k
2k
k
k=0
2n
n
2k
k
=
n
X
(2n)!
=
(k! (n k)!)2
k=0
2
2n
n
(2.12)
gegeben. Der erste Faktor auf der linken Seite kommt von der Auswahl der 2k Ost–
West-Schritte aus allen 2n Schritten, der zweite von der Auswahl der k Ost-Schritte aus
den 2k Ost-West Schritten, und der letzte Faktor analog für die Nord-Süd Schritte. Die
zweite Gleichung sei dem Leser als Übungsaufgabe überlassen. Wir erhalten also
P0 (X2n = 0) = 4
n
2n
n
2
=
2
n
2n
n
2
:
Nach der Sterling-Formel ist
2
2n
2n
n
=2
2n (2n)!
2
(n!)
2
2n (2n=e)
2n
(n=e)
2n
p
4 n
1
=
:
n
2 n
(Hier bedeutet an bn für zwei Folgen positiver Zahlen (an ) und (bn ) : limn!1 an =bn =
1:) Daraus folgt (2.11).
Wir diskutieren nun den Fall d = 3: Der Fall d > 3 kann leicht darauf zurückgeführt
werden. Analog wie oben ergibt sich
P0 (X2n = 0) = 6
X
2n
0 k1 ;k2 ;k3
k1 +k2 +k3 =n
(2n)!
=2
(k1 !k2 !k3 !)2
2n
2n
n
X
0 k1 ;k2 ;k3
k1 +k2 +k3 =n
n!
k1 !k2 !k3 !
2
3
2n
:
Leider gibt es für die rechte Seite keine so einfach Formel mehr wie (2.12), sodass wir
etwas mehr arbeiten müssen.
X
0 k1 ;k2 ;k3
k1 +k2 +k3 =n
n!
k1 !k2 !k3 !
2
max 3
n
n!
: k1 + k2 + k3 = n
k1 !k2 !k3 !
34
X
0 k1 ;k2 ;k3
k1 +k2 +k3 =n
n!
3
k1 !k2 !k3 !
n
:
Nun ist die Summe auf der rechten Seite einfach 1; denn k1 !kn!2 !k3 ! 3 n ist die Wahrscheinlichkeit, dass eine Münze, die mit gleicher Wahrscheinlichkeit auf Kopf, Zahl oder Kante
fällt, k1 Kopfwürfe, k2 Zahlwürfe und k3 Kantenwürfe in n Würfen hat. Ist n durch 3
teilbar, n = 3m; so ist für k1 + k2 + k3 = 3m :
(3m)!
k1 !k2 !k3 !
(3m)!
;
(m!)3
was man mit einer elementaren Abschätzung nachprüfen kann. Mit Hilfe der StirlingFormel erhalten wir:
p
3m
1
6 m
3m (3m)!
3m (3m=e)
3
3
=
;
3
3m
3=2
6 m
(m!)
(m=e) (6 m)
also
p
P0 (X6m = 0)
1
1
= const m
3 m6 m
3=2
:
Nun ist o¤ensichtlich
(6m)
p00
1
6
2
(6m 2)
p00
;
(6m)
p00
1
6
4
(6m 4)
p00
und somit folgt
1
X
n=0
2.4
(n)
p00 =
1
X
(2n)
p00
1 + const
n=0
1
X
m=1
m
3=2
< 1:
Stoppzeiten, starke Marko¤-Eigenschaft
Stoppzeiten sind zufällige “Zeiten”, die “nicht in die Zukunft” blicken können. Formal
ist eine Stoppzeit eine Zufallsgrösse T , die auf
de…niert ist und Werte in N0 [ f1g
annimmt. Es ist bequem, auch den Wert 1 zuzulassen. Das Ereignis fT = 1g bedeutet
dann einfach, dass T nie eintritt. Wir müssen nun noch formulieren, was es heissen soll,
dass T “nicht in die Zukunft” blickt. Wie früher de…nieren wir Fn := (X0 ; : : : ; Xn ) :
O¤ensichtlicherweise gilt Fn
Fn+1 für alle n
0: Man nennt fFn gn2N0 auch eine
Filtrierung.
De…nition 2.30
Eine Abbildung T :
! N0 [ f1g heisst Stoppzeit, wenn für jedes n 2 N0
fT = ng 2 Fn
gilt.
Beispiel 2.31
Die Ersteintrittszeiten gemäss (2.8) sind Stoppzeiten. Siehe Stochastik I.
35
Wir verwenden weiter unten eine bequeme Notation: Ist m < n; m; n 2 N0 , so
schreiben wir [m; n] := fm; m + 1; : : : ; ng für das diskrete Intervall und X[m;n]
I für
fXn ; Xn+1 ; : : : ; Xm g. Mit dieser Schreibweise erhalten wir
fTA
ng = X[1;n] \ A 6= ; :
Da der Zeitpunkt 0 eine etwas besondere Rolle spielt, lässt man ihn in der De…nition
von TA weg. Für den Fall, dass man ihn einschliessen will, schreiben wir SA anstelle von
TA :
SA := inf fn 0 : Xn 2 Ag :
Sowohl SA wie TA sind o¤ensichtlich Stoppzeiten. Für i 2 A gilt natürlich Pi (SA = 0) =
1: Ferner gilt für i 2
= A die Gleichung Pi (TA = SA ) = 1:
Lemma 2.32
Für n 2 N0 gilt
Pi (TA
n + 1) =
X
pij Pj (SA
n) :
j2I
Beweis.
Pi (TA
n + 1) =
X
Pi (X1 = j; TA
n + 1)
j
=
X
j
=
X
j
pij Pi X[1;n+1] \ A 6= ; j X1 = j
pij Pj X[0;n] \ A 6= ; =
X
pij Pj (SA
n)
j
Die Funktion hA : I ! [0; 1] de…niert durch
hA (i) := Pi (SA < 1)
spielt in der Theorie der Marko¤-Ketten eine grosse Rolle.
Satz 2.33
a)
b) Für i 2
= A gilt
hA (i) = 1; f u
•r i 2 A:
(2.13)
X
(2.14)
hA (i) =
pij hA (j) :
j2I
c) hA ist die kleinste nicht negative Funktion, die a) und b) erfüllt, d.h. für jede
Funktion g : I ! R+ ; die a) und b) erfüllt gilt hA (i) g (i) für alle i 2 I:
36
Beweis. a) ist trivial. Wir beweisen b): Sei also i 2
= A:
Pi (SA < 1) = lim Pi (1
SA
N) :
SA
N)
N !1
Pi (1
SA
N) =
X
Pi (X1 = j; 1
j2I
=
X
Pi (X1 = j) Pi (1
SA
N j X1 = j)
j2I
=
X
pij Pj (0
SA
N
1) :
j2I
Mit N ! 1 folgt
hA (i) =
X
pij lim Pj (SA
j2I
N !1
N) =
X
pij hA (j) :
j2I
Bei der Vertauschung der Limiten haben wir verwendet, dass Pj (SA N ) für N ! 1
monoton ansteigend gegen hA (j) konvergiert.
Beweis von c): Sei g eine andere (positive) Lösung von (2.13) und (2.14). Wir zeigen
mit Induktion nach n; dass
g (i)
Pi (SA
n) f u
•r alle i
gilt. Für n = 0 ist das o¤ensichtlich. Sei i 2
= A: Dann ist
X
X
g (i) =
pij g (j)
pij Pj (SA n) = Pi (TA
j2I
(2.15)
n + 1) ;
j
die Ungleichung nach Induktionsvoraussetzung und die letzte Gleichung nach Lemma
2.32. Für i 2
= A ist jedoch Pi (TA n + 1) = Pi (SA n + 1) : Damit ist (2.15) gezeigt.
Aus dieser Ungleichung folgt mit Limesübergang n ! 1 die Behauptung.
Wir kommen nun zur Formulierung der sogenannten starken Marko¤-Eigenschaft.
Sie besagt im wesentlichen, dass die Marko¤-Kette X0 ; X1 ; : : : nach einer Stoppzeit T betrachtet: XT ; XT +1 ; : : : ; wieder eine Marko¤-Kette mit derselben stochastischen Matrix
ist, und dass ferner XT ; XT +1 ; : : : unabhängig von der “Vergangenheit vor T ” ist.
De…nition 2.34
Wir nennen ein Ereignis A
ein Prä-T -Ereignis, falls A \ fT = ng 2 Fn für jedes
n 2 N0 gilt. Die Menge aller Prä-T -Ereignisse bezeichnen wir mit FT :
Für die Formulierung der starken Marko¤-Eigensschaft müssen wir XT als I-wertige
Zufallsgrösse de…nieren. Man setzt einfach XT (!) := XT (!) (!) : Es gibt jedoch eine
kleine Schwierigkeit: Wir hatten nicht ausgeschlossen, dass T = 1 (mit positiver Wahrscheinlichkeit) ist. Für ein ! 2 mit T (!) = 1 ist XT (!) nicht de…niert. XT ist also
ein Abbildung T := f! 2 ; T (!) < 1g ! I: Man prüft sehr einfach nach, dass
T
2 FT
37
gilt. Ferner ist XT , eingeschränkt auf T ; FT -messbar.
Wir de…nieren auch den Verschiebungsoperator T auf der Folge X:
(
T X) (!)
Dies ist natürlich auch nur auf
= XT (!) (!) ; XT (!)+1 (!) ; : : : :
T
de…niert.
Satz 2.35
Sei X eine Marko¤-Kette und T sei eine Stoppzeit. Dann gilt für jede beschränkte
messbare Funktion auf I N0 und für jede Startverteilung
E ( (
T X) 1
T
j FT ) = 1
T
EXT ( ) ; P -f.s.
Beweis. Die rechte Seite ist o¤ensichtlich FT -m.b. Wir müssen daher nachweisen, dass
für A 2 FT die Gleichung
Z
Z
( T X) 1 T dP :
1 T EXT ( ) dP =
A
A
Die Gleichung stimmt o¤ensichtlich nach 2.3, falls A durch A \ fT = ng ersetzt wird,
denn A \ fT = ng 2 Fn nach der De…nition von FT . Summation über n 2 N0 ergibt die
gewünschte Gleichung.
Wir geben eine typische Anwendung der starken Marko¤-Eigenschaft. Wir betrachten
eine Irrfahrt auf N0 mit 0 als absorbierenden Rand. Es sei also pi;i+1 := p; pi;i 1 := 1 p
für i 1 und p00 = 1: Alle anderen pij sind gleich 0: Ist p 2 (0; 1) ; so hat diese Irrfahrt
zwei Klassen: f0g und N: 0 ist natürlich rekurrent. Wegen N
f0g ist N auf jeden Fall
transient. Wir wollen die sogenannte “Ruinwahrscheinlichkeiten” h (i) := Pi (T0 < 1)
untersuchen. Man kann sich i 2 N etwa als das Kapital eines Spielers oder einer Firma
vorstellen, das zufälligen Fluktuationen unterliegt. Falls das Kapital auf 0 fällt, ist der
Betre¤ende ruiniert4 .
Wir wir aus Satz 2.33 wissen, erfüllt h die Gleichung
h (i) = ph (i + 1) + (1
p) h (i
1) ; i
1;
(2.16)
mit der Anfangsbedingung h (0) = 1: Dieses Gleichungssystem legt h nicht eindeutig
fest, z.B. ist h
1 stets eine Lösung, die aber nicht in jedem Fall die richtige ist, wie
wir gleich sehen werden. Wenn wir jedoch noch h (1) kennen, so können wir die anderen
Werte alle bestimmen, denn dann können wir h (i + 1) aus h (i) und h (i 1) bestimmen.
Die Gleichung (2.16) mit der Anfangsbedingung h (0) = 1 hat für p 6= 1 p, d.h.
p 6= 1=2, die allgemeine Lösung
h (i) = A + (1
A)
4
1
p
p
i
:
Der Begri¤ „Ruinwahrscheinlichkeit“ hat nur historische Bedeutung. Heute geht man nach einer
Pleite zur Bank oder zum Bund und bescha¤t sich neues Geld.
38
mit einer Konstanten A 2 R. Für p = 1=2 ist die Lösung
h (i) = 1 + Bi
mit einer Konstanten B: (Der Beweis dieser Aussagen sei dem Leser als Übungsaufgabe
über reelle Zahlenfolgen überlassen).
Dieser Fall p = 1=2 ist einfach: Die h (i) sind alle in [0; 1]. Demzufolge ist B = 1 die
einzige Möglichkeit und es folgt h (i) = 1; 8i.
Der Fall p 6= 1=2 ist etwas komplizierter. Die Gleichung (2.16) ergibt für i = 1 :
h (1) = ph (2) + 1
p:
Startet die Kette in 2; so betrachten wir T1 ; die erste Eintrittszeit in den Zustand 1: Da
für die Kette, die in 2 startet der Ersteintritt nach 0 erst nach dem in 1 kommen kann,
so gilt sicher fT0 < 1g
fT1 < 1g : Wir wenden die starke Marko¤-Eigenschaft auf
die Stoppzeit T1 und das Ereignis fT0 < 1g an.
P2 (T0 < 1 j FT1 ) = 1fT1 <1g PXT1 (T0 < 1) = 1fT1 <1g P1 (T0 < 1) :
Integration über
ergibt:
P2 (T0 < 1) = P2 (T1 < 1) P1 (T0 < 1) :
O¤ensichtlich ist jedoch P2 (T1 < 1) = P1 (T0 < 1) = h (1) : Setzen wir x := h (1) ; so
erhalten wir also die Gleichung
x = px2 + 1
p:
x = 1 ist eine Lösung, die andere ist (1 p) =p:
A bestimmt sich aus x = h (1) = A+(1 A) (1 p) =p; d.h. A = (1 p px) = (1 2p) :
Für x = 1 erhalten wir die Lösung h 1 und für x = (1 p) =p ist A = 0; d.h. die Lösung
ist h (i) = ((1 p) =p)i : Für p < 1=2 ist die zweite Lösung > 1 für i
1 und kommt
daher für unser Problem nicht in Betracht. Daher ist für h (i) = 1; 8i für p < 1=2:
Für p > 1=2 fällt die zweite Lösung ab und da h nach Satz 2.33 die minimale Lösung
von (2.16) folgt in diesem Fall, dass die zweite Lösung die richtige ist. Wir fassen die
Überlegungen zusammen:
Proposition 2.36
In der obigen Situation gilt
a) Für p
1=2 giltPi (T0 < 1) = 1; 8i:
b) Für p > 1=2 gilt
Pi (T0 < 1) =
39
1
p
p
i
; 8i:
2.5
Invariante Masse
De…nition 2.37
Ein Mass
auf I, das nicht identisch 0 ist, heisst
P invariantes Mass bezüglich der
stochastischen Matrix = (pij )i;j2I , wenn (j) = i2I (i)pij für alle j 2 I gilt.
Bemerkung 2.38
P
Ist ein invariantes Mass
endlich, d.h. gilt
i (i) < 1; so lässt es sich zu einem
Wahrscheinlichkeitsmass normieren
(i)
:
j (j)
(i) = P
ist dann ebenfalls invariant. Ein invariantes Wahrscheinlichkeitsmass nennen wir auch
eine invariante Verteilung.
Bemerkung 2.39
Ist ein invariantes Mass, so gilt natürlich
X
(n)
(j) =
(i)pij
i2I
für alle n 2 N0 : Ist irreduzibel und ein 0invariantes Mass, so folgt daraus sofort,
dass (j) > 0 ist für alle j: Ist nämlich i ein Zustand mit (i) > 0 und j beliebig, so
(n)
(n)
existiert n 2 N0 mit pij > 0 und demzufolge gilt (j)
(i) pij > 0:
Bemerkung 2.40
Ist eine invariante Verteilung, so gilt
P (Xn = j) =
(j) ;
für alle j 2 I und n 2 N0 . Das heisst, hat die Marko¤-Kette die Startverteilung , so ist
die Verteilung von Xn gleich für alle n 2 N0 .
Für I endlich ist die Existenz einer stationären Verteilung sehr einfach zu zeigen.
Proposition 2.41
Ist I endlich so besitzt jede stochastische Matrix mindestens eine stationäre Verteilung.
Beweis. Sei eine beliebige Verteilung auf I: Wir setzen für n 2 N (in Matrixschreibweise, als Zeilenvektor):
n 1
1 X m
:
n :=
n
m=0
Die n sind Wahrscheinlichkeiten auf I: Nun ist die Menge der Wahrscheinlichkeitsvektoren eine abgeschlossene und beschränkte Teilmenge von RI ; d.h. eine kompakte Menge.
Hier wird verwendet, dass I endlich ist. Demzufolge existiert eine Teilfolge fnk g mit der
Eigenschaft, dass
= lim nk
k!1
40
existiert. ist eine Wahrscheinlichkeit auf I ,und wir behaupten, dass
Da I endlich ist folgt
= lim nk :
invariant ist:
k!1
nk 1
1 X
nk
=
nk
=
=
m=0
n
k
X
1
nk
m
m
!
=
m=1
nk
1
+
nk
Aus nk ! 1 folgt
k!1
nk
m+1
m=0
1
nk
nk
= lim
nk 1
1 X
=
nk
nX
k 1
1
nk
m
+
nk
= :
m=0
nk
1
nk
1
:
nk
= lim
k!1
Wir setzen für den Rest des Unterkapitels voraus, dass irreduzibel ist, d.h. dass
ganz I eine Äquivalenzklasse ist. Wir weisen zunächst nach, dass für rekurrente Ketten
stets mindestens ein invariantes Mass existiert. Sei also irreduzible und rekurrent, und
sei k 2 I beliebig. Wir setzen
XTk
(i)
:=
E
1fXn =ig :
k
k
n=1
Wir zählen also die Anzahl der Besuche in i bis zur ersten Rückkehr nach k und nehmen
davon den Erwartungswert unter der Kette, die in k startet. Falls der Erwartungswert
nicht existieren sollte, setzen wir k (i) = 1; wir werden jedoch gleich sehen, dass dies
nicht eintritt.
Proposition 2.42
Sei irreduzibel und rekurrent und k 2 I: Dann gelten
a)
k
(k) = 1:
b)
k
ist ein invariantes Mass.
c) 0 <
d)
k
k
(i) < 1 gilt für alle i 2 I:
ist das einzige invariante Mass, das a) erfüllt.
Beweis. a) ist trivial. Wir beweisen b):
Wir bemerken zunächst, dass wir k (i) wie folgt umschreiben können:
k (i) = Ek
=
X1
1 X
X
n=1
1fXn =i; n
Tk g
Pk (Xn = i; Xn
n=1 j2I
41
1
=
1
X
Pk (Xn = i; n
n=1
= j; n
Tk ) :
Tk )
Wegen der Rekurrenz ist Tk < 1 f.s. Man beachte nun, dass fn Tk g = k 2
= X[1;n
Fn 1 ist. Anwendung der Marko¤-Eigenschaft zum Zeitpunkt n 1 ergibt
Pk (Xn = i; Xn
1
= j; n
Tk ) = Pk (Xn
1
= j; n
Tk ) Pj (X1 = i)
= Pk (Xn
1
= j; n
1
Tk
1]
2
1) pji :
Demzufolge ist
k (i) =
X
pji
j2I
=
X
pji
X
n=1
1
X
Pk (Xn
Pk (Xn = j; n
pji Ek
j2I
=
X
= j; n
1
1
Tk
Tk
1)
1)
n=0
j2I
=
1
X
k
XTk
1
n=0
1fXn =jg
=
X
pji Ek
j2I
XTk
n=1
1fXn =jg
(j) pji :
j2I
Die zweitletzte Gleichung verwendet, dass die Kette (unter Pk ) im Zeitintervall [0; Tk ] das
Element k genau zweimal „besucht“, einmal zum Zeitpunkt 0 und dann zum Zeitpunkt
Tk . Im drittletzten Ausdruck berücksichtigen wir den Besuch zum Zeitpunkt 0 und im
zweitletzten den zum Zeitpunkt Tk .
Wir beweisen c): Aus b) folgt per Induktion sofort
X
(n)
k (i) =
k (j) pji
j2I
für jedes n 2 N0 ; also insbesonder 1 =
k
(k)
(n)
k
(j) pjk : Wegen der Irreduzibilität
(n)
existiert für jedes j ein n mit pjk > 0 und somit folgt
folgt auch k (j)
Beweis von d):
(n)
k (k) pkj
k
(n)
pkj :
(j) < 1 für jedes j: Anderseits
=
Somit folgt k (j) > 0 für jedes j:
sei ein beliebiges invariantes Mass, das a) erfüllt. Dann gilt
X
(j) =
(i) pij + pkj
i2I:i6=k
Nun ersetzen wir
(i) auf der rechten Seite durch denselben Ausdruck und erhalten
0
1
X
X
@
(j) =
(i1 ) pi1 i + pki A pij + pkj
i2I:i6=k
=
X
i1 2I:i1 6=k
i;i1 2I:i;i1 6=k
=
X
(i1 ) pi1 i pij +
X
pki pij + pkj
i2I:i6=k
(i1 ) pi1 i pij + Pk (Tk
i;i1 2I:i;ii 6=k
42
2; X2 = j) + Pk (Tk
1; X1 = j) :
In dieser Weise fahren wir fort und erhalten schliesslich
!
n
n+1
X
Y
X
(j) =
(in )
pir ;ir 1 pi0 ;j +
Pk (Tk
r=1
i0 ;i1 ;:::;in 6=k
n+1
X
r; Xr = j) = Ek @
Pk (Tk
folgt also
0
1
min(Tk ;n+1)
lim Ek @
n!1
r=1
min(Tk ;n+1)
r=1
Wegen
0
X
r=1
1fXr =1g A = Ek
(j)
Wir betrachten nun das Mass :=
der Voraussetzung, dass a) erfüllt,
0=
X
r=1
Tk
X
r=1
r; Xr = j)
1
1fXr =jg A :
1fXr =jg
!
=
k
(j)
(j) ; 8j:
k
k ; das ebenfalls invariant ist. Ferner gilt nach
(k) = 0: Somit folgt
X
(n)
(k) =
(j) pjk
j
für alle n: Wegen der Irreduzibilität folgt (j) = 0 für alle j 2 I:
Einer der Hauptsätze über Marko¤-Ketten ist der folgende Satz:
Satz 2.43
sei irreduzibel. Dann sind die folgenden Aussagen a)-c) äquivalent.
a) Es existiert ein endliches invariantes Mass (d.h. eine invariante Verteilung).
b) Es existiert k 2 I mit
Pk (Tk < 1) = 1; und m (k) := Ek (Tk ) =
1
X
n=0
(n)
nfkk < 1:
(2.17)
c) (2.17) gilt für alle k 2 I:
Sind diese Bedingungen erfüllt, so ist die invariante Verteilung
(i) =
gegeben.
43
1
m (i)
eindeutig und durch
(2.18)
Beweis. c)=)b) ist trivial. Wir zeigen b)=)a): Aus (2.17) folgt, dass k (und somit die
ganze Kette) rekurrent ist. Wir können daher Proposition 2.42 anwenden, die besagt,
dass ein invariantes Mass existiert, nämlich k : Nun gilt
X
k
(j) =
j
X
Ek
j
XTk
n=1
= Ek (Tk ) =
1
X
n=0
1fXn =jg
XTk X
= Ek
n=1
j
1fXn =jg
(n)
nfkk = m (k) < 1:
Somit ist
(j)
m (k)
k
(j) :=
ein invariantes Wahrscheinlichkeitsmass.
a)=)c): Sei eine invariante Verteilung und k 2 I beliebig. Wir zeigen zunächst die
Rekurrenz von k: Aus der Invarianz von folgt für jedes n
X
(n)
(j) pjk = (k) ;
j
also mit Lemma 2.21
1 =
=
1 X
X
n=1 j
X
X
(j)
j
(j) fjk
1
X
1
X
(n)
pjk
n=1
(n)
pkk :
n=0
j
P
P1 (n)
(j) fjk
n=0 pkk = 1; also die Rekurrenz.
j (j) < 1 ist, folgt
^ (j) := (j) = (k) ist ein invariantes Mass mit ^ (k) = 1: Nach Proposition 2.42 gilt
^ = k : Nach der vorangegangen Überlegung folgt
Da
P
(n)
(j) pjk =
j
1
X
n=0
(n)
nfkk =
X
j
k (j) =
X
j
^ (j) =
1
< 1:
(k)
Damit ist c) gezeigt.
Die Zusatzaussage des Satzes, dass die Gleichgewichtsverteilung eindeutig ist, folgt
sofort aus der vorangegangenen Diskussion, ebenso wie (2.18).
De…nition 2.44
P1
(n)
Ein rekurrentes i 2 I heisst positiv rekurrent, wenn
< 1 gilt. Ist i
n=0 nfii
rekurrent aber nicht positiv rekurrent, so heisst i nullrekurrent.
Bemerkung 2.45
Ist irreduzibel, so folgt aus Satz 2.43, dass alle Zustände positive rekurrent sind, wenn
einer es ist.
44
Proposition 2.46
Eine irreduzible Kette auf einer endlichen Menge I ist positiv rekurrent.
Beweis. Die Rekurrenz hatten wir schon Proposition 2.28 gezeigt. Positive Rekurrenz
folgt nun aus Proposition 2.41.
Es muss betont werden, dass die invariante Verteilung, selbst wenn man weiss, dass
sie existiert, in der Regel nicht explizit berechnet werden kann. Ein Beispiel, wo man
ein invariantes Mass sofort hinschreiben kann, sind Irrfahrten auf endlichen Gruppen
(Beispiel 2.11).
Proposition 2.47
Es seien G eine endliche Gruppe und eine Wahrscheinlichkeitsverteilung auf G. Dann ist
die Gleichverteilung auf G eine Gleichgewichtsverteilung für die -Irrfahrt. (Die einzige,
falls die Irrfahrt irreduzibel ist).
Beweis. Für jedes h 2 G ist die Abbildung g 7! g 1 h bijektiv auf G, und es gilt
X
X
X
pg;h =
(g 1 h) =
(g) = 1:
g2G
g2G
g2G
Wie wir in diesem Abschnitt gesehen haben, gibt es für eine irreduzible, rekurrente Kette bis auf Multiplikation mit einer Konstanten genau ein invariantes Mass. Für
transiente Ketten ist die Situation komplizierter. Es gibt transiente Ketten ohne (nichttriviales) invariantes Mass und solche, die mehrere besitzen. Natürlich kann eine irreduzible transiente Kette kein endliches invariantes Mass besitzen, denn aus Satz 2.43 folgt
automatisch die Positivrekurrenz, wenn ein solches existiert.
Beispiel 2.48
Wir betrachten die asymmetrische Irrfahrt auf Z: Sie hat die Übergangswahrscheinlichkeiten pi;i 1 = q < p = pi;i+1 ; mit q = 1 p: Die Bedingung für ein invariantes Mass
ist
(i) = (i 1) p + (i + 1) q:
Die allgemeine Lösung dieser Gleichung ist
(i) = A + B (p=q)i :
Es gilt (i) > 0 für alle i; sofern A und B positiv sind. Es existieren also mehrere
invariante Masse. Daraus folgt, dass die Kette transient ist, denn wäre sie rekurrent, so
wäre das invariante Mass nach Proposition 2.42 eindeutig, bis auf Multiplikation mit
einer Konstanten. Die Transienz kann man natürlich auch direkt zeigen.
Ist p = q = 1=2; so ist die Kette, wie wir wissen, rekurrent. Die allgemeine Lösung
der obigen Gleichung ist in diesem Fall
(i) = A + Bi:
Dies erfüllt jedoch nur dann (i)
0; 8i; wenn B = 0 ist, in Übereinstimmung mit
dem Satz, dass im rekurrenten Fall ein invariantes Mass eindeutig ist (bis auf skalare
Multiplikation).
45
Satz 2.49
Die symmetrische Irrfahrt auf Zd ist nullrekurrent für d = 1 und d = 2:
Beweis. Wir hatten schon gesehen, dass die Irrfahrt für d = 1; 2 rekurrent ist. Wäre sie
positiv rekurrent, so würde eine eindeutige invariante Verteilung existieren.
(i) =
1
2d
X
(i + k) ; 8i 2 Zd :
k2Zd :jkj=1
Erfüllt diese Gleichung, so tut dies für jedes j 2 Zd auch die Verteilung j ; die de…niert
ist durch j (i) = (i + j) : Wir wissen aber, dass für eine irreduzible Kette die invariante
Verteilung (wenn sie überhaupt existiert) eindeutig ist. Somit gilt
(i) ; 8i; j 2 Zd :
(i + j) =
Daraus folgt jedoch, dass konstant ist. Es gibt aber natürlich keine Wahrscheinlichkeitsverteilung auf Zd ; die konstant ist. Somit kann unsere Kette nicht positiv rekurrent
sein.
2.6
Konvergenz gegen die invariante Verteilung
Wir zeigen in diesem Abschnitt, dass die n-stu…gen Übergangswahrscheinlichkeiten einer
irreduziblen, aperiodischen und positiv rekurrenten Marko¤-Kette konvergieren:
Satz 2.50
Sei irreduzibel, aperiodisch und positiv rekurrent mit Gleichgewichtsverteilung :
a) Für alle i; j 2 I gilt
(n)
lim p
n!1 ij
b) Für eine beliebige Startverteilung
=
(j) :
gilt:
lim P (Xn = j) =
n!1
(j) ; j 2 I:
b) folgt sofort aus a):
lim P (Xn = j) = lim
n!1
n!1
=
X
X
(n)
(i) pij =
i
(i) (j) =
X
(n)
(i) lim pij
n!1
i
(j) ;
i
wobei die Vertauschung des Limes mit der Summe wegen
1 < 1 gerechtfertigt ist.
Der Beweis von a) braucht etwas Vorbereitung.
46
P
i
(n)
(i) pij
P
i
(i) =
Wir führen eine stochastische Matrix ^ auf I
I ein: p^(i;j);(k;l) = pik pjl : Hat
die invariante Verteilung ; so hat o¤ensichtlich ^ die invariante Verteilung ^ (i; j) =
(i) (j) : Ferner gilt
(n)
(n) (n)
p^(i;j);(k;l) = pik pjl :
Diese Eigenschaften prüft man sehr einfach nach. Es ist allerding nicht richtig, dass ^
automatisch irreduzibel ist, wenn es ist.
Lemma 2.51
Ist irreduzibel und aperiodisch, so ist ^ irreduzibel und aperiodisch.
(r)
(s)
Beweis. Seien i; j; k; l 2 I: Dann existieren r; s 2 N0 mit pik > 0; pjl > 0: Nach
(n)
(m)
Lemma 2.27 b) existieren n0 ; m0 2 N; sodass pkk > 0; pll > 0 für n n0 ; m m0
(r+n)
(r) (n)
(s+m)
(s) (m)
gelten. Wegen pik
pik pkk > 0; pjl
pjl pll > 0 folgt, dass M 2 N existiert
(N )
(N )
mit pik > 0; pjl
> 0 für N
M: Daraus folgt, dass ^ irreduzibel und aperiodisch ist.
Lemma 2.52
Erfüllt die Voraussetzungen unseres Satzes, so ist ^ positiv rekurrent.
Beweis. ^ ist irreduzibel und besitzt eine invariante Verteilung. Nach Satz 2.43 folgt
damit die Positivrekurrenz.
Sei i 2 I beliebig, aber fest gewählt. Wir betrachten nun eine Markovkette mit
stochastischer Matrix ^ und Startverteilung = i
; d.h. (k; l) = ik (l) : ( hängt
natürlich von i ab). Die Marko¤-Kette schreiben wir als (Xn ; Yn )n2N0 : (Xn ) und (Yn )
sind einfach zwei unabhängige Marko¤-Ketten, die eine mit Start in i und die andere
mit Startverteilung : Sind i0 ; ; : : : ; in und j0 ; : : : ; jn zwei Folgen von Elementen in I;
so gilt
P (Xk = ik ; Yk = jk ; k
n) = Pi (Xk = ik ; k
n) P (Yk = jk ; k
n) :
(2.19)
Sei
T := inf fn 2 N0 : Xn = Yn g :
Lemma 2.53
lim P (T > N ) = 0;
N !1
d.h. es gilt P (T < 1) = 1:
Beweis. Für ein ganz beliebiges Element b 2 I gilt limN !1 P T(b;b) > N = 0 wegen
der Rekurrenz von ^ : Hier ist T(b;b) die Ersteintrittszeit der Ketten (Xn ; Yn ) in den Punkt
(b; b) 2 I I: O¤ensichtlich gilt T T(b;b) :
Wir de…nieren nun eine neue Folge (Zn )n2N0 von I-wertigen Zufallsgrössen:
Zn :=
Xn f u
•r n T
:
Yn f u
•r n > T
47
Lemma 2.54
Z0 ; Z1 ; : : : ist eine Marko¤-Kette mit Start in i und stochastischer Matrix :
Beweis. Zunächst eine bequeme Schreibweise: Ist X = (X0 ; X1 ; : : :) eine T
Folge von Iwertigen ZV, so schreiben wir für m < n : X[m;n] = i[m;n] für das Ereignis k:m k n fXk = ik g :
Wir müssen die Gleichung (2.2) für die Z-Folge (für Start in i) nachweisen. Seien
i0 ; : : : ; in 2 I:
P (Zk = ik ; k
n) =
=
n
X
m=0
n
X
P
Z[0;n] = i[0;n] ; T = m + P
P
X[0;m] = i[0;m] ; Y[m;n] = i[m;n] ; Yk 6= ik ; k
m=0
+P
X[0;n] = i[0;n] ; Yk 6= ik ; k
Z[0;n] = i[0;n] ; T > n
m
1
n :
Mit (2.19) folgt
P
X[0;m] = i[0;m] ; Y[m;n] = i[m;n] ; Yk 6= ik ; k
= Pi X[0;m] = i[0;m] P
= Pi X[0;m] = i[0;m] P
P (Y0 6= i0 ; : : : ; Yk
1
m
1
Y[m;n] = i[m;n] ; Yk 6= ik ; k
m
1
Y[m+1;n] = i[m+1;n] j Y0 6= i0 ; : : : ; Yk
6= im
1 ; Ym
= im )
1
6= im
= Pi X[0;m] = i[0;m] Pim Y[1;n m] = i[m+1;n] P (Y0 6= i0 ; : : : ; Yk
Yn
6 i0 ; : : : ; Yk 1 6= ik 1 ; Yk = ik ) ;
= i;i0
pij 1 ;ij P (Y0 =
1
1 ; Ym
6= im
= im
1 ; Ym
= im )
j=1
und
P
X[0;n] = i[0;n] ; Y0 6= i0 ; : : : ; Yn 6= in =
i;i0
Nun ist
n
X
k=0
P (Y0 6= i0 ; : : : ; Yk
1
6= ik
1 ; Yk
Yn
j=1
pij
P (Y0 6= i0 ; : : : ; Yn 6= in ) :
1 ;ij
= ik ) + P (Y0 6= i0 ; : : : ; Yn 6= in ) = 1:
Kombinieren wir diese Gleichungen, so erhalten wir
P
Z[0;n] = i[0;n] =
i;i0
n
Y
pij
1 ;ij
:
j=1
Beweis von Satz 2.50 a).
(n)
pij = P (Zn = j) = P (Zn = j; T
(j) = P (Yn = j) = P (Yn = j; T
= P (Zn = j; T
n) + P (Zn = j; T > n) ;
n) + P (Yn = j; T > n)
n) + P (Yn = j; T > n) :
48
Somit folgt
(n)
pij
(j)
2P (T > n) ! 0
für n ! 1; nach Lemma 2.53.
Bemerkung 2.55
Satz 2.50 muss im periodischen Fall etwas umformuliert werden. Für positiv rekurrente,
irreduzible Ketten mit Periode d gilt:
d 1
1X
P (Xn+k = i) =
n!1 d
lim
(i)
k=0
für jede Startverteilung
führen.
2.7
und jedes i 2 I. Wir wollen den Beweis jedoch nicht durch-
Reversible stochastische Matrizen
Selbst wenn man weiss, dass eine Marko¤-Kette irreduzibel und positiv rekurrent ist,
ist die Berechnung der stationären Verteilung oft nicht explizit möglich. Ein ganz spezieller, jedoch wichtiger Spezialfall liegt vor, wenn eine Bedingung erfüllt ist, die in der
englischsprachigen Literatur “detailed balance condition” heisst:
De…nition 2.56
Sei = (pij ) eine stochastische Matrix. Ein Vektor = ( (i))i2I aus [0; 1)I mit 6= 0
heisst reversibel bezüglich , wenn (i) pij = (j) pji für alle i; j 2 I gilt. Wir nennen
eine stochastische Matrix reversibel, wenn für sie ein reversibler Vektor existiert.
Satz 2.57
Seien = (pij )i;j2I eine stochastische Matrix und
a) Ist
reversibel, so gilt
P
i2I
P
b) Ist
reversibel und gilt
invariante Verteilung (und
(i) pij =
2 [0; 1)I mit
6= 0.
(j) für alle j 2 I.
P
(j) < 1, so ist (i) := (i) = j2I
ist natürlich dann selbst auch reversibel).
j2I
(j) eine
c) Ist eine reversible Wahrscheinlichkeitsverteilung, so ist unter P die Verteilung
der Marko¤-Kette invariant unter Zeitumkehr. Genauer: Für alle n 2 N0 und
i0 ; i1 ; : : : ; in 2 I gilt
P (X0 = i0 ; : : : ; Xn = in ) = P (X0 = in ; X1 = in
Beweis. a)
X
i2I
(i) pij =
X
i2I
b) folgt aus a)
49
(j) pji =
(j) :
1 ; : : : ; Xn
= i0 ):
c) Wegen
pin
P (X0 = i0 ; : : : ; Xn = in ) = (i0 )pi0 i1
1 in
)
und
P (X0 = in ; : : : ; Xn = i0 ) = (in )pin in
pi1 i0
1
folgt c) durch vollständige Induktion nach n 2 N0 .
Es ist hier folgendes zu bemerken: Die Existenz eines reversiblen Vektors ist eine sehr
spezielle Eigenschaft von . Nur in speziellen Fällen sind stationäre Verteilungen auch
reversibel.
Ein wichtiger Fall, wo reversible Vektoren existieren, sind Irrfahrt auf Graphen (siehe
Beispiel 2.10).
Satz 2.58
Für die symmetrische Irrfahrt auf einem gewichteten Graphen G = (K; V; ') ist
X
(x) :=
' (fx; zg)
z2Nx
reversibel.
Beweis. Seien x; y Nachbarn auf dem Graphen. Dann gilt
(x) pxy = ' (fx; yg) =
(y) py;x :
Für eine symmetrische Irrfahrt auf einem endlichen, zusammenhängenden Graphen
ist die stationäre Verteilung also einfach durch
jVe j
;
f 2K jVf j
(e) = P
e 2 K;
gegeben, wobei Ve die Menge der Kanten bezeichnet, welche e als Endpunkt haben.
Irrfahrten auf Gruppen sind in der Regel nicht reversibel, obwohl wir (falls die Gruppe
endlich ist) ein invariantes Mass nach Proposition 2.47 kennen. In einem Spezialfall ist
dieses reversibel:
Proposition 2.59
Sei G eine endliche Gruppe und eine Wahrscheinlichkeitsverteilung auf G mit (g) =
g 1 für alle g 2 G: Dann ist die Gleichverteilung für die -Irrfahrt auf G reversibel.
Beweis. Die Übergangswahrscheinlichkeiten waren durch pg;h =
1
g
1h
gegeben. We-
g 1h =
g 1h
=
h 1 g folgt pg;h = ph;g :
Als Anwendung diskutieren wir das Ehrenfestsche Urnenmodell (siehe Beispiel 2.9
b)). Als Zustandsraum hatten wir I = f0; : : : ; ng. Die Übergangswahrscheinlichkeiten
sind gegeben durch
gen
pr;r
1
= r=n;
pr;r+1 = 1
r 2 f1; 2; : : : ; ng;
r=n;
r 2 f0; 1; : : : ; n
50
1g:
Man kann leicht nachrechnen, dass die Binomialverteilung
n
2
k
n
;
k 2 I;
reversibel und somit invariant ist. Wegen der o¤ensichtlichen Irreduzibilität ist das also
die invariante Verteilung. Dass wir hier die invariante Verteilung “erraten” haben, ist
natürlich unschön. Dass die Binomialverteilung reversibel ist, sieht man jedoch auch
mit der folgenden Überlegung ein, die die obige Proposition benutzt: Wir erweitern
I, indem wir die Kugeln durchnumerieren und für jede Kugel verfolgen, wo sie sich
be…ndet: Die Kugel erhält das Label 1, wenn sie sich in der rechten Schachtel be…ndet
und sonst 0. Die neue Marko¤-Kette nimmt Werte in I^ := f0; 1gn an. Wir fassen I^
als (abelsche) Gruppe auf, die Verknüpfung sei komponentenweises Addieren modulo 2.
Unser Verfahren für den Austausch von Kugeln ist äquivalent damit, dass wir eine der
n Kugeln zufällig herausgreifen und ihr Label abändern (d.h. die Kugel in die andere
Schachtel verfrachten). Dies ist eine Irrfahrt auf dieser Gruppe mit (x) = 1=2, falls
x = (x1 ; : : : ; xn ) 2 I^ genau eine von null verschiedene Komponente hat. Nach Proposition
2.59 ist die Gleichverteilung auf I^ reversibel für die -Irrfahrt. Die Gleichverteilung ist
aber nichts anderes als die durch das Bernoulli-Experiment mit Erfolgswahrscheinlichkeit
1=2 gegebene. Daraus ergibt sich sofort, dass die Binomialverteilung reversibel und damit
stationär für die ursprüngliche Kette ist.
2.8
Anhang: Der Satz von Ionescu-Tulcea
De…nition 2.60
Es sei (S; S) ein messbarer Raum. Eine Folge fXn gn2N von (S; S)-wertigen Zufallsgrössen, die auf einem gemeinsamen Wahrscheinlichkeitsraum ( ; F; P ) de…niert sind, heisst
(abzählbarer) (S; S)-wertiger stochastischer Prozess. Im Falle (S; S) = (R; B) sprechen wir einfach von einem stochastischen Prozess.
Eine Folge von Abbildungen Xn :
! S können wir als Abbildung X :
!
S N au¤assen. Die Xn sind dann die Kompositionen Xn = n X; wobei die n :die
Projektionen S N ! S sind. Gemäss der De…nition der Produkt- -Algebra S N wird
1
diese vom Mengensystem
n (A) : n 2 N; A 2 S erzeugt.
Satz 2.61
Es sei X = fXn gn2N eine Folge von Abbildungen Xn : ! S. Dann ist X genau dann
F-S N -messbar, wenn für jedes n 2 N die Abbildung Xn F-S-messbar ist.
Beweis. Nach De…nition von S N sind alle Projektionen n : S N ! S S N -S-messbar.
Ist X F-S N -messbar, so ist somit Xn = n X für jedes n 2 N eine F-S-messbare
Abbildung. Sind umgekehrt alle Xn F-S-messbar, so gilt X 1 ( n 1 (A)) = Xn 1 (A) 2 F
für alle n 2 N und alle A 2 S. Da per De…nition f n 1 (A) : n 2 N; A 2 S g ein
Erzeugendensystem von S N ist, folgt die Messbarkeit von X.
Die Verteilung eines stochastischen Prozesses X ist einfach seine Verteilung als (S N ; S N )wertige Zufallsgrösse, d.h. das Wahrscheinlichkeitsmass P X 1 auf (S N ; S N ): Die meisten der uns interessierenden Fragen hängen nur von der Verteilung des stochastischen
51
Prozesses ab. Ist X ein stochastischer Prozess, so ist die Folge f n gn2N der Projektionen
N
N
N ; P X 1 ) de…nierter stochastischer Prozess, der dieselbe
n : S ! S ein auf (S ; S
Verteilung wie X hat. Es ist daher meist keine Einschränkung anzunehmen, dass der
zugrunde liegende Wahrscheinlichkeitsraum von der Form (S N ; S N ; P ) ist und die Xn
die Projektionen von S N auf S sind.
Die Beschreibung von Wahrscheinlichkeitsmassen auf einem unendlichen Produktraum geschieht in der Regel über die sogenannten endlichdimensionalen Verteilungen.
De…nition 2.62
Ist Q ein Wahrscheinlichkeitsmass auf (S N ; S N ) und ist die Abbildung
für n 2 N durch (n) = ( 1 ; : : : ; n ) de…niert, so ist
Q(n) := Q(
ein Wahrscheinlichkeitsmass auf (S n ; S
sionalen Verteilungen von Q.
n ).
(n)
)
1
(n)
: SN ! Sn
(2.20)
Die Masse Q(n) heissen die endlichdimen-
Wir wollen im folgenden zwei Fragen nachgehen:
1. Legen die endlichdimensionalen Verteilungen fQ(n) gn2N die Verteilung Q eindeutig
fest?
2. Gibt es zu einer vorgegebenen Folge fQ(n) gn2N von Wahrscheinlichkeitsmassen auf
den Räumen (S n ; S n ), n 2 N, stets ein Wahrscheinlichkeitsmass Q auf (S N ;S N )
, dessen endlichdimensionale Verteilungen die Q(n) sind?
Die Antwort auf die erste Frage lautet uneingeschränkt Ja.
Satz 2.63
Die Folge der endlichdimensionalen Verteilungen fQ(n) gn2N bestimmt das Wahrscheinlichkeitsmass Q eindeutig.
S
(n)
Beweis. Sei Fn :=
S N : Es gilt Fn Fn+1 ; 8n; und demzufolge ist n Fn eine Algebra und mithin durchschnittstabil. Durch die endlichdimensionalen Verteilungen
ist das Mass Q auf diesem durchschnittstabilen Erzeugendensystem von S N festgelegt.
Daraus folgt die Behauptung.
Die Antwort auf die zweite Frage ist schwieriger. Zunächst müssen die Q(n) einer
Verträglichkeitsbedingung genügen, damit überhaupt eine Chance besteht, ein Wahrscheinlichkeitsmass Q auf (S N ;S N ) zu …nden mit
Q(n) = Q(
(n)
)
1
:
Ist nämlich 'n : S n ! S n 1 die Projektion auf die ersten n 1 Koordinaten von S n , so
(n) . Daher folgt für jede Menge A 2Sn 1 :
gilt (n 1) = 'n
(n 1)
1
(n)
(A) =
52
1
'n 1 (A)
und somit
Q(n
falls ein Q auf (S N ;S
sind.
N)
1)
= Q(n) 'n 1 ;
n
2;
(2.21)
existiert, dessen endlichdimensionalen Verteilungen die Q(n)
De…nition 2.64
Für jedes n 2 N sei Q(n) ein Wahrscheinlichkeitsmass auf (S n ; S
heisst verträglich, wenn (2.21) gilt.
n ).
Die Folge fQ(n) gn2N
Wie wir gesehen haben, ist diese Bedingung notwendig für die Existenz von Q: Die
Frage muss also dahin präzisiert werden, ob zu jeder verträglichen Folge ein Wahrscheinlichkeitsmass Q auf (S N ;S N ) existiert, deren endlichdimensionale Verteilungen die Q(n)
sind. Die Antwort ist leider “Nein”. Es gibt jedoch wichtige Spezialfälle, in denen die
Antwort “Ja” lautet. Dies ist dann der Fall, wenn die Q(n) durch Marko¤-Kerne wie
folgt de…niert sind.
Wir betrachten eine „Startverteilung“ auf (S; S). Ferner sei für jedes n ein Marko¤Kern Kn : (S n ; S n )
(S; S) gegeben. Mit diesen Objekten konstruieren wir eine Folge
(n)
Q von Wahrscheinlichkeitsmassen auf (S n ; S n ) wie folgt als semidirekte Produkte:
Q(1) : = ;
Q(2) : =
(n+1)
Q
K1 ;
(n)
: =Q
Kn ; n
2:
Nach (1.3) ist die Folge Q(n) verträglich.
Satz 2.65 (Satz von Ionescu-Tulcea)
In der oben beschriebenen Situation existiert stets ein eindeutiges Wahrscheinlichkeitsmass Q auf (S N ;SN ), das (2.20) erfüllt.5
Die Eindeutigkeit haben wir schon gezeigt. Wir müssen noch die Existenz nachweisen.
Beweis. Zunächst ist klar, dass die Folge Q(n) ein endlich additive Mangenfunktion
auf der Algebra
[
A :=
Fn
n
de…niert: Fn besteht genau aus den Mengen der Form (n) 1 (A) ; A 2 S n . Wir de…nie^ (n) auf Fn durch Q
^ (n) (n) 1 (A) = Q(n) (A) : Die Verträglichkeit der Folge
ren daher Q
^ (n+1) auf Fn mit Q
^ (n) übereinstimmt. Daher wird durch die
Q(n) n besagt
o dann, dass Q
^ (n) eine Mengenfunktion Q
^ auf A de…niert, die auf Fn
^ (n) überFolge Q
A mit Q
^ erfüllt Q
^ S N = 1 und ist auf der Algebra A endlich additiv. Letzteres
einstimmt. Q
5
N
Q Der Satz lässt sich leicht noch allgemeiner formulieren, indem anstelle von S eine Produktmenge
S
mit
der
entsprechenden
Produkt-Algebra
betrachtet
wir,
wobei
(S
;
S
k
k ) ; k 2 N, beliebige
k k
Q
messbare Räume sind. Die Kn sind dann Marko¤-Kerne von n
S
nach
S
:
Der
Beweis ist praktisch
n+1
k
k=1
identisch zu dem hier gegebenen; nur ist die ganze Notation aufwendiger.
53
ergibt sich daraus, dass für A; B 2 A ein n existiert mit A; B 2 Fn . Da Q(n) auf Fn ein
Wahrscheinlichkeitsmass ist, folgt die endliche Additivität auf A.
Um den Satz von Caratheodory anwenden zu können, müssen wir nachweisen, dass
^
Q auf A -additiv ist. Aus Analysis III sollte bekannt sein, dass dies äquivalent ist mit
^ (An ) = 0:
An 2 A; An # ; =) lim Q
n!1
Wir zeigen das indirekt: WirTzeigen dass für eine monoton fallende Folge An 2 A mit
^ (An ) > 0 ein Punkt x 2
inf n Q
n An existiert.
Nach einigen kosmetischen Manipulationen, die dem Leser überlassen seien, können
wir annehmen, dass An 2 Fn für alle n gilt. An lässt sich dann eindeutig als (n) 1 (Bn )
darstellen mit Bn
S n ; Bn 2 S n aus den entsprechenden Eigenschaften der An
erhalten wir
Bn+1
(n)
lim Q
n!1
Bn
S;
(2.22)
(Bn ) > 0:
(2.23)
Wir konstruieren eine Folge x = (x1 ; x2 ; : : :) 2 S N mit (x1 ; : : : ; xn ) 2 Bn ; 8n; und
demzufolge x 2 An ; 8n:
Bevor wir das Argument vorstellen, zunächst ein Hinweis, worin die Schwierigkeit
liegt. Natürlich können wir stets ein x1 2 B1 …nden, denn B1 ist nicht leer. Anschliessend
möchten wir zu diesem x1 ein x2 2 S …nden mit (x1 ; x2 ) 2 B2 ; und dann möchten wir
in dieser Weise weiterfahren. O¤ensichtlich ist bei einer beliebigen Wahl von x1 nicht
garantiert, dass wir dazu ein entsprechendes x2 …nden können. Zwar können wir stets
(x01 ; x02 ) 2 B2 …nden, was dann automatisch die Eigenschaft hat, dass x01 2 A1 ist.
Entsprechend können wir für jedes n ein Element (y1 ; : : : ; yn ) 2 Bn …nden und dann
gilt automatisch (y1 ; : : : ; yk ) 2 Bk für k n: Es ist jedoch nicht klar, dass wir auf diese
Weise eine unendliche Folge y mit der gewünschten Eigenschaft (y1 ; : : : ; yk ) 2 Bk ; 8k,
…nden können. Das Problem besteht darin, dass wir x1 schon so konstuieren, dass wir in
die „unendliche Zukunft“ vorausblickend, die Konstruktion später weiterführen, damit
wir anschliessend x2 ; x3 ; : : : …nden können.
Hier ist die Idee: Wir konstruieren eine Folge fn ; n 2 N; von messbaren Funktionen
S n ! [0; 1] mit den folgenden drei Eigenschaften.
Z
f1 d > 0;
(2.24)
fn (x1 ; : : : ; xn ) =
Z
Kn ((x1 ; : : : ; xn ) ; dy) fn+1 (x1 ; : : : ; xn ; y) ; n
fn
1B n :
1;
(2.25)
(2.26)
Bevor wir diese Aussagen beweisen, zeigen wir, dass wir damit das Lemma bewiesen haben. Wir konstruieren rekursiv eine Folge x1 ; x2 ; : : : mit der Eigenschaft, dass
fn (x1 ; : : : ; xn ) > 0 für alle n gilt. Wegen (2.26) folgt daraus (x1 ; : : : ; xn ) 2 Bn : Zunächst
wählen wir x1 so, dass f1 (x1 ) > 0 ist, was nach (2.24) möglich ist. Ist (x1 ; : : : ; xn ) mit
54
fm (x1 ; : : : ; xm ) > 0 konstruiert, so wählen wir xm+1 so dass fm+1 (x1 ; : : : ; xm+1 ) > 0
gilt, was wegen (2.25) möglich ist. Die unendlich lange Folge x = (x1 ; x2 ; : : :) erfüllt dann
(x1 ; : : : ; xn ) 2 Bn ; 8n; und demzufolge x 2 An ; 8n: Damit haben wir die -Additivität
^ bewiesen.
von Q
Es bleibt somit die Konstruktion der Folge ffn g mit den drei gewünschten Eigenschaften. Dazu konstuieren wir für jedes n eine Folge fn;0 ; fn;1 ; fn;2 ; : : : fn;k : S n ! R+
wie folgt:
fn;0 : = 1Bn ;
Z
fn;1 (y) : = Kn (y; dx) 1Bn+1 (y;x) ; y 2 S n ;
und allgemein
fn;k (y) : =
Z
Z
Kn (y; dx1 )
Kn+k
Z
Kn+1 ((y; x1 ) ; dx2 )
1 ((y; x1 ; : : : ; xk 1 ) ; dxk ) 1Bn+k
(y;x1 ; : : : ; xk ) :
Wegen Bn+k
Bn+k 1 S und Kn+k 1 ((y; x1 ; : : : ; xk 1 ) ; S) = 1 folgt sofort fn;k
fn;k 1 . D.h. für festes n ist die Folge ffn;k gk 0 eine monoton fallende Folge von messbaren
nicht-negativen Funktionen. Wir de…nieren
fn := lim fn;k
k!1
0:
Wegen fn;0 = 1Bn ist (2.26) erfüllt.
Veri…kation von (2.25). Für x 2 S n gilt
Z
fn+1;k (x; y) Kn (x; dy)
Z hZ
Z
=
Kn+1 ((x; y) ; dx1 )
Kn+k ((x; y; x1 ; : : : ; xk 1 ) ; dxk )
i
1Bn+1+k (y; x; x1 ; : : : ; xk ) Kn (x; dy)
Z
Z
=
Kn (x; dy) Kn+1 ((x; y) ; dx1 )
Z
Kn+k ((x; y; x1 ; : : : ; xk 1 ) ; dxk ) 1Bn+1+k (y; x; x1 ; : : : ; xk )
= fn;k+1 (x) :
Die zweite Gleichung folgt nach Fubini (Satz 1.7). Anwendung des Satzes von Lebesgues
im Limes k ! 1 ergibt (2.25).
Zum Schluss noch (2.24). (Man beachte, dass wir bisher die entscheidende Voraussetzung (2.23) noch gar nicht verwendet haben.) Eine Anwendung von Fubini ergibt in
exakt derselben Weise wie eben
55
und im Limes k ! 1
nach Voraussetzung (2.23).
Z
Z
f1;k d = Q(k+1) (Bk+1 ) ;
f1 d = lim Q(k+1) (Bk+1 ) > 0
k!1
Beispiel 2.66
a) Produktwahrscheinlichkeiten: Sei (S; S) ein beliebiger messbarer Raum (zum Beispiel (R; B)). Für jedes n 2 N sei n ein Wahrscheinlichkeitsmass auf (S; S). Die
endlichen Produktmasse Q(n) = 1
2
n sind o¤enbar von der im Satz
von Ionescu-Tulcea geforderten Form, denn wir können Q(1) = 1 und den Kern
Kn von (S n ; S n ) nach (S;S) trivial durch Kn (x; A) = n+1 (A) wählen. Somit sind
die Q(n) die endlichdimensionalen Verteilungen eines eindeutig bestimmten Wahrscheinlichkeitsmasses Q auf (S N ; S N ). Sind die Xn : S N ! S für alle n 2 N die
Projektionen, so hat Xn die Verteilung n . Man sagt, die fXn gn2N seien unabhängig. Sind alle n gleich, so heissen die fXn gn2N identisch verteilt.
b) Hier ein Beispiel, das belegt, dass die eindimensionalen Verteilungen die Verteilung
des Prozesses nicht festlegen: Ist fXn gn2N ein Prozess mit den endlichdimensionalen Verteilungen aus dem obigen Beispiel (mit n = für alle n), so hat der
Prozess fXn0 gn2N , de…niert durch Xn0 = X1 , o¤enbar dieselben eindimensionalen
Verteilungen, denn es gilt QXn 1 = QX 0n 1 = für alle n 2 N. Abgesehen von
trivialen Fällen gilt L(fXn gn2N ) 6= L(fXn0 gn2N ), denn wenn 0 < (A) < 1 ist,
dann gilt Q(2) (A A) = (A)2 6= Q(X10 ; X20 ) 1 (A A) = (A).
c) Marko¤ ketten: Es seien I eine abzählbare Menge und (pij )i;j2I eine stochastische
Matrix. Sei ( (i))i2I eine beliebige Wahrscheinlichkeitsverteilung auf I. Die abzählbare Menge I versehen wir mit der Potenzmenge P(I) als -Algebra. Dann
legen ( (i))i2I und (pij )i;j2I für jedes n 2 N eine Wahrscheinlichkeitsverteilung
Q(n) auf (I n ; P(I)n ) fest mittels Q(1) = q und Q(n) = Q(n 1) Kn 1 mit
Kn
1 ((i1 ; : : : ; in 1 ); in )
:= p(in
1 ; in ):
Nach dem Satz von Ionescu-Tulcea existiert ein eindeutig bestimmtes Wahrscheinlichkeitsmass auf (I N ; P(I)N ), dessen endlichdimensionale Verteilungen die fQ(n) gn2N
sind, d.h. fXn gn2N ist eine Marko¤ kette mit Übergangsmatrix (pij )i;j2I und Startverteilung .
Bemerkung 2.67
In der wahrscheinlichkeitstheoretischen Literatur wird oft der Satz von Kolmogoro¤
verwendet, der besagt, dass im Falle, dass S ein vollständiger metrischer Raum mit
Borel- -Algebra S ist, Q stets existiert, wenn die Familie Q(n) verträglich ist. Dieser
Satz ist ein Korollar des Satzes von Ionescu-Tulcea unter Verwendung von Satz 1.22.
Wir führen das jedoch nicht weiter aus.
56
3
3.1
Brownsche Bewegung
Normalverteilungen
Die eindimensionale Standard-Normalverteilung auf (R; B) hat die Dichte
1
2
' (x) = p e x =2
2
bezüglich des Lebesgue-Masses. Der Erwartungswert ist 0 und die Varianz ist 1: Die
Normalverteilung mit Mittel a 2 R und Varianz 2 > 0 hat die Dichte
2
1
2
' x; a; 2 = p
e (x a) =2 :
2
Es ist bequem, das Einpunktmass a als Normalverteilung mit Varianz 0 zu bezeichnen.
Wir bezeichnen
die Dichte '
R üblicherweise mit das Wahrscheinlichkeitsmass, welches
hat: (A) := A ' (x) dx: Die charakteristische Funktion von
; a; 2 ist
Z
2 2
^ t; a; 2 = eitx ' x; a; 2 dx = exp ita
t =2 :
Diese Formel ist auch für 2 = 0 korrekt.
Diese Fakten wurden in Stochastik I diskutiert.
Wir benötigen auch charakteristische Funktionen von Wahrscheinlichkeitsmassen auf
(Rn ; Bn ) : Ist ein Wahrscheinlichkeitsmass, so ist die charakteristische Funktion de…niert durch
Z
^ (t) := eiht;xi (dx) ;
wobei t = (t1 ; : : : ; tn ) 2 Rn und ht; xi das übliche innere Produkt in Rn sind. Ist X ein
n-dimensionaler Zufallsvektor, so ist die charakteristische Funktion der Verteilung von
X
Eeiht;Xi
was wir manchmal als
X
(t) schreiben.
Satz 3.1
Sind ; zwei Wahrscheinlichkeitsmasse auf (Rn ; Bn ) mit ^ (t) = ^ (t) ; 8t; so gilt = :
Wenn also zwei Zufallsvektoren dieselbe charakteristische Funktion haben, so haben sie
dieselbe Verteilung.
Beweis. Der Beweis ist analog zum Beweis von Satz 2.21 in Stochastik I. Das entscheidende Lemma 2.22 wurde in Stochastik I für n-dimensionale Wahrscheinlichkeitsmasse
bewiesen.
Lemma 3.2
Sind ein Wahrscheinlichkeitsmass auf Rn ; ein Wahrscheinlichkeitsmass auf Rm und
das Produktmass auf Rn Rm = Rn+m ; so gilt
\ (t) = ^ t0 ^ t00 ;
t = (t0 ; t00 ) 2 Rn
Rm :
57
Beweis. Die Produktdarstellung für Produktmasse folgt unmittelbar aus der De…nition
und Fubini.
Korollar 3.3
Seien X; Y zwei Zufallsvektoren, X m-dimensional und Y n-dimensional. X und Y sind
genau dann unabhängig wenn die charakteristische Funktion von (X; Y ) die Form
(X;Y ) (t)
=
X
t0
Y
t00 ; t = t0 ; t00 :
hat.
Beweis. X und Y sind genau dann unabhängig sind, wenn die Verteilung von (X; Y )
das Produktmass aus den Einzelverteilungen ist. Sind also X; Y unabhängig, so folgt die
Produktdarstellung aus dem vorangegangenen Lemma. Die Umkehrung ergibt sich mit
Satz 3.1.
De…nition 3.4
Die n-dimensionale Standard-Normalverteilung n ist das n-fache Produktmass der eindimensionalen Standard-Normalverteilung. Sie hat also die Dichte
h
i
(2 ) n=2 exp
jxj2 =2
n
bezüglich
Pndes 2n-dimensionalen Lebesgue-Masses. Hier ist x = (x1 ; : : : ; xn ) 2 R und
2
jxj := i=1 xi :
De…nition 3.5
Die Wahrscheinlichkeitsmasse auf Rn , die sich als induzierte Bildmass der n-dimensionalen
Standard-Normalverteilung unter einer a¢ nen Abbildung darstellen lässt, heisst Normalverteilung oder Gaussverteilung. D.h. ein Wahrscheinlichkeitsmass heisst n-dimensionale
Gaussverteilung (oder Normalverteilung), wenn eine n n-Matrix A und b 2 Rn existieren mit
= nf 1;
wobei f : Rn ! Rn de…niert ist durch f (x) = Ax + b. (Es wird hier nicht vorausgesetzt,
dass A regulär ist.).
Eine Rn -wertige Zufallsgrösse, deren Verteilung eine Normalverteilung ist, heisst normalverteilt (oder Gauss-verteilt).
Wir berechnen Erwartungswert die Kovarianzen einer Gaussverteilung
Z
Z X
Z
X
xi (dx) =
aij xj + bi n (dx) =
aij xj n (dx) + bi
j
j
Z
X
=
aij x (dx) + bi = bi :
j
58
ij
Z
:
=
=
Xn
=
(xi
s;t=1
n
X
Z hX
i
n
ais xs ajt xt
bi ) (xj bj ) (dx) =
s;t=1
Z
Xn
ais ajt s;t
ais ajt xs xt n (dx) =
n (dx)
s;t=1
ais ajt :
s=1
Die Kovarianzmatrix = ij hat also die Darstellung = AAT : (AT ist die transponierte Matrix).
Als nächstes berechnen wir die charakterische Funktion:
Z
Z
^ (t) =
exp [i ht; xi] (dx) = exp [i ht; Ax + bi] n (dx)
Z
= exp [i ht; bi] exp [i ht; Axi] n (dx)
Z
i
h Xn
tj ajk xk n (dx)
= exp [i ht; bi] exp i
j;k=1
= exp [i ht; bi]
= exp [i ht; bi]
= exp i ht; bi
n
Y
k=1
n
Y
Z
h Xn
exp i
j=1
i
tj ajk x (dx)
1 X
tj ajk
j
2
exp
k=1
2
1
ht; ti :
2
Man beachte, dass die charakteristische Funktion nur von b und
abhängt.
Satz 3.6
Zu jedem Vektor b 2 Rn und zu jeder symmetrischen, positiv semide…niten n n-Matrix
gibt es genau eine Gaussverteilung mit b als Vektor der Erwartungswerte und als
Kovarianzmatrix. Die charakteristische Funktion ist
^ (t) = exp i ht; bi
1
ht; ti :
2
Beweis. Zu existiert A mit = AAT : A kann symmetrisch gewählt werden, sodass
= A2 ist. Das sollte aus der Linearen Algebra bekannt sein.6 = n f 1 mit f wie
oben ist dann das gewünschte Wahrscheinlichkeitsmass. Die Eindeutigkeit folgt aus Satz
3.1 und der obigen Darstellung der charakteristischen Funktion.
Notation: Wir schreiben die Gaussverteilung mit den obigen Parametern meist als
n ( ; ; b) :
6
Falls nicht, hier der Beweis. Da symmetrisch und postiv semide…nit ist, sind die Eigenwerte reell
und nicht negativ. Ferner lässt sich orthogonal auf die Diagonalmatrix D der Eigenwerte transformieren. D.h. es gibt eine orthogonale Matrix U mit = U DU T : Da D nur nicht negative Elemente in der
Diagonalen hat, lässt sich D als D0 D0 schreiben. Somit ist
= U D0 U T U D0 U T : A := U D0 U T ist die
gewünschte Matrix.
59
Proposition 3.7
Seien n; m 2 N; N = n + m: Für einen normalverteilten Zufallsvektor X = (X1 ; : : : ; XN )
sind die zwei Zufallsvektoren X0 = (X1 ; : : : ; Xn ) ; X00 = (Xn+1 ; : : : ; Xn+m ) genau dann
unabhängig, wenn cov (Xi ; Xj ) = 0 ist für i 2 f1; : : : ; ng ; j 2 fn + 1; : : : ; n + mg :
Beweis. Sind die Vektoren X0 ; X00 unabhängig, so sind die Komponenten unkorreliert
(Stochastik I). Für diese Richtung wird die Normalität nicht verwendet.
Sind X0 ; X00 unkorreliert, so spaltet sich die Kovarianzmatrix von X auf als
=
0
0
0
00
;
wobei 0 die Kovarianzmatrix von X0 und 00 die Kovarianzmatrix von X00 sind. 0 oben
bezeichnet Matrizen mit allen Komponenten gleich 0. Daraus folgt, dass sich die charakteristische Funktion aufspaltet: Mit RN 3 t = (t0 ; t00 ) 2 Rn Rm gilt für die Verteilung
von X :
1
ht; ti
2
^ (t) = exp i ht; bi
1 0
t;
2
= exp i t0 ; b0 + i t00 ; b00
wobei b = EX = (EX0 ; EX00 ) = (b0 ; b00 ) : Ist
die Verteilung von X00 auf Rm so folgt
0
0 0
t
1 00
t ;
2
00 00
;
t
die Verteilung von X0 auf Rn und
00
^ (t) = ^ 0 t0 ^ 00 t00 :
Die Unabhängigkeit folgt nun aus dem Korollar zu Lemma 3.2.
Proposition 3.8
n ( ; ; b) ist genau dann absolut stetig bezüglich des Lebesguemasses, wenn
ist. Die Dichte ist in diesem Fall gegeben durch
'n (x; ; b) =
1
p
n=2
(2 )
det
exp
1
x
2
b;
1
(x
b)
regulär
:
Beweis. Ist invertierbar, so rechnet man sofort nach, dass die Fouriertransformation
der obigen Funktion die gewünschte Gestalt hat, womit gezeigt ist, dass
n (dx;
; b) = 'n (x; ; b) dx
ist.
Ist nicht regulär, so ist in einer Darstellung = AAT auch A nicht regulär. Somit
ist der Bildbereich von f (x) = Ax + b eine a¢ ne Teilmenge von Rn ; die Dimension
n 1. Diese Teilmenge hat Lebesguemass 0; hat jedoch volles Mass unter n : Somit
ist n nicht absolut stetig bezüglich des Lebesguemasses.
60
Lemma 3.9
Sei f : Rm ! Rn eine a¢ ne Abbildung, d.h. eine Abbildung der Form f (x) = Ax + b
wobei b 2 Rn und A eine n m-Matrix ist. (Vektoren als Spaltenvektoren geschrieben).
Es wird nicht vorausgesetzt, dass m = n ist. Ist eine Normalverteilung auf Rm so ist
f 1 eine Normalverteilung auf Rn .
Beweis. Sei
; ; c) : Die charakteristischen Funktion von f 1 ist
Z
Z
ihx;ti
1
[
1
f (t) =
e
f (dx) =
eihf (x);ti (dx)
n
m
R
Z
ZR
T
ihAx+b;ti
ihb;ti
eihx;A ti (dx)
=
e
(dx) = e
=
m(
Rm
Rm
= eihb;ti exp i c; AT t
= exp i hb + Ac; ti
1 T
A t; AT t
2
exp
1
t; A AT t
2
:
Das ist die chararakteristische Funktion der Normalverteilung auf Rn mit Mittel b + Ac
und Kovarianzmatrix A AT :
Lemma 3.10
(N )
(N )
Sei X(N ) = (X1 ; : : : ; Xn ), N 2 N, eine Folge von normalverteilten Zufallsvektoren,
die in Wahrscheinlichkeit gegen einen Zufallsvektor X = (X1 ; : : : ; Xn ) konvergiert. Dann
ist X ebenfalls normalverteilt, und es gelten
(N )
EXi = lim EXi
N !1
;
(N )
cov(Xi ; Xj ) = lim cov(Xi
N !1
(N )
; Xj
):
Beweis. Wir verwenden charakteristische Funktionen. Für t 2 Rd gilt
Ei
h D
E (exp [i ht; Xi]) = lim E exp i t; X(N )
N !1
E 1D
D
E
(N )
(N )
= lim exp i t; a
t;
t ;
N !1
2
(N )
wobei a(N ) der Vektor der Erwartungswerte ist: a(N ) = EX1
(3.1)
(N )
; : : : ; EXn
und
(N )
die positive semide…nite Kovarianzmatrix von X (N ) : Hier haben wir die folgende Verallgemeinerung des Satzes von Lebesgue verwendet: Falls die Folge X (N ) in Wahrscheinlichkeit gegen X konvergiert und falls f : Rn ! R eine stetige und beschränkte Funktion
ist, so gilt limN !1 Ef X (N ) = Ef (X) : Der Leser möge sich dies als Übungsaufgabe
überlegen.
Aus der Existenz des Limes auf der rechten Seite von (3.1), für jedes t 2 Rn ; folgt
die Existenz der Limiten a := limN !1 a(N ) und = limN !1 (N ) (Übungsaufgabe zu
Analysis) und dass positiv semide…nit ist. Damit ergibt sich
E (exp [i ht; Xi]) = exp i ht; ai
61
1
ht; ti :
2
Somit ist X normalverteilt mit Mittel a und Kovarianzmatrix
bewiesen.
3.2
: Damit ist das Lemma
Stochastische Prozesse
Im Gegensatz zu den Marko¤-Ketten des letzten Kapitels betrachten wir nun einen
speziellen stochastischen Prozess mit Zeitparameter t 2 T := [0; 1). Dazu benötigen
wir noch etwas allgemeine Theorie. Im Moment ist T eine beliebiger metrischer Raum,
aber wir werden uns dann gleich auf [0; 1) einschränken.
De…nition 3.11
a) Ein stochastischer Prozess X = fXt gt2T ist eine auf einem Wahrscheinlichkeitsraum ( ; F; P ) de…nierte Familie von (R; B)-wertigen Zufallsgrössen. Die reellwertigen Funktionen T 3 t ! Xt (!) heissen die Pfade des stochastischen Prozesses.
b) X hat stetige Pfade (kurz: ist ein stetiger stochastischer Prozess), wenn für jedes
! 2 die Abbildung T 3 t ! Xt (!) stetig ist.
Wir werden auch vektorwertige stochastische Prozesse betrachten. In diesem Fall
sind die Xt dann (Rd ; B d )-wertige Zufallsgrössen. Die Modi…kationen in der De…nition
sind o¤ensichtlich. Der Einfachheit halber bleiben wir im Fall d = 1.
Die endlichdimensionalen Verteilungen (kurz e.d. Verteilungen) eines stochastischen
Prozesses X = fXt gt2T . (Wir verwenden in dieser Vorlesung die Notation, stochastische
Prozesse üblicherweise fett zu schreiben) sind wie folgt de…niert:
Für t1 ; t2 ; : : : ; tn 2 T , sei
t1 ;:::;tn
:= P (Xt1 ; Xt2 ; : : : ; Xtn )
1
:
Dies ist ein Wahrscheinlichkeitsmass auf (Rn ; B n ). Die Familie dieser Wahrscheinlichkeitsmasse heisst die Familie der e.d. Verteilungen von X. Für ai ; bi 2 R, 1 i n,
ai < bi ist also etwa
t1 ;:::;tn ((a1 ; b1 ]
= P (a1 < X1
(a2 ; b2 ]
(an ; bn ])
b1 ; a2 < X2
b2 ; : : : ; an < Xn
bn )
Diese Familie von Verteilungen besitzt die folgende Verträglichkeitseigenschaft: Für
j 2 f1; : : : ; ng ist
1
t1 ;:::;tj 1 ;tj+1 ;:::;tn = t1 ;:::;tn 'j ;
wobei 'j die Projektion Rn ! Rn
1,
de…niert durch
(x1 ; : : : ; xn ) ! (x1 ; : : : ; xj
ist.
62
1 ; xj+1 ; : : : ; xn );
De…nition 3.12
Eine Familie f t1 ;:::;tn : n 2 N; t1 <
< tn g von endlichdimensionalen Verteilungen,
die diese Bedingung erfüllt, nennen wir verträglich.
Ein stochastischer Prozess X = fXt gt2T ist nichts anderes als eine messbare Abbildung
X : ! RT ;
die de…niert ist durch X(!)(t) := Xt (!). Hier ist RT die Menge aller Abbildungen von
T nach R. Wir versehen dabei RT mit der -Algebra
B T := (
wobei
t
t
: t 2 T );
die Auswertungsabbildung ist:
RT 3 f !
t (f )
:= f (t):
Die Verteilung des stochastischen Prozesses X ist das Wahrscheinlichkeitsmass P X
auf (RT ; B T ).
Proposition 3.13
Die e.d. Verteilungen eines stochastischen Prozesses legen die Verteilung P X
fest.
Beweis.
[
(
t1 ; : : : ;
1
1
eindeutig
tn )
n; t1 ;:::;tn 2N
ist ein durchschnittstabiles Erzeugendensystem von B T .
Für stetige stochastische Prozesse kann die obige Diskussion etwas modi…ziert werden. Hier können wir X als Abbildung
! C(T ) au¤assen, wobei C(T ) die Menge
der stetigen Abbildungen T ! R ist. Wir versehen C(T ) ebenfalls mit der durch die
Auswertungsabbildungen erzeugten -Algebra:
C(T ) = (
t
: t 2 T ):
Ein stetiger stochastischer Prozess, der auf ( ; F; P ) de…niert ist, ist nichts anderes
als eine messbare Abbildung
X : ( ; F) ! (C(T ); C(T )):
(Die Notation ist hier etwas ungenau, denn mit X hatten wir schon die Abbildung
! RT bezeichnet. Dies sollte jedoch keinen Verwirrungen stiften.)
Für jedes Wahrscheinlichkeitsmass Q auf (RT ; B T ) ist die Familie der Auswertungsabbildungen ( t )t2T ein stochastischer Prozess, der auf ( ; F; P ) := (RT ; B T ; Q) de…niert
ist. Seine Verteilung ist natürlich gerade Q. Analog ist für jedes Wahrscheinlichkeitsmass
Q auf (C(T ); C(T )) die Familie der Auswertungsabbildungen (nun de…niert auf C(T ))
ein stetiger stochastischer Prozess, de…niert auf ( ; F; P ) = (C(T ); C(T ); Q).
Ohne Beweis zitieren wir den folgenden Satz von Kolmogoro¤, den wir nicht verwenden werden:
63
Satz 3.14
Zu jeder verträglichen Familie f t1 ;:::;tn : n 2 N; ti 2 T; t1 <
< tn g von Wahrscheinlichkeitsmassen gibt es genau ein Wahrscheinlichkeitsmass Q auf (RT ; B T ) mit
t1 ;:::;tn
wobei
t1 ;:::;tn
=Q
1
t1 ;:::;tn ;
die n-fache Auswertungsabbildung ist:
t1 ;:::;tn (f )
:= (f (t1 ); : : : ; f (tn )).
Der Satz kann aus dem Satz von Ionescu-Tulcea hergeleitet werden.7
Wir zitieren hier den folgenden nützlichen Satz (ohne Beweis), der ebenfalls von
Kolmogoro¤ stammt:
Satz 3.15
Wir setzen voraus, dass T ein Intervall in R ist. Es sei eine Familie verträglicher e.d. Verteilungen wie in Satz 3.14 gegeben. Falls Exponenten q > 0 und > 1 existieren, sowie
Konstanten A, r > 0, so dass
Z
jx yjq s;t (dx; dy) Ajs tj ;
R2
für alle s; t 2 T , s < t mit t s
mit diesen e.d. Verteilungen.
r gilt, so existiert ein stetiger stochastischer Prozess
Bemerkung 3.16
1.
a) Man möchte diesen Satz vielleicht gerne etwas anders formulieren: Die Verträglichkeit liefert nach Satz 3.14 schon die Existenz eines Prozesses X. Nun ist C(T )
RT . Wieso sagt man nicht einfach: „Unter der Bedingung des Satzes 3.15 gilt
P (X 2 C(T )) = 1?“ Das Problem dabei ist, dass C(T ) 2
= B T ist. Tatsächlich will
man stets Prozesse mit bestimmten Pfadeigenschaften konstruieren, wie zum Beispiel Stetigkeit, Rechtsstetigkeit etc. Solche Pfadeigenschaften beschreiben keine
B T -messbaren Teilmengen von RT .
b) Der wichtigste Spezialfall des obigen Satzes ist = 2: Typischerweise
muss man
R
4
dann q = 4 verwenden: Falls eine Konstante A existiert mit R2 (x y) s;t (dx; dy)
A (s t)2 für alle s; t 2 T; so existiert ein stetiger stochastischer Prozess mit diesen
e.d. Verteilungen.
Wir werden in diesem Abschnitt sehen, dass der Satz 3.15 sofort die Existenz einer
stetigen Brownschen Bewegung beweist. In Kapitel 3.3 geben wir jedoch einen davon
unabhängigen Beweis.
7
Im Satz von Kolmogoro¤ ist wichtig, dass der Wertebereich der Zufallsvariablen (R; B) oder allgemeiner ein vollständiger separabler metrischer Raum mit der Borel- -Algebra ist. Die Rückführung auf
den Satz von Ionescu-Tulcea erfolgt via die Existenz von regulären bedingten Verteilungen in solchen
Situationen, welche zur Darstellung der e.d. Verteilungen über Marko¤-Kerne führt. Die Details sollen
hier nicht ausgeführt werden, da wir sie auch nicht benötigen.
64
De…nition 3.17
a) Ein stochastischer Prozess fXt gt2T heisst Gauss-Prozess, wenn alle e.d. Verteilungen Normalverteilungen sind.
b) Ein Gauss-Prozess heisst zentriert, wenn EXt = 0 für alle t 2 T gilt.
Ist X = fXt gt2T ein Gauss-Prozess, so sei die Funktion m : T ! R de…niert durch
m(t) = EXt ;
und die Kovarianzfunktion
:T
(3.2)
T ! R durch
(t; s) = cov(Xt ; Xs ):
(3.3)
Die obigen Überlegungen führen direkt auf Teil a) und b) des untenstehenden Satzes.
Satz 3.18
a) Ist X ein Gauss-Prozess, so sind die e.d. Verteilungen festgelegt durch die Funktionen m : T ! R, : T T ! R.
b)
hat die folgenden Eigenschaften:
(t; s) = (s; t), 8 s; t 2 T .
Für t1 ; : : : ; tn 2 T is die symmetrische Matrix f (ti ; tj )g1
de…nit.
i;j n
positiv semi-
c) Seien umgekehrt m : T ! R, : T T ! R Funktionen, wobei die obigen
Eigenschaften b) hat. Dann existiert ein Wahrscheinlichkeitsraum ( ; F; P ) und
ein darauf de…nierter Gauss-Prozess fXt gt2T mit (3.2) und (3.3).
Beweis. Wir müssen nur noch (c) zeigen, wobei wir Satz 3.14 verwenden. Für ( ; F)
nehmen wir (RT ; B T ), und der stochastische Prozess ist einfach die Familie der Auswertungsabbildungen f t gt2T .
Für t1 ; : : : ; tn sei t1 ;:::;tn die Normalverteilung auf (Rn ; B n ) mit Mittelwert (m(t1 ); : : : ; m(tn ))
und Kovarianzmatrix ( (ti ; tj ))1 i;j n . Um Satz 3.14 anwenden zu können, müssen
wir nur die Verträglichkeit dieser Familie nachweisen. Um die Notation zu vereinfachen, schreiben wir
für t1 ;:::;tn . Sei j 2 f1; : : : ; ng und 'j für Projektion Rn !
n
1
R
, de…niert durch 'j (x1 ; : : : ; xn ) = (x1 ; : : : ; xj 1 ; xj+1 ; : : : ; xn ). Da 'j linear ist, ist
1
'j eine Normalverteilung. O¤ensichtlich ist der Vektor der Erwartungswerte einfach
(m(t1 ); : : : ; m(tj 1 ); m(tj+1 ); : : : ; m(tn )) und die Kovarianzmatrix:
f (ti ; tk )gi;k2f1;:::;j
1;j+1;:::;ng :
Da Erwartungswert und Kovarianzmatrix eine Normalverteilung eindeutig festlegen,
folgt sofort
'j 1 = t1 ;:::;tj 1 ;tj+1 ;:::;tn :
Dies gilt für jede beliebige Wahl von t1 ; : : : ; tn und für beliebiges j 2 f1; : : : ; ng. Damit
ist die Verträglichkeitsbedingung bewiesen.
65
Beispiel 3.19
Seien T = [0; 1) und (t; s) := min(t; s). Dann erfüllt
3.18.
die Bedingungen b) von Satz
Beweis. Die Symmetrie ist klar. Wir müssen nur den zweiten Teil zeigen. Wir können
annehmen, dass die ti geordnet sind: 0
t1 <
< tn . Wir müssen nachweisen, dass
n
für einen beliebigen Vektor = ( 1 ; : : : ; n ) 2 R die Ungleichung
n
X
(ti ; tj )
i j
0
i;j=1
gilt.
Wir setzen t0 := 0. Eine elementare Umformung ergibt sofort:
!2
n
n
n
X
X
X
min(ti ; tj ) i j =
(tk tk 1 )
0:
i
i;j=1
k=1
i=k
De…nition 3.20
Ein zentrierter Gauss Prozess X =fXt gt2[0;1) mit EXt Xs = t ^ s := min(t; s) für alle
t; s 0 heisst Brownsche Bewegung.
Aus Satz 3.18 und Beispiel 3.19 ergibt sich also, dass eine Brownsche Bewegung
existiert. Wir können auch sehr einfach nachprüfen, dass die Bedingung in Satz 3.15 für
die Existenz einer stetigen Brownschen Bewegung erfüllt ist. Eine einfache Rechnung
ergibt nämlich, dass unter s;t die Di¤erenz der Koordinaten normalverteilt mit Varianz
R
t s ist. Demzufolge ist (x y)4 s;t (dx; dy) das 4. Moment dieser Normalverteilung,
was gleich 3(t s)2 ist. Nach Satz 3.15 mit q = 4 und = 2 existiert somit eine stetige
Brownsche Bewegung. Im nächsten Abschnitt zeigen wir auf andere Weise, dass eine
stetige Brownsche Bewegung existiert. Wir werden dabei die hier vorgestellten und nicht
bewiesenen Sätze nicht benützen.
Konvention. Wir schreiben eine Brownsche Bewegung üblicherweise als B = fBt gt 0 .
Aus der Kovarianzfunktion folgt sofort EB02 = 0 ^ 0 = 0, das heisst B0 = 0 P -fast sicher.
Wir werden stets voraussetzen, dass B0 (!) = 0 für alle ! 2 ist, was keine wirkliche
Einschränkung ist.
3.3
Die Lévy–Ciesielski Konstruktion der Brownschen Bewegung
Wir konstruieren in diesem Abschnitt eine stetige Brownsche Bewegung. Wir sind zunächst bescheiden und schränken uns auf das Zeitintervall T := [0; 1] ein. Wir brauchen
einige Fakten über (reelle) Hilberträume, die als bekannt vorausgesetzt werden. Hier eine
Zusammenstellung:
Ein reeller Hilbertraum H ist ein R-Vektorraum, versehen
p mit einem positive
de…niten Skalarprodukt h ; i und zugehöriger Norm kxk :=
hx; xi; der bezüglich
66
dieser Norm vollständig ist. Der Hilbertraum heisst separabel, falls eine abzählbare dichte Teilmenge in H existiert. Eine abzählbare Folge fhn gn2N heisst vollständige
nPOrthonormalbasis von H; falls ohhi ; hj i = ij ; i; j 2 N gilt, und falls die Menge
N
n=1 an hn : N 2 N; a1 ; : : : ; aN 2 R dicht in H ist. (Vorsicht: Das ist keine Basis im
Sinne der Linearen Algebra: Dort würde man verlangen, dass diese Menge gleich H ist).
Hier die Fakten, die wir benötigen:
L2 [0; 1]; die Menge der (Äquivalenzklassen von) reellwertigen quadratintegrierbaren Funktionen auf [0; 1], versehen mit
Z 1
f (t) g (t) dt
hf; gi =
0
ist ein separabler Hilbertraum.
Jeder separable Hilbertraum besitzt eine vollständige Orthonormalbasis.
Ist H ein separabler Hilbertraum und ist fhn gn2N eine Folge mit
hhi ; hj i =
ij ;
i; j 2 N;
(3.4)
so ist diese Folge genau dann eine vollständige Orthonormalbasis wenn
fx 2 H : hx; hn i = 0; 8n 2 Ng = f0g
(3.5)
gilt.
Ist fhn gn2N eine vollständige Orthonormalbasis, so gilt für x; y 2 H
hx; yi =
1
X
n=1
hx; hn ihy; hn i:
(3.6)
Ausgangspunkt der Lévy-Ciesielski-Konstruktion ist eine spezielle vollständige Orthonormalbasis von L2 [0; 1], die sogenannte Haar Basis. Sie ist de…niert durch:
f0 (t)
2n 1 :
8
(n 1)=2
>
<2
fn;k (t) :=
2(n 1)=2
>
:
0
und für n 2 N, 1
1;
k
Lemma 3.21
F := ff0 g [ f fn;k : n 2 N; 1
L2 [0; 1]:
k
für t 2 [(2k
für t 2 [(2k
sonst.
2n
1g
2)2
1)2
n ; (2k
1)2
n ; 2k2 n )
n)
ist eine vollständige Orthonormalbasis von
67
Beweis. (3.4) ist eine einfache Rechnung. Wir beweisen (3.5). Sei h 2 L2 [0; 1] mit
hh; fn;k i = 0 f u
•r alle n; k
(3.7)
h ist natürlich auch integrierbar. Wir zeigen, dass für 0
Z b
h dt = 0
a<b
1 die Gleichung
(3.8)
a
gilt. Eine Lebesgue-integrierbare Funktion auf [0; 1] ; die diese Eigenschaft hat, ist gleich
0; fast überall. (Falls nicht bekannt: Einfache Übungsaufgabe zur Masstheorie).
Zunächst folgt aus (3.7), hh; 1i = 0. Wir zeigen nun mit Induktion nach n 2 N, dass
Z
k2
n
h dt = 0;
(k 1)2
n 2 N; 1
n
2n ;
k
(3.9)
gilt. Zunächst n = 1. Aus (3.7) folgt
0 = hh; f1;1 i =
Z
Z
1=2
h dt
0
1
h dt:
1=2
R1
Zusammen mit 0 h dt = 0 folgt (3.9) für n = 1.
Nun der Induktionsschluss: Sei n 2 und 1 k 2n
zung gilt
Z k2 n+1
h dt = 0;
(k 1)2
1.
Nach Induktionsvorausset-
n+1
und aus (3.7) folgt
0 = 2(n
1)=2
Z
Z
Z
2k2
n
h dt:
(2k 1)2
h dt =
n
1)=2
n
n
(2k 1)2
(2k 2)2
2(n
h dt
(2k 2)2
Daraus folgt
n
(2k 1)2
Z
2k2
n
n
h dt = 0:
(2k 1)2
n
Damit ist (3.9) bewiesen.
Aus (3.9) folgt, dass für 0 a < b 1, a; b 2 D := f k2 n : n 2 N; 0 k 2n g, die
Rb
Gleichung a h dt = 0 gilt. Da D dicht in [0; 1] liegt, folgt mit einer einfachen Anwendung
des Satzes von Lebesgue (3.8).
Aus dem Lemma 3.21 folgt die Parcevalsche Gleichung (3.6), in unserem Spezialfall:
n 1
hh1 ; h2 i = hh1 ; f0 ihf0 ; h2 i +
Wir setzen F0 (t) :=
Rt
0
1 2X
X
n=1 k=1
f0 (s) ds und für n 2 N, 1
68
hh1 ; fn;k ihfn;k ; h2 i:
k
2n
1,
Fn;k (t) :=
(3.10)
Rt
0
fn;k (s) ds.
Es seien nun 0 , n;k , n 2 N, 1 k 2n 1 , unabhängige standard-normalverteilte Zufallsgrössen, de…niert auf einem Wahrscheinlichkeitsraum ( ; F; P ). Die Existenz derartiger Folgen folgt aus dem Satz von Ionescu-Tulcea. Zum Beispiel kann man ( ; F; P ) =
(RN ; B N ; N ) wählen, wobei die Standardnormalverteilung ist, und die sind die entsprechenden Projektionen RN ! R.
Wir de…nieren für N 2 N, t 2 [0; 1], ! 2 :
n 1
(N )
Bt (!)
:= F0 (t) 0 (!) +
N 2X
X
Fn;k (t)
n;k (!):
(3.11)
n=1 k=1
Zunächst zwei triviale Beobachtungen:
(N )
(N )
Für alle N 2 N, ! 2 ist Bt (!) stetig in t 2 [0; 1] mit B0
(N )
fBt gt2[0;1] ist daher ein stetiger stochastischer Prozess.
(N )
(!) = 0. B(N ) =
(N )
Für 0
t1 <
< tk
1 ist der Zufallsvektor (Bt1 ; : : : ; Btk ) normalverteilt
(N
)
und zentriert. B
ist daher für jedes N ein zentrierter stetiger Gauss-Prozess.
Wir wollen nun nachweisen, dass die Folge der Prozesse B(N ) in einem zu präzisierenden Sinn gegen eine Brownsche Bewegung konvergiert. Der Beweis dieser Aussage
besteht aus einem einfachen Teil, und einem schwierigeren. Der einfache Teil besteht
darin zu zeigen, dass
(N )
= min (s; t)
lim E Bs(N ) Bt
N !1
ist. Das hat nichts mit der speziell gewählten Haar-Basis zu tun hat. Die Aussage ist
richtig mit jedem vollständigen Orthonormalsystem:
Lemma 3.22
Rt
Sei fhn gn2N ein vollständiges Orthonormalsystem in L2 [0; 1] ; seien Hn (t) := 0 hn (s) ds;
und seien unabhängige, standard Normalverteilte Zufallsgrössen n ; n 2 N gegeben.
Dann gilt
XN
XN
lim E
n Hn (t)
n Hn (s) = min (s; t)
N !1
n=1
n=1
für alle s; t 2 [0; 1] :
Beweis. Das ist ein Spezialfall der Parcevalschen Gleichung:
!
N
N
N
X
X
X
E
Hn (t) Hn (s)
n Hn (t)
n Hn (s) =
n=1
n=1
n=1
=
XN
n=1
1[0;t] hn
1[0;s] hn
N !1
!
1[0;t] 1[0;s] = min (s; t) :
P
Dieses Lemma legt nahe, dass limN !1 N
n=1 n Hn ( ) eine Brownsche Bewegung
ist, gleichgültig, ob wir die Haar-Basis verwendet haben oder eine andere vollständige
69
Orthonormalbasis. Es gibt jedoch noch zwei Probleme. Als Erstes müssen wir präzisieren,
in welchem Sinn der Limes überhaupt existiert. Für dieses Problem ist die spezielle Haar(N )
Basis jedoch sehr nützlich. Im untenstehenden Satz nehmen wir also an, dass Bt wie
oben in (3.11) de…niert ist.
Lemma 3.23
Es existiert 0 2 F mit P (
Funktionen [0; 1] 3 t !
konvergiert.
0)
(N )
Bt (!)
= 1, so dass für alle ! 2
0
die Folge von stetigen
gleichmässig auf [0; 1] gegen eine Funktion t ! Bt (!)
Beweis. Wir betrachten
(N )
Dt (!)
:=
(N )
Bt (!)
(N 1)
Bt
(!)
=
N 1
2X
FN;k (t)
N;k (!):
k=1
Die Funktionen Fn;k haben die folgenden Eigenschaften:
Fn;k (t)
0; 8t:
ft : Fn;k (t) > 0g = ((k
1)2
max Fn;k (t) = 2
(3.12)
n+1
; k2
n+1
):
(n+1)=2
t
(3.13)
(3.14)
Aus (3.13) und (3.14) folgt
(N )
sup jDt
(!)j
2
(N +1)=2
t
wobei
N
:= max1
k 2N
1
j
N;k j
(N )
P supt jDt
(3.15)
ist. Demzufolge ist für jedes x > 0:
j
x
P(
N
2N
1
P (j
= 2N 1
wobei
N (!);
2(N +1)=2 x)
2(N +1)=2 x)
N;1 j
(2(N +1)=2 x) ;
die Verteilungsfunktion der Standardnormalverteilung ist:
Z y
1
2
p e s =2 ds:
(y) =
2
1
Wir verwenden nun die Ungleichung
1
(y)
p
70
1
e
2 y
y 2 =2
;
(3.16)
für y > 0 (Übungsaufgabe), und setzen in (3.16) x :=
P
(N )
sup jDt
t
N
2
2
j
N
N=2
22
p
(N= 2)
2N 1
N=2
ein. Dann ergibt sich
1
2 p
2
N
p
2
exp
N
N2
:
4
Eine elementare Rechnung ergibt, dass die Reihe
X
2N
N
N2
4
1
exp
N
konvergiert. Wir setzen
c
0
=
\ [
(N )
sup jDt
t
m N m
j
N
2
2
N=2
:
Aus dem Borel–Cantelli Lemma folgt, dass P ( c0 ) = 0 und daher P (
! 2 0 existiert m(!), so dass für alle N m(!)
sup jDtN (!)j
t
N
2
2
0)
= 1 gilt. Für
N=2
P
(N )
gilt. Da N N 2 N=2 < 1 ist, folgt, dass für ! 2 0 die Funktionenfolge (B (!))N 2N
(N )
gleichmässig konvergiert. Wir setzen Bt (!) = limN !1 Bt (!), ! 2 0 , was wegen der
gleichmässigen Konvergenz stetig in t ist. Ferner gilt natürlich B0 (!) = 0.
Wir schränken nun die De…nition von B = (Bt ) auf 0 ein. Wegen 0 2 F können
wir natürlich auch die -Algebra einschränken: F0 := fA 2 F : A
0 g ; und P auf F0
einschränken, wofür wir P0 schreiben. Wegen P ( 0 ) = 1 ist natürlich P0 ein Wahrscheinlichkeitsmass. B ist daher ein auf ( 0 ; F0 ; P0 ) de…nierter stetiger stochastischer Prozess.
Der Einfachheit halber lassen wir den Index 0 gleich wieder weg.
Satz 3.24
Der so konstruierte Prozess B = (Bt )t2[0;1] ist eine stetige Brownsche Bewegung.
Beweis. Wir haben schon fast alles gezeigt. Wir wissen aus Lemma 3.23, dass B ein
stetiger stochastischer Prozess ist und aus Lemma 3.22, dass
(N )
lim E Bt
N !1
Bs(N ) = min (s; t)
ist. WGemäss Lemma 3.10 ist B ein Gauss-Prozess mit
E (Bt Bs ) = min (s; t) :
71
Wir haben somit die Brownsche Bewegung auf dem Zeitintervall [0; 1] konstruiert. Es
verbleibt noch, eine stetige Brownsche Bewegung mit T = [0; 1) zu konstruieren. Dazu
verwenden wir die oben konstruierte Brownsche Bewegung fBt gt2[0;1] und de…nieren für
0 t<1
Bt := (1 + t)B(1+t) 1 B1 :
Satz 3.25
fBt gt 0 ist eine stetige Brownsche Bewegung.
Beweis. fBt gt 0 ist evidenterweise ein stetiger zentrierter Gauss Prozess mit B0 = 0.
Es bleibt daher nur noch die Aufgabe, die Kovarianzfunktion auszurechnen.
1
1+s
1
1
(1 + t)EB
B1 (1 + s)EB1 B
+ E B12
1+t
1+s
= (1 + t) ^ (1 + s) 1 = t ^ s:
E(Bt Bs ) = (1 + t)(1 + s)E B
1
1+t
B
Bemerkung 3.26
a) Eine stetige Brownsche Bewegung ist in gewissem Sinne nicht eindeutig, denn für
die Wahl des Wahrscheinlichkeitsraumes und der Abbildungen Bt : ! R gibt es viele
Möglichkeiten. Eindeutig ist hingegen die Verteilung W := P B 1 auf (C[0; 1); C[0; 1)).
W nennt man auch das Wiener Mass (nach Norbert Wiener, der dieses Mass zuerst
mathematisch präzise konstruiert hat).
b) Die Frage, ob zu einer Familie von verträglichen e.d. Verteilungen ein stetiger
stochastischer Prozess existiert, enthält einige subtile Fallstricke, die hier kurz angesprochen werden sollen. Wir betrachten dazu das folgende Beispiel: Sei B = (Bt )t 0 eine
stetige Brownsche Bewegung, de…niert auf ( ; F; P ). Wir fassen aber B als Abbildung
! R[0;1) auf. Wir wollen nun B geringfügig modi…zieren, und zwar so, dass der neue
Prozess keine stetigen Pfade mehr hat, aber immer noch dieselben e.d. Verteilungen,
und damit dieselbe Verteilung auf p
(R[0;1) ; B [0;1) ). Zunächst bemerken wir, dass jB1 j
2
eine Verteilung mit der Dichte x ! 2= e x =2 auf der positiven reellen Achse hat. Wir
modi…zieren nun B wie folgt:
(
Bt
falls t 6= jB1 j
Bt =
Bt + 1 falls t = jB1 j:
Man überzeugt sich nun leicht, dass B dieselben e.d. Verteilungen wie B hat: Sei
0
t1 <
< tn . Dann ist nämlich P (jB1 j 2 ft1 ; : : : ; tk g) = 0, und daraus folgt
sofort, dass (Bt1 ; : : : ; Btk ) dieselbe Verteilung wie (Bt1 ; : : : ; Btk ) hat. Somit haben B
und B dieselbe Verteilung. B ist jedoch o¤ensichtlich kein stetiger stochastischer Prozess. (Man kann die obige Konstruktion leicht dergestalt ergänzen, dass t ! Bt (!) in
keinem Punkt stetig ist.) Dieses Beispiel lehrt uns, dass es keinen Sinn hat zu fragen, ob
72
das durch eine Familie verträglicher e.d. Verteilungen auf (R[0;1) ; B [0;1) ) mit Hilfe des
Kolmogoro¤schen Satzes 3.14 eindeutig de…nierte Wahrscheinlichkeitsmass fast sicher
stetige Pfade hat. In der Tat ist, wie schon erwähnt, C[0; 1) keine messbare Teilmenge
von R[0;1) ; d.h. C[0; 1) 2
= B[0;1) . Es macht aber Sinn zu fragen, ob für eine Familie
e.d. Verteilungen ein Prozess existiert, der stetige Pfade hat (und für die e.d. Verteilungen der Brownschen Bewegungen haben wir das positiv beantwortet). Dies ist dann
äquivalent zur Existenz eines Wahrscheinlichkeitsmasses auf (C[0; 1); C[0; 1)) mit den
vorgegebenen e.d. Verteilungen.
3.4
Einfache Eigenschaften der Brownschen Bewegung
Die Brownsche Bewegung hat einige einfache aber wichtige Skalierungseigenschaften.
Satz 3.27
Sei fBt gt 0 eine stetige Brownsche Bewegung.
a) Der Prozess f Bt gt
b) Für jedes
c) Für jedes u
0 ist eine stetige Brownsche Bewegung.
p
> 0 ist f Bt= gt 0 eine stetige Brownsche Bewegung.
0 ist fBt+u
Bu gt
eine stetige Brownsche Bewegung.
0
d) Der Prozess ftB1=t gt 0 mit 0B1=0 := 0 ist eine Brownsche Bewegung. Es existiert
0 2 F mit P ( 0 ) = 1 und
lim tB1=t (!) = 0
t#0
für ! 2 0 . ftB1=t gt
Bewegung.
0,
eingeschränkt auf
0,
ist somit eine stetige Brownsche
Beweis. Die Stetigkeit in (a), (b), (c) und in (d) auf (0; 1) ist klar, ebenso, dass die Prozesse zentrierte Gauss-Prozesse sind. Um nachzuweisen, dass es Brownsche Bewegungen
sind, müssen wir also nur die Kovarianzen ausrechnen. Seien s; t 0
a) E(( Bs )( Bt )) = E(Bs Bt ) = s ^ t.
p
p
b) E( Bs=
Bt= ) = ( s ) ^ ( t ) = s ^ t.
c) E((Bs+u
Bu )(Bt+u
Bu )) = (s + u) ^ (t + u)
u = s ^ t.
d) Hier setzen wir s; t > 0 voraus: E(sB1=s tB1=t ) = st( 1t ^ 1s ) = s ^ t. Mit unserer
Festsetzung von 0B1=0 := 0 gilt dies jedoch auch für s oder t = 0.
Es bleibt noch die letzte Behauptung in d) nachzuweisen. Dies ist nun evident: Da
Xt := tB1=t schon stetig auf (0; 1) ist, ist die Stetigkeit in 0 ein messbares Ereignis:
0
:= f! : limt#0 Xt (!) = 0g =
\ [
\
m2N n2N s2Q\(0;1=n]
73
fjXs j
1=mg 2 F:
P ( 0 ) ergibt sich aus der Kenntnis der e.d. Verteilungen. Wir wissen jedoch schon, dass
eine stetige Brownsche Bewegung existiert. Somit ist P ( 0 ) gleich dem Wert, den dieser
Ausdruck für eine stetige Brownsche Bewegung hätte, also gleich 1:
Wir weisen nun nach, dass die Pfade der Brownschen Bewegung fast sicher nirgends
di¤erenzierbar sind. Genauer:
Satz 3.28
B = fBt gt 0 sei eine stetige Brownsche Bewegung. Dann existiert 0 2 F mit P ( 0 ) =
1, so dass für alle ! 2 0 die Funktion t ! Bt (!) in keinem Punkt di¤erenzierbar ist.
Beweis. Es genügt zu zeigen, dass für jedes N > 0 die Pfade der Brownschen Bewegung
fast sicher nirgends di¤erenzierbar auf dem Zeitintervall [0; N ] sind. Der notationellen
Einfachheit halber nehmen wir N = 1. Sei f : [0; 1) ! R eine stetige Funktion, die
di¤erenzierbar in mindestens einem Punkt s 2 [0; 1] ist. Per De…nition existiert dann
limt!s (f (t) f (s))=(t s) 2 R. Dies impliziert insbesondere, dass " > 0 und l 2 N
existieren mit jf (t) f (s)j l(t s) für s t s + ". Ist n m := [ 4" ] + 1, so gilt mit
i := [ns] + 1:
i
i+3
s< <
<
s + ";
n
n
und demzufolge für j = i + 1; i + 2; i + 3:
j
n
f
j
f
1
j
n
f
n
l
f (s) + f
j
n
s +l
j
1
n
j
1
f (s)
n
7l
n
s
Wir haben somit gezeigt, dass, wenn f in mindestens einem Punkt 2 [0; 1] di¤erenzierbar
ist, natürliche Zahlen m, l existieren, so dass für alle n m eine Zahl i 2 f1; : : : ; n + 1g
existiert, sodass für die drei Zahlen j = i + 1; i + 2; i + 3 die folgende Ungleichung gilt:
f
j
n
f
j
1
7l
:
n
n
Demzufolge ist für
!2
= N :=
[ [ \ n+1
[ i+3
\
l2N m2N n m i=1 j=i+1
jBj=n
B(j
1)=n j
<
7l
n
die Funktion t ! Bt (!) nirgends auf [0; 1] di¤erenzierbar. O¤ensichtlich ist N 2 F: Es
bleibt also zu zeigen, dass P (N ) = 0 ist. Dafür müssen wir für jedes l, m
P
\
n m
[n+1 \i+3
i=1
j=i+1
jBj=n
B(j
1)=n j
<
7l
n
=0
(3.17)
nachweisen. Die Zufallsgrössen Bj=n B(j 1)=n ; i + 1 j i + 3, sind drei unabhängige,
normalverteilte Zufallsgrössen mit Mittel 0 und Varianz 1=n, was man sofort aus den
74
Kovarianzen der Brownschen Bewegung ablesen kann. Demzufolge ist die linke Seite von
(3.17)
lim inf P
n!1
[n+1 \i+3
i=1
j=i+1
lim inf (n + 1) max P
n!1
= lim inf (n + 1)
n!1
3.5
1 i n+1
(Z
7l=n
7l=n
r
jBj=n
\i+3
j=i+1
B(j
1)=n j
jBj=n
h n i
n
exp
x2 dx
2
2
<
7l
n
B(j
)3
1)=n j
<
7l
n
n
lim inf (n + 1)
n!1
2
3=2
14l
n
3
= 0:
Prozesse mit unabhängigen Zuwächsen, Marko¤eigenschaft
Die Brownsche Bewegung hat, wie man sagt, unabhängige Zuwächse (was wir im Beweis
von (3.17) implizit schon ausgenutzt haben). Wir wollen das nun etwas eingehender
untersuchen.
De…nition 3.29
Sei ( ; F; P ) ein Wahrscheinlichkeitsraum.
a) Sei X = fXt gt2R+ ein auf ( ; F; P ) de…nierter stochastischer Prozess. Für t 2 R+
sei FtX := (Xs : s 2 R+ ; s t). Die Familie fFtX gt2R+ heisst die zu X gehörende
Filtrierung.
b) Allgemeiner heisst eine Familie fFt gt2R+ von Teil- -Algebren eine Filtrierung
von F, wenn Fs Ft für alle s; t 2 R+ mit s t gilt.
c) Ein stochastischer Prozess fXt gt2R+ heisst angepasst (oder adaptiert) an eine
Filtrierung fFt gt2R+ , wenn für jedes t 2 R+ die Zufallsgrösse Xt bezüglich Ft messbar ist.
O¤enbar ist X = fXt gt2R+ genau dann fFt gt2R+ -angepasst, wenn FtX
t 2 R+ gilt. Natürlich ist X stets fFtX gt2R+ -angepasst.
Ft für jedes
De…nition 3.30
Ein stochastischer Prozess, der angepasst an eine Filtrierung fFt gt2R+ ist, hat unabhängige Zuwächse bezüglich fFt gt2R+ , falls für jedes t 2 R+ der stochastische Prozess
fXs Xt gs2[t;1) und Ft unabhängig sind. Man sagt einfach, X habe unabhängige Zuwächse, falls er unabhängige Zuwächse bezüglich fFtX gt2R+ hat.
Im Moment mag es etwas unklar sein, weshalb wir in der De…nition 3.30 eine allgemeinere Filtrierung als fFtX gt2R+ zulassen. Es gibt aber dafür eine Reihe von Gründen,
die später klar werden.
75
Satz 3.31
Eine Brownsche Bewegung B = fBt gt
0
hat unabhängige Zuwächse.
Beweis. Wir müssen nachweisen, dass für jedes t die -Algebren G := FtB und H :=
((Bs Bt ) : s t) unabhängig sind. Es reicht dafür aus, die Unabhängigkeit von zwei
durchschnittstabilen Erzeugendensystemen von G bzw. H zu zeigen. Ein durchschnittstabiles Erzeugendensystem von G ist
[
(Bt1 ; : : : ; Btm )
m; 0 t1 < <tm t
und von H :
[
Bt ; : : : ; Bsn
(Bs1
Bt ):
m; t s1 < <sn
Es genügt also einfach zu zeigen, dass für 0 t1 <
< tm t und t s1 <
< sn
die Zufallsvektoren (Bt1 ; : : : ; Btm ) und (Bs1 Bt ; : : : ; Bsn Bt ) unabhängig sind. Beide
Vektoren sind gemeinsam normalverteilt. Nach Proposition 3.7 müssen wir nur zeigen,
dass die Kovarianzen zwischen den beiden Gruppen verschwinden:
cov(Bti ; Bsj
Bt ) = E(Bti (Bsj
Bt )) = ti ^ sj
ti ^ t = 0
für 1 i m und 1 j n.
Prozesse mit unabhängigen Zuwächsen sind Beispiele von Marko¤prozessen.
De…nition 3.32
Es sei fFt gt2R+ eine Filtrierung. Ein fFt gt2R+ -angepasster stochastischer Prozess X =
fXt gt2R+ heisst fFt gt2R+ -Marko¤ prozess, wenn für alle t 2 R+ und A 2 (Xs : s 2
R+ ; s t)
P (A j Ft ) = P (A j Xt ) P -fast sicher
(3.18)
gilt. Gilt (3.18) mit Ft = FtX für alle t 2 R+ , so nennen wir X einfach Marko¤prozess.
Bemerkung 3.33
a) Da Xt bezüglich Ft -messbar ist, ist P (A j Xt ) natürlich Ft -messbar. Nach der
De…nition der bedingten Wahrscheinlichkeit ist die Bedingung (3.18) also gleichbedeutend damit, dass für alle B 2 Ft
Z
P (A \ B) =
P (A j Xt ) dP
B
gilt.
b) Gleichung (3.18) impliziert auf die übliche Weise, dass für jede (Xs : s
R+ )-messbare und P -integrierbare Funktion ' : ! R
E(' j Ft ) = E(' j Xt ) P -fast sicher
76
t; s 2
gilt: Ist ' eine Indikatorfunktion, so ist die Behauptung nur eine Umformulierung
von (3.18). Aus der Linearität des bedingten Erwartungswertes folgt die Behauptung für einfache '. Der Satz von Lebesgue in der Version für bedingte Erwartungswerte (Satz 1.14 c)) überträgt das Resultat auf nichtnegative, messbare ',
woraus sich schliesslich die Behauptung für integrierbare ' ergibt.
Satz 3.34
Ein R-wertiger stochastischer Prozess X, der bezüglich einer Filtrierung fFt gt2R+ unabhängige Zuwächse hat, ist ein fFt gt2R+ -Marko¤prozess.
Beweis. Sei t 2 R+ . Es genügt, die Bedingung (3.18) für A’s aus einem durchschnittstabilen Erzeugendensystem von (Xs : s 2 R+ ; s
t) zu beweisen. Sei k 2 N,
k
und sei
: R ! R eine beschränkte messbare Funktion. Seien s1 ; : : : ; sk 2 R+ mit
t s1 <
< sk . Wir de…nieren eine beschränkte messbare Funktion ' : R ! R durch
'(x) := E ( (x + (Xs1
Xt ); : : : ; x + (Xsk
Xt ))) :
Nach Voraussetzung sind (Xs1 Xt ; : : : ; Xsk Xt ) und Ft unabhängig. Nach dem Satz
von Fubini folgt für jedes B 2 Ft
Z
Z
'(Xt ) dP =
(Xt + (Xs1 Xt ); : : : ; Xt + (Xsk Xt )) dP
B
ZB
Z
=
(Xs1 ; : : : ; Xsk ) dP =
E( (Xs1 ; : : : ; Xsk ) j Ft ) dP:
B
8 Demzufolge
B
ist
'(Xt ) = E( (Xs1 ; : : : ; Xsk ) j Ft ) P -fast sicher
was impliziert, dass die rechte Seite dieser Gleichung (Xt )-messbar ist, also gilt
E( (Xs1 ; : : : ; Xsk ) j Ft ) = E( (Xs1 ; : : : ; Xsk ) j Xt ) P -fast sicher:
8
Hier das Fubini-Argument im Detail: Betrachten Sie die Zufallsvektoren (1B ; Xt ) und
(Xs1 Xt ; : : : ; Xsk Xt ) ; mit B 2 Ft , welche nach Voraussetzung unabhängig sind. Deshalb ist die
gemeinsame Verteilung auf R2+k das Produktmass der beiden Randverteilungen. 1 auf R2 und 2 auf
Rk : In dieser Formulierung ist
Z
' (x) =
(x + y1 ; : : : ; x + yk ) 2 (dy)
und nach Fubini ist
Z
' (Xt ) dP
=
B
=
=
Z
Z
x1 ' (x2 )
1
(d (x1 ; x2 ))
x1 (x2 + y1 ; : : : ; x2 + yk ) (d (x; y))
E (1B (Xt + (Xs1
77
Xt ) ; ; : : :))
Hieraus folgt (3.18) für alle A 2 (Xs1 ; : : : ; Xsk ). Da für t
[
f (Xs1 ; : : : ; Xsk ) : k 2 N; t s1 <
0
< sk g
ein durchsnittstabiles Erzeugendensystem von (Xs : s 2 R+ ; s
t) ist, folgt die Behauptung.
Aus verschiedenen Gründen ist es manchmal bequem, wenn die verwendete Filtrierung, wie man sagt, rechtsstetig ist. Sei fFt gt2[0;1) eine Filtrierung. Wir de…nieren
Ft+ :=
\
s:s>t
Fs =
1
\
m=1
Ft+1=m :
De…nition 3.35
Eine Filtrierung heisst rechtsstetig falls Ft+ = Ft für alle t
0 gilt.
Bemerkung 3.36
a) Ist fFt gt 0 eine beliebige Filtrierung, so sieht man ganz leicht, dass fFt+ gt
rechtsstetige Filtrierung ist.
0
eine
b) Die durch einen stochastischen Prozess X induzierte Filtrierung fFtX gt 0 ist in
der Regel nicht rechtsstetig, selbst wenn X stetig ist. Ist zum Beispiel = C[0; 1)
und ist = f t gt 0 der Prozess der Auswertungsabbildungen, so ist fFt gt 0 nicht
rechtsstetig. So ist zum Beispiel für jedes t 2 (0; 1) die Teilmenge f f 2 C : f ist
di¤erenzierbar in t g in Ft+ aber nicht in Ft , was der Leser sich als Übungsaufgabe
überlegen möge.
Es ist wichtig, dass für eine stetige Brownsche Bewegung B zwischen fFtB gt
Bg
fFt+
t 0 kein “grosser” Unterschied ist, wie wir nun nachweisen werden.
0
und
Satz 3.37
Eine stetige Brownsche Bewegung B = fBt gt2[0;1) hat unabhängige Zuwächse bezüglich
Bg
fFt+
t2[0;1) .
Beweis. Es genügt zu zeigen, dass für jede Wahl von s1 ; : : : ; sk 2 (t; 1) die -Algebra
Ft+ und der Vektor (Bs1 Bt ; : : : ; Bsk Bt ) der Zuwächse unabhängig sind. Um dies
B und jede beschränkte stetige
nachzuweisen, wollen wir zeigen, dass für jedes A 2 Ft+
k
Funktion ' : R ! R
E(1A '(Xs1
X t ; : : : ; X sk
Xt )) = P (A)E('(Xs1
X t ; : : : ; X sk
Xt ))
(3.19)
gilt. Hieraus ergibt sich der Satz wie folgt: Ist C
Rk abgeschlossen, so ist durch
k
'n (x) = maxf0; 1 n dist(x; C)g für alle x 2 R und n 2 N eine monoton fallende
Folge stetiger beschränkter Funktionen mit 'n # 1C für n ! 1 de…niert, und der
Satz von der majorisierten Konvergenz liefert Gleichung (3.19) für ' = 1C . Da f C 2
B k j (3:19) gilt für C g ein Dynkinsystem ist, das den durchschnittstabilen Erzeuger
78
f C 2 B k j C abgeschlossen g von B k enthält, folgt (3.19) für alle ' = 1C mit C 2 B k .
Also sind das Ereignis A und der Vektor (Bs1 Bt ; : : : ; Bsk Bt ) unabhängig.
Für den Beweis von (3.19) sei m0 2 N so gross gewählt, dass t + 1=m0
sj für
B
B
alle j 2 f1; : : : ; kg gilt. Für jedes m ist A 2 Ft+ Ft+1=m , und aus Satz 3.31 folgt für
m m0
E(1A '(Bs1
= P (A)E('(Bs1
Bt+1=m ; : : : ; Bsk
Bt+1=m ; : : : ; Bsk
Bt+1=m ))
Bt+1=m )):
Da die Pfade des Prozesses B stetig in t sind, konvergiert der Vektor (Bs1 Bt+1=m ; : : : ; Bsk
Bt+1=m ) gegen (Bs1 Bt ; : : : ; Bsk Bt ) für m ! 1. Da ' als beschränkte stetige Funktion
gewählt war, folgt (3.19) aus dieser Gleichung mit Hilfe des Satzes von der majorisierten
Konvergenz.
Korollar 3.38
Bg
Eine stetige Brownsche Bewegung B ist ein fFt+
t
0 -Marko¤prozess.
Beweis. Folgt unmittelbar aus dem vorangegangen Satz und Satz 3.34.
Korollar 3.39 (Blumenthal 0-1-Gesetz)
B gilt P (A) 2 f0; 1g.
Sei B = fBt gt 0 eine stetige Brownsche Bewegung. Für jedes A 2 F0+
B , so folgt aus Korollar 3.38
Beweis. Ist A 2 F0+
B
1A = P (AjF0+
) = P (AjB0 ) = P (A) P -fast sicher,
da B0 0 ist. Multiplikation mit 1A liefert 1A = 1A 1A = P (A)1A P -fast sicher, also gilt
P (A) = E(1A ) = E(P (A)1A ) = P (A)2 , woraus P (A) 2 f0; 1g folgt.
Das Blumenthalsche 0-1-Gesetz hat einige interessante Folgerungen. Hier ist ein Beispiel:
Korollar 3.40
Sei fBt gt 0 eine stetige Brownsche Bewegung und sei " > 0. Für P -fast alle ! 2
wechselt der Pfad [0; 1) 3 t 7! Bt (!) im Intervall [0; "] unendlich oft das Vorzeichen, das
heisst, mit Wahrscheinlichkeit 1 existiert eine (von ! abhängige) Folge t1 > t2 >
>0
mit Bt2k 1 (!) > 0 und Bt2k (!) < 0 für alle k 2 N.
Beweis. Für jedes ! aus dem Komplement des im Korollar beschriebenen Ereignisses
existiert eine natürliche Zahl n mit ! 2 A+
0 für alle t 2 [0; 1=n]g oder
n := fBt
+
! 2 An := fBt 0 für alle t 2 [0; 1=n]g. Es gelten A+
A
An+1 sowie
n
n+1 und An
\
B
A+
=
fBt 0g 2 F1=n
n
t2Q\[0;1=n]
S
S
B für alle n 2 N. Folglich sind A+ :=
+
B
und An 2 F1=n
n2N An in F0+ .
n2N An und A :=
Da nach Satz 3.27 auch f Bt gt 0 eine stetige Brownsche Bewegung ist, gilt P (A+ ) =
79
P (A ). Wäre P (A+S
) = 1, so wäre auch P (A ) = 1 und demzufolge P (A+ \ A ) = 1.
+
Da aber A \ A
n2N fB1=n = 0g ist und P (B1=n = 0) = 0 für jedes n 2 N gilt, muss
P (A+ \ A ) = 0 sein. Nach Korollar 3.39 verbleibt also nur die Möglichkeit P (A+ ) = 0,
woraus P (A+ [ A ) = 0 folgt.
3.6
Die starke Marko¤-Eigenschaft
Es sei B = fBt gt 0 eine stetige Brownsche Bewegung. Wir wollen in diesem Abschnitt
die Aussage von Satz 3.37 verallgemeinern, der besagt, dass für jedes t 2 [0; 1) der
B unabhängige Brownsche Bewegung ist. Es wird
Prozess fBt+s Bt gs 0 eine von Ft+
sich herausstellen, dass diese Aussage (nach einigen Präzisierungen) richtig bleibt, wenn
t durch eine zufällige Zeit ersetzt wird.
De…nition 3.41
( ; F; P ) sei ein Wahrscheinlichkeitsraum und fFt gt 0 sei eine Filtrierung. Eine Fmessbare Abbildung
:
! [0; 1] := [0; 1) [ f1g heisst fFt g-Stoppzeit, wenn
für alle t 2 [0; 1)
f
tg 2 Ft
gilt.
Das folgende Lemma gibt einige einfache Eigenschaften von Stoppzeiten.
Lemma 3.42
a) , seien zwei fFt g-Stoppzeiten. Dann sind min ( ; ), max ( ; ) und + Stoppzeiten.
b)
c)
n,
n 2 N, seien fFt g-Stoppzeiten mit
n
"
für n ! 1: Dann ist
eine Stoppzeit.
n , n 2 N, seien fFt g-Stoppzeiten und fFt g sei eine rechtsstetige Filtrierung. Dann
sind lim inf n!1 n , lim supn!1 n fFt g-Stoppzeiten.
Beweis. a) sei dem Leser überlassen.
b):
\
f
tg =
f
n
n
tg 2 Ft :
c):
lim sup
n!1
n
t
=
=
inf sup
m
n m n
\ [
\
k2N n2N m:m n
Der Beweis für lim inf n!1
n
verläuft analog.
80
t
m
t+
1
k
2 Ft+ = Ft :
Die wichtigsten Beispiele für Stoppzeiten sind Ersteintrittszeiten von stochastischen
Prozessen. Sei X = fXt gt 0 ein Prozess, der an eine Filtrierung fFt g angepasst ist.
Leider ist im allgemeinen nicht richtig, dass für jede Borel-Menge A 2 B die Zufallszeit
A
:= inff t : Xt 2 A g
(inf ; := 1) eine fFt g-Stoppzeit ist, selbst wenn X stetig und fFt g rechtsstetig sind.
Um zu gewährleisten, dass A für jede Borel-Menge A eine Stoppzeit ist, muss die Filtrierung in geeigneter Weise erweitert werden. Dies führt zu lästigen masstheoretischen
Diskussionen, die wir uns hier ersparen wollen. Für spezielle Mengen ist nämlich die
Sache sehr viel einfacher zu beweisen.
Lemma 3.43
X sei fFt g-angepasst und habe rechtsstetige Pfade und fFt g sei rechtsstetig.
a) Ist A o¤en, so ist
A
eine Stoppzeit.
b) Ist A abgeschlossen und X stetig, so ist
A
eine Stoppzeit.
Beweis. a) Sei A o¤en. Sei t 2 [0; 1), ! 2 .
A (!)
t
, 8 " > 0 9 s < t + " mit Xs (!) 2 A
, 8 " > 0 9 q 2 Q; q < t + " mit Xq (!) 2 A;
da A o¤en ist und t ! Xt (!) rechtsstetig ist. Somit ist
\
[
f A tg =
fXq 2 Ag 2 Ft+ = Ft :
m q2Q\[0;t+1=m]
|
{z
}
2Ft+1=m
b) Sei nun A abgeschlossen. Für n 2 N sei A(n) die o¤ene
A(n) :=
x 2 R : 9 y 2 A mit jx
1
n -Umgebung
yj <
1
n
von A:
:
Nach dem vorher schon Bewiesenen sind die A(n) Stoppzeiten. Es gilt A(n)
A , 8 n,
0
0
und die Folge der A(n) steigt monoton an. Sei
:= limn!1 A(n) . Ist (!) = 1,
so ist auch A (!) = 1. Ist 0 (!) < 1, so ist wegen der Stetigkeit der Pfade und
der Abgeschlossenheit von A X 0 (!) (!) = limn!1 X (n) (!) (!) 2 A, das heisst, es gilt
0 (!). Somit ist
0 gezeigt, und aus Lemma 3.42 b) folgt, dass
A (!)
A =
A eine
Stoppzeit ist.
Wir de…nieren die -Algebra der prä- -Ereignisse wie folgt:
De…nition 3.44
Sei eine Stoppzeit bezüglich der Filtrierung fFt gt
F := fA 2 F : A \ f
81
0.
Dann ist
tg 2 Ft ; 8 t g :
Lemma 3.45
a) F ist eine -Algebra ist.
b) Ist
(!) = s für alle !; so gilt F = Fs .
Beweis. a)
2 F ist o¤ensichtlich. Sind An 2 F , n 2 N so gilt für jedes t
[
n
An \ f
[
tg =
A 2 F =) Ac 2 F folgt analog.
b)
f
tg =
;
n
[An \ f
tg] 2 Ft :
fu
•r t s
:
fu
•r t < s
Somit ist A genau dann in F ; wenn es in Ft für alle t s ist, d.h. wenn es in Fs ist.
Wir werden des öftern das folgende Resultat benutzen:
Lemma 3.46
a) , seien zwei Stoppzeiten mit (!)
(!), 8 !. Dann gilt F
T
b) fFt g sei rechtsstetig. Dann ist F = m F +1=m .
Beweis. a) Sei A 2 F . Dann gilt für alle t
A\f
tg = A \ f
F .
0:
tg \ f
tg 2 Ft ;
da A \ f
tg 2 Ft und f
tg 2 Ft sind.
b) + 1=m ist eine Stoppzeit, denn f + 1=m tg = f
t 1=mg bzw
T = ; falls
t < 1=mTist. Somit folgt f + 1=m tg 2 Ft ; 8t 0. Wegen a) folgt F
m F +1=m .
Sei A 2 m F +1=m . Dann ist
A\f
tg = A \
+
1
m
t+
1
m
2 Ft+1=m ; 8m;
das heisst A \ f
tg 2 Ft+ = Ft .
Sei X = fXt gt 0 ein fFt g-angepasster Prozess und eine Stoppzeit. Wir wollen nun
den Prozess X zum zufälligen Zeitpunkt betrachten: X (!) := X (!) (!) : X sollte natürlicherweise F -messbar sein. Zunächst ergibt sich die Schwierigkeit, dass (!) durchaus 1 sein kann, und X1 (!) nicht de…niert ist. Man beachte jedoch, dass f < 1g 2 F
gilt, denn
f < 1g \ f
tg = f
tg 2 Ft ; 8t:
Lemma 3.47
Sei X rechtsstetig und angepasst an eine rechtsstetige Filtrierung fFt gt
F -messbar auf f < 1g, das heisst, für jede Borelmenge A 2 B gilt
fX 2 Ag \ f < 1g 2 F :
82
0.
Dann ist X
Beweis. Wir approximieren von rechts durch eine Folge von Zufallsgrössen
nur abzählbare Wertebereiche haben. Dazu de…nieren wir
(
k2 n für (!) 2 k2n1 ; 2kn ; k 2 N0 ;
(n)
(!) :=
1
für (!) = 1:
Die
(n)
sind Stoppzeiten, denn für t
f
(n)
tg = f
(n) ,
die
0 gilt
2
n
[2n t]g 2 F2
n [2n t]
Ft :
Für jedes ! 2 fällt (n) (!) monoton gegen (!).
Da X als rechtsstetig vorausgesetzt ist, folgt
X = lim X
n!1
n
auf f < 1g = f n < 1g.
Da die Stoppzeit n nur abzählbar viele Werte annimmt, folgt leicht, dass X
f n < 1g F n -messbar ist: Für A 2 B und t 2 [0; 1) ist
[
fX n 2 Ag \ f n tg =
fXk2 n 2 A; n = k2 n g 2 Ft ;
k:k2
n
n
auf
t
und somit ist fX n 2 Ag \ f n < 1g 2 F n , das heisst, X n ist auf f n < 1g
F n -messbar. Für jedes " > 0 gilt n
+ ", sofern 2 n
" ist. + " ist ebenfalls
n
eine Stoppzeit, und es gilt F n
F +" für 2
" (Lemma 3.46 a)). Demzufolge
ist X =
lim
X
für
jedes
"
>
0
F
-messbar
auf f < 1g, und somit auch
n!1
+"
n
T
F + := m F +1=m -messbar.
Da fFt g als rechtsstetig vorausgesetzt war, gilt F + = F (Lemma 3.46 (b)). Wir
haben somit gezeigt, dass X F -messbar auf f < 1g ist.
Wir kehren nun zu einer stetigen Brownschen Bewegung B = fBt gt 0 zurück. Die
B, t
uns hier interessierende Filtrierung ist Ft = Ft+
0. Wir werden für den Rest des
Kapitels stillschweigend stets mit dieser Filtrierung arbeiten.
sei eine fFt g-Stoppzeit, und wir setzen voraus, dass P ( < 1) > 0 ist. Wir
de…nieren ( 0 ; F 0 ; P 0 ) als die Einschränkung von ( ; F; P ) auf 0 := f < 1g, F 0 :=
f A0 2 F : A0 f < 1g g, P 0 (A0 ) := P (A0 j < 1). B ist eine auf ( 0 ; F 0 ; P 0 ) de…nierte
Zufallsgrösse und fB +s B gs 0 ein stetiger stochastischer Prozess.
Satz 3.48
B( ) := fB +s
züglich P 0 ).
B gs
0
ist eine Brownsche Bewegung, die unabhängig von F ist (be-
Beweis. Wir fassen B( ) als messbare Abbildung 0 = f < 1g ! C[0; 1) auf.
Sei
: C[0; 1) ! R eine beschränkte messbare Abbildung. Wir beweisen, dass
für jedes derartige
und für jede beschränkte F -messbare Funktion :
! R die
Gleichung E 0 ( (B( ) ) ) = E( (B))E 0 ( ) gilt. Daraus folgt im Spezialfall = 1, dass
83
E 0 ( (B( ) )) = E( (B)) gilt, also dass B( ) unter P 0 eine Brownsche Bewegung ist,
und damit wiederum, dass E 0 ( (B( ) ) ) = E( (B))E 0 ( ) = E 0 ( (B( ) ))E 0 ( ) gilt, was
äquivalent zur Unabhängigkeit ist. Wegen P 0 ( ) = P 0 ( j < 1) ist das gleichbedeutend
mit
E
(B( ) ) ; < 1 = E( (B))E( ; < 1):
(3.20)
In dieser Formulierung brauchen wir P ( < 1) > 0 nicht vorauszusetzen, da für P ( <
1) = 0 die Gleichung trivial ist. Wie üblich genügt es, die Gleichung (3.20) für spezielle
Funktionen zu zeigen, nämlich für stetige und beschränkte Funktionen : C[0; 1) !
R, die nur von endlich vielen Stellen der Elemente f 2 C[0; 1) abhängen. Wir betrachten
also ’s der Form
(f ) = '(f (s1 ); f (s2 ); : : : ; f (sk ));
wobei ' : Rk ! R stetig und beschränkt ist. Ferner reicht es, = 1A , A 2 F zu
betrachten. Die nachzuweisende Gleichung (3.20) hat dann die folgende Form: Sei Xt :=
B +t B :
Z
'(Xs1 ; : : : ; Xsk ) dP = E('(Bs1 ; : : : ; Bsk ))P (A; < 1):
(3.21)
fA; <1g
Wir approximieren nun die Stoppzeit
3.46 durch die Folge der Stoppzeiten
n (!) # (!), n ! 1 gilt. Sei
(n)
Xt
Für alle A 2 F
Z
fA;
=
=
1 Z
X
:= B
n+t
B n:
gilt
n
n <1g
j=0 fA;
1
X
auf dieselbe Weise wie im Beweis von Lemma
n N annehmen, und für die
n , die Werte in 2
0
'(Xs(n)
; : : : ; Xs(n)
) dP
1
k
n =j2
P (A;
n
ng
'(Bj2
= j2
n
n +s
1
Bj2
n
; : : : ; Bj2
n +s
)E('(Bs1 ; : : : ; Bsk )) = P (A;
k
n
j=0
Bjs
n
) dP
< 1)E'((Bs1 ; : : : ; Bsk )):
Die zweitletzte Gleichung folgt wegen A \ f n = j2 n g 2 Fjs n (da A 2 F n ) und Satz
3.31.
Sei nun A 2 F . Wegen F
F n folgt A 2 F n , 8 n. Man beachte ferner f < 1g =
f n < 1g. Lässt man daher in der obigen Folge von Gleichungen n gegen 1 streben, so
bleibt die rechte Seite unabhängig von n, und
Z
Z
(n)
lim
' Xs(n)
;
:
:
:
;
X
dP
=
'(Xs1 ; : : : ; Xsk ) dP
sk
1
n!1 fA;
n <1g
fA; <1g
nach dem Satz von Lebesgue (da ' stetig ist). Damit ist (3.21) bewiesen.
Der Satz 3.48 impliziert eine Version der sogenannten starken Marko¤eigenschaft:
84
Korollar 3.49 (Starke Marko¤-Eigenschaft)
sei wieder eine Stoppzeit. Sei ferner Z := (B
+s
:s
0) : Dann gilt für A 2 Z :
P (A j F ) = P (A j B ) ; P f:s: auf f < 1g :
Der Beweis geht analog zum Beweis der einfachen Marko¤-Eigenschaft.
Die Restriktion auf f < 1g in den Formulierungen ist natürlich etwas lästig. In
vielen Büchern geht man dem aus dem Weg, indem man den Wertebereich des Prozesses
- bei uns R - durch ein sogenanntes “Grab” ergänzt. Man setzt einfach B1 := und
B ist dann auf ganz de…niert.
Wir diskutieren nun einige wichtige Anwendungen. Zunächst benötigen wir ein analytisches Lemma über Laplacetransformationen, das wir nicht beweisen.
Ist f : R+ := [0; 1) ! R eine integrierbare oder beschränkte, messbare Funktion, so
ist die Laplacetransformation von f de…niert durch
Z
Lf ( ) =
e x f (x) dx;
> 0:
R+
Nach dem Satz von Lebesgue ist Lf stetig, und es gelten
Z
lim Lf ( ) = 0;
lim Lf ( ) =
f (x) dx;
!1
!0
(3.22)
R+
letzteres, sofern f integrierbar ist (was natürlich nicht aus der Beschränktheit folgt). Das
nachfolgende analytische Result soll hier nicht bewiesen werden.
Lemma 3.50
Zwei beschränkte messbare oder integrierbare Funktionen, deren Laplacetransformierte
auf (0; 1) übereinstimmen, sind Lebesgue-fast überall gleich.
Ist ein endliches Mass auf (R+ ; BR+ ), so ist die Laplacetransformierte von
de…niert durch
Z
L ( ) :=
e x (dx);
0:
R+
Hat eine Dichte f bezüglich des Lebesgue Masses, so gilt L = Lf . L ( ) ist ebenfalls
stetig in 2 [0; 1), und es gilt
lim L ( ) = (R+ ):
lim L ( ) = (f0g);
!1
(3.23)
!0
Lemma 3.51
Seien , zwei endliche Masse. Falls L ( ) = L ( ),
0, so folgt
= .
Beweis. Wir benützen Lemma 3.50. Sei > 0
Z 1
Z 1
Z
x
x
e
([0; x]) dx =
e
1[0;x] (y) (dy) dx
0
0
Z
Z 1
1
1
=
(dy)
e x dx = L ( ) = L ( )
[0;1)
y
Z 1
=
e x ([0; x]) dx:
0
85
Aus Lemma 3.50 folgt ([0; x]) = ([0; x]) für Lebesgue-fast alle x 2 [0; 1). Da die
beiden Funktionen rechtsstetig in x sind, folgt die Gleichheit für alle x
0. Daraus
ergibt sich = .
Als erste Anwendung der starken Marko¤-Eigenschaft berechnen wir die Verteilung
von einfachen Ersteintrittszeiten. Sei a > 0 und
a
:= inff t
0 : Bt = a g:
Nach Lemma 3.43 ist a eine Stoppzeit. Im Moment wissen wir noch nicht, ob P ( a <
1) = 1 gilt (es wird sich gleich herausstellen, dass das richtig ist), wir können jedoch
dennoch von der Verteilung von a sprechen. Wir wollen diese nun berechnen. Zu diesem
Zweck berechnen wir die Laplacetransformierte von P ( a x):
Wir wenden nun (3.20) auf die folgende Funktion : C[0; 1) ! R an. Für > 0 sei
Z 1
e s 1f (s) 0 ds:
(f ) :=
0
ist messbar, was der Leser selbst nachweisen möge.
ist natürlich beschränkt (für
a
> 0). Wir wählen ferner := e
. Es folgt:
Z 1
Z 1
s
a
a
E e
e 1B a +s B a 0 ds = E e
E
e s 1Bs 0 ds:
(3.24)
0
0
(Auf den Einschluss von f a < 1g in der Gleichung können wir verzichten, wenn wir
e 1 als 0 interpretieren). Wir werten nun beiden Seiten der Gleichung weiter aus:
Zunächst die rechte Seite: Nach Fubini ist
Z 1
Z 1
Z 1
1
1
E
e s 1Bs 0 ds =
e s P (Bs 0) ds =
e s ds =
:
2
2
0
0
0
Ferner ist
E e
a
= E
Z
1
a
e
s
ds = E
Z
0
1
1f
sg e
a
s
ds =
Z
1
e
s
P(
a
s) ds:
0
In der linken Seite von (3.24) substituieren wir t = a + s und beachten, dass B a = a
auf f a < 1g ist:
Z 1
Z 1
Z 1
t
s
a
E e
e 1B a +s B a 0
= E
e 1Bt a dt = E
e t 1Bt a dt
0
0
a
Z 1
=
e t P (Bt a) dt:
0
Setzen wir diese Umformungen in (3.24) ein, so ergibt sich
Z 1
Z 1
t
e P ( a t) dt = 2
e t P (Bt
0
a) dt:
0
P( a
t) ist rechtsstetig in t, und P (Bt
Lemma 3.50 folgt daher
86
a) =
R1
a
2
p 1 e x =2t dx
2 t
ist stetig. Aus
Satz 3.52
Für alle a > 0, t
0 gilt
P(
t) = 2P (Bt
a
a) = 2
Z
1
a
p
1
e
2 t
x2 =2t
dx:
Beweis. P ( a < 1) = limt!1 P ( a t) = limt!1 2P (Bt a) = 1.
Als weitere Anwendung der starken Marko¤-Eigenschaft betrachten wir die Nullstellenmenge N (!) := f t 0 : Bt (!) = 0 g. Für eine stetige Brownsche Bewegung ist N (!)
natürlich abgeschlossen. Aus Korollar 3.40 wissen wir, dass mit Wahrscheinschlichkeit 1
der Punkt t = 0, der natürlich in N (!) ist, Häufungspunkt von anderen Nullstellen ist.
Eine abgeschlossene nicht leere Teilmenge A R heisst perfekt, falls jeder Punkt
p 2 A Häufungspunkt von anderen Punkten aus A ist, das heisst, wenn für alle p 2 A
die Menge A gleich dem Abschluss von A n fpg ist.
Satz 3.53
Die Nullstellenmenge N (!) einer stetigen Brownschen Bewegung ist für fast alle ! eine
perfekte Menge von Lebesgue Mass 0.
Beweis. Wir wollen nicht nachweisen, dass f ! : N (!) ist perfektg messbar ist. Wir
zeigen nur: Es existiert 0 2 F mit P ( 0 ) = 1, so dass N (!) perfekt ist für alle ! 2 0 .
Ist eine abgeschlossene, nicht leere Teilmenge N
[0; 1) nicht perfekt, so existiert
ein Interval [q1 ; q2 ), q1 ; q2 2 Q, so dass N \ [q1 ; q2 ) genau einen Punkt enthält. Wir
de…nieren daher für q1 < q2 , q1 ; q2 2 Q:
Aq1 ;q2 := f! : t ! Bt (!) hat genau eine Nullstelle in [q1 ; q2 ) g:
S
O¤ensichtlich ist N (!) perfekt für ! 2 ( q1 <q2 Aq1 ;q2 )c . Es genügt daher zu zeigen, dass
P (Aq1 ;q2 ) = 0 für alle q1 < q2 ist. Wir halten q1; q2 fest und de…nieren
:= inff t 2 [q1 ; q2 ) : Bt = 0 g:
ist eine Stoppzeit, wie man leicht nachprüft. Nun ist o¤ensichtlich
[
Aq1 ;q2
B
+s
< 0; 0 < s
m
[
[
B
+s
> 0; 0 < s
m
1
m
\ f < 1g
1
m
\ f < 1g :
Eine Anwendung des Satzes 3.48 und von Korollar 3.40 ergibt
P
B
+s
< 0; 0 < s
1
; <1
m
= P ( < 1)P
Bs < 0; 0 < s
Analog natürlich
P
B
+s
> 0; 0 < s
87
1
; <1
m
= 0:
1
m
= 0:
S
Somit folgt P ( q1 <q2 2Q Aq1 ;q2 ) = 0.
Es bleibt noch zu zeigen, dass für fast alle ! die Nullstellenmenge N (!) Lebesgue
Mass 0 hat. Sei das Lebesgue Mass auf (R+ ; BR+ ). Dann gilt nach Fubini:
Z
Z Z
Z
P (Bt = 0) dt = 0:
(N (!)) P (d!) =
1fBt (!)=0g dt P (d!) =
R+
Wegen (N (!))
R+
0 folgt (N (!)) = 0 für P -fast alle ! 2 .
Bemerkung 3.54
Es ist bekannt, dass eine nicht leere abgeschlossene und perfekte Teilmenge von R überabzählbar ist. Demzufolge hat die Brownsche Bewegung überabzählbar viele Nullstellen.
4
Martingale mit diskretem Zeitparameter
4.1
De…nitionen und Beispiele
Es sei ( ; F; P ) ein Wahrscheinlichkeitsraum. T , die „Zeitachse“, sei entweder N0 oder
R+ . Wir werden uns in diesem Kapitel (fast) ausschliesslich auf T = N0 beschränken.
Die allgemeinen De…nitionen können wir jedoch sowohl für T = N0 , wie T = R+ geben.
De…nition 4.1
Sei ( ; F; P ) ein Wahrscheinlichkeitsraum, fFt gt2T eine Filtrierung und X = fXt gt2T
ein fFt g-angepasster stochastischer Prozess.
a) X heisst fFt g-Martingal, wenn alle Xt integrierbar sind und
E(Xt j Fs ) = Xs P
für s
f:s:
t gilt.
b) X heisst fFt g-Submartingal, wenn alle Xt integrierbar sind
E(Xt j Fs )
für s
Xs P
f:s:
t gilt.
c) X heisst fFt g-Supermartingal, wenn f Xt g ein Submartingal ist.
Bemerkung 4.2
Für nicht-negative Zufallsgrössen kann auf die Integrierbarkeit in der De…nition verzichtet werden.
Ist Ft = FtX := (Xs : s t), so nennen wir X einfach Martingal beziehungsweise
Sub- oder Supermartingal, ohne die Filtrierung extra zu betonen. Für den Fall T = N0 ,
den wir hier fast ausschliesslich behandeln werden, ist X genau dann ein Martingal, wenn
E(Xn+1 j Fn ) = Xn P f:s: für jedes n gilt. Dies folgt aus Satz 1.13 per Induktion: Für
m > 1 gilt E(Xn+m j Fn ) = E (E(Xn+m j Fn+m 1 ) j Fn ) = E (Xn+m 1 j Fn ) = Xn ; die
88
letzte Gleichung nach Induktionsvoraussetzung. Entsprechendes natürlich für Sub- und
Supermartingale.
Ist X ein fFn g-Martingal und ist fGn g eine Filtrierung mit Gn Fn für alle n und
bezüglich der X angepasst ist, so ist X auch ein fGn g-Martingal. Das sieht man wie
folgt:
E (Xn+1 j Gn ) = E (E (Xn+1 j Fn ) j Gn ) = E (Xn j Gn ) = Xn :
Jedes fFn g-Martingal ist somit automatisch ein FnX -Martingal.
Martingale haben o¤ensichtlich die Eigenschaft, dass die Folge der Erwartungswerte
konstant ist: EXn = EXm für alle m; n:
Lemma 4.3
Sei fXt g ein Martingal. Dann ist fjXt jp g ein (nicht notwendigerweise integrierbares)
positives Submartingal. Ist für ein T > 0 E jXT jp < 1; so gilt E jXt jp < 1 für alle
t T:
Beweis. R 3 x ! jxjp ist eine konvexe Funktion. Nach der Jensenschen Ungleichung
(Lemma 1.17) für bedingte Erwartungswerte folgt für t s
E (jXt jp j Fs )
jE (Xt j Fs )jp = jXs jp :
Somit ist fjXt jp g ein Submartingal: Für p > 1 ist es jedoch nicht notwendigerweise
integrierbar. (Siehe Bemerkung 1.16).
Der Zusatz folgt sofort aus der Submartingaleigenschaft.
Beispiel 4.4
Die eindimensionale symmetrische Irrfahrt auf Z ist ein Martingal. Der Beweis sei dem
Leser überlassen.
Beispiel 4.5
Sei X = fXn gn2N0 die symmetrische Irrfahrt auf N mit Start in 1 und Absorption in
0. Diese Irrfahrt ist eine Marko¤kette mit den Übergangswahrscheinlichkeiten pi;i+1 =
pi;i 1 = 1=2 für i 2 N und p0;0 = 1. Für jedes n 2 N0 gilt P -fast sicher
X
E(Xn+1 j FnX ) = E(Xn+1 j X0 ; : : : ; Xn ) =
j pXn ;j = Xn ;
j2N0
also ist diese Irrfahrt ein Martingal.
Das Beispiel 4.4 lässt sich wie folgt verallgemeinern:
Beispiel 4.6
n , n 2 N, seien unabhängige, identisch
P verteilte, integrierbare Zufallsgrössen mit E i =
0. Wir de…nieren X0 := 0, Xn := nj=1 j für n 2 N. Die Filtrierung fFn gn2N0 sei wie
folgt de…niert:
F0 := f;; g; Fn := ( j : j n):
89
Dann ist fXn gn2N0 ein fFn gn2N0 -Martingal. Hier der Beweis:
Xn
+ n+1 j Fn
E (Xn+1 j Fn ) = E
i=1 i
Xn
j Fn + E n+1 j Fn
= E
i=1 i
Xn
=
i+E
n+1 = Xn :
i=1
Beispiel 4.7
Die n , n 2 N, und die Filtrierung seien wie im obigen Beispiel de…niert. Es sei aber
E i 6= 0 zugelassen, und wir setzen zusätzlich voraus, dass ein 0 > 0 existiert, so dass
M ( ) := E(e
für j j
0
i
)<1
gilt. Wir de…nieren X0 1 und
h Xn
i
Xn := exp
j M( )
n
j=1
; j j
0;
für n 2 N. Dann ist fXn gn2N ein fFn gn2N -Martingal:
h Xn
i
E(Xn+1 jFn ) = M ( ) n 1 exp
E(e
j=1
j
h Xn
i
= M ( ) n 1 exp
E(e
j
j=1
h Xn
i
= M ( ) n exp
j
n+1
jFn )
n+1
)
j=1
= Xn :
Beispiel 4.8
Durch Di¤erentiation nach in = 0 lassen sich aus dem Martingal in Beispiel 4.7 leicht
neue gewinnen. Einmalige Di¤erentiation liefert das Beispiel 4.6. Zweimaliges Di¤erenzieren:
Xn(2) :=
wobei Sn :=
Im Fall E
i
Pn
d2
Xn
d 2
i=1 i
= Sn2
2nSn M 0 (0) + n(n + 1)M 0 (0)2
nM 00 (0);
=0
ist. Weiter gilt M 0 (0) = E
Xn(2) = Sn2
i
und M 00 (0) = E( 2i ), d.h.
2nE i Sn + n(n + 1) (E i )2
nE( 2i ):
= 0 ist
Xn(2) = Sn2
nE( 2i ):
Natürlich erfordert es noch Überlegungen um zu zeigen, dass auf diese Weise durch
Di¤erentiation nach dem Parameter aus dem Martingal von Beispiel 4.7 ein neues
Martingal entsteht. Als Übungsaufgabe mögender Leser
zeigen, dass dies gerechtfertigt
o
(2)
ist. Man kann auch direkt nachrechnen, dass Xn
ein fFn gn2N -Martingal ist, sofern
i 2 L2 ( ; F; P ) gilt.
90
Beispiel 4.9
Es sei fFn gn2N eine beliebige Filtrierung und X 2 L1 ( ; F; P ). Die Folge der bedingten
Erwartungswerte
Xn := E(X j Fn ); n 2 N;
ist o¤ensichtlich ein Martingal. Nicht jedes Martingal kann in dieser Weise dargestellt
werden, wie wir später sehen werden.
Martingale sind für Marko¤-Prozessen wichtig. Sei I eine höchstens abzählbare Menge,
= (pij ) eine stochastische Matrix und fXn gn2N eine Marko¤-Kette mit dieser
Matrix und beliebiger Startverteilung.
De…nition 4.10
Eine m.b. Funktion h : I ! R heisst -harmonisch, wenn für jedes i 2 I; die Funktion
h integrierbar bezüglich ( ij )j2I ist und
h (i) =
X
pij h (j)
j
gilt.
Proposition 4.11
Ist h harmonisch so ist fh (Xn )gn2N0 ein Martingal bezüglich FnX ; sofern h (Xn ) für
all n integrierbar ist.
Beweis. Nach der Marko¤-Eigenschaft gilt
X
E h (Xn+1 ) j FnX =
pXn ;j h (j) = h (Xn ) :
j
4.2
Stoppzeiten und der Stoppsatz für Martingale
Stoppzeiten wurden für T = N0 in De…nition 2.30, bzw. für T = R+ in De…nition 3.41
eingeführt. Wir werden uns auf T = N0 einschränken.
Wir de…nieren die -Algebra F1 für eine Filtrierung als
_
F1 :=
Fn :
n
F1 ist also einfach die kleinste -Algebra, die alle Fn enthält. Aus der De…nition einer
Stoppzeit folgt sofort, dass f = 1g 2 F1 gilt.
Wir stellen einige einfache Eigenschaften zusammen. Diese wurden im letzten Kapitel
in Lemma 3.42 bewiesen. Auf die Voraussetzung der Rechtsstetigkeit der Filtrierung
können wir im diskreten Fall verzichten.
Proposition 4.12
a) Eine konstante Abbildung ist eine Stoppzeit.
91
b) Sind ;
c) Ist f
Ist
zwei Stoppzeiten, so sind max ( ; ) ; min ( ; )
k gk2N
eine Folge von Stoppzeiten, so sind supk
k
+
und Stoppzeiten.
und inf k
k
Stoppzeiten.
eine Stoppzeit, so setzen wir
F := f A 2 F j A \ f = ng 2 Fn ; 8n 2 N0 g:
Man überzeugt sich leicht davon, dass F eine Teil- -Algebra von F ist. Evidenterweise
gilt
F = fA 2 F j A \ f
ng 2 Fn ; 8n 2 N0 g:
Wir können daher beide Formulierungen verwenden.
Proposition 4.13
Es seien ; Stoppzeiten.
a)
f
b) Gilt
(!)
g2F \F :
(!) für alle !; so gilt
F
F :
Beweis. a)
f
g \ f = ng = fn
= f
für alle n; d.h. f
n
g \ f = ng
1gc \ f = ng 2 Fn
g 2 F : Analog
f
g \ f = ng = f
ng \ f = ng 2 Fn
für alle n; d.h. f
g2F :
b) Sei A 2 F : Dann Gilt
A\f
ng = (A \ f
ng) \ f
ng 2 Fn
für alle n; d.h. es gilt A 2 F :
De…nition 4.14
a) Ein stochastischer Prozess V = fVn gn2N (nicht N0 !) heisst vorhersehbar bezüglich der Filtrierung fFn gn2N0 , wenn Vn für jedes n 2 N bezüglich Fn 1 messbar
ist.
b) Sind V = fVn gn2N und X = fXn gn2N0 stochastische Prozesse,
so de…nieren wir
Pn
den Prozess V X = fYn gn2N0 durch Y0 = 0 und Yn = k=1 Vk (Xk Xk 1 ) für
alle n 2 N.
92
Die De…nition von „vorhersehbaren“ Prozessen mag etwas albern erscheinen, denn sie
entstehen aus gewöhnlichen angepassten Prozessen einfach durch eine Zeitverschiebung
um eine Einheit. Die Begri¤sbildungen, die hier verwendet werden, sind teilweise auf
Prozesse mit kontinuierlichem Zeitparameter zugeschnitten, wo die Verhältnisse komplizierter sind. Für Prozesse mit kontinuierlichem Zeitparameter bedeutet “vorhersehbar”,
dass der Prozess durch seine in…nitesimale Vergangenheit bestimmt ist. Die präzise De…nition ist in diesem Fall jedoch nicht ganz einfach.
Lemma 4.15
1. Sei X = fXn gn2N0 ein Supermartingal, und sei V = fVn gn2N ein vorhersehbarer
stochastischer Prozess mit Vn 0 und kVn k1 < 1 für alle n 2 N . Dann ist V X
ein Supermartingal. Ist X ein Martingal, so auch V X.
2. Die Voraussetzung kVn k1 < 1 ersetzt werden durch kVn k2 < 1, falls kXn k2 < 1
für alle n 2 N0 gilt.
Beweis. Sei V X = fYn gn2N0 . Für n 2 N folgt aus den Voraussetzungen sofort die
Integrierbarkeit von Yn . Ferner gilt
E(Yn j Fn
1)
= Yn
1
+ Vn E(Xn
Xn
1
j Fn
1)
Yn
1:
Die letzte Ungleichung ist eine Gleichung, falls X ein Martingal ist.
Den stochastischen Prozess V X bezeichnet man als die Martingaltransformation
von X durch V. Man verwendet diese Bezeichnung missbräuchlicherweise auch, wenn X
kein Martingal ist.
Im folgenden betrachten wir einen wichtigen Spezialfall von Martingaltransformationen. Sei dazu
eine Stoppzeit. Wir de…nieren Vn = 1fn g für n 2 N. Wegen
fn
g=f
n 1gc 2 Fn 1 ist der stochastische Prozess V = fVn gn2N vorhersehbar. Ist X = fXn gn2N0 ein stochastischer Prozess, so ist die Martingaltransformation
einfach zu berechnen. Für jedes n 2 N0 gilt
(V
X)n = X
^n
X0 :
Wir de…nieren den zur Zeit gestoppten Prozess X durch X = fX
rollar zu Lemma 4.15 erhalten wir
Satz 4.16
Es seien X ein Supermartingal und
Ist X ein Martingal, so auch X .
^n gn2N .
Als Ko-
eine Stoppzeit. Dann ist X ein Supermartingal.
Aus dem obigen Satz folgt insbesondere, dass E(X ^n ) = E(X0 ) für alle n 2 N0 gilt,
wenn X ein Martingal und eine Stoppzeit ist. Aber Vorsicht: Selbst im Fall P ( <
1) = 1 folgt nicht, dass E(X ) = E(X0 ) ist. Dazu ein Beispiel:
Beispiel 4.17
Sei X = fXn gn2N0 die symmetrische Irrfahrt auf N0 mit Start in 1 und Absorption in
0. Gemäss Beispiel 4.5 ist X ein fFnX gn2N0 -Martingal. Sei die Erstankunftszeit in 0,
93
also := inff n 2 N0 j Xn = 0 g. Wegen der Rekurrenz der eindimensionalen Irrfahrt
gilt P ( < 1) = 1. Für jedes n 2 N ist
f
ng =
n
[
k=0
fXk = 0g 2 FnX ;
also ist
eine fFnX gn2N0 -Stoppzeit. Es gilt E(X0 ) = 1, also E(X ^n ) = 1 für alle
n 2 N0 nach dem obigen Satz, aber o¤ensichtlich ist E(X ) gleich 0. Natürlich gilt
limn!1 X ^n = X ; aber wir dürfen den Satz von Lebesgue nicht anwenden, da keine
integrierbare Dominante für die Folge fX ^n g existiert.
Es gibt einige nützliche, hinreichende Kriterien für E(X ) = E(X0 ).
Satz 4.18
Es seien eine Stoppzeit und fXn gn2N0 ein Supermartingal (bzw. ein Martingal), die
eine der folgenden Bedingungen erfüllen:
a)
b)
ist beschränkt.
ist P -fast sicher endlich, und fXn gn2N0 ist beschränkt, das heisst, es gelten
P ( < 1) = 1 und supn2N0 kXn k1 < 1.
c) E( ) < 1 und supn2N kXn
Xn
1 k1
< 1.
Dann ist X integrierbar, und es gilt E(X )
E(X0 ) (bzw. E(X ) = E(X0 )).
Beweis. Nach Satz 4.16 gilt E(X ^n )
E(X0 ) (bzw. E(X ^n ) = E(X0 )) für jedes
n 2 N. Ist a) erfüllt, so ist ^ n = für ein genügend grosses n 2 N. Unter b) gilt
limn!1 E(X ^n ) = E(X ) nach dem Satz über die majorisierte Konvergenz. Ist c)
erfüllt, so existiert eine Zahl K > 0 mit P (jXn Xn 1 j K) = 1 für alle n 2 N. Somit
folgt jX ^n X0 j K fast sicher. Wegen E( ) < 1 folgt limn!1 E(X ^n ) = E(X )
ebenfalls nach dem Satz über die majorisierte Konvergenz.
Eine andere nützliche Folgerung aus dem Stoppsatz 4.16 ist die folgende, die einfach
aus dem Lemma von Fatou folgt:
Korollar 4.19
Seien fXn gn2N0 ein positives Supermartingal und
E(X ) E(X0 ).
Beweis. Nach Satz 4.16 gilt E(X
E(X ) = E
^n )
lim X
n!1
eine endliche Stoppzeit. Dann gilt
E(X0 ), und aus dem Lemma von Fatou folgt
lim E(X
^n
n!1
94
^n )
E(X0 ):
4.3
Martingal-Ungleichungen
Eine wichtige Anwendung der obigen Stopp- und Transformationstechniken ist der Beweis des Doobschen „upcrossing“-Lemmas. Seien = f n gn2N0 eine Folge reeller Zahlen
und a; b 2 R mit a < b. Für n 2 N0 de…nieren wir die Anzahl der aufsteigenden Überschreitungen des Intervalls [a; b] durch die Folge bis zum Zeitpunkt n wie folgt: Falls k
Paare von Zeitpunkten (s1 ; t1 ) ; : : : ; (sk ; tk ) mit 0 s1 < t1 < s2 < t2 <
< sk < tk
n und si < a; ti > b für i = 1; : : : ; k existieren, nicht aber k + 1; so sagen wir, dass es
genau k aufsteigende Überschreitungen des Intervalls [a; b] durch die Folge gibt. Wir
kürzen diese Anzahl mit Un [a; b]( ) ab und de…nieren U1 [a; b]( ) := supn2N0 Un [a; b]( ):
U1 [a; b]( ) kann natürlich gleich 1 sein.
Lemma 4.20
Eine Folge
= f n gn2N0 , n 2 R; konvergiert genau dann in R = [ 1; 1], wenn
U1 [a; b]( ) < 1 für alle a; b 2 Q mit a < b gilt.
Beweis. Wir argumentieren indirekt. Es gilt
lim inf
n!1
n
< lim sup
n!1
n
() 9 a; b 2 Q mit lim inf
n!1
n
< a < b < lim sup
n!1
n
() 9 a; b 2 Q mit a < b und U1 [a; b]( ) = 1:
Satz 4.21
Sei X = fXn gn2N0 ein Supermartingal und a < b. Dann gilt für jedes n 2 N0
(b
a)E(Un [a; b](X))
E((Xn
a) ):
(x := max ( x; 0)).
Beweis. Wir konstruieren eine geeignete Martingaltransformation Y = fYn gn2N0 von
X. Mit Hilfe der nachfolgenden Regeln nutzt der Prozess Y alle aufsteigenden Überschreitungen des Supermartingals X, um möglichst weit nach oben zu gelangen:
(a) Starte mit Y0 (!) = 0. Ist X0
a, benutze Regel (b), andernfalls Regel (c).
(b) Warte solange, das heisst setze Yn (!) = Yn
für den nächsten Schritt Regel (c).
1 (!),
bis Xn (!) < a ist. Benutze dann
(c) Nutze die Zuwächse, das heisst setze Yn (!) = Yn 1 (!) + Xn (!)
Xn > b ist. Benutze dann für den nächsten Schritt Regel (b).
Xn
1 (!),
bis
Da der Prozess Y jedesmal mindestens die Höhe (b a) gewinnt, wenn der Prozess
X das Intervall [a; b] aufsteigend überschreitet, und Y seit der letzten Überschreitung
höchstens die Höhe (Xn a) verloren haben kann, gilt für jedes n 2 N0
Yn
(b
a)Un [a; b](X)
95
(Xn
a) :
(4.1)
Die entscheidende Beobachtung ist nun, dass Y eine Martingaltransformation von X ist:
De…nieren wir
(
1fX0 <ag
fu
•r n = 1;
Vn =
1fVn 1 =1;Xn 1 bg + 1fVn 1 =0;Xn 1 <ag f u
•r n 2;
so folgt die Vorhersehbarkeit von V = fVn gn2N und
Yn =
n
X
Vk (Xk
Xk
1)
k=1
für alle n 2 N0 , das heisst, Y ist in der Tat die Martingaltransformation von X durch
V. Gemäss Lemma 4.15 ist Y ein Supermartingal, also gilt E(Yn ) E(Y0 ) = 0, woraus
mit (4.1) die Behauptung folgt.
Lemma 4.22
Sei fX0 ; : : : ; XN g ein positives Submartingal. Dann gilt für
P
max Xn
E XN 1fmaxn
n N
N
>0
Xn
g :
Beweis. Sei := inf fn : Xn
g ; falls diese Menge nicht leer ist und sonst = N:
Dann ist eine Stoppzeit, die natürlich beschränkt ist. Wir können daher Satz 4.18 (auf
das Supermartingal f Xn g) anwenden und erhalten
EXN
EX = E X 1fmaxn
P
max Xn
N
g + E X 1fmaxn
Xn
+ E XN 1fmaxn
n N
N
Xn <
g :
Daraus folgt die behauptete Ungleichung sofort.
Korollar 4.23
fX0 ; : : : ; XN g ein Martingal.
a) Für
> 0 und p
1
p
P
E (jXN jp ) :
max jXn j
n N
b) Für p > 1 gilt
p
p
E max jXn jp
p
n N
96
1
E (jXN jp ) :
N
Xn <
g
Beweis. Nach Lemma 4.3 ist fjX0 jp ; : : : ; jXN jp g ist ein positives Submartingal. Falls
E (jXN jp ) = 1 ist, so ist nichts zu zeigen. Wir können also annehmen, dass das Submartingal integrierbar ist. Nach dem vorangegangenen Lemma gilt
p
P
max jXn j
p
=
n N
max jXn jp
P
p
n N
E jXN jp 1fmaxn
N jXn j
p
p
E (jXN jp ) :
g
Um b) zu zeigen setzen wir X := maxn N jXn j. Wir können wieder voraussetzen,
dass E (jXN jp ) < 1 ist. Wegen der Submartingaleigenschaft (Lemma 4.3) ist dann auch
E (jXn jp ) < 1 für n N und demzufolge E (X p ) < 1:
!
Z
Z
X
E (X p ) = E
=
Z
d
1
=E
0
1
p 1
p
= pE
jXN j
p
1
p 1
p
0
0
p
p 1
p
P (X
Z
X
p 2
)d
!
d
0
E (X p )(p
1)=p
Z
1
p
0
p
=
p
1
1fX
p 2
gd
E jXN j 1fX
E jXN j X
g
d
(p 1)
E (jXN jp )1=p ;
die letzte Ungleichung nach der Hölderschen Ungleichung. Daraus folgt die behauptete
Ungleichung.
Korollar 4.24
Sei fXn gn2N0 ein Martingal.
a) Für
> 0 und p
1
p
P
sup E (jXn jp ) :
sup jXn j
n
n
b) Für p > 1 gilt
p
p
E sup jXn jp
p
n
1
sup E (jXn jp ) :
n
Beweis. Dies folgt nun mit einem einfachen Grenzübergang N ! 1 aus Korollar 4.23.
Man beachte, dass aus der Submartingaleigenschaft von fjXn jp g folgt, dass E (jXn jp )
ansteigend in n ist und demzufolge
sup E (jXn jp ) = lim E (jXN jp )
n
N !1
gilt.
97
4.4
Konvergenz von Martingalen
Satz 4.25
Sei X = fXn gn2N0 ein Supermartingal mit supn2N0 EjXn j < 1. Dann existiert X1 :=
limn!1 Xn fast sicher und ist integrierbar.
Beweis. Seien a < b zwei reelle Zahlen. Nach dem Satz von der monotonen Konvergenz
und Satz 4.21 gilt
(b
a)E(U1 [a; b](X)) = (b
a) lim E(Un [a; b](X))
n!1
sup E((Xn
a) )
jaj + sup EjXn j < 1:
n2N0
n2N0
Demzufolge ist P (U1 [a; b](X) < 1) = 1, also
P
\
a;b2Q; a<b
fU1 [a; b](X) < 1g = 1:
Nach Lemma 4.20 existiert somit X1 := limn!1 Xn in [ 1; 1] fast sicher. Nach dem
Lemma von Fatou ist
EjX1 j
lim inf EjXn j
n!1
sup EjXn j < 1:
n2N0
Korollar 4.26
Jedes nichtnegative Supermartingal fXn gn2N0 konvergiert fast sicher gegen eine integrierbare Zufallsgrösse.
Beweis. Aus Xn
0 folgt EjXn j = E(Xn )
E(X0 ), also supn2N0 EjXn j < 1.
Eine etwas erstaunliche Tatsache ist, dass in Satz 4.25 die Bedingung supn2N0 EjXn j <
1 ausreicht, um die fast sichere Konvergenz zu erhalten, nicht jedoch für L1 -Konvergenz.
Das Standardgegenbeispiel dazu ist Beispiel 4.17. Dort gilt EXn = 1 für alle n, Xn ! 0
fast sicher (in Übereinstimmung mit dem obigen Korollar), aber da die Erwartungswerte
nicht konvergieren, gilt auch nicht L1 -Konvergenz.
Es sollte hier auch betont werden, dass lange nicht alle Martingale in irgendeinem
Sinne konvergieren. So konvergiert natürlich die symmetrische, eindimensionale Irrfahrt
nicht.
Beispiel 4.27 (Polyas Urnenschema)
In einer Urne liegen Rn rote und Sn schwarze Kugeln zum Zeitpunkt n 2 N0 . Im
Zeitintervall (n; n + 1) wird die Urne gut gemischt, eine Kugel zufällig gezogen und
zusammen mit einer zusätzlichen Kugel der gleichen Farbe zurückgelegt. Zum Zeitpunkt
0 sei R0 = S0 = 1. Dann ist f(Rn ; Sn )gn2N0 eine Marko¤kette auf dem Zustandsraum N2
mit den Übergangswahrscheinlichkeiten p((r; s); (r+1; s)) = r=(r+s), und p((r; s); (r; s+
1)) = s=(r + s) für alle (r; s) 2 N2 . O¤enbar ist Rn + Sn = n + 2 für jedes n 2 N0 . Seien
98
Fn := ((Ri ; Si ) : i n) und Xn := Rn =(n + 2) für alle n 2 N0 . Der Prozess fXn gn2N0
ist ein fFn gn2N0 -Martingal, denn für jedes n 2 N0 gilt
Rn+1
j (Rn ; Sn )
n+3
Rn Rn + 1 (n + 2 Rn ) Rn
Rn
=
+
=
= Xn :
n+2 n+3
n+2
n+3
n+2
E(Xn+1 jFn ) = E
O¤ensichtlich gilt Xn
0. Gemäss Korollar 4.26 existiert damit X1 := limn!1 Xn
fast sicher. Was ist die Verteilung von X1 ? Eine einfache kombinatorische Überlegung
zeigt, dass P (Rn = j) = 1=(n + 1) für jedes j 2 f1; : : : ; n + 1g gilt (Übungsaufgabe). Sei
f : [0; 1] ! R eine stetige (und somit gleichmässig stetige) Funktion. Dann gilt
n+1
1 X
f
Ef (Xn ) =
n+1
j=1
j
n+2
;
R1
was für n ! 1 gegen 0 f (x) dx konvergiert. Andererseits folgt aus Xn ! X1 und dem
Satz von Lebesgue über majorisierte Konvergenz
Ef (X1 ) = lim Ef (Xn ):
n!1
R1
Somit ist Ef (X1 ) = 0 f (x) dx. Dies gilt für jede stetige Funktion, und somit ist die
Verteilung von X1 das Lebesgue Mass auf [0; 1].
Die Diskussion der L2 -Konvergenz von Martingalen ist in gewisser Weise einfacher
zu diskutieren als die der L1 -Konvergenz, so dass wir mit jener beginnen.
De…nition 4.28
Ein Martingal fXn gn2N0 heisst L2 -Martingal, wenn für jedes n 2 N0 die Zufallsgrösse
Xn quadratisch integrierbar ist.
Satz 4.29
Sei X = fXn gn2N0 ein L2 -Martingal. Folgende drei Aussagen sind äquivalent:
a)
sup E(Xn2 ) < 1
n2N0
b)
1
X
E((Xk
Xk
2
1) )
k=1
c) fXn gn2N0 konvergiert P -fast sicher und in L2 .
99
<1
Beweis. Quadratisch integrierbare Martingale haben stets unkorrelierte Zuwächse, das
heisst, für alle m; n 2 N0 mit m < n gilt
Xm )2 ) =
E((Xn
n
X
E((Xk
Xk
2
1 ) ):
(4.2)
k=m+1
Dies folgt mit Induktion nach n. Für n = m + 1 gilt (4.2), und für n
m + 2 gilt
E((Xn Xm )2 ) = E((Xn Xn
1 )(Xn 1
2
1 ) )+E((Xn 1
Xm )2 )+2E((Xn Xn
Xm )):
Einschieben eines bedingten Erwartungswertes liefert für den dritten Summanden
E((Xn
Xn
1 )(Xn 1
Xm )) = E(E((Xn
= E((Xn
1
Xn
1 )(Xn 1
Xm )E(Xn
Xm )jFn
Xn
= 0:
1 ))
1 jFn 1 ))
Mit der Induktionsvoraussetzung für n 1 folgt nun (4.2) für n.
Für jedes n 2 N0 folgt aus E(Xn X0 ) = E(E(Xn j F0 )X0 ) = E(X02 ) und (4.2)
E(Xn2 )
E(X02 )
= E((Xn
2
X0 ) ) =
n
X
E((Xk
Xk
2
1 ) );
k=1
womit die Äquivalenz von a) und b) ersichtlich ist. Teil a) folgt aus der L2 -Konvergenz
von fXn gn2N0 . Somit bleibt noch zu zeigen, dass c) aus a) und b) folgt:
Aus (a) folgt supn2N0 EjXn j < 1 und somit aus Satz 4.25, dass
X1 := lim Xn
n!1
P -fast sicher existiert. Aus dem Lemma von Fatou und (4.2) folgt
E((X1
2
Xm ) )
lim inf E((Xn
n!1
2
Xm ) ) =
1
X
E((Xk
Xk
2
1 ) );
k=m+1
was nach (b) für m ! 1 gegen null konvergiert. Somit ist die L2 -Konvergenz zeigt.
Man beachte den Unterschied zwischen dem L1 - und dem L2 -Fall: Aus der L2 Beschränktheit eines Martingals folgt Konvergenz in L2 . Aus der L1 -Beschränktheit
folgt P -fast sichere Konvergenz, aber nicht L1 -Konvergenz, siehe Beispiel 4.17.
Wir wollen nun diskutieren, unter welchen Zusatzbedingungen neben supn2N0 EjXn j <
1 ein Martingal im ersten Mittel konvergiert.
De…nition 4.30
Eine Teilmenge von L1 := L1 ( ; F; P ) heisst gleichgradig integrierbar, falls
Z
lim sup
jXj dP = 0
n!1 X2
fjXj ng
gilt.
100
Um
schreiben wir in Zukunft auch E(X; A)
R Klammern und Integralzeichen zu sparen,
R
für A X dP , also etwa E(jXj; jXj n) für fjXj ng jXj dP .
Lemma 4.31
Sei X 2 L1 . Dann gilt
lim"!0
sup
E(jXj; A) = 0:
A2F ; P (A) "
Beweis. Wir führen den Beweis indirekt und nehmen an, dass eine Folge fAn gn2N in
F mit P (An ) 2Sn für alle n 2 N und lim inf n!1 E(jXj; An ) > 0 existiert. Für jedes
n 2 N sei Bn := 1
k=n Ak . Dann gilt 1Bn # 0; P -fast sicher für n ! 1, und mit dem
Satz von Lebesgue folgt
lim inf E(jXj; An )
lim E(jXj; Bn ) = 0:
n!1
n!1
Wir schreiben wie üblich
kXkp := E(jXjp )1=p
für p > 0:
Lemma 4.32
Jede der folgenden Bedingungen ist hinreichend für die gleichgradige Integrierbarkeit
einer Familie
L1 :
a) Es existiert ein p 2 (1; 1) mit supX2 kXkp < 1.
b) Es existiert eine Zufallsgrösse Y 2 L1 mit jXj
c) Es existieren Y 2 L1 und eine Familie
von Teil- -Algebren von F mit
= f E(Y jG) : G 2
Beweis. a) Für alle n 2 N und X 2
E(jXj; jXj
n)
E jXj
Y fast sicher für alle X 2 .
g:
gilt
jXjp 1
; jXj
np 1
n
kXkpp
np 1
1
np 1
sup kXkpp ;
X2
und dies konvergiert gegen null für n ! 1.
b) Für alle X 2
und n 2 N gilt E(jXj; jXj
n)
E(Y ; Y
n), und dies
konvergiert nach dem Satz über die majorisierte Konvergenz gegen null für n ! 1.
c) Für n 2 N und G 2 sei An (G) := fjE(Y jG)j ng. Wegen
jE(Y jG)j
E(jY jjG)
folgt mit der Marko¤schen Ungleichung
P (An (G))
1
E(jE(Y jG)j)
n
101
1
1
E(E(jY jjG)) = E(jY j):
n
n
Somit gilt
lim sup P (An (G)) = 0:
n!1 G2
Wegen An (G) 2 G gilt
E(jE(Y jG)j; An (G))
E(E(jY jjG); An (G)) = E(jY j; An (G));
also folgt mit Lemma 4.31 die gleichgradige Integrierbarkeit von .
Satz 4.33
Es seien fXn g eine Folge in L1 und X 2 L1 . Die Folge fXn g konvergiert genau dann im
ersten Mittel gegen X, wenn fXn gn2N in Wahrscheinlichkeit gegen X konvergiert und
fXn g gleichgradig integrierbar ist.
Beweis. (a) Die Folge fXn gn2N konvergiere im ersten Mittel gegen X. Dann konvergiert fXn gn2N in Wahrscheinlichkeit gegen X 9 , und es bleibt zu zeigen, dass fXn gn2N
gleichgradig integrierbar ist. Für alle k; n 2 N ist
P (jXn j
kXn k1
:
k
k)
Konvergiert fXn gn2N im ersten Mittel, so ist supn2N kXn k1 < 1. Somit folgt
lim sup P (jXn j
k!1 n2N
k) = 0:
(4.3)
Ist N 2 N, so gilt
sup E(jXn j; jXn j
n2N
k)
sup E(jXn j; jXn j
k)
n N
+ sup kXn
n>N
Xk1 + sup E(jXj; jXn j
k):
n>N
Wegen (4.3) und Lemma 4.31 folgt, dass der dritte Summand für k ! 1 gegen null
konvergiert. Jede endliche Familie von integrierbaren Zufallsgrössen ist dem Satz von
Lebesgue gleichgradig integrierbar, also konvergiert der erste Summand für k ! 1
gegen null. Da N beliebig ist, folgt die gleichgradige Integrierbarkeit von fXn gn2N .
(b) Die Folge fXn gn2N konvergiere in Wahrscheinlichkeit gegen X und sei gleichgradig integrierbar. Für k 2 N und x 2 R sei 'k (x) := ( k) _ (x ^ k). Für " > 0 und
k; n 2 N gilt
k'k (Xn ) 'k (X)k1 " + 2kP (jXn Xj > "):
9
Falls nicht bekannt: Hier das Argument. Für " > 0 ist P (jXn
Marko¤-Ungleichung. Also folgt aus der Konvergenz im 1. Mittel
lim P (jXn
n!1
Xj
für alle " > 0:
102
") = 0
Xj
")
"
1
E jXn
Xj nach der
Da fXn gn2N in Wahrscheinlichkeit gegen X konvergiert und " > 0 beliebig ist, folgt
lim k'k (Xn )
n!1
'k (X)k1 = 0
für jedes k 2 N. Wegen
kXn
Xk1
kXn
'k (Xn )k1 + k'k (Xn )
E(jXn j; jXn j > k) + k'k (Xn )
'k (X)k1 + k'k (X)
Xk1
'k (X)k1 + E(jXj; jXj
k)
gilt
lim sup kXn
n!1
Xk1
sup E(jXn j; jXn j
n2N
k) + E(jXj; jXj
k):
Da k beliebig ist, folgt aus der gleichgradigen Integrierbarkeit, dass kXn Xk1 für n ! 1
gegen null konvergiert.
Zurück zur L1 -Konvergenz von Martingalen.
Satz 4.34
Sei X = fXn g ein fFn g-Martingal. Dann sind die folgenden drei Aussagen äquivalent:
a) Das Martingal fXn g ist gleichgradig integrierbar.
b) Das Martingal fXn g konvergiert P -fast sicher und im ersten Mittel.
c) Es existiert Y 2 L1 mit Xn = E(Y jFn ) P -fast sicher für alle n 2 N0 .
Erfüllt X eine dieser Bedingungen, so kann für Y in Aussage c) insbesondere der
P -fast sichere und L1 -Grenzwert des Martingals X gewählt werden.
Beweis. Die Implikation c))a) folgt aus 4.32 c). Die Implikation a))b) folgt aus Satz
4.33, sobald gezeigt ist, dass fXn g P -fast sicher und somit auch in Wahrscheinlichkeit
konvergiert. Wegen der gleichgradigen Integrierbarkeit von fXn g existiert ein k 2 N mit
E(jXn j; jXn j > k) 1 für alle n 2 N. Also gilt
sup kXn k1
n2N
sup fE(jXn j; jXn j
n2N
k) + E(jXn j; jXn j > k)g
k + 1 < 1;
woraus mit Satz 4.25 die P -fast sichere Konvergenz von fXn gn2N folgt.
Wir beweisen die Implikation b))c): Seien X1 der L1 -Limes der Folge fXn gn2N und
n 2 N. Dann gilt für jedes m n
E(jXn
E(X1 jFn )j) = E(jE(Xm
X1 jFn )j)
E(E(jXm
X1 jjFn )) = kXm
X 1 k1 :
Mit m ! 1 folgt Xn = E(X1 jFn ) P -fast sicher. Hiermit ist der Zusatz ebenfalls
bewiesen.
Korollar 4.35
Für Y 2 L1 ist fE(Y jFn )gn2N0 ein fFn g-Martingal, das fast sicher und in L1 gegen
E(Y jF1 ) konvergiert.
103
Beweis. Für n 2 N sei Xn := E(Y jFn ). Die Martingaleigenschaft von fXn g ist o¤ensichtlich. Nach Satz 4.34 konvergiert das Martingal fXn gn2N P -fast sicher und in L1
gegen eine Zufallsgrösse X1 , die natürlich F1 -messbar ist. Es bleibt zu zeigen, dass
X1 = E(Y jF1 ) gilt, das heisst, dass E(X1 ; A) = E(Y ; A) für alle A 2 F1 ist.
Für A 2 Fn folgt S
dies aus Xn = E(X1 jFn ) P -fast sicher, was nach dem Zusatz
von Satz 4.34 gilt. Da n2N Fn ein durchschnittstabiles Erzeugendensystem von F1 ist,
folgt E(X1 ; A) = E(Y ; A) für alle A 2 F1 .
4.5
4.5.1
Anwendung auf Äquivalenz von Produktmassen
Das Kakutani-Kriterium
Als Anwendung diskutieren wir Kakutanis Kriterium für die Äquivalenz von Produktmassen. Sei f n gn2N eine Folge von unabhängigen, nichtnegativen Zufallsgrössen
mit
Q
E( n ) = 1. Für jedes n 2 N de…nieren wir Fn = ( i : i n) und Mn = ni=1 i . Die
Folge fMn gn2N ist o¤ensichtlich ein positives Martingal, denn
E(Mn+1 jFn ) = E(Mn
n+1 jFn )
= Mn E(
n+1 jFn )
= Mn E(
n+1 )
= Mn :
Nach Korollar 4.26 konvergiert fMn gn2N P -fast sicher gegen eine nichtnegative Zufallsgrösse M1 , und nach dem Lemma von Fatou gilt E(M1 )
lim inf n!1 E(Mn ) = 1.
Nach Satz 4.34 konvergiert fMn gn2N genau dann im 1. Mittel gegen M1 , wenn fMn gn2N
gleichgradig integrierbar ist. In diesem Fall ist natürlich E(M1 ) = 1.
Lemma 4.36
a) Das Martingal fMn gn2N ist genau dann gleichgradig integrierbar, wenn
Y
n2N
E
p
n
>0
gilt.
b) Ist fMn gn2N nicht gleichgradig integrierbar, so gilt M1 = 0 P -fast sicher.
c) Ist fMn gn2N gleichgradig integrierbar und n > 0 P -fast sicher für alle n 2 N , so
gilt auch M1 > 0 P -fast sicher.
p
Q
Beweis. Für jedes n 2 N seien an := E( n ) und bn := ni=1 ai . Nach der Cauchy–
Schwarzschen Ungleichung ist an 1,
wegen P ( n = 0) 6= 1 ist an > 0.
Qundp
a), b): Für jedes n 2 N sei Nn = ni=1
i =ai . Nach derselben Überlegung wie oben
ist fNn gn2N ein fFn gn2N -Martingal, das nach Korollar
Q 4.26 P -fast sicher gegen eine
nichtnegative Zufallsgrösse N1 konvergiert. Ist b1 := 1
i=1 ai > 0, so gilt
K :=
sup E(Nn2 )
n2N
1
n
Y
E( i ) Y 1
1
=
= sup
2
2 = b2 < 1:
a
a
n2N i=1
1
i
i=1 i
104
Nach Satz 4.29 konvergiert fNn gn2N gegen N1 in L2 . Es gilt Mn = b2n Nn2 für jedes n 2 N,
2 P -fast sicher folgt. Ferner folgt mit der Cauchy–Schwarzschen
woraus M1 = b21 N1
Ungleichung
kMn
M1 k1 = k(bn Nn + b1 N1 )(bn Nn
b1 N1 )k1
kbn Nn + b1 N1 k2 kbn Nn b1 N1 k2
p
2 K(bn kNn N1 k2 + jbn b1 j kN1 k2 )
für jedes n 2 N, also konvergiert fMn gn2N gegen M1 im ersten Mittel. Nach Satz 4.33
ist fMnQ
gn2N gleichgradig integrierbar.
Ist 1
i=1 ai = 0, so folgt aus der P -fast sicheren Konvergenz von fNn gn2N gegen
N1 sofort, dass fMn gn2N P -fast sicher gegen null konvergiert. Also gilt M1 = 0 P -fast
sicher, und fMn gn2N konvergiert nicht im ersten Mittel. Nach Satz 4.33 kann fMn gn2N
nicht gleichgradig integrierbar sein. Somit sind a) und b) bewiesen.
c) Wir wissen schon, dass fMn gn2N P -fast sicher und im ersten Mittel gegen M1
konvergiert. Demzufolge ist E(M1 ) = 1 und P (M1 = 0) 6= 1. Für jedes n 2 N sei
nY1
o
Bn :=
=
0
:
i
i=n
Wegen
Qn
1
i=1 i
> 0 P -fast sicher gilt
P (fM1 = 0g 4 Bn ) = 0:
(4.4)
Da fBn gn2N eine absteigende Folge von Ereignissen ist, gilt
\
\
Bn = lim inf Bn 2
( j : j k):
n!1
n2N
k2N
T
Nach dem Kolmogoro¤schen 0-1-Gesetz ist P ( n2N Bn ) 2 f0; 1g, und wegen (4.4) gilt
P fM1 = 0g 4
\
n2N
Bn
X
n2N
P (fM1 = 0g 4 Bn ) = 0:
Aus P (M1 = 0) 6= 1 folgt also P (M1 = 0) = 0:
Wir betrachten nun die folgende Situation: Es seien (E; E) ein beliebiger messbarer Raum sowie f n gn2N und f n gn2N zwei Folgen von Wahrscheinlichkeitsmassen auf
(E; E). Wir setzen voraus, dass für jedes n 2 N die Masse n und n gegenseitig absolutstetig sind. Sei fn eine Dichte von n bezüglich n . Wegen n
n folgt, dass
diese Dichte n -fast sicher positiv ist. Wir können daher annehmen, dass N
fn (x) > 0 für
alle xN
2 E gilt. Auf dem Produktraum ( ; F) := (E N ; E N ) seien P :=
n2N n und
Q := n2N n die zugehörigen Produktmasse. Wir interessieren uns dafür, ob P und Q
ebenfalls gegenseitig absolutstetig sind. Kakutanis Satz gibt dafür ein notwendiges und
hinreichendes Kriterium an.
105
Für jedes n 2 N seien n : ! E die Projektion auf den n-ten Faktor und Fn =
( i : i n). O¤ensichtlich ist fFn gn2N eine Filtrierung von F. Sei n := fn n . Unter
P ist f n gn2N eine Folge unabhängiger Zufallsgrössen mit EP ( n ) = 1 für alle n 2 N. Sei
Z p
p
an := EP ( n ) =
fn d n :
E
Satz 4.37
Q(Satz von Kakutani)
1. Ist 1
P und P
Q. In
n=1 an > 0, so sind P und Q äquivalent, das heisst Q
diesem Fall ist
n
Y
dQ
= M1 := lim
i ; P f:s:
n!1
dP
i=1
Q
2. Ist 1
n=1 an = 0, so sind P und Q zueinander singulär, das heisst, es existiert ein
A 2 F mit P (A) = 1 und Q(A) = 0.
Q
Beweis. 1. Für jedes n 2 N seien Mn := ni=1 i sowie Pn := P jFn und Qn := QjFn .
O¤ensichtlich sind Pn und Qn äquivalent, und es gilt dQn =dPn = Mn P -fast sicher.
Gemäss Lemma 4.36 und Satz 4.34 konvergiert fMn gn2N P -fast sicher und in L1 (P )
gegen M1 , und es gilt Mn = EP (M1 jFn ) P -fast sicher für jedes n 2 N. Daraus ergibt
sich für jedes A 2 Fn
Z
Z
Z
Q(A) = Qn (A) =
Mn dPn =
Mn dP =
M1 dP:
A
A
S
S
A
Dies gilt für alle A 2 n2N Fn . Da n2N Fn ein durchschnittstabiles Erzeugendensystem
von F ist, gilt es für alle A 2 F. Das heisst, Q
P und dQ=dP = M1 P -fast sicher.
Wegen M1 > 0 P -fast sicher (Lemma 4.36 3.) folgt P
Q.
2. Aus dem obigen Lemma wissen wir, dass fMn gn2N P -fast sicher gegen null konvergiert. Wir zeigen nun,
p dass
Q fMn gn2N Q-fast sicher gegen unendlich konvergiert. Da
fNn gpn2N mit Nn := Mn = ni=1 ai ein P -Martingal ist, und ai
1 für alle i 2 N gilt,
ist f Mn gn2N ein P -Supermartingal. Für jedes B 2 Fn ist
Z
Z
Z p
Z p
Z
1
1
1
p
p
p
dQ
dQ =
Mn dP =
Mn dP
Mn+1 dP =
Mn+1
Mn
Mn
B
B
B
B
B
p
(Mn und Mn+1 sind überall strikt positiv gewählt). Demzufolge ist f1= Mn gn2N ein
positives Q-Supermartingal und konvergiert gemäss Korollar 4.26 also Q-fast sicher.
Wegen
Z p
Z
n
Y
1
p
dQ =
ai # 0 für n ! 1
Mn dP =
Mn
i=1
folgt
Q
lim p
n!1
1
=0
Mn
= 1;
also
Q
Somit ist A := f ! 2
lim Mn = 1 = 1:
n!1
: limn!1 Mn (!) = 0 g eine Q-Nullmenge mit P (A) = 1.
106
Beispiel 4.38
Auf (E; E) := (R; B) betrachten wir zwei Folgen f n gn2N und f n gn2N von Wahrscheinlichkeitsmassen, wobei n die Standardnormalverteilung und n die Normalverteilung
mit Varianz 1 und Erwartungswert n 2 R seien. Für jedes n 2 N gilt
d
d
n
2
exp( (x
n ) =2)
= exp(
exp( x2 =2)
(x) =
n
nx
2
n =2);
x 2 R;
und es folgt
an :=
Z s
Z
R
d
d
n
d
n
n
1
x2
p exp
dx
2
4
2
2
R
Z
1
1
n 2
p exp
= exp( 2n =8)
dx
x
2
2
2
R
= exp( 2n =8):
P1
Q1
2
a
>
0
genau
dann,
wenn
O¤ensichtlich
gilt
n
n=1 n < 1 ist. Nach Satz 4.37
n=1
N
N
sind P = n2N n und Q = n2N n also genau dann äquivalent, wenn f n gn2N 2 l2
gilt. Ist dies der Fall, so ist nach diesem Satz
=
exp
nx
2
n
X1
dQ
(x) = exp
n=1
dP
n xn
1 X1
n=1
2
2
n
P
für P -fast alle x = fxn gn2N 2 RN . Die Reihe 1
n=1 n xn konvergiert natürlich nicht
auf ganz RN , sondern nur P -fast sicher. Ausserhalb dieser Menge von P - und Q-Mass 1
können wir die Dichtefunktion nach Belieben festsetzen, zum Beispiel zu eins.
4.5.2
Die Cameron-Martin Formel
Wir diskutieren in diesem Kapitel einen wichtigen Spezialfall von Beispiel 4.38: Die
Cameron-Martin Formel. Wir betrachten dazu die stetige Brownsche Bewegung, aber
nur auf dem Zeitintervall [0; 1] : B = fBt gt2[0;1] . Die Verteilung W von B auf (C; C) =
C [0; 1] ; BC[0;1] ist das eindeutig de…nierte Wiener Mass. Ist h 2 C; so betrachten wir
die Abbildung h : C ! C; de…niert durch h (f ) = h + f: Wir interessieren uns für die
Frage, wann W h 1 und W äquivalent sind, und falls sie äquivalent sind, wie die relative
Dichte aussieht.
Dazu führen wir einen wichtigen Teilraum von C ein, den sogenannten CameronMartin Raum. Zur Erinnerung: L2 [0; 1] ist die Menge der Äquivalenzklassen von
messbaren, quadratisch integrierbaren Funktionen [0; 1] ! R unterR der Äquivalenzret
lation der Lebesgue-f.ü.-Gleichheit. Für h 2 L2 [0; 1] ist das Integral 0 h (s) ds für jedes
t de…niert, denn Funktionen, die fast überall gleich sind, haben dasselbe Integral. Ferner
107
sind quadratisch integrierbare Funktionen auf dem Intervall [0; 1] auch integrierbar. Dieses Integral ist o¤ensichtlich eine stetige Funktion in t: Wir können somit eine Abbildung
j : L2 [0; 1] ! C durch
Z t
h (s) ds
j (h) (t) :=
0
R1
de…nieren. L2 [0; 1] versehen mit dem Skalarprodukt hh1 ; h2 i := 0 h1 (s) h2 (s) ds ist ein
reeller Hilbertraum. Diese Abbildung j ist linear, injektiv, und wie man leicht sieht auch
stetig, d.h. für eine Folge fhn gn2N in L2 [0; 1] und h 2 H gilt:
lim khn
n!1
hk2 = 0 =) lim kj (hn )
n!1
j (h)k1 = 0:
Etwas schwieriger zu sehen ist, dass j kompakt ist. Dies bedeutet, dass das Bild unter
j einer abgeschlossenen beschränkten Teilmenge in L2 [0; 1] kompakt in C ist (bezüglich
der Supremumsnorm auf C) :
Kr := fj (h) : khk2
rg
ist für jedes r > 0 eine kompakte Teilmenge von C: Wir werden diese (an sich wichtige) Eigenschaft nicht beweisen, da wir sie hier nicht benützen werden. Der Leser kann
versuchen, dies selbst zu beweisen. (fh 2 L2 [0; 1] : khk2 rg selbst ist keine kompakte
Teilmenge von L2 [0; 1]). Wir de…nieren den Cameron-Martin-Raum
H := fj (h) : h 2 L2 [0; 1]g :
H ist ein linearer Unterraum von C (im Sinne der linearen Algebra). Für g 2 H ist
wegen der Injektivität von j das Element h 2 L2 [0; 1] mit g = j (h) eindeutig de…niert.
Wir schreiben dafür (etwas missbräuchlich): h = g 0 . H ist eine dichte Teilmenge von
C: Dies folgt einfach daraus, dass sich jede stetige Funktion gleichmässich durch stetig
di¤erenzierbare Funktionen approximieren lässt, also insbesondere durch Funktionen in
H: (Die Menge der stetig di¤erenzierbaren Funktionen ist o¤ensichtlich eine Teilmenge
von H). Es ist jedoch wichtig zu bemerken, dass H 6= C ist. In der Tat ist H eine Nullmenge unter dem Wiener-Mass. Dies folgt daraus, dass eine Funktion g 2 H Lebesgue
fast überall di¤erenzierbar ist (was wir nicht bewiesen haben, aber was nicht sehr schwer
zu zeigen ist). Da unter dem S
Wiener Mass fast alle Funktionen nirgends di¤erenzierbar
sind, folgt W (H) = 0: (H = n2N Kn ist als abzählbare Vereinigung kompakter Mengen
natürlich eine Borel-Menge in C).
j de…niert eine Bijektion zwischen L2 [0; 1] und H: Wir können daher auch H als
Hilbert-Raum au¤assen. Für g; g1 ; g2 2 H schreiben wir hg1 ; g2 iH für hg10 ; g20 iL2 [0;1] und
qR
p
1 0
2
kgkH für hg; giH =
0 g (s) ds:
Satz 4.39
W g 1 ist genau dann absolut stetig bezüglich W; wenn g 2 H ist. Ist g 2
= H; so sind
1
1
W g und W gegenseitig singulär, d.h. es existiert A 2 C mit W g (A) = 1, W (A) = 0:
Ist g 2 H; so gilt
Z 1
d W g1
1 0 2
(f ) = exp
g 0 df
g 2 :
(4.5)
dW
2
0
108
Wir beweisen hier nur die eine Richtung, nämlich dass für g 2 H die Masse absolut
stetig mit der angegebenen Dichte sind. Dem aufmerksamen Leser sollte jedoch ins
R 1Auge
springen, dass die obige Formel eigentlich unsinnig ist: Es ist nicht klar, wie wir 0 g 0 df
für alle f 2 C de…nieren sollen. Die naheliegende De…nition ist
Z 1
Z 1
g (s) f 0 (s) ds:
g df =
0
0
Das ist sicher nicht für alle f 2 C defniert. Der Ausweg besteht darin, dass wir diesen
Ausdruck nicht wirklich für alle f 2 C de…nieren müssen, sondern nur für W -fast alle
f: Das hilft aber o¤ensichtlich im Moment auch nicht sehr viel weiter, denn wir wissen
schon, dass W -fast alle Funktionen nirgends di¤erenzierbar sind. Einen Ausweg erhalten
wir, wenn wir voraussetzen, dass g 0 selbst nochmals di¤erenzierbar ist. In diesem Fall
können wir die Sache durch partielle Integration de…nieren:
Z 1
Z 1
Z 1
s=1
g 00 (s) f (s) ds:
g 00 (s) f (s) ds = g 0 (1) f (1)
g 0 df := g 0 (s) f (s) s=0
0
0
0
O¤ensichtlich sind jedoch nicht alle Funktion g 2 H zweimal di¤erenzierbar, sodass wir
hier auf Schwierigkeiten stossen.
Bevor wir den obigen Satz beweisen, müssen wir uns daher zunächst dieser Schwierigkeit annehmen: Wir bezeichnen mit C 2 die Menge der zweimal stetig di¤erenzierbaren
Funktion [0; 1] ! R: O¤ensichtlich gilt C 2 H: Ferner ist C 2 dicht in H (bezüglich der
Norm k kH ): Dies folgt zum Beispiel daraus, dass es vollständige Orthonormalsysteme
in L2 [0; 1] gibt, die aus unendlich oft di¤erenzierbar Funktionen bestehen, wie etwa die
trigonometrischen Funktionen. Für g 2 C 2 de…nieren wir die Abbildung g : C ! R
durch
Z
1
0
g (f ) := g (1) f (1)
g 00 (s) f (s) ds:
0
Wir können
fassen.
g
als reelle Zufallsgrösse auf dem Wahrscheinlichkeitsraum (C; C; W ) auf-
Lemma 4.40
Ist g 2 C 2 , so ist
g
normalverteilt mit Mittel 0 und Varianz kg 0 k22 :
Beweis. Hier nur eine Skizze. Der Leser möge die fehlenden Details als Übungsaufgabe
einfügen.
Durch die Riemann-Approximation des Integrals und unter Verwendung von Lemma
109
3.10 folgt, dass
Z
g
g
normalverteilt ist mit Mittel 0 und Varianz
!
Z
2
(f )2 W (df ) = E
1
g 0 (1) B (1)
g 00 (s) B (s) ds
0
=
0
g (1)
2
2
Z
1
Z
2
2g (1)
0
0
2
00
1
Z
1
ds g (s) E (B (1) B (s)) +
ds
dt g 00 (s) g 00 (t) E
0
0
0
Z 1 Z 1
Z 1
dt g 00 (s) g 00 (t) min (s; t)
ds
ds g 00 (s) s +
2g 0 (1)
E B (1)
g 0 (1)
Z 1
ds g 0 (s)
=
=
0
0
:
0
Die Vertauschung von Erwartungswert und Integral in der zweiten Gleichung ist einfach
(via die Riemann-Approximation) zu rechtfertigen, und die letzte Gleichung folgt mit
einer elementaren partiellen Integration.
Die Abbildung g ! g ist eine lineare Abbildung C 2 ! L2 (C; C; W ) : Wir bezeichnen
diese Abbildung mit : Nach dem obigen Lemma gilt
k
g kL2 (C;C;W )
= kgkH :
(4.6)
Wegen der Vollständigkeit von L2 (C; C; W ) können wir daher eindeutig zu einer Abbildung H ! L2 (C; C; W ) ; die ebenfalls (4.6) erfüllt, erweitern: Wir wählen zu jedem
g 2 H eine Folge fgn gn2N
C 2 mit kgn gkH ! 0: Nach dem obigen Lemma ist die
Folge f gn g eine Cauchy-Folge in L2 (C; C; W ) und wir de…nieren g als deren Limes in
L2 (C; C; W ) : Man weist dann leicht nach, dass g auf diese Weise eindeutig de…niert
ist (als Element von L2 (C; C; W )): Wie schon oben ausgeführt, sind die gn zentriert
normalverteilt mit Varianz kgn k2H : Nach Lemma ? ist daher g : C ! R unter dem
Wiener Mass zentriert normalverteilt mit Varianz kgk2H : Die Formel (4.5) können wir
nun wie folgt präzsieren: Für g 2 H gilt
d W g1
= exp
dW
1
kgk2H :
2
g
Man beachte, dass W -integral über die rechte Seite auch wirklich gleich 1 ist. Das liegt
am folgenden Faktum:
Lemma 4.41
Sei X eine zentrierte normalverteilte Zufallsgrösse mit Varianz
2 R die Zufallsgrösse e X integrierbar und es gilt:
Ee
X
2:
Dann ist für jedes
2 2
= exp
2
:
Beweis. Mit einer quadratischen Ergänzung des Exponenten folgt sofort:
Z 1
2 2
1
x2
X
=
exp
:
Ee =
e xp
exp
2 2
2
2 2
1
110
Damit haben wir dem Satz 4.39 einen wohlde…nierten Sinn gegeben. Es bleibt uns
nur noch, den Satz auch wirklich zu beweisen.
Beweis von Satz 4.39. Wir verwenden die Konstruktion des Wiener-Masses mit Hilfe der Haar-Basis. Zur Vereinfachung der Notation numerieren wir die Haar-Basis von
L2 [0; 1] fortlaufend durch: h1 ; h2 ; : : : . Wir setzen gi = j (hi ) 2 C: Wir betrachten den
Wahrscheinlichkeitsraum RN ; B N ; P ; wobei P das unendliche Produktmass der Standardnormalverteilung ist. Die Projektionen i : RN ! R sind dann unabhängig und
standard
normalverteilt. Aus der Diskussion in Kapitel ? ersehen wir, dass die Folge
PN
g
für N ! 1 mit P -Wahrscheinlichkeit 1 gleichmässig gegen eine C-wertige Zui
i=1 i
fallsgrösse konvergiert, deren Verteilung das Wiener-Mass W auf (C; C) ist. Wir können
N
das auch wie folgt ausdrücken: Es existiert eine
P1Menge A 2 B mit P (A) = 1; sodass
für alle x = (xi )i2N 2 A; die Reihe (x) := i=1 xi gi 2 C existiert (als gleichmässiger
Limes). De…nieren wir (x) als die Nullfunktion (oder irgendeine Lieblingsfunktion des
1 = W:
Lesers) für x 2
= A, so ist : RN ! C eine B N C-messbare Abbildung mit P
0
0
Sei nun g 2 H; d.h. g 2 L2 [0; 1] : Dann gelten mit ai := hg ; hi i
1
X
i=1
0
g =
a2i < 1
1
X
(4.7)
ai hi
i=1
P
in L2 [0; 1] : Wegen der Stetigkeit von j gilt dann g = 1
i=1 ai gi in (C; k k1 ) : Ist für
a 2 R; a die Normalverteilung mit Mittel a und Varianz 1; und ist P 0 := a1
:::
a2
N
N
0
auf R ; B ; so gilt nach (??), dass P absolut stetig bezüglich P ist mit
X1
dP 0
1 X1 2
(x) = exp
ai xi
a
i=1
i=1 i
dP
2
1
= exp g
kgk2H ( (x)) ; P f:s:
2
1
1 = W; sondern auch P 0
1 = W
Anderseits ist natürlich nicht nur P
g : Daraus
folgt sofort, dass W g 1 absolut stetig bezütlich W ist und mit der obigen Formel:
dW g 1
= exp
dW
g
1
kgk2H ; W f:s:
2
Dass W g 1 und W äquivalent sind (d.h. dass auch W absolut stetig bezüglich W
ist) folgt aus der Tatsache, dass die obige Dichte W -fast überall positiv ist.
Literatur
[1] Bauer, Heinz: Mass- und Integrationstheorie. De Gruyter 1990.
[2] Bauer, Heinz: Wahrscheinlichkeitstheorie. De Gruyter 1991.
111
g
1
Herunterladen