Angewandte Stochastik - Mathematisches Institut

Werbung
Universität Basel
Frühlingsemester 2017
Angewandte Stochastik
Giuseppe Genovese
Institut für Mathematik, Universität Zürich, CH-8057 Zürich, Switzerland
&
Matematisches Institut, Universität Basel, Spiegelgasse 1, 4051 Basel,
Switzerland.
email: [email protected]; [email protected]
Inhaltsverzeichnis
Kapitel 1. Einführende Begriffe
1. Notation und Terminologie
2. Bedingte Wahrscheinlichkeiten und Bedingter Erwartungswert
3. Reguläre bedingte Wahrscheinlichkeiten
4. Stochastische Prozesse
Anhang: der Radon-Nikodym Satz
3
3
4
10
12
16
Kapitel 2. Markoff-Ketten
1. Definitionen, starke Markoff-Eigenschaft und Beispiele
2. Rekurrenz und Transienz
3. Noch mehr über Irrfahrten
4. Invariante Masse
21
21
26
31
38
Kapitel 3. Martingale mit diskretem Zeitparameter
1. Erste Definitionen und Eigenschaften
2. Stoppzeiten für Martingale
47
47
50
Literaturverzeichnis
55
1
KAPITEL 1
Einführende Begriffe
1. Notation und Terminologie
Ein messbarer Raum ist ein Paar (Ω, F), wobei Ω eine nicht leere Menge und F
eine σ-Albegra ist. Ein Massraum ist ein Tripel (Ω, F, µ), wobei (Ω, F) ein messbarer Raum und µ ein Mass ist. Wir sprechen von einem Wahrscheinlichkeitsraum,
wenn µ(Ω) = 1 ist.
(Ω, F, P ) bezeichnet durchweg einen Wahrscheinlichkeitsraum. B(Ω) ist die
Borel-σ-Algebra auf Ω, d.h. die kleinste σ-Algebra, die von den offenen Mengen
erzeugt ist. λn ist das Lebesgue Mass auf (Rn , B(Rn )).
Sind (Ω, F) und (Ω0 , F 0 ) zwei messbare Räume, so heisst eine Abbildung f :
Ω 7→ Ω0 F − F 0 -messbar (kurz m.b.), wenn für jedes B ∈ F 0 f −1 (B) ∈ F. Eine
Zufallsvariable X auf (Ω, F, P ) ist eine F − B(R)-m.b. Abbildung. Wir verwenden
oft die kurze Notation "X ist F-m.b." für Zufallsvariablen X auf F. Ist X eine
Zufallsvariable auf (Ω, F, P ), so bezeichnet σ(X) := {X −1 (B) : B ∈ B(R)} die
von X erzeugte σ-Algebra. Wir geben ohne Beweis den folgenden wichtigen Satz
an:
Satz 1.1. Ist Y eine σ(X)-m.b. Zufallsvariable, so existiert eine B(R)-m.b.
Funktion Φ mit Y = Φ ◦ X.
Wir sagen, dass eine Eigenschaft P -fast sicher gilt (kurz P -f.s.), wenn ihre
Wahrscheinlichkeit Eins ist.
Ist µ ein Mass auf F und f : Ω 7→ Ω0 , so ist das Mass µf −1 auf (Ω0 , F 0 )
definiert durch µf −1 (B) := µ(f −1 (B)) das induzierte Mass. Das induzierte Wahrscheinlichkeitmass P X −1 , das ein Wahrscheinlichkeitmass auf (R, B(R)) ist, nennt
man die Verteilung von X. Wir schreiben
Z
Z
E[X] =
P (dω)X(ω) =
P X −1 (dx)x .
Ω
R
X hat eine Dichte, wenn P X −1 absolut stetig bezüglich λ ist, und der Erwartungswert lässt sich in diesem Fall als
Z
d(P X −1 )
E[X] =
xdx
dx
R
darstellen.
3
2. Bedingte Wahrscheinlichkeiten und Bedingter Erwartungswert
Erstens erinnern wir an die Definition bedingter Wahrscheinlichkeit:
Definition 2.1. Seien A, B ∈ Ω mit P (B) > 0. Die bedingte Wahrscheinlichkeit von A gegen B P (A|B) ist durch
P (A ∩ B)
P (B)
P (A|B) :=
(2.1)
definiert.
Wir können diese Definition einfach mit diskreten Zufallsvariablen anwenden.
Sei I eine abzählbare Menge, X : Ω → I eine Zufallsvariable und IX := {x ∈ I :
P (X = x) > 0}. Dann ist
P (A|{X = x}) =
P (A ∩ {X = x})
,
P (X = x)
∀x ∈ IX .
(2.2)
Wir bemerken, dass {P (A|{X = x})}x∈IX eine σ(X)-m.b. Funktion auf Ω darstellt, die konstant auf jedem Ereignis {X = x} ist. Da es eine Zufallsvariable ist,
bezeichnen wir sie mit P (A|σ(X)). Es gilt die folgende Formel:
P (A ∩ B) = E[1B P (A|σ(X))] ,
(2.3)
für A ∈ F und B ∈ σ(X). Der Beweis
verwendet den Satz über die totale WahrS
scheinlichkeit. Sei nämlich B = x∈IX Bx mit Bx := {X = x} ∩ B, so dass
!
[
P (A ∩ B) = P A ∩ Bx
x
=
X
P (A ∩ Bx ) =
X
x
=
X
P (A ∩ B|{X = x})P ({X = x})
x
P (A|{X = x})P (X = x)1B = E[1B P (A|σ(X))] .
(2.4)
x
Übung 2.1. Verallgemeiern Sie die obige Konstruktion für Zufallsvariablen
X : Ω 7→ R.
Der allgemeine Fall verlangt eine andere Annäherung. Wir setzen P̃A (B) :=
P (A ∩ B), so dass P̃A ein bezüglich P absolutstetiges Mass auf Ω definiert (dies
folgt aus 0 ≤ P (A ∩ B) ≤ P (B)). Offenbar ist im allgemeinen P (X = x) = 0 für
gegebenes x, so dass (2.2) unsinnig ist. Jedoch können wir beliebig kleine Mengen
betrachten: Sei ε > 0 und Cε ∈ F mit P (Cε ) < ε. Dann haben wir
P (A|Cε ) =
P (A ∩ Cε )
.
P (Cε )
4
Die entscheidende Idee ist, den Limes ε → 0 zu nehmen. Nach dem Satz von
Radon-Nikodym (sehen Sie den Anhang) existiert eine eindeutige (P -f.s.) G-m.b.
P̃A
Funktion ddP
(die Radon-Nikodym Ableitung) mit
Z
dP̃A
P̃A (B) =
P (dω)
,
(2.5)
dP
B
für alle B ∈ σ(X). Wir sehen sofort, dass (2.3) und (2.5) dieselbe Relation sind.
P̃A
eine σ(X)-m.b. Funktion auf Ω in [0, 1] (der leichte Beweis ist dem
Dabei ist ddP
Leser überlassen) und es gibt natürlich eine P -f.s. eindeutige σ(X)-m.b. Zufallsvariable, die (2.3) (oder (2.5)) für alle B ∈ σ(X) erfüllt. Ferner können wir diese
Konstruktion für eine beliebige Teil-σ-Algebra von F anwenden. Das begründet
die folgende Definition
Definition 2.2. Sei G eine Teil-σ-Algebra von F. Wir bezeichnen als die
bedingte Wahrscheinlichkeit von A ∈ F gegen G, P (A|G) : Ω 7→ [0, 1], die P -f.s.
eindeutige G-m.b. Zufallsvariable die
P (A ∩ B) = E[1B P (A|G)] ,
(2.6)
erfüllt.
Sei Y eine Zufallsvariable mit E[|Y |] < ∞. In dem diskreten Fall ist der bedingte Erwartungswert der Zufallsvariable Y gegen X definiert als
Z
E[Y |{X = x}] :=
P (dω|{X = x})Y (ω)
Z
E[1{X=x} Y ]
Y (ω)
P (dω)
=
=
.
(2.7)
P ({X = x})
P ({X = x})
{X=x}
Nochmals können wir {E[Y |{X = x}]}x∈I als eine σ(X)-m.b. Zufallsvariable interpretieren:
X E[1{X=x} Y ]
1{X=x} (ω) , ω ∈ Ω .
(2.8)
E[Y |X] =
P ({X = x})
x∈I
Eine direkte Berechnung ergibt
E[1B E[Y |X]] = E[1B Y ] ,
(2.9)
für alle B ∈ σ(X). Diese Relation bestimmt eine P -f.s. eindeutige Zufallsvariable
E[Y |X] (für diskrete Zufallsvariablen). Abermals erlaubt der Radon-Nikodym Satz
die Definition für den allgemeinen Fall zu geben. Zuerst berechnen wir Y ≥ 0 P f.s. und definieren P̄Y (B) := E[1B Y ] für B ∈ σ(X) und bemerken, dass für jedes
B ∈ σ(X)
|P̄Y (B)| = |E[1B Y ]| ≤ E[1B |Y |] ≤ E[|Y |] < ∞ .
5
Ferner seien {Bn }n∈N disjunkte Mengen in Ω, so dass {Xn ∈ Bn }n∈N auch disjunkt
sind. Dann ist
!
[
X
X
P̄Y
Bn = E 1Sn Bn Y =
E[1Bn Y ] =
PY (Bn ) ,
n
n
n
woraus die σ-Additivität von P̄Y folgt. Somit ist P̄Y ein Mass auf Ω, das absolutstetig bezüglich P ist. Aus dem Satz von Radon-Nikodym (cfr. Anhang) folgt,
P̄Y
eine σ(X)-m.b. Zufallsvariable ist mit
dass ddP
Z
dP̄Y
P (dω)
= P̄Y (B) ,
für alle B ∈ σ(X) .
dP
B
Dies ist äquivalent zu (2.9). Im allgemeinen Fall gilt die Zerlegung Y = Y + − Y +
mit Y + := max(Y, 0) ≥ 0 P -f.s. und Y − := − min(Y, 0) ≥ 0 P -f.s., so dass
P̄Y = P̄Y + − P̄Y − gilt, wobei P̄Y± zwei Masses sind (diese ist die Hahn’sche Zerlegung
von P̄Y ). Damit haben wir einfach
dP̄Y
dP̄Y +
dP̄Y −
=
−
dP
dP
dP
Wir geben daher die folgende Definition für den bedingten Erwartungswert
Definition 2.3. Sei G eine Teil-σ-Algebra von F. Für jede integrierbare Zufallsvariable Y ist der bedingte Erwartungswert E[Y |G] die P -f.s. eindeutige G-m.b.
Zufallsvariable, die
E[1B E[Y |G]] = E[1B Y ]
(2.10)
für jedes B ∈ G erfüllt. Ausserdem schreibt man E[Y |X] anstelle von E[Y |σ(X)].
Wir haben hier die Definition für eine beliebige Teil-σ-Algebra von F angegeben.
Bemerkung 2.1.
i) Bedingte Wahrscheinlichkeiten sind einfache Spezialfälle von bedingten
Erwartungswerten: P (A|G) = E[1A |G].
ii) Die Zufallsvariable Y erfüllt trivialerweise (2.10), aber sie ist nicht immer
G-m.b. Wenn Y G-m.b. ist, dann E[Y |G] = Y . Z. B. gilt E[Y |X] = Y ,
wenn Y σ(X)-m.b. ist, d.h. Y = ϕ(X) mit einer Borel Funktion ϕ (gamäss
Satz 1.1). Im Allgemeinen existiert eine σ(X)-m.b. Abbildung Φ, so dass
E[Y |X] = Φ(X).
Übung 2.2. Beweisen Sie, dass, wenn G die triviale σ-Algebra (d.h. G = {∅, Ω})
ist, dann gilt E[X|G] = E[X] P -f.s.
Der folgende Satz listet einige nützliche Eigenschaften der bedingten Erwartungswerter auf.
Satz 2.1. Es seien X, X 0 ∈ L1 (Ω, F, P ) und G, G 0 Teil-σ-Algebren von F. Dann
gilt
6
(1) Sind X und G unabhängig, so gilt E[X|G] = E[X] P -f.s.
(2) Für α, β ∈ R gilt E[αX + βX 0 |G] = αE[X|G] + βE[X 0 |G] P -f.s.
(3) Ist X ≥ X 0 P -f.s., so gilt E[X|G] ≥ E[X 0 |G] P -f.s.
(4) Es gilt |E[X|G]| ≤ E[|X||G] P -f.s.
(5) Ist G 0 ⊂ G, so gilt E[E[X|G]|G 0 ] = E[X|G 0 ] P -f.s.
Beweis.
(1) Aus der Definition der Unabhängigekeit und des bedingte Erwartungswert
es folgt
E[1B E[X|G]] = E[1B X] = P (B)E[X] = E[1B E[X]] ,
für alle B ∈ G .
Da die konstante Abbildung ω 7→ E[X] G-m.b. ist, finden wir E[X|G] =
E[X] P -f.s.
(2) Da X, X 0 G-m.b. sind, so gilt dies für deren Linearkombinationen. Ausserdem gilt
E[1B E[αX + βX 0 |G]] =
=
=
=
E[1B (αX + βX 0 )]
αE[1B X] + βE[1B X 0 ]
αE[1B E[X|G]] + βE[1B E[X 0 |G]]
E[1B (αE[X|G] + βE[X 0 |G])]
für alle B ∈ G.
(3) Für jedes B ∈ G gilt
E[1B E[X|G]] = E[1B X] ≥ E[1B X 0 ] = E[1B E[X 0 |G]] ,
woraus (3) folgt.
(4) Seien X + := max(X, 0) und X − := − min(X, 0), so dass X = X + − X −
und |X| = X + + X − . Aus (2) und
|E[X + − X − |G]| ≤ |E[X + + X − |G]| = E[X + + X − |G]
folgt (4).
(5) B ∈ G 0 impliziert B ∈ G. Daher gilt für alle B ∈ G 0
E[1B E[E[X|G]|G 0 ]] = E[1B E[X|G]] = E[1B X] = E[1B E[X|G 0 ]] .
Übliche Konvergenzsätze für bedingte Erwartungswerte:
7
Satz 2.2. Seien X und {Xn }n∈N integrierbare Zufallsvariablen und G eine Teilσ-Algebra von F.
(1) Monotone Konvergenz: Ist Xn ≥ 0 und Xn % X P -f.s., so gilt
E[Xn |G] % E[X|G] P -f.s.
(2) Lemma von Fatou: Ist Xn ≥ 0 und Xn → X P -f.s., so gilt
E[X|G] ≤ lim inf E[Xn |G]
P -f.s.
n
(3) Satz von Lebesgue: Existiert Y ∈ L1 (Ω, F, P ) mit |Xn | ≤ Y für alle
n ∈ N und Xn → X P -f.s., so ist E[X|G] = limn E[Xn |G] P -f.s.
Beweis.
(1) Monotone Konvergenz: Wir benutzen zweimal den üblichen Satz über
Monotone Konvergenz. Zunächs Xn ≥ 0 und Xn % X P -f.s. implizieren
E[Xn |G] % Y P -f.s., wobei Y eine G-m.b. Zufallsvariable ist, mit Y ≤
E[X|G] P -f.s. Dann gilt für alle B ∈ G
E[1B (E[X|G] − Y )] = E[1B X] − E[1B lim E[Xn |G]]
n
= E[1B X] − lim E[1B E[Xn |G]] = E[1B X] − E[1B X] = 0 ,
n
somit ist Y = X P -f.s.
(2) Lemma von Fatou: Wir setzen Yk := E[inf n≥k Xn |G] und bemerken,
dass {Yk }k∈N eine monotone Folge von nicht-negativen Zufallsvariablen ist.
Es folgt, wegen (1), dass Yk % E[X|G] P -f.s. gilt. Offenbar ist E[inf n≥k Xn |G] ≤
inf n≥k E[Xn |G], also gilt für alle B ∈ G
E[X|G] ≤ lim inf E[Xn |G] = lim inf E[Xn |G], P − f.s.
k
n
n≥k
(3) Satz von Lebesgue: Die Zufallsvariablen Xn +Y und Y −Xn sind nichtnegative P -f.s. Daher folgen aus den Lemma von Fatou
E[X + Y |G] ≤ lim inf E[Xn + Y |G] ,
n
E[−X + Y |G] ≤ lim inf E[Xn + Y |G] .
n
und wegen − lim sup Xn = lim inf(−Xn ) ist
lim sup E[Xn |G] ≤ E[X|G] ≤ lim inf E[Xn |G] .
n
n
Satz 2.3. Seien X, Y zwei integrierbare Zufallsvariablen mit E[XY ] < ∞. Sei
G eine Teil-σ-Algebra von F und sei Y G-m.b. Dann gilt
E[XY |G] = Y E[X|G] P − f.s.
8
Beweis. Zuerst weisen wir den Satz für einfache Funktionen nach. Sei C ∈ G
und Y := 1C . So gilt für jedes B ∈ G
E[1B E[XY |G]] = E[1B XY ] = E[1B∩C X] = E[1B∩C E[X|G]] = E[1B Y E[X|G]]
d.h. E[XY |G] = Y E[X|G] P -f.s. Der Satz ist daher für einfache Funktionen mit
der Linearität des bedingten Erwartungswerts beweisen. Man erstreckt das Ergebnis über nicht-negative Y via monotone Konvergenz und endlich über allgemeine
Zufallsvariablen mittels Zerlegung in Positiv- und Negativteil.
Bemerkung 2.2. Wir können den bedingten Erwatungswert auch für nicht
integrierbare Zufallsvariablen definieren. Wenn X ≥ 0 ist, setzen wir Xn :=
min(n, X) und definieren
E[X|G] := lim E[Xn |G] .
n
Aus Punkt (3) von Satz 2.1 sehen wir, dass die Folge {E[Xn |G]}n∈N P -f.s. ansteigend ist, aber der Limes kann dennoch endlich sein (z. B. wenn F = G ist, dann
gilt E[X|G] = X).
Für allgemeine Zufallsvariablen X wir benützen die übliche Zerlegung in Positivund Negativteil X : X + − X − , so dass E[X|G] = E[X + |G] − E[X − |G], sofern
E[X ± |G] endlich sind.
Der folgende Satz verallgemeinert die Jensensche Ungleichung für bedingte
Erwartungswerte.
Lemma 2.1. Sei ϕ : R 7→ R eine konvexe Funktion, X eine integrierbare
Zufallsvariable und G eine Teil-σ-Algebra von F. Ist E[ϕ(X)] < ∞, so gilt
ϕ(E[X|G]) ≤ E[ϕ(X)|G] .
(2.11)
Beweis. Die Konvexität von ϕ ergibt
ϕ(y) − ϕ(x) ≥ ψz (x)(x − y) ,
für jedes z ∈ [x, y], wobei ψz (x) := ϕ(z)−ϕ(x)
. Wir nehmen y = X und x = E[X|G],
z−x
so dass
ϕ(X) − ϕ(E[X|G]) ≥ ψz (E[X|G])(E[X|G] − X) .
Wir bemerken, dass ψz (E[X|G]) offenbar eine G-m.b. Zufallsvariable ist, also
E[ψz (E[X|G])(E[X|G] − X)|G] = ψz (E[X|G])E[(E[X|G] − X)|G]
= ψz (E[X|G])(E[E[X|G]] − E[X|G]) = 0 .
Somit ergibt die Anwendung des bedingten Erwartungwertes (2.11).
Übung 2.3. Beweisen Sie das obige Lemma für konvexe und nicht-negative ϕ,
aber ohne die Voraussetzung E[ϕ(X)] < ∞.
9
3. Reguläre bedingte Wahrscheinlichkeiten
Wir haben die bedingte Wahrscheinlichkeit als eine Zufallsvariable vorgestellt
und die Definitionen bedingter Wahrscheinlichkeit und des bedingten Erwartungswertes sind unabhänginge. Der Grund ist, dass die bedingte Wahrscheinlichkeit
nicht immer eine Wahrscheinlichkeit ist. Es ist einfach zu beweisen, dass, falls G
eine Teil-σ-Algebra von F ist, dann ist P (A|G) ∈ [0, 1] P -f.s. mit P (A|G) = 0
P -f.s. genau dann, wenn A = ∅ und P (A|G) = 1 genau dann, wenn A = Ω. Ferner
sei {Bn }n∈N ⊆ F eine Folge disjunkter Teilmengen von Ω, dann gilt
!
[
X
P
Bn G =
P (Bn |G) , P − f.s.
(3.1)
n∈N
n∈N
Übung 3.1. Beweisen Sie die obige Formel (P -f.s. σ-Additivität).
Das Problem ist, dass alle diese Eigenschaften nur P -f.s. gelten. Für eine gegebene Folge {Bn }n∈N könnte also insbesondere eine Nullmenge existieren, so dass
(3.1) nicht erfüllt ist. Da im Allgemeinen überabzählbar viele Folgen {Bn }n∈N
disjunkter Teilmengen von Ω existieren, könnte die σ-Additivität also für eine
überabzählbare Vereinigung von Nullmengen ungültig sein.
Um diesen Punkt erklären, diskutieren wir nun ein Beispiel (nach Dieudonné,
1948). Wir betrachten die Borel σ-Algebra auf [0, 1] B([0, 1]) und eine Vitalische
Menge, die wir V nennen. Sei B 0 die kleinste σ-Algebra, welche B([0, 1]) und V
anthält. Es ist einfach zu zeigen, dass für jedes A ∈ B 0 B, C ∈ B([0, 1]) existieren,
so dass
A = (V ∩ B) ∪ (V c ∩ C) .
Wir betrachten ein Wahrscheinlichkeitsmass auf ([0, 1], B 0 ), definiert durch
1
P (A) = (λ(B) + λ(C)) , A ∈ B 0 .
2
Offenbar P (A) = λ(A), falls A ∈ B([0, 1]) und P (V ) = 12 . Ausserdem ist B eine
Teil-σ-Algebra von B 0 , und P (·|B) ist ein bedingtes Wahrscheinlichkeitsmass. Für
{An }n∈N ⊂ B([0, 1]) mit A := ∪n An , wir betrachten die Folge Vn := V ∩ An , mit
∪n Vn = V ∩ A. Nun beachten wir
1
E[1B P (V ∩ A|B)] = P (B ∩ V ∩ A) = E[1B P (V ∩ A)] = E 1B 1A , (3.2)
2
für alle A, B ∈ B. Also
1
P − f.s.
P (V ∩ A|B) = 1A
2
Sei
\
1
Y(A) := ω ∈ [0, 1] : P (V ∩ A|B) = 1A , Y :=
Y(A) .
2
A∈B
10
Für jedes A ∈ B, ist Y(A) Borel-massbar mit P (Y(A)) = 1. Wir zeigen, dass
P (Y) < 1 ,
so dass die sub-Additivität von P (·|B) auf einer Menge positiver Masses nicht
besteht. Falls ω ∈ Y, dann
1
1
P (V ∩ Y|B)(ω) = 1Y (ω) 6= 1Y/{ω} (ω) = P (V ∩ Y/{ω}|B)(ω) ,
2
2
daher V ∩ Y =
6 V ∩ Y/{ω} d.h. ω ∈ V . Somit ergibt Y ⊆ V die Ungleichnung
P (Y) ≤ 21 .
Wir können jetzt die folgende Definition geben:
Definition 3.1. Sei G eine Teil-σ-Algebra von F. Wir nennen P ∗ (·|G) reguläre
bedingte Wahrscheinlichtkeit von P gegen G, wenn P ∗ (·|G) = P (·|G) P -f.s. und
für jedes ω ∈ Ω P ∗ (·|G) ein Wahrscheinlichtkeit mass auf G ist.
Diese Definition erlaubt die bedingten Erwartungswerte gerade bezüglich der
bedingten Wahrscheinlichtkeit zu definieren.
Proposition 3.1. Sei P ∗ eine reguläre bedingte Wahrscheinlichtkeit auf G und
Y eine Zufallsvariable auf (Ω, G) mit E[|Y |] < ∞. Dann gilt
Z
E[Y |G] = Y (ω)P ∗ (dω|G) P − f.s.
(3.3)
Beweis. Zuerst betrachten wir die Zufallsvariable 1B für B ∈ G. Wegen der
Definition der regulären bedingten Wahrscheinlichtkeit gilt dann
Z
∗
E[1B |G] = P (B|G) = P (B|G) = 1B P ∗ (dω|G) P − f.s.
So haben wir (3.3) für einfache Funktionen bewiesen. Wir verwenden Satz 2.2, (1)
und, dass einfache Funktionen dicht in positiven integrierbaren Funktionen sind,
um den Beweis beliebige positive integrierbare Y zu erweitern. Das Ergebnis im
allgemeinen Fall folgt wie in Satz 2.2, (3).
Übung 3.2. Beweisen Sie die Hölder Ungleichung für bedingte Wahrscheinlichtkeiten aus der normalen Hölder Ungleichung:
1
1
E[|XY ||G] ≤ E[|X|p |G] p E[|Y |q |G] q ,
mit
1
p
+
1
q
= 1.
Wenn man nur die Borel σ-Algebra betrachtet, dann existiert immer eine reguläre bedingte Wahrscheinlichtkeit, wie angegeben im nächsten Satz. Wir lassen
den Beweis aus.
Satz 3.1. Sind (Ω, B(Ω), P ) eine Borel Wahrscheinlichtkeitsraum und G eine
Teil-σ-Algebra von B(Ω), so existiert eine reguläre bedingte Wahrscheinlichtkeit
von P gegen G.
11
Wir bemerken, dass die Borel Annahme nicht zu restriktiv ist, da man sich
meistens für die bedingten Wahrscheinlichtkeiten von Ereingnissen, die durch Zufallsvariablen (d.h. Borel massbare Funktionen) definiert sind, interessiert.
Zum Schluss, diskutieren wir (reguläre) bedingte Wahrscheinlichkeitsdichten.
Seien X, Y zwei Zufallsvariablen auf (Ω, B(Ω), P ) deren gemeinsame Wahrscheinlichkeitsmass absolut stetig ist, mit Dichte f (x, y):
Z
P ((X, Y ) ∈ A) =
f (x, y)dxdy ∀A ∈ B(Ω × Ω) .
A
Sei f (y) die Randdichte
f˜(y) :=
Z
dxf (x, y) .
Wir definieren
( f (x,y)
fX|Y (x, y) :=
f˜(y)
0,
, f˜(y) > 0
f˜(y) = 0 .
(3.4)
Dann ist fX|Y (x, y) die Dichte der regulären bedingten Wahrscheinlichkeit:
Z
P (X ∈ A|Y ) =
dxdyfX|Y (x, y) .
(3.5)
A
Die obige Gleichung hat einen einfachen Beweis. Für alle Borel Mengen A, B gilt
Z
Z
Z
P (A ∩ B) =
dy dxf (x, y) =
f˜(y)dyP (X ∈ A|Y ) ,
B
A
B
wobei die zweite Gleichung aus der Definition 2.2 folgt. Satz 3.1 zeigt, dass beide
Seiten der obigen Gleichung null sind, falls B ∩ {y : f (y) > 0} = ∅, sonst
R
dxf (x, y)
P (X ∈ A|Y ) = A
f˜(y)
für alle A gilt.
4. Stochastische Prozesse
Hier führen wir die grundlegenden Begriffe des stochastischen Prozesses, des
Filtrierung und der Stoppzeit ein. Grob gesprochen sind ein stochastischer Prozess
und eine Filtrierung von einen Parameter abhängige Kollektionen von Zufallvariablen und σ-Algebren. Eine Stoppzeit ist eine Zufallvariable, die messbar bezüglich
einer Filtrierung ist.
Definition 4.1. Sei T ⊂ R. Wir nennen eine Funktion Xt (ω) : T × Ω → R, so
dass für alle t ∈ T Xt (ω) eine Zufallsvariable ist, einen reellwertigen stochastischen
Prozess.
12
Falls T abzälbar ist, sprechen wir von einem diskreten Prozess. Zum Beispiel
ist eine Folge von unabhängigen Zufallsvariablen ein einfacher diskreter Prozess.
Markoff-Ketten und Martingale sind andere interessante diskrete stochastische
Prozesse, die wir in den nächsten Kapiteln vertiefen werden.
Jetzt geben wir die Definition einer Filtrierung:
Definition 4.2.
(1) Sei T ⊂ R. Eine Familie {Ft }t∈T von Teil-σ-Algebren heisst eine Filtrierung von F, wenn Fs ⊂ Ft für s ≤ t gilt.
(2) Sei X := {Xt }t∈T ein stochastischer Prozess auf (Ω, F, P ) und FtX :=
σ(Xs : s ≤ t). Die Familie {Ft }t∈T heisst die zu X gehörende oder kanonische Filtrierung.
(3) Ein stochastischer Prozess X := {Xt }t∈T heisst angepasst an eine Filtrierung {Ft }t∈T , wenn Xt Ft -mb. ist ∀t ∈ T .
Offenbar ist eine zu einem stochastischen Prozess gehörende Filtrierung eine
Filtrierung. Im diskreten Fall, ist eine kanonische Filtrierung eifach aus den Teilσ-Algebren σ(X0 , . . . , Xn ) gegeben.
Eine oft passende Sicht über stochastische Prozesse (besonders Markoff-Ketten)
ist Xt als (stochastische) Zeitentwicklung der Grösse X zu interpretieren. Die dynamische Deutung begründet die folgende Definition
Definition 4.3. Sei {Ft }t∈T eine Filtrierung auf (Ω, F, P ). Die Zufallsvariable
τ heisst Stoppzeit genau dann, wenn für alle t ∈ T {τ ≤ t} ∈ Ft gilt.
Ungefär sind Stoppzeiten zufällige Zeite, die nicht in die Zukunft blicken können.
Wir geben ein einfaches Beispiel, nämlich die Irrfahrt auf Zν . Sei {ξn }n∈N eine Folge
unabhängigen gleichverteilten Zufallsvariablen, ξ1 : Ω → Zν , und
Pvon
n
Xn := i=1 ξi (natürlich sind die Xn nicht unabhängig). Die Folge {Xn }n∈N ist
ein diskreter stochastischer Prozess. Es gibt zwei standard-Filtrierungen für diesen
Prozess: Fn := σ(X1 , . . . , Xn ), die kanonische Filtrierung, und Fn0 := σ(ξ1 , . . . , ξn ).
Für jedes k ∈ Zν definieren wir τk := inf{i ∈ N : Xi = k}, d.h. die erste Zeit für
die Xn sich an Platz k einfindet (τk kann +∞ sein). Die Zufallsvariable τk ist eine
Stoppzeit sowohl bezüglich Fn als auch Fn0 :
{τk ≤ n} = {inf{i ∈ N : Xi = k} ≤ n}
= {X1 = k} ∪ {X1 6= k, X2 = k} ∪ {X1 , X2 6= k, X3 = k} ∪ ...
Dieses Ereignis liegt sicherlich an Fn (endliche Vereinigung von Ereignissen in Fn ).
Wir überlassen dem Leser den analogen Beweis für Fn0 .
Übung 4.1. Beweisen Sie, dass {τk ≤ n} ∈ Fn0 .
13
Gemäss der Definition 4.1, wurde ein Prozess Xt t für t aus dem Wahrscheinlichkeitsraum (Ω, F, P ) gebildet. Formal, können wir auch ein Ereignis ω̄ aus einem gegeben Wahrscheinlichkeitsraum festhalten und die ganze Funktion T 3 t 7→ Xt (ω̄)
betrachten (wir heissen diese Funktion einen Pfad des Prozesses). In welchen
Raum? Der Erweiterungssatz
von Kolmogorov gibt eine Antwort.
Q
Sei K := t∈T R der Raum von reellwertigen Funktionen auf T , oder Pfaden,
mit der Topologie von Tychonoff. Für jedes n ∈ N, t(n) := (t1 , . . . , tn ) ∈ T n und
A ∈ B(Rn ) wir betrachten die Klasse der Mengen
Γ(t(n), A) := {x ∈ K : x(t1 ), . . . , x(tn ) ∈ A} .
(4.1)
Wir nennen diese Mengen Zylindermengen. Die kleinste σ-Algebra erzeugt durch
T := {Γ(t(n), A)}n∈N,t(n)∈T,A∈B(Rn )
ist (per Definition) die Borelsche σ-Algebra auf K , B(K ) := σ(T ). So ist (K , B(K ))
ein Borelscher Massraum, den wir mit einem geeigneten Wahrscheinlichkeitsmass
ausstatten möchten. Die kanonischen Projektionen πn : K 7→ Rn sind durch
πt(n) (x) := (x(t1 ), . . . , x(tn ))
definiert. Wir betrachnen eine Folge {µn }n∈N von Borel Wahrscheinlichkeitsmassen
auf Rn . Wir brauchen die folgende Definition:
Definition 4.4. Wir nennen {µn }n∈N eine verträgliche Familie von Borel
Wahrscheinlichkeitsmasse genau dann, wenn
K1) Für alle I1 , . . . In ∈ B(R) µn (I1 × · · · × In ) = µn (Iσ(1) × · · · × Iσ(n) ) (σ ist
die Permutationsgruppe);
k−mal
z
}|
{
n
K2) Für alle A ∈ B(R ) und k ≥ 1 µn+k (A × R × · · · × R) = µn (A).
Man kann aus einer verträglichen Familie von Borel Wahrscheinlichkeitsmassen auf endlich-dimensionalen Räumen durch den folgenden Erweiterungssatz von
Kolmogorov ein Wahrscheinlichkeitsmass auf (K , B(K )) bilden:
Satz 4.1. Sei {µn }n∈N eine verträgliche Familie von Borel Wahrscheinlichkeitsmassen. Dann gibt es ein eindeutiges Wahrscheinlichkeitsmass µ auf (K , B(K )),
so dass µ ◦ πn−1 = µn gilt.
Der Beweis des Satzes von Kolmogorov wendet einen wichtigen Satz der Masstheorie an, nämlich der Satz von Carathéodory. Wir formulieren hier diesen Satz im
besonderen Falls der Wahrscheinlichtkeitsmasse.
Satz 4.2 (Satz von Carathéodory). Sei A eine Algebra und µ : A 7→ [0, 1]
eine σ-additive Funktion mit µ(∅) = 0. Dann existiert eine eindeutige Erweiterung
µ̄ : σ(A) 7→ [0, 1] von µ, die ein Wahrscheinlichtkeitsmass ist.
14
Beweis. Wir definieren die Funktion µ : T 7→ [0, 1] durch
µ(Γ(t(n), A)) := µn (Γ(t(n), A))
(die Mengen Γ(t(n), A) waren in (4.1) definiert). Die Bedingungen K1), K2) stellen sicher, dass verschiedene äquivalente Darstellungen von µ(Γ(t(n), A)) gleiches
Mass haben, so dass µ wohldefiniert ist. Ausserdem folgt aus K2 µ ◦ πn−1 = µn .
Die endliche Additivität von µ auf T ist klar. Wir müssen jetzt die σ-Additivität
zeigen. Dann folgt die Erweiterung von µ als Wahrscheinlichkeitmass auf (K , B(K ))
aus dem Satz von Carathéodory.
T
Sei {Γj }j∈N eine Folge von Zylindermengen, mit Γj+1 ⊂ Γj und j≥1 Γj = ∅.
Wir schreiben
Γj := {x ∈ K : x(tj,1 ), . . . , x(tj,nj ) ∈ Aj } ,
Aj ∈ B(Rnj ) ,
und wir nehmen t(j) ⊂ t(j + 1) an (wir erinnern uns, dass t(j) = (tj,1 , . . . , tj,nj )),
d.h. nj ≤ nj+1 und tj,i = tj+1,i , i = 1, . . . , nj (die Ordung der Punkte tj,i spielt
keine Rolle). Ausserdem wählen wir Aj , so dass eine kompakte Menge Cj ⊂ Rnj
existiert mit
µj (Aj − Cj ) ≤ c2−j−1 ,
wobei c > 0 eine feste ausreichend, kleine Konstante ist. Offenbar
µ(Γj ) ≥ µ(Γj+1 )
T
und die σ-Additivität ist äquivalent zu limj µ(Γj ) = µ
j≥1 Γj = 0. Wir beweisen dies durch Widerspruch: Wir nehmen limj µ(Γj ) 6= 0 an, d.h. es gibt δ > 0, so
T
dass µ( kj=1 Γj ) ≥ δ > 0 ∀k ∈ N gilt.
Sei {Γ0j }j∈N ⊂ T , mit
Γ0j := {x ∈ K : x(tj,1 ), . . . , x(tj,nj ) ∈ Cj } .
T
0
Γ
Dann Γ0j ⊂ Γj mit µ(Γj − Γ0j ) ≤ c2−j−1 . Ausserdem µ
j∈N j ≥ δ/2 > 0, da für
alle k ∈ N und δ ≥ c:
!
!
k
k
k
\
\
X
0
µ
Γj
≥ µ
µ(Γj − Γ0j )
Γj −
j=1
≥ δ−
Somit gilt für alle k ∈ N ∅ ⊂
j=1
j=1
Tk
j=1
c
2
k
X
2−j ≥ δ −
j=1
c
δ
≥ > 0.
2
2
Γ0j ⊂ Γk , und daher folgt
k
\\
Γ0j = ∅ .
k∈N j=1
15
(4.2)
Wir setzen einfachheitshalber
Dk :=
k
\
Γ0j
,
D :=
j=1
k
\\
Γ0j .
k∈N j=1
Offenbar Dj ⊂ Di für j > i und es gibt kompakte Mengen Cj0 ⊆ Cj , so dass
Dj = {x ∈ K : (x(tj,1 ) , . . . , x(tj,nj )) ∈ Cj0 } .
Wir bemerken, dass jedes x ∈ Dj die ersten nj Koordinaten (x(tj,1 ) , . . . , x(tj,nj ))
in Cj0 hat und, wenn nj ≥ ni ist, die ersten ni (x(ti,1 ) , . . . , x(ti,ni )) in Ci0 . Somit
Cj0 ⊂ Ci0 , wenn i ≥ j und es existiert ein x̄, so dass x̄ ∈ Ci0 für alle i ∈ N. Es
folgt, dass x̄ ∈ D, was einen Widerspruch zu (4.2) ergibt. Schliesslich, zeigen wir
die Eindeutigkeit von µ. Wir nehmen die Existenz von zwei solcher Masse µ, µ0 an.
Denn µ ◦ πn−1 = µ0 ◦ πn−1 , daher µ = µ0 auf T und somit auf B(K ), da B(K ) von
T erzeugt wird.
Bemerkung 4.1. Wir haben die Existenz des Wahrscheinlichtkeitsmasses direkt auf dem Funktionenraum der Pfad des Prozesses gezeigt. Dieser Zugang ist
mehr analytisch als wahrscheinlichkeitstheoretisch, da die Probabilisten nicht mögen den Wahrscheinlichtkeitsraum zu spezifizieren. Alternativ, kann ein Prozess als
eine Zufallsvariable aus einem Wahrscheinlichkeitsraum
ΩK zu dem Pfadsraum K
Q
betrachtet werden. Denn ΩK = t∈T Ωt und das Satz von Kolmogorov kann in
ähnlicher Weise formuliert und bewiesen werden.
Der Satz von Kolmogorov funktioniert gut, wenn T abzählbar ist, aber es ist
nicht ganz befriedigend für überabzählbar T (z. B. T = [0, 1]). Der Grund ist, dass
man im überabzählbar Fall ein Approximationsargument mit abzählbaren Mengen
verwendet und dies zu einem Verlust von Information führt. Das Resultat ist, dass
viele interessante Grössen keine Zufallsvariablen auf (K , B(K ), µ) sind und zwar
jede Funktion auf K , die eine übernabzählbare Anzahl von Koordinaten involviert, zum Beispiel ist supt∈T Xt nicht messbar. Es gibt in diesem Fall raffiniertere
Weisen, um einen unendlich-dimensionalen Wahrscheinlichkeitsraum zu bilden, die
wir in diesem Kurs jedoch nicht studieren werden.
Anhang: der Radon-Nikodym Satz
Wir erinnern an die Dichte eines Wahrscheinlichkeitsmasses P auf (Rn , B(Rn ))
eine nicht-negative messbare und integrierbare Funktion ρ : Rn → [0; ∞) ist, mit
Z
P (A) =
ρ(x)λn (dx) , für alle A ∈ B(Rn ) ,
A
wobei λn (dx) die n-dimensionale Lebesgue-Mass ist.
Dies Begriff findet die folgende Verallgemeinerung:
16
Definition 4.5. Seien µ und ν zwei Masse auf (Ω, F). Wir sagen, dass ν
absolut stetig bezüglich µ ist, wenn µ(A) = 0 ν(A) = 0 für jede A ∈ F impliziert.
Wir schreiben in diesem Fall ν µ. Ein Mass ν auf (Rn , B(Rn )) heisst einfach
absolut stetig, wenn ν λn . Umgekehrt heissen µ, ν zueinander singulär, falls
eine Menge A ∈ F existiert, so dass µ(A) = 0 und ν(Ac ) = 0 ist. In diesem Fall
schreiben wir µ ⊥ ν.
Satz 4.3 (Satz von Radon-Nikodym). Seien µ, ν zwei Wahrscheinlichkeitmasse
auf (Ω, F). Ist ν µ, so existiert eine Funktion g : Ω → [0; ∞) messbar, mit
Z
g(x)µ(dx)
ν(A) =
A
für alle A ∈ F. Die Funktion g ist µ-f.s. eindeutig und heisst die Radon-Nikodym
Ableitung von ν bezüglich µ.
Um dieser Satz nachzuweisen, führen wir den Begriff von signierten Mass ein.
Definition 4.6. Sei (Ω, F) ein messbarer Raum und µ : F → [−∞; ∞] mit
µ(∅) = 0 und
!
[
X
µ
An =
µ(An )
n∈N
n∈N
für jede Folge (An )n∈N von disjukten Mengen in F. So heisst µ ein signiertes Mass
auf (Ω, F).
Übung 4.2. Zeigen Sie, dass für jede Folge {An }n∈N mitTAn ↑ A oder An ↓ A,
A ∈ F µ(limn An )S= limn µ(An ) gilt. Insbesondere ist µ ( n An ) = limn An für
An ⊆ An−1 und µ ( n An ) = limn An für An ⊆ An+1 .
P
Damit µ : F → [−∞; ∞] ein signiertes Mass ist, muss die Summe n∈N µ(An )
wohldefiniert sein, für jede Folge disjunkter Mengen in F. Insbesonde kann µ nur
den Wert +∞ oder den Wert −∞ annehmen, aber nicht beide. Ist |µ(Ω)| < ∞
so muss µ(A) < ∞ endlich sein, für alle A ⊂ Ω. Ist µ(Ω) = +∞, so kann es kein
A ∈ F existieren mit µ(A) = −∞ (analog für µ(Ω) = −∞).
Definition 4.7. Sei (Ω, F, µ) ein Massraum mit µ ein signiertes Mass. Wir
nennen A ∈ F eine positive Menge für µ, falls µ(B) ≥ 0 für alle B ⊂ A. Analog
nennen wir A ∈ F eine negative Menge für µ, falls µ(B) ≤ 0 für alle B ⊂ A.
Zuerst brauchen wir das folgend technische Lemma.
Lemma 4.1. Sei µ ein signiertes Mass auf ein messbarer Raum (Ω, F), und
sei A ∈ F mit µ(A) ∈ (−∞, 0). Dann existiert eine negative Menge B ∈ F mit
B ⊆ A und µ(B) ≤ µ(A).
Beweis. Wenn A negativ ist, haben wir B = A. Damit nehmen wir an, dass
A nicht negativ ist. Sei
δ1 := sup {µ(E) : E ∈ F und E ⊂ A} ≥ 0
17
und sei A1 ∈ F mit A1 ⊂ A und mit µ(A1 ) ≥
δ1
.
2
Sei nun
δ2 := sup {µ(E) : E ∈ F und E ⊂ A\A1 } ≥ 0
und A2 ∈ F mit A2 ⊂ A\A1 mit µ(A2 ) ≥
definieren
(
δ2
.
2
Wir iterieren diese Konstruktion und
δn = sup µ(E) : E ∈ F und E ⊂ A\
n−1
[
!)
Ak
≥0
k=1
S
und dann wählen wir An ∈ F mit An ⊂ A\ nj=1 Aj und mit µ(An ) ≥
definieren dann
∞
[
A∞ :=
An und B := A\A∞ ⊆ A .
δn
.
2
Wir
n=1
Da An ∈ F disjunkt sind, mit µ(An ) ≥ 0 für alle n ∈ N, folgt
µ(A) = µ(A∞ ) + µ(B) ≥ µ(B) .
Wir müssen nun die Tatsache zeigen, dass B eine
P negative Menge ist. Da µ(A) >
−∞, muss µ(A∞ ) < ∞ sein. Da aber µ(A∞ ) = n µ(An ), es folgt, dass µ(An ) →
0. Deswegen muss δn → 0. Für ein beliebiges E ⊂ B haben wir nun µ(E) ≤ δn für
alle n ∈ N, es muss µ(E) ≤ 0 gelten.
Mit Hilfe des Lemma können wir nun zeigen, dass jedes signierte Mass µ auf
(Ω, F) eine Hahn Zerlegung (P, N ) besitzt, wobei P, N ∈ F mit P ∪ N = Ω und
so, dass P eine positive und N eine negative Menge für µ sind.
Satz 4.4 (Hahn’sche Zerlegungstheorem). Sei (Ω, F) ein messbarer Raum, und
sei µ ein signiertes Mass auf (Ω, F). Dann existieren P, N ∈ F so, dass P eine
positive und N eine negative Menge für µ sind und so, dass P ∪ N = Ω.
Beweis. Nehmen wir an µ nimmt den Wert −∞ nicht an (sonst nimmt µ den
Wert +∞ nicht an, und man kann analog vorgehen). Sei
L = inf {µ(A) : A eine negative Menge für µ ist}
Sei nun {An }n∈N eine Folge in F von negativen Mengen für µ, mit L = limn→∞ µ(An ).
Sei N := ∪n∈N An . Dann ist N offenbar eine negative Menge für µ. Also L ≤
µ(N ) ≤ µ(An ) ≤ 0 für alle n ∈ N. Es folgt, dass L = µ(N ) ∈ (−∞, 0] (weil µ
den Wert −∞ nicht annimmt). Sei nun P := N c . Wir müssen noch zeigen, dass P
eine positive Menge für µ ist. Nehmen wir indirekt an, dass A ⊂ P in F existiert,
mit µ(A) < 0. Dann existiert aber aus Lemma 4.1 eine negative Menge Ñ ⊂ P . In
diesem Fall wäre aber auch Ñ ∪ N eine negative Menge für µ, mit
µ(N ∪ Ñ ) = µ(N ) + µ(Ñ ) < µ(N ) = L
in Widerspruch zur Definition von L.
18
Bemerkung 4.2. Seien µ+ und µ− positive Masse, definiert durch
(
(
µ(A) A ⊆ P
0
A⊆P
µ+ (A) :=
µ− (A) :=
0
A⊆N
−µ(A) A ⊆ N
(4.3)
für jedes A ∈ F. Dann folgt aus dem obigen Satz, dass µ = µ+ − µ− , mit µ+ ⊥ µ− .
Wir können nun den Satz von Radon-Nykodim beweisen.
Beweis des Satzes 4.3. Sei
Z
J = f : Ω → [0; ∞] messbar, s.d.
f (x)µ(dx) ≤ ν(A) für alle A ∈ F .
A
J ist nicht leer, weil die Konstante Funktion f = 0 in J ist. Wir werden zeigen,
dass g ∈ J existiert, mit
Z
Z
g(x)µ(dx) = sup
f (x)µ(dx) : f ∈ J
und
Z
ν(A) =
g(x)µ(dx) .
(4.4)
A
Um die Behauptung zu zeigen, bemerken wir zunächst, dass max{f1 , f2 } ∈ J ,
wenn f1 , f2 ∈ J . In der Tat, für ein beliebiges A ∈ F, wir können A1 = {x ∈ A :
f1 (x) > f2 (x)} und A2 = {x ∈ A : f1 (x) ≤ f2 (x)} definieren. Dann gilt
Z
Z
Z
max{f1 , f2 }(x) µ(dx) =
f1 (x)µ(dx) +
f2 (x)µ(dx)
A1
A
A2
≤ ν(A1 ) + ν(A2 ) = ν(A1 ∪ A2 ) = ν(A) .
Offenbar gilt dies auch für max{f1 , f2 , . . . , fk }, mit fi ∈ J , i = 1, . . . k, für alle
k ∈ N (mit gleichen Beweis). Sei nun {fn }n∈N eine Folge in J mit
Z
Z
lim
fn (x)µ(dx) = sup
f (x)µ(dx) : f ∈ J .
n→∞
Dann gilt offenbar auch
Z
Z
lim
max(f1 , . . . , fn )(x)µ(dx) ≥ sup
f (x)µ(dx) : f ∈ J .
n→∞
Da die Folge max(f1 , . . . , fn ) monoton wachsend ist, können wir den Limes
g = lim max(f1 , . . . , fn )
n→∞
punktweise definieren. Das monoton Konvergenz Theorem zeigt, dass
Z
Z
gµ(dx) = lim
max(f1 , . . . , fn )µ(dx) ≤ ν(A) ,
A
n→∞
A
19
weil max(f1 , . . . , fn ) ∈ J für alle n ∈ N und auch, dass
Z
Z
Z
gµ(dx) = lim
max(f1 , . . . , fn )µ(dx) = sup
f µ(dx) : f ∈ J .
n→∞
Jetzt beweisen wir (4.4). für alle A ∈ F gilt. Für ein beliebiges A ∈ F, wir setzen
Z
ν0 (A) = ν(A) −
gµ(dx) .
A
Da g ∈ J , ist ν0 : F → [0; ∞] ein Mass auf F. Zu zeigen bleibt, dass ν0 = 0.
Nehmen wir an ν0 6= 0. Dann finden wir ε > 0 mit ν0 (Ω) > εµ(Ω) (weil µ ist
endlich, nach Annahme). Es ist einfach zu überprüfen, dass ν0 −εµ : F → [−∞; ∞]
ein signiertes Mass auf F ist. Sei (P, N ) eine Hahn’sche Zerlegung von ν0 − εµ.
Also, P, N ∈ F mit P ∪ N = Ω und so, dass P eine positive und N eine
negative Menge für ν0 − εµ sind. Wir bemerken sofort, dass µ(P ) > 0 sein muss.
Wäre nämlich µ(P ) = 0, dann müsste auch ν(P ) = 0 (aus der absolute Stetigkeit
ν µ) und also ν0 (P ) = 0. Deswegen wäre
ν0 (Ω) − εµ(Ω) = (ν0 − εµ)(N ) ≤ 0
in Widerspruch mit der Annahme, dass ν0 (Ω) > εµ(Ω). Das zeigt, dass µ(P ) > 0.
Ferner, für ein beliebiges A ∈ F gilt ν0 (A ∩ P ) ≥ εµ(A ∩ P ). Deswegen
Z
Z
gµ(dx) + ν0 (A ∩ P )
gµ(dx) + ν0 (A) ≥
ν(A) =
A
Z
ZA
≥
gµ(dx) + εµ(A ∩ P ) = (g + ε1P )µ(dx) .
A
A
Das zeigt, dass g + ε1P ∈ J . Da aber
Z
gµ(dx) ≤ ν(Ω) < ∞
und
Z
Z
(g + ε1P )µ(dx) =
Z
gµ(dx) + εµ(P ) >
gµ(dx)
finden wir ein Widerspruch zur Definition von g in Schritt 1. Das zeigt, dass ν0 = 0,
also (4.4).
20
KAPITEL 2
Markoff-Ketten
1. Definitionen, starke Markoff-Eigenschaft und Beispiele
Die einfachste Weise sich eine Markoff-Kette vorzustellen, ist an ein (stochastisches) dynamisches System in diskreter Zeit zu denken. Die Bewegung von N
Teilchen ist durch ein System von Differentialgleichungen bestimmt. Daher ist die
Konfiguration der N Teilchen zur Zeit t eindeutig durch diejenige zur Zeit t0 gegeben, ohne Rücksicht auf das Systemverhalten für t < t0 . Das gleiche gilt für
Markoff-Ketten:
Definition 1.1. Ein diskreter stochastischer Prozess {Xn }n∈N auf (Ω, F, P )
heisst Markoff-Kette genau dann, wenn eine reguläre bedingte Wahrscheinlichtkeit
existiert, so dass
P (Xn+1 ∈ A|X0 , . . . , Xn ) = P (Xn+1 ∈ A|Xn ) P-f.s.
(1.1)
für alle n ∈ N und A ∈ F gilt.
Die Theorie der Markoff-Ketten ist viel leichter, wenn Xn : Ω 7→ I, mit einer
höchstens abzählbaren Menge I, für alle n ∈ N gilt und wir werden hier nur diesen
Fall betrachten (diskreten Markoff-Ketten). Wir bemerken, dass in diesem Fall der
Pfadsraum der Markoff-Kette einfach I N0 ist. So lässt sich (1.1) auch als
P (Xn+1 = in+1 |X0 = i0 , . . . , Xn = in ) = P (Xn+1 = in+1 |Xn = in ) P-f.s. (1.2)
für alle i1 , . . . , in+1 ∈ I schreiben. An diesem Punkt ist die folgende Definition
nützlich:
Definition 1.2. Sei I eine nichtleere und höchstens abzählbare Menge. Eine
Matrix π = {πij }i,j∈I heisst stochastische Matrix, wenn
X
πij ∈ [0, 1] ∀i, j ∈ I und
πij = 1 ∀i ∈ I
j∈I
gilt. Die Einträge πij der stochastische Matrix π nennt man die Übergangwahrschenlichkeiten von i nach j.
Deshalb bestimmet jede Markoff-Kette {Xn }n∈N auf I eine stochastische Matrix
{π(n)}n∈N , da wir immer
πij (n) := P (Xn+1 = j|Xn = i) ,
21
i, j ∈ I
(1.3)
setzen können. Die Startverteilung einer Markoff-Kette ist durch
ν(i) := P (X0 = i)
(1.4)
definiert. Umgekehrt bestimmt jede Folge von stochastischen Matrixen {π(n)}n∈N ,
mit einer gegebenen Startverteilung eine Markoff-Kette, die (1.3) erfüllt, da wir
(1.1) und die Formel von Bayes iterativ benützen können, so dass
=
=
=
=
=
P (Xn = in , . . . , X0 = i0 )
P (Xn = in |Xn−1 = in−1 . . . X0 = i0 )P (Xn−1 = in−1 . . . X0 = i0 )
P (Xn = in |Xn−1 = in−1 )P (Xn−1 = in−1 . . . X0 = i0 )
..
.
P (Xn = in |Xn−1 = in−1 ) . . . P (X1 = i1 |X0 = i0 )P (X0 = i0 )
πin−1 ,in (n) . . . πi1 ,i2 (1)ν(i0 ) .
Oft betrachten wir den einfachen Fall zeitlich homogener Ketten π(n) = π
∀n ∈ N. Wir können eine inhomogene Kette jedoch mit einen leichten Trick (aus
der Klassichen Mechanik) auf eine homogene Kette reduzieren. Wenn {Xn }n∈N
eine inhomogene Markoff-Kette ist, betrachtet man die Folge X̃n := {Xn , n}n∈N ,
die Werte in I ×N0 annimmt. So ist X̃ eine homogene Markoff-Kette auf I ×N0 , mit
Übergangwahrscheilchtkeiten π̃αβ = δm,n+1 πij (n), mit α, β ∈ I × N0 , α := (i, n),
β := (j, m).
Wir definieren die n-te Potenz der stochastischen Matrix π rekursiv durch das
n-fache Matrixproduct:
X
n−1
πij0 = δij ,
πijn =
πik
πkj n ≥ 1 .
k∈I
n
Aus dieser Definition folgt, dass π auch eine stochastiche Matrix ist. Somit gilt
π n+m = π n π m , d. h.
X
n m
πik
πkj = πijn+m .
(1.5)
k∈I
Man nennt diese letze Gleichnung die Chapman-Kolmogorov-Gleichungen für diskrete Markoff-Ketten.
In diesem Kapitel werden wir die Markoff-Ketten als von der Startverteilung ν
abhängige stochastiche Matrixen studieren. Um dies zu betonen, schreiben wir Pν
für die Wahrscheinlichtkeiten der Kette mit Startverteilung ν, Pi , wenn ν(j) = δij
ist, und PZ , wenn ν die Verteilung der Zufallsvariablen Z ist.
Eine wichtige Eigenschaft der Markoff-Kette, die aus der zeitlichen Homogeneität kommt, ist die Invarianz unter ein Zeit-shift:
Proposition 1.1. Sei {Xn }n∈N0 eine zeitlich Homogene Markoff-Kette und
k ∈ N. Es gilt
P ({Xn+k }n∈N0 ∈ A) = PXk ({Xn }n∈N0 ∈ A) ,
22
A ⊂ I N0 .
(1.6)
Der Beweis ist dem Leser überlassen.
Diese Eigenschaft gilt auch für Stoppzeiten. Zunächst erinnern wir an die Definition der Stoppzeit für Markoff-Ketten:
τ : {τ = n} ∈ σ(X0 , . . . , Xn ) .
Definition 1.3. Wir nennen A ⊆ Ω ein Prä-τ -Ereignis, wenn
A ∩ {τ ≥ n} ∈ σ(X0 , . . . , Xn ) .
Fτ ist die von den Prä-τ -Ereignissen erzeugte σ-Algebra.
Wir haben das folgende wichtige Ergebnis:
Satz 1.1 (Starke Markoff-Eigenschaft). Sei τ eine Stoppzeit für die MarkoffKette {Xn }n∈N und A ⊆ I N0 . Dann gilt
P ({Xn+τ }n∈N0 ∈ A|Fτ ) = PXτ ({Xn }n∈N0 ∈ A|Fτ ) P-f.s.
(1.7)
Die starke Markoff-Eigenschaft hat die folgende einfache Deutung. Die bedingte
Wahrscheinlichkeit, dass die Kette ab der Zufallszeit τ in einer gegebenen Menge A ist, ist gleich der bedingten Wahrscheinlichkeit, dass die Kette, die ab der
Zufallsstellung Xτ startet, stets in der Menge A bleibt.
Beweis. Sei B ∈ Fτ . Dann ergibt das Gesetz der totalen Wahrscheinlichkeit
E[1B P (Xτ , Xτ +1 , · · · ∈ A|Fτ )] = P (Xτ , Xτ +1 , · · · ∈ A, B)
X
=
P (Xn , Xn+1 , · · · ∈ A, B, τ = n) .
n≥0
Offenbar gilt für alle n ≥ 0 B ∩ {τ = n} ∈ Fτ , daher
P (Xn , Xn+1 , · · · ∈ A, B, τ = n) = E[1B∩{τ =n} P (Xn , Xn+1 , · · · ∈ A|Fτ )]
= E[1B 1{τ =n} PXn (X0 , X1 , · · · ∈ A|Fτ )] .(1.8)
Es folgt, dass
E[1B P (Xτ , Xτ +1 , · · · ∈ A|Fτ )] =
X
E[1B 1{τ =n} PXn (X0 , X1 , · · · ∈ A|Fτ )]
n≥0
"
= E 1B
#
X
1{τ =n} PXn (X0 , X1 , · · · ∈ A|Fτ )
n≥0
= E [1B PXτ (X0 , X1 , · · · ∈ A|Fτ )] .
Da diese Gleichung für alle B ∈ Fτ gilt, wir folgern (1.7).
Hier erklären wir drei typische Beispiele von Markoff-Ketten, die wir im weiterem Verlauf des Kapitels untersuchen werden.
23
B1) Irrfahrt auf Zν . Wir haben diesen Prozess schon getroffen. {ξn }n∈N ist
eine Folge von unabhängigen gleichverteilten
Zufallsvariablen (die Zuwächse des
P
Prozesses), ξ1 : Ω → Zν , und Sn := ni=1 ξi . Wir haben
!
n+1
X
P (Sn+1 = in+1 |Fn ) = P
ξj = in+1 S0 = i0 , . . . , Sn = in
j=1
= P (Sn + ξn+1 = in+1 |S0 = i0 , . . . , Sn = in )
= P (Sn+1 = in+1 |Sn = in ) ,
also (1.2). Somit ist eine Irrfahrt auf Zν eine homogene Markoff-Kette mit Übergangwahrscheinlichkeiten
πij = P (Sn+1 = i|Sn = j) = P (ξ1 = i − j) .
B2) Ehrenfests Urnenmodell. Wir betrachten zwei Urnen U 1 und U 2, die
insgesamt 2N gleiche Kugeln enthalten. Man wählt zu jedem Zeitpunkt n eine Urne
jeweils mit Wahrscheinlichkeit proportional zur Anzahl der Kugeln in dieser Urne.
Dann wird eine Kugel aus einer Urne gezogen und in die andere Urne verschoben.
Wir betrachten die Zufallsvariable Xn als die Anzahl der Kugeln zur Zeit n in U 1
und wir nehmen I := {0, . . . , 2N } als die Menge der Belegungen von U 1. Daher
gilt für jede Belegung in ∈ I
P (Xn = in |Xn−1 = in ±1, Xn−1 = in ±1±1, . . . ) = P (Xn = in |Xn−1 = in ±1) =: p±
mit
πj,j−1 = p− =
k
,
2N
πj,j+1 = p+ =
2N − k
2N
und πij = 0 sonst.
B3) Erneuerungsketten. Ein diskreter Prozess {Rn }n∈N0 mit Rn ∈ {0, 1},
so dass
Pν ({Rn+k }n∈N0 ∈ B|R0 , . . . , Rk ) = Pν ({Rn }n∈N0 ∈ B)
(1.9)
für jede Ereignis B gilt, heisst Erneuerungsprozess. Zum Beispiel betrachten wir
eine Irrfahrt auf Z {Sn }n∈N0 und setzen für ein festes j̄ ∈ Z
Rn (j̄) := 1{Sn =j̄} .
(1.10)
Der Einfachheit halber, setzen wir j̄ = 0 und Rn := Rn (0). Für jedes B ∈
σ(Rk+1 , Rk+2 , . . . ) existiert B̃ ∈ σ(Sk+1 , Sk+2 , . . . ), so dass (1.2) und die zeitliche
Homogenität
P0 ({Rn+k }n∈N0 ∈ B|R0 , . . . , Rk ) = P0 ({Sn+k }n∈N ∈ B̃|S0 , . . . , Sk−1 )
= P0 ({Sn+k }n∈N0 ∈ B̃|Sk−1 )
= P0 ({Sn }n∈N0 ∈ B̃) = P0 ({Rn }n∈N0 ∈ B)
ergeben.
24
Diese Konstruktion kann einfach für eine beliebige Markoff-Kette gemacht werden. Es ist auch möglich zurückzugehen und eine Markoff-Kette {Xn }n∈N0 aus einem Erneuerungsprozess {Rn }n∈N0 zu bilden, so dass {Xn = 0} = {Rn = 1} gilt.
Für einen gegebenen Erneuerungsprozess {Rn }n∈N0 definieren wir die Zufallszeiten
τ0 = 0 ,
τk := inf{n > τk−1 : Rn = 1} k ≥ 1 ,
∆τk := τk − τk−1 ,
k≥1
und Tn := τk 1{τk ≤n<τk+1 } . Alle diese Zufallszeiten sind ganze Zahlen. Die τk sind
die nachfolgende Epoche, in denen Rn = 1 ist, d.h. Rτ1 = Rτ2 = · · · = 1 und R = 0
sonst. Die Zeiten Tn bilden die Teilfolge derjenigen τk , die, n für n, vor der Zeit n
fallen. Jetzt setzen wir
Xn := n − Tn , X0 = 0 .
Es folgt
{Xn = 0} = {τn = n} = {∃k : τk = n} = {Rn = 1} .
Der Prozess {Xn }n∈N : N × Ω 7→ N ist eine Markoff-Kette, die Erneuerungskette
heisst. Angenommen, dass Xn = j für eine gegebene ganze Zahl j gilt, dann ist
Tn = n − j. Daher ist entweder Tn+1 = n − j, also Xn+1 = j, oder Tn+1 = n + 1,
also Xn+1 = 0. Wir sehen sofort, dass Xn+1 nur durch die Werte des Prozesses zur
Zeit n bestimmt ist, so dass {Xn }n∈N eine Markoff-Kette ist.
Die Zuwächse ∆τk sind unabhängige gleichverteilten Zufallsvariablen. Um dies
zu beweisen, bemerken wir zunächst, dass ∆τ1 eine Stoppzeit bezüglich σ(X0 , . . . , Xn )
ist, da
{∆τ1 = n} = {τ1 = n} = {Rn = 1} = {Xn = 0} ∈ σ(X0 , . . . , Xn )
gilt. Nochmals ergeben die starke Markoff-Eigenschaft (1.7)
P0 (X∆τ1 +1 , X∆τ1 +2 , · · · ∈ A|F∆τ1 ) = PX∆τ1 ({Xn }n∈N0 ∈ A|F∆τ1 )
= P0 ({Xn }n∈N0 ∈ A) P-f.s. .
Es folgt, dass der Prozess (X∆τ1 +1 , X∆τ1 +2 , . . . ) von der σ-Algebra σ(Xn ) unabhängig ist, also von ∆τ1 . Daher müssen ∆τ1 und {∆τk }k≥2 unabhängig sein. Man kann
dieses Argument iterieren, um zu beweisen, dass ∆τk unabhängige gleichverteilte
Zufallsvariablen sind. Daher schreiben wir die Übergangwahrscheinlichkeiten als
P (Xn+1 = j + 1|Xn = j) = P (Tn+1 = n − j − 1|Tn = n − j)
= P (∆τn+1 ≥ j + 1|∆τn+1 ≥ j)
P (∆τ1 ≥ j + 1)
=
=: πj,j+1 ,
P (∆τ1 ≥ j)
wobei wir die Formel von Bayes und die Unabhängigkeit der ∆τk benutzt haben.
Übung 1.1. Was ist die zum Erneuerungsprozess (1.10) zugehörige Erneuerungskette?
25
2. Rekurrenz und Transienz
Sei π = {πij }i,j∈I eine stochastische Matrix. Vorab führen wir eine Äquivalenzrelation auf I ein. Wir schreiben i → j für i, j ∈ I, so dass ein n existiert, mit
πijn >0, d. h. die Kette erlaubt den Weg mit n Zeitsstufen von i zu j. Wir sagen
in diesem Fall, dass j von i erreichbar ist. Erreichbarkeit ist reflexiv und transitiv,
aber sie ist nicht symmetrisch. Ausserdem definieren wir für alle i, j ∈ I
i ∼ j ⇐⇒ i → j
und j → i .
(2.1)
Diese Relation ist offenbar reflexiv, i ∼ i, und symmetrisch, i ∼ j ⇒ j ∼ i. Wenn
m
m
n
> 0,
, πkj
> 0 und πjk
i ∼ j und j ∼ k ist, dann existieren n und m, so dass πijn , πji
n+m
n+m
n m
n m
also πij πjk = πik > 0 und πji πkj = πki > 0, woraus Transitivität folgt. Somit
ist ∼ eine Äquivalenzrelation auf I, die Äquivalenzklassen auf I definiert.
Definition 2.1. a) Wir nennen jede Äquivalenzklasse von einem gegebenen
i ∈ I, d.h.
Ai := {j ∈ I : i ∼ j} ,
eine irreduzible Teilmenge von I. Eine Markoff-Kette heisst irreduzibel genau dann,
wenn I die eindeutige irreduzibel Menge ist, d. h. i ∼ j für alle i, j ∈ I.
b) Eine Teilmenge I¯ ⊂ I heisst abgeschlossen genau dann, wenn keine i ∈ I
und j ∈ I/I¯ existieren, so dass i → j.
Wir geben ein ganz einfaches Beispiel. Ein Kind spielt mit Farben. Es hat vier
Filzschreiber: Rot, Blau, Gelb und Schwarz. Es startet mit ein Zufallsfarbe und
dann folgt diese Regel: Wenn es Rot verwendet, dann verwendet es Rot nochmals
mit Wahrscheinlichkeit 21 und mit Wahrscheinlichkeit 12 Schwarz; wenn es Schwarz
verwendet, dann verwendet es Schwarz sicher; wenn es Blau verwendet, dann verwendet es Blau nochmals mit Wahrscheinlichkeit 14 und mit Wahrscheinlichkeit
3
Gelb; wenn es Gelb verwendet, dann verwendet es Gelb nochmals mit Wahr4
scheinlichkeit 13 und mit Wahrscheinlichkeit 23 Blau. Dies ist eine Markoff-Kette
auf I := {Rot, Schwarz, Blau, Gelb} mit stochastischer Matrix

0 0
 0 1 0 0 

π=
 0 0 1 3 .
4
4
0 0 32 13

1
2
1
2
(2.2)
Wenn das Kind mit Rot (oder mit Schwarz) startet, wird es nie die Farbe Blau
und Gelb benutzen (gleiches gilt für {Blau, Gelb}). Die Mengen {Rot, Schwarz}
26
und {Blau, Gelb} sind zwei abgeschlossene Klassen, die auch irreduzibel sind, da
 1 1 n

0 0
2
2


0 1
10 30 n  .
πn = 
(2.3)


0 0
4
4
2
1
0 0
3
3
Übung 2.1. Bestimmen Sie, ob die Markoff-Ketten der Beispiele B1), B2) und
B3) irreduzibel sind.
Ein anderer wichtiger Begriff ist die Periodizität.
Definition 2.2. Der Grösster gemeinsamer Teiler der Menge {n : πiin > 0},
der wir di nennt, heisst die Periode von i. Wir nennen den Zustand i ∈ I aperiodisch, wenn di = 1 ist, und d-periodisch, wenn di ≥ 2 ist. Eine irreduzibel MarkoffKette mit einem d-periodisch Zustand heisst d-periodisch (oder aperiodisch, falls
d = 1).
Übung 2.2. Beweisen Sie, dass j ∈ I d-periodisch ist, wenn, für ein d-periodisch
i ∈ I, i ∼ j ist.
Für jede Markoff-Kette Xn können wir die folgenden Zufallszeiten einführen:
τA := min{n ∈ N : Xn ∈ A} ,
A⊂I.
(2.4)
Nun setzen wir
(n)
fiA := Pi (τA = n) = P (τA = n|X0 = i) ,
und
fiA := Pi (τA < ∞) =
X
(n)
fiA .
n≥1
Wir schreiben τj ,
(n)
fij
und fij , wenn A = {j} ist.
Bemerkung 2.1. Eine andere bequeme Formulierung der Wahrscheinlichkei(n)
ten fiA ist
(n)
fiA = P (Xn ∈ A | X1 = i, X2 ∈
/ A, . . . , Xn−1 ∈
/ A) ,
(2.5)
d.h. die Wahrscheinlichkeiten, dass die Kette erstmals zur Zeit n die Menge A
besucht, wenn die Startstelle i ist.
Eine wichtige Grösse ist die Wahrscheinlichkeit fii , dass die Kette zu i züruckkehrt. Natürlich gilt immer fii ≤ 1, aber, wenn τi = ∞ ist, haben wir fii < 1.
Definition 2.3. Ein Element i ∈ I heisst rekurrent genau dann, wenn fii = 1
gilt, andernfalls heisst es transient.
Wir werden auch eine starkere Eigenschaft brauchen, nämlich dass eine (irreduzibel) Kette an jeder Stelle in endlicher Zeit zurückkehrt.
27
Definition 2.4. Ein rekurrentes i heisst positiv rekurrent, wenn
X (n)
E[τi ] =
nfii < ∞
(2.6)
n≥1
gilt. Ansonsten heisst es null-rekurrent.
Rekurrenz und Transienz sind Klasseineigenschaften, d.h.
Satz 2.1. Seien i, j ∈ I mit i ∼ j. Dann ist i genau dann rekurrent, wenn j
es ist.
Um diesen Satz zu beweisen, brauchen wir zwei Zwischenergebnisse:
Lemma 2.1. Für alle i, j ∈ I gilt
n
n
X
X
(k) n−k
(n−k)
n
πij =
fij πjj =
πijk fii
k=1
n ≥ 1.
(2.7)
k=1
Beweis. Starte bei i und erreiche j in k Zeitsstufen, ohne durch i zu führen.
Dann mache einen Kreislauf um j in n − k Zeitsstufen. Da k beliebig ist, wir
müssen über k ∈ {1, 2, . . . , n} summieren, um die Wahrscheilichkeit von i → j in
n Zeitsstufen zu erhalten. Die zweite Gleichung wird analog erhalten: Starte bei
i und mache k Kreisläufe; dann gehe zu j, ohne durch i zu führen und summiere
über k (wie oben).
Proposition 2.1. i ∈ I ist genau dann transient, wenn
X
πiin < ∞
n∈N0
gilt.
Beweis. Offenbar ist πii0 =1. Ausserdem verwenden wir die Gleichung (2.7) mit
i = j, d.h.
n
X
(k)
n
πii =
fii πiin−k , n ≥ 1 .
k=1
Daher
X
πiin
= 1+
n≥0
n
XX
(k)
fii πiin−k = 1 +
n≥1 k=1
= 1+
X
k≥1
XX
(k)
fii πiin−k
k≥1 n≥k
X
(k)
fii
πiin = 1 + fii
n≥0
X
πiin .
(2.8)
n≥0
P
Da fii ≥ 0 ist, gilt die letzte Gleichung ∞ = ∞, fallsP n≥0 πiin divergent ist. Wenn
fii = 1 ist, d.h. i rekurrent ist, dann gilt ausserdem n≥0 πiin = ∞. Somit nehmen
wir fii < 1 an. Für t ∈ (0, 1) setzen wir
X
X
(n)
π̂(t) :=
tn πiin
fˆ(t) :=
tn fii
n≥0
n≥0
28
(diese Reihen konvergieren für t ∈ (0, 1)). Mit einer ähnlichen Berechnung wie
zuvor erhalten wir
n
XX
(k)
π̂(t) = 1 +
tk fii tn−k πiin−k
n≥1 k=1
X
= 1+
(k)
tk fii
X
tn πiin = 1 + fˆ(t)π̂(t) ,
n≥0
k≥1
also
π̂(t) = (1 − fˆ(t))−1
t ∈ (0, 1) .
Wegen fii < 1 können wir den Grenzewert t → 1− nehmen und erhalten
X
πiin = lim− (1 − fˆ(t))−1 = (1 − fii )−1 < ∞ .
t→1
n≥0
Beweis des Satzes 2.1. i ∼ j impliziert, dass n1 , n2 existieren, so dass πijn1 >
n2
0 und πji
> 0. Aus den Chapman-Kolmogorov-Gleichungen (1.5) folgt sofort für
n2 n n1
n n2
πji und analog πiin+n1 +n2 ≥ πji
πii πij . Somit
alle n ∈ N πiin+n1 +n2 ≥ πijn1 πjj
X
X
X
n2
n2 2
n
πiin ≥ πijn1 πji
πjj
≥ (πijn1 πji
)
πiin ,
n≥0
n≥0
n≥0
woraus fii < 1 ⇐⇒ fjj < 1 folgt.
Bemerkung 2.2. Aus Proposition 2.1 folgt auch, dass, wenn j transient ist,
X
πijn < ∞
n≥1
gilt, da
X
n≥1
πijn
=
n
XX
n≥1 k=1
(k)
n−k
fij πjj
=
XX
(k)
n−k
= fij
fij πjj
k≥1 n≥k
X
n
πjj
.
n≥1
Die letzte Bemerkung zu folgendem Satz:
Satz 2.2. Rekurrente Äquivalenzklassen sind Abgeschlossen.
Beweis. Wir beweisen, dass, wenn i rekurrent ist und i → j, dann gilt i ∼ j.
Dies impliziert, dass j rekurrent ist (gemäss Satz 2.1). Somit ist kein Übergang
von einer rekurrenten Stelle i zu einer transienten Stelle l möglich, d.h. rekurrente
Äquivalenzklassen sind Abgeschlossen.
Um j → i zu zeigen, führen wir ein Widerspruchsbeweis. Wir nehmen fii = 1,
n̄ := inf{n : πijn > 0} < ∞ .
29
(2.9)
n
= 0 ∀n ∈ N an. So
(d.h. πijn̄ > 0) und πji
1 = fii = Pi (τi < ∞) = Pi (τi < ∞, Xn̄ = j) + Pi (τi < ∞, Xn̄ 6= j)
≤ Pi (τi < ∞, Xn̄ = j) + Pi (Xn̄ 6= j) = Pi (τi < ∞, Xn̄ = j) + 1 − πijn̄ .
n−n̄
Nun bemerken wir, dass Pi (Xn = 1, Xn̄ = j) = πijn̄ πji
= 0 für alle n > n̄ und für
n ∈ {1, . . . , n̄} Pi (Xn = 1, Xn̄ = j) = πiin πijn̄−n = 0 (gemäss der Definition von n̄),
also
X
Pi (τi < ∞, Xn̄ = j) ≤
Pi (Xn = i, Xn̄ = j) = 0
n≥0
(wobei wir die einfache Ungleichung P (∪i Ai ) ≤
πijn̄ = 0, ein Widerspruch.
P
i
P (Ai ) benutzt haben). Es folgt
Bemerkung 2.3. Ist π irreduzibel und i positiv rekurrent, so folgt (einfach),
dass alle Zustelle positiv rekurrent sind. In diesem Fall sprechen wir von positiv
rekurrenten Markoff-Kette.
Alle Stellen einer Rekurrenzklasse sind in endlicher Zeit verbunden:
Proposition 2.2. Sei i ∼ j mit i rekurrent. So gilt fij = fji = 1.
Beweis. Der erst Teil des Beweises ist ähnlich wie in obigem Lemma. Wir
setzen
n̄ := inf{n : πijn > 0} = inf{n : Pi (Xn = j) > 0} .
Wegen fii = Pi (τi < ∞) = 1, gilt
πijn̄ = Pi (τi < ∞, Xn̄ = j) = Pi (τi < n̄, Xn̄ = j) + Pi (n̄ < τi < ∞, Xn̄ = j) .
P
Nochmals ergibt die Ungleichung P (∪i Ai ) ≤ i P (Ai )
Pi (τi < n̄, Xn̄ = j) ≤
n−1
X
Pi (Xk = i, Xn̄ = j) ,
k=1
aber es gilt nach Definition von n̄ (2.9) Pi (Xk = i, Xn̄ = j) = Pi (Xn̄−k = j) = 0
für alle k ∈ {1, . . . , n − 1}, daher
πijn̄ = Pi (n̄ < τi < ∞, Xn̄ = j) .
Dann folgt aus der Formel von Bayes und der Markoff-Eigenschaft (1.2), dass
πijn̄ = Pi (n̄ < τi < ∞, Xn̄ = j)
= Pi (X1 6= i, . . . , Xn̄−1 6= i, Xn̄ = j, τi < ∞)
= Pi (τi < ∞ | X1 6= i, . . . , Xn̄−1 6= i, Xn̄ = j)Pi (X1 6= i, . . . , Xn̄−1 6= i, Xn̄ = j)
= Pj (τi < ∞)Pi (Xn̄ = j) = fji πijn̄
gilt. Daraus ergibt sich fji = 1. Man zeigt analog, dass fij = 1.
Übung 2.3. Beweisen Sie, dass endliche, irreduzible Markoff-Ketten rekurrent
sind.
30
3. Noch mehr über Irrfahrten
Nun diskutieren wir zwei namhafte Beispiele, nämlich die Rekurrenz der Irrfahrt (wenn die Dimension variiert) und die Ruinwahrscheinlichtkeit des Spielers.
Zuerst studieren wir die Rekurrenz der folgenden klasse von irriduziblen Irrfahrten. Da die Zufallsvariable ξ1 auf Zν Ihre Werte annimmt, schreiben wir (ξ1 )i ,
um die i-te Komponente des Zufallsvektor ξ1 = ((ξ1 )1 , . . . , (ξ1 )ν ) zu bezeichnen.
Wir betrachten diejenigen Zuwachsverteilungen mit
P (ξ1 = x) = P (ξ1 = −x) ,
und
E[|(ξ1 )α1 1
. . . (ξ1 )αν ν |]
E[(ξ1 )i (ξ1 )j ] =: Bij > 0 ,
< ∞ , wenn
ν
X
αh = 3 , αh ≥ 0 .
h=1
Wir bemerken, dass, wegen der Parität der Zuwächsverteilung,
E[(ξ1 )α1 1 . . . (ξ1 )αν ν ] = 0
P
gilt, wenn νh=1 αh ungerade ist.
Um die Rekurrenz (oder die Transienz) zu zeigen, genügt es nur f00 zu betrachten, da diese Irrfahrten irreduzible Markoff-Ketten sind. Wir wollen das folgende
Ergebnis zeigen:
Satz 3.1. Unter den obigen Annahmen ist f00 = 1, für ν = 1, 2, und f00 < 1
für ν ≥ 3.
Für ν = 1, 2 ist die Irrfahrt rekurrent und sie ist transient für ν ≥ 3. Eine
alternative (nicht mathematische) Formulierung dieses Statzes ist: Ein Irrer kann
immer den weg nach Hause finden, aber wird sich eine Irrtaube ewig verirren.
Um diesen Satz nachzuweisen, ist die erste Stufe das asymptotische Verhalten
der Wahrscheinlichkeit, dass die Irrfahrt auf 0 zurückkommt, zu bestimmen. Die
Fourier-Analysis ist wie ein Gespenst, das immer über uns schwebt und wird von
Zeit zu Zeit, wie in der folgenden Proposition, auf uns schlagen. Die Charakteristische Funktion der Zuwächse
X
ϕ(λ) :=
P (ξ1 = x)eixλ , λ ∈ [−π, π]
(3.1)
x∈Zν
spielt eine zentrale Rolle. Es ist eine einfache Übung zu beweisen, dass
X
ϕSn (λ) :=
P (Sn = x)eixλ = ϕn (λ) .
(3.2)
x∈Zν
Offenbar ist ϕ(0) = 1. Eine wichtige Eigenschaft von ϕ(λ) ist, dass, da die
Irrfahrt irreduzibel ist, |ϕ(λ)| < 1 für λ ∈ (0, 2π) gilt. Wir zeigen dies durch
Widerspruch: Sei λ∗ 6= 0, so dass |ϕ(λ∗ )| = 1. Dann gilt
X
∗
1=
eiλ (x−y) P (ξ1 = x)P (ξ1 = y) .
x,y∈Zν
31
Diese Gleichung gilt genau dann, wenn P (ξ1 = x) = δx,x̄ für ein gegeben x̄ ∈ Zν
ist, die die Verteilung einer reduzible Irrfahrt ist. Da wir hier nur die irreduziblen
Irrfahrten studieren wollen, es kann |ϕ(λ)| = 1 nur für λ = 0, 2π sein.
Die Strategie des Beweises der folgenden Proposition ist einige geeignete Eigenschaften von ϕ(λ) zu bestimmen, um das asymptotische Verhalten von P0 (Sn = 0)
durch die Inversion der Fourier-Reihe
Z
Z
dλ n
dλ n
−ixλ P0 (Sn = 0) =
ϕ
(λ)e
=
ϕ (λ) .
(3.3)
ν
ν
x=0
[−π,π]ν (2π)
[−π,π]ν (2π)
zu berechnen.
Erstens erklären wir eine nützliche Entwicklung für ϕ(λ). Wir berechnen
X
X
∂λi ϕ(λ)λ=0 = ∂λi
P (ξ1 = x)eixλ = i
P (ξ1 = x)xi = iE[(ξ1 )i ] ,
(3.4)
x∈Zν
x∈Zν
sowie
∂λi ∂λj ϕ(λ)λ=0 = −E[(ξ1 )i (ξ1 )j ] = −Bij .
(3.5)
P
∂λα11 . . . ∂λανν ϕ(λ)λ=0 = (i) h αh E[(ξ1 )α1 1 . . . (ξ1 )αν ν ] .
(3.6)
Allgemein gilt
Deshalb schreiben wir die Taylor Entwicklung von ϕ(λ) an [−ε, ε]ν als
1
ϕ(λ) = 1 − (λ, Bλ) + o(|λ|3 ) ,
2
(3.7)
und
1
log ϕ(λ) = − (λ, Bλ) + o(|λ|3 ) .
2
Somit gilt
1
3
1
ϕ(λ) = elog ϕ(λ) = e− 2 (λ,Bλ)+o(|λ| ) = e− 2 (λ,Bλ) (1 + o(|λ|3 )) ,
(3.8)
3
da eo(|λ| ) = 1 + o(|λ|3 ) ist.
Proposition 3.1. Unter den obigen Annahmen gilt
1
1
+o
.
(3.9)
P0 (Sn = 0) =
ν
ν/2
(det B)(2πn)
n2
√
Beweis. Durch die Variablenstrasformation λ 7→ λ/ n schreiben wir die Gleichung (3.3) als
Z
1
dλ
λ
n
P0 (Sn = 0) =
ϕ √
.
(3.10)
(2π)ν/2 [−π√n,π√n]ν (2πn)ν/2
n
32
Diese Formel und (3.8) geben
ν/2
(2π)
3 n
(λ,Bλ)
dλ
|λ|
− 2
e
1+o
3
√ √ ν (2πn) ν2
n2
[−ε n,ε n]
Z
λ
dλ
n
√
ν ϕ
√
√
√ √
n
[−π n,π n]ν /[−ε n,ε n]ν (2πn) 2
Z
(λ,Bλ)
dλ
1
− 2
+
o
ν e
ν
√ √
n2
[−ε n,ε n]ν (2πn) 2
Z
λ
dλ
n
√
. (3.11)
ν ϕ
√
√
√ √
n
[−π n,π n]ν /[−ε n,ε n]ν (2πn) 2
Z
P0 (Sn = 0) =
+
=
+
Um den letzen Ausdruck dieser Gleichung zu berechnen, bemerken wir, dass
ein b > 0 existiert, so dass
2
ϕ(λ) < e−b|λ| ,
∀λ ∈ [−π, π]ν .
(3.12)
Aus (3.7) sehen wir, dass ein b > 0 existiert, so dass
2
ϕ(λ) ≤ 1 − b|λ|2 ≤ e−b|λ| ,
∀λ ∈ [−ε, ε]ν
gilt. Andererseits, da |ϕ(λ)| < 1 für λ 6= 0 gilt, gibt es ein A > 0, so dass für
|λ| ≥ ε |ϕ(λ)| < A gilt. Daher gilt (3.12) fur alle λ ∈ [−π, π]. Also gilt
Z
Z
2
b|λ|2
dλ
λ
dλ
n
− bε2 n
− 2
√
≤
e
ν ϕ
ν e
√
√
√ √
√
√
√ √
n
[−π n,π n]ν /[−ε n,ε n]ν (2πn) 2
[−π n,π n]ν /[−ε n,ε n]ν (2πn) 2
Z
bε2 n
2
b|λ|2
e− 2
dλ
− 2
− bε2 n
≤ e
=
. (3.13)
ν e
(nb)ν/2
Rν (2πn) 2
Nun zeigen wir
Z
(λ,Bλ)
dλ
1
1
− 2
e
=
.
(3.14)
ν + o
ν
√ √ ν (2πn) ν2
(det B)n 2
n2
[−ε n,ε n]
Wir schreiben
Z
√ √
[−ε n,ε n]ν
(λ,Bλ)
dλ
− 2
=
ν e
(2πn) 2
und wir bemerken
Z
√ √
Rν /[−ε n,ε n]ν
Z
(λ,Bλ)
dλ
− 2
ν e
Rν (2πn) 2
Z
(λ,Bλ)
dλ
− 2
+
ν e
√ √
Rν /[−ε n,ε n]ν (2πn) 2
Z
(λ,Bλ)
1
dλ
− 2
=
ν +
ν e
√
√
(det B)n 2
Rν /[−ε n,ε n]ν (2πn) 2
(λ,Bλ)
b 2
dλ
− 2
≤ e− 4 ε n
ν e
(2πn) 2
Z
Rν
b 2
(λ,Bλ)
dλ
e− 4 ε n
− 2
=
ν e
ν .
(2πn) 2
(det B)n 2
Dies ergibt (3.14). Die Gleichungen (3.11), (3.13) und (3.14) ergeben (3.9).
33
Nun können wir den Beweis des Satzes 3.1 beenden.
Beweis des Satzes 3.1. Aus Proposition 2.1 folgt, dass f00 = 1, wenn
X
P0 (Sn = 0) = ∞
n≥0
und f00 < 1 sonst, da
#−1
"
f00 = 1 −
X
P0 (Sn = 0)
(3.15)
n≥0
gilt (sehen Sie (2.8)). Für ν = 1 sagt Proposition 3.1, dass
X
1
P0 (Sn = 0) ' √ , also
P0 (Sn = 0) = ∞ ⇒ f00 = 1 .
n
n≥0
Analog gilt für ν = 2
P0 (Sn = 0) '
1
,
n
also
X
P0 (Sn = 0) = ∞ ⇒ f00 = 1 ,
n≥0
aber für ν = 2 ist P0 (Sn = 0) '
und es ist f00 < 1.
1
,
nν/2
also konvergiert die Reihe
P
n≥0
P0 (Sn = 0)
Wir geben nun einen anderen Beweis der Formel (3.15). Wir führen
X
R :=
1{Sn =0}
n≥0
ein, so dass
E[R] =
X
P0 (Sn = 0)
n≥0
gilt. R ist die zufällige Anzahl der Rückführungen zu 0. Dann ergibt die MarkoffEigenschaft
P0 (R = k) = P (∃n1 , . . . , nk−1 ∈ N : S0 = 0, Sn1 = 0, . . . , Snk−1 = 0 , Sn>nk−1 6= 0)
= P0 (∃n ∈ N : Sn = 0) . . . P0 (∃n ∈ N : Sn = 0)P0 (@n ∈ N : Sn = 0)
k−1
= P0 (τ0 < ∞)k−1 P0 (τ0 = ∞) = f00
(1 − f00 )
für k ≥ 2 und natürlich ist P0 (R = 1) = 1, da P0 (S0 = 1). Somit gilt
X
X
k−1
E[R] =
kP0 (R = k) = (1 − f00 )
kf00
k≥0
k≥0
d
d X k
f00 = (1 − f00 )
(1 − f00 )−1 = (1 − f00 )−1 ,
= (1 − f00 )
df00 k≥0
df00
also (3.15).
In dem Falls ν = 1 kann man ein besser Ergebnis erhalten:
34
1-p
1-p
1-p
1
2
3
0
p
p
p
Abbildung 1. Irrfahrt mit 0 als absorbierenden Rand, deren stochastische Matrix ist (3.17).
Satz 3.2 (Satz von Chung und Fuchs (1951)). Sei ν = 1, E[|ξ1 |] < ∞ und
E[ξ1 ] = 0. Dann gilt f00 = 1.
Wir werden dieses Satz am ende des Kapitels verwenden.
Jetzt diskutieren wir eine vereinfachte Variante eines klassischen Problems der
Wahrscheinlichkeitstheorie, nämlich den Ruin des Spielers. Ein Spieler besitzt i
CHF und wettet auf jedes Ergebnis eines gegebenen Glücksspiels. Der Spieler gewinnt mit Wahrscheinlichkeit p ∈ (0, 1) und verliert mit Wahrscheinlichkeit 1 − p
(das Spiel kann unfair sein). Was ist die Wahrscheinlichkeit, dass der Spieler ruiniert ist?
Dieses Problem besitzt eine einfache Formulierung durch Markoff-Ketten und
zwar ist es eine Irrfahrt mit 0 als absorbierende Rand. Die (unendliche) stochastische Matrix ist
π0,0 = 1 ,
πi,i+1 = p ,
πi,i−1 = 1 − p
1
p
 1−p
0

1−p
 0
..
..
.
.

0
p
0
..
.
und πij = 0 sonst .
0 ···
0 ···
p ···
.. ..
. .

0
0 

0 .
..
.
Wir haben doch die Zufallszeit
τA := inf{n ∈ N : Xn ∈ A}
eingeführt. Wir setzen
ςA := inf{n ∈ N0 : Xn ∈ A} .
35
(3.16)
(3.17)
Sowohl τA als auch ςA sind Stoppenzeiten. Für i ∈ A gilt trivialerweise Pi (ςA =
0) = 1, ferner gilt Pi (τA = ςA ) für alle i ∈
/ A. Wir definieren die folgende Funktion
(n)
hA (i) := Pi (ςA < ∞) .
hA (i) := Pi (ςA = n) ,
Proposition 3.2. hA (i) ist die kleinste nicht-negative Funktion, die
(P
/A
j∈I πij F (A, j) i ∈
F (A, i) =
1
i ∈ A.
(3.18)
erfüllt.
Beweis. Offenbar ist hA (i) = 1 für i ∈ A, also betrachten wir den Fall i ∈
/ A.
Zunächst zeigen wir, dass
X
(n+1)
(n)
fiA
=
πij hA (i)
(3.19)
j∈I
gilt. Die folgende Kette von Gleichungen
X
Pi (τA ≤ n + 1) =
Pi (τA ≤ n + 1|X1 = j)πij
j∈I
=
X
P (X1 , . . . , Xn ∈
/ A, Xn+1 ∈ A|X0 = i , X1 = j)πij
j∈I
=
X
Pj (X0 , . . . , Xn−1 ∈
/ A, Xn ∈ A)πij =
j∈I
X
Pj (ςA = n)πij
j∈I
gibt
(n+1)
hA
(i) =
X
(n)
πij hA (i) .
j∈I
Also
hA (i) = fA (i) =
X
(n+1)
fiA
n≥0
=
X
πij
X
n≥0
j∈I
(n)
hA (i) =
X
πij hA (j) .
(3.20)
j∈I
Sei nun g(i) eine nicht-negative Lösung von (3.18). Wir zeigen mit Induktion nach
(n)
n, dass g(i) ≥ hA (i) für alle i ∈ I und n ∈ N0 ist, woraus g(i) ≥ hA (i) folgt. Für
n = 0 ist g(i) ≥ Pi (ςA = 0), da g(i) = Pi (ςA = 0) für i ∈ A und Pi (ςA = 0) = 0 ≤
(n)
g(i) sonst. Dann folgt aus der Induktionsannahme g(i) ≥ hA (i)
X
X
(n)
(n+1)
g(i) =
πij g(i) ≥
πij hA (i) = hA (i) .
j∈I
j∈I
Übung 3.1. Zeigen Sie, dass
(
P
1 + k6=j πik Ek [ςj ] i 6= j ,
Ei [ςj ] =
0
i=j
36
(3.21)
gilt.
Der folgende Satz stellt die Ruinwahrscheinlichkeit des Spieler her, wenn p ∈
(0, 1) variiert.
Satz 3.3 (Ruin des Spielers).
i) Für p ≤
ii) Für p >
1
2
1
2
gilt fi0 = 1, für alle i ∈ N.
gilt
i
1−p
, für alle i ∈ N .
fi0 =
p
(3.22)
Bemerkung 3.1. Wenn das Spiel unfair ist (gegen den Spieler, d.h. p < 21 ),
wird der Spieler sicher sein ganzes Kapital verlieren, aber dies passiert auch, wenn
das Spiel fair ist (p = 12 ).
Beweis. Offenbar ist h0 (i) = fi0 für i > 0. Die obige Proposition ergibt
(
h0 (0) = 1
(3.23)
h0 (i) = ph0 (i + 1) + (1 − p)h0 (i − 1) i ≥ 1 .
Wir wollen die Lösungen dieser Rekursion finden. Wir sehen sofort, dass die konstante Funktion h0 (i) = 1 für alle i ∈ N stets eine Lösung ist. Wir setzen
h0 (i + 1)
υi :=
,
h0 (i)
und bemerken, dass (3.23) als
υi+1 = M υi = M i υ0 ,
mit
− 1−p
p
M :=
,
(3.24)
1
0
geschrieben werden kann. Die Matrix M i hat die gleichen Eigenvektoren und Eigenwerte wie M . Eine einfache Berechnung ergibt
1−p 1−p 1−p
1
1
p
p
=
M
M
=
.
(3.25)
1
1
1
1
p
1
p
Wir schreiben für α ∈ [0, 1]
1−p h0 (1)
1
p
=α
+ (1 − α)
,
1
1
1
also
M i υ0 = α
1
1
 1−p
p
+β 37
i+1 
1−p
p
i  ,
daher gilt
i
1−p
h0 (i) = α + (1 − α)
.
(3.26)
p
Somit sehen wir, dass die Annahme p ≤ 21 und p > 12 ein verschiedenes Verhalten
i
1
→ ∞ für i → ∞, somit muss α = 1
von h0 (i) ergeben. p < 2 impliziert 1−p
p
i
1
gelten (da h0 (i) ≤ 1). Wenn p = 2 ist, dann gilt 1−p
= 1, also h0 (i) = α + β = 1
p
für alle i ∈ N. Dies beweist i).
1
≤ 1 und wir haben die Familie der
Was den Fall p > 2 betrifft, ist 1−p
p
Lösungen
i
1−p
h0 (i; α) = α + (1 − α)
≤ 1 , α ∈ [0, 1] .
p
Da
i
d
1−p
h0 (i; α) ≥ 0
h0 (i; 1) = 1 ≥
= h0 (i; 0) ,
dα
p
i
= fi0 .
ist die minimale h0 (i; α), wenn α ∈ [0, 1] variiert, h0 (i; 0) = 1−p
p
4. Invariante Masse
Zuerst geben wir die Definition eines invarianten Masses.
Definition 4.1. Ein nicht identisch-null Mass auf I mit
X
µ(j) =
µ(i)πij ,
∀j ∈ I ,
(4.1)
i∈I
P
heisst invariantes Mass bezüglich der stochastichen Matrix π. Wenn Z := i∈I µ(i) <
∞ ist, dann nennt man Z −1 µ(i) ein invariantes Wahrscheinlichkeitmass oder auch
eine invariante Verteilung.
Bemerkung 4.1. Ist µ ein invariantes Mass, so gilt
X
µ(j) =
µ(i)πijn ,
∀n ∈ N0 .
i∈I
(n̄)
Wenn π irreduzibel ist, dann existiert n̄ für alle i, j ∈ I, so dass πij > 0. Sei i ∈ I
(n̄)
mit µ(i) > 0. Dann µ(j) ≥ µ(i)πij > 0. Es folgt daraus, dass µ(j) > 0 ∀j ∈ I gilt.
Wenn die Startverteilung die invariante Verteilung ist, dann gilt natürlich
P (X0 = j) = P (Xn = j) für alle n ∈ N0 .
Die Existenz und die Klassifizierung der invarianten Masse ist ein Problem,
das wir in dem Rest dieses Kapitel ausführlich studieren werden. Ein einfacher
Fall ist, wenn I eine endliche Menge ist. Dann existiert immer mindestens eine
38
invariante Verteilung, die eindeutig ist, wenn die Kette irreduzibel ist. Die Existenz
ist leicht zu zeigen. Wir nehmen an, dass I = {1, . . . , κ} mit κ ∈ N und dass die
Startverteilung ein Kronecker-Delta an Stelle 1 ist: ν(i) = δ1i . Dann bilden wir die
Folge {π n ν(i)}n∈N0 , die als eine Folge in [0, 1]κ ausgelegt werden kann. Da [0, 1]κ
kompakt ist, gibt es eine Folge {nk }k∈N0 , so dass der Limes
µ̄1 := lim π nk ν(i)
k
existiert. Offenbar ist µ̄1 invariant bezüglich π. Eine allgemeine Startverteilung
ν(i) ist eine konvexe Kombination von Delta Massen, d.h.
X
ν(i) =
δij αj
j∈I
P
mit αj ∈ [0, 1] und j αj = 1. Wenn π irreduzibel ist, dann existiert ein invariante
Verteilung, die konvexe Kombination des obigen Limes ist, nämlich
X
µ̄ =
αj µ̄j ,
µ̄j (i) := lim π nk δij .
k
j
Wenn die Kette reduzibel ist, ist die Situation etwas anders. Der Einfachheit halber
nehmen wir an, dass die Kette die Menge I in zwei irreduzible und abgeschlosse
Klassen, I+ und I− , zersetzt. Wir setzen
X
αj δij ,
ν + + ν− = ν ,
ν± (i) :=
j∈I±
d.h. die Wahrscheinlichkeiten, dass die Kette von I± startet. Da diese Mengen
irreduzible sind, muss der Träger der invarianten Verteilung muss in I+ enthalten
sein, wenn die Kette von I+ startet (analog für I− ). Dies bedeutet (etwas formal)
µ̄(i) = P (lim Xn = i) = P (X∞ = i |, X0 ∈ I+ )P (I+ ) + P (X∞ = i |, X0 ∈ I− )P (I− )
n
= µ̄+ (i)ν+ (i) + µ̄− (i)ν− (i) ,
wobei
µ̄± =
X
αj µ̄j .
j∈I±
Aus dem obigen Beispiel man leitet sofort den allgemeinen Fall ab: Wenn K irreduzible und abgeschlosse Klassen Ik , k = 1, . . . K, mit Startverteilungen νk (i)
existieren, dann gilt
K
X
µ̄(i) =
µ̄k (i)νk (i) ,
k=1
wobei jedes µ̄k (i) die invariante Verteilung der k-ten Klasse ist. Dieses einfache,
aber allgemeine Prinzip ein für allemal erklärt, werden wir fortan nur (noch) irreduzible Ketten betrachten.
39
Die obige Konstruktion kann für rekurrente Markoff-Ketten verallgemeinert
werden. Wir betrachten ν(i) = δik , für i ∈ I und bemerken, dass
X
Pk (Xn = i) ,
n≥1
falls konvergent, auch ein invariantes Mass ist (natürlich ist π n ν(i) = Pν (Xn =
i)). Für irreduzible rekurrente Kette konvergiert die obige Reihe nicht. Trotzdem
können wir eine Menge mit unitären Massen finden, so dass die Reihe konvergent
ist. Wir setzen
#
"τ
k
X
X
1{Xn =i} .
(4.2)
µk (i) :=
Pk (Xn = i, τk ≥ n) = Ek
n=1
n≥1
Proposition 4.1. Sei π irreduzibel und rekurrent und für k ∈ I µk (i) durch
(4.2) definiert. Dann ist 0 < µk (i) < ∞ und es ist das einzige invariante Mass,
das µk (k) = 1 erfüllt.
Beweis. Die Bayesche Formel und Rekurrenz ergeben einfach
X
X
µk (k) =
Pk (τk ≥ n , Xn = k) =
Pk (τk = n , Xn = k)
n≥1
=
X
n≥1
Pk (Xn = k | τk = n)Pk (τk = n) =
n≥1
X
fkk = 1 .
n≥1
Dann verwendet wir nochmals die Markoff-Eigenschaft und die zeitliche Homogeneität. Zuerst schreiben wir
Pk (Xn = i , Xn−1 = j , τk ≥ n)
= Pk (τk ≥ n | Xn = i , Xn−1 = j)Pk (Xn = i , Xn−1 = j)
= Pk (τk ≥ n | Xn = i , Xn−1 = j)Pk (Xn−1 = j)Pj (X1 = i)
= Pk (τk − 1 ≥ n − 1 , Xn−1 = j)πji .
Also
µk (i) =
XX
=
XX
Pk (Xn = i , Xn−1 = j , τk ≥ n)
n≥1 j∈I
Pk (Xn−1 = j , τk − 1 ≥ n − 1)πji
n≥1 j∈I
=
XX
Pk (Xn = j , τk ≥ n)πji =
n≥1 j∈I
X
µk (j)πji .
(4.3)
j∈I
Die obige Gleichung zeigt die Invarianz von µk . Ausserdem folgt auch aus Bemerkung 4.1, dass
X
m
µk (i) =
µk (j)πji
∀m ≥ 1 .
j∈I
40
n̄
> 0. Dann
Wegen der Irreduzibilität, existiert für jedes j ∈ I ein n̄ ∈ N mit πji
gilt
X
n̄
n̄
µk (j)
µk (j) ≥ πjk
1 = µk (k) =
πjk
j∈I
für jedes feste j ∈ I. Somit existiert für jedes j ∈ I ein n̄ ∈ N, so dass µk (j) ≤
n̄ −1
m
(πjk
) < ∞. Anderseits bemerken wir, dass µk (i) ≥ µk (k)πki
. Daher existiert für
n̄
jedes j ∈ I ein n̄ ∈ N mit πki > 0, also µk (i) > 0.
Endlich nehmen wir an, dass ein invariantes Masses µ̃(i) mit µ̃(k) = 1 existiert.
Dann ist δ(i) := µ̃(i) − µk (i) auch ein invariantes Mass mit δ(k) = 0. Somit gilt
für jede j̄ ∈ I
X
n
n
δ(j) ≥ πj̄k
δ(j̄)
∀n ∈ N ,
0 = δ(k) =
πjk
j∈I
woraus, nochmals wegen der Irreduzibilität δ(i) = 0 für alle i ∈ I folgt.
Die Existenz und Eindeutigkeit der invarianten Verteilung sind etwas komplizierter zu beweisen, denn die einfache Rekurrenz genügt nicht.
Der Hauptstatz dieses Kapitel ist
Satz 4.1. Ein eindeutiges invariantes Wahrscheinlichtkeitmass µ existiert genau dann, wenn die Markoff-Kette positiv rekurrent ist. Ausserdem gilt
1
.
(4.4)
µ(k) =
Ek [τk ]
Übung 4.1. Sei p ∈ (0, 1) und {ξn }n∈N eine Folge von unabhängigen und
gleichverteilten Zufallsvariablen mit P (ξ1 = 1) = p, P (ξ1 = −1) = 1 − p. Beweisen
P
Sie, dass die Irrfahrt SN := N
n=1 ξi null-rekurrent ist. Was ist das invariante Mass?
Übung 4.2. Beweisen Sie, dass jede endliche Markoff-Kette positiv rekurrent
ist.
Wir werden diesen Satz nur für den Fall beweisen, dass die Kette aperiodisch
ist (d.h. d = 1). Die Annahme d ≥ 2 erschwert den Beweis, aber er enthalt nicht
viele neue Informationen. Der Existenz-Teil ist einfacher und kann sofort bewiesen
werden.
Beweis (nur Existenz). Da die Kette irreduzibel und rekurrent ist, wissen
wir aus Satz 4.1, dass µk (i) ein invariantes Mass ist. Nun gilt
X
XX
µk (j) =
Pk (τk ≥ n | Xn = j)Pk (Xn = j)
n≥1 j∈I
j∈I
=
X
Pk (τk ≥ n) =
n≥1
X
nPk (τk = n) = Ek [τk ] < ∞ .
n≥1
Somit ist
µ(i) :=
µk (i)
Ek [τk ]
41
(4.5)
eine invariante Verteilung. Wenn wir den obigen Ausdruck in i = k auswerten,
erhalten wir (4.4).
Der Beweis der Eindeutigkeit der invarianten Verteilung für positiv rekurrente
und irreduzible Markoff-Ketten braucht etwas mehr Arbeit. Zunächst zeigen wir
ein wichtiges Zwischenergebnis.
Proposition 4.2. Sei π die stochastische Matrix einer positiv-rekurrenten
Markoff-Kette. Existiert
µ(j) = lim πijn
n
P
i-unabhängig, so ist {µ(i)}i∈I eine invariantes endliches Mass. Wenn i µ(i) = 1
gilt, dann ist {µ(i)}i∈I die einzige invariante Verteilung.
Beweis. Zunächst bemerken wir, dass, wegen des Lemmas von Fatou,
X
X
X n+1
n
n
= lim inf πkj
= µ(j)
≤ lim inf
πij πki
πij µ(i) =
πij lim πki
i∈I
n
n
i∈I
n
i∈I
P
gilt,
P d.h. i∈I πij µ(i) ≤ µ(j). Nun nehmen wir an, dass ein j0 existiert, so dass
i∈I πij0 µ(i) < µ(j0 ). Dann gilt
X
X
X
XX
X
µ(i).
πij =
µ(i)
πij µ(i) =
µ(j) >
i∈I
j∈I i∈I
j∈I
j∈I
i∈I
P
Dieser Widerspruch impliziert, dass i∈I πij µ(i) = µ(j) ist, d.h. µ invariant ist.
Es folgt, dass
X
πijn µ(i) = µ(j) ∀n ∈ N
i∈I
ist. Daher ergibt der Satz der dominierten Konvergenz
X
X
X
µ(i) = lim
πijn µ(i) =
lim πijn µ(i) = µ(j)
µ(i).
n
i∈I
i∈I
n
i∈I
P
Somit µ(j)(1
P− i∈I µ(i)) = 0 für alle i ∈ I. Deshalb ist entweder µ(i) = 0 für alle
i ∈ I oder i∈I µ(i) = 1. Da die Kette positiv rekurrent ist, folgt, dass {µ(i)}i∈I
eine invariante Verteilung ist (wegen dem Existenz-Teil des Satzes P
4.1).
Sei nun {q(i)}i∈I eine andere invariante
Verteilung. Dann gilt i∈I q(j)πijn =
P
q(j) für alle n ∈ N, also für n → ∞ i∈I q(i)µ(j) = q(j). Dies ergibt µ(j) = q(j)
für alle j ∈ I.
Endlich können wir den Beweis des Satzes 4.1 durch den folgenden wichtigen
Satz beenden.
Satz 4.2 (Erneuerungssatz). Sei π die stochastische Matrix einer positiv rekurrenten Markoff-Kette. Dann gilt
1
lim πijn =
∀i ∈ I .
n
Ej [τj ]
Beweis. Der Beweis ist lang und wir teilen ihn in mehrere Schritte.
42
1) Erneuerungskette. Wir erinnern an einige nützliche Definitionen über Erneuerungsketten. Sei Rn (j) := 1{Xn =j} , j ∈ I. Offenbar gilt
πijn = Pi (Xn = j) = Ei [Rn (j)] = Pi (Rn (j) = 1) .
Die Erneuerungsepochen sind durch
τj (k) := inf{n > τj (k − 1) : Rn (j) = 1} k ≥ 1
τj (0) = 0 ,
definiert. Wir setzen auch
∆τj (k) := τj (k) − τj (k − 1) , für k ≥ 1 .
(n)
Natürlich ist τj (1) = ∆τj (1) = τj , also Pi (∆τj (1) = n) = fij für alle i, j ∈ I. Die
entscheidende Idee ist, dass die Kette die Erinnerung an den vergangenen Pfad
verliert, jedes mal, wenn sie auf die Stelle j zurückkehrt. Daher ist der Pfad der
Kette in mehrere unabhängige Teile, jede in den Zeiten zwischen τj (k) und τj (k+1),
(n)
gespalten. Es folgt, dass Pi (∆τj (k) = n) = fij für k ≥ 1 ist, unabhängig von k,
und {∆τj (k)}k∈N ist eine Folge von unabhängigen Zufallsvariablen mit gleicher
(n)
Verteilung {fij }n∈N . Wir können die diesen Zufallsvariablen zugeordnete Irrfahrt
durch
t
X
∆τj (k) , n ≥ 1
τj (t) =
k=1
definieren. Offenbar ist
πij0
= δij und
πijn = Pi (Xn = j) =
X
Pi (τj (t) = n) .
t∈N
2) Eine stationäre Erneuerungskette. Wir führen jetzt eine zusätliche Erneued
rungskette {∆τ̃j (k)}k∈N ein. Wir setzen für k ≥ 1 ∆τ̃j (k) = ∆τj (k) und
∆j (n) := P (τ̃j (0) = n) =
Pj (τj > n)
Ej [τj ]
(offenbar ist
X Pj (τj > n)
∆j (n) =
=
E
[τ
]
j
j
n≥0
n≥1
X
P
n≥1
nPj (τj = n)
= 1) .
Ej [τj ]
Sei
τ̃j (t) := τ̃j (0) +
t
X
∆τ̃j (k) und π̃ij (n) :=
X
Pi (τ̃j (t) = n) .
t∈N0
k=1
Wir werden beweisen, dass
π̃ij (n) = π̃ij =
1
Ej [τj ]
43
∀n ∈ N , i ∈ I .
(4.6)
Für n = 0 ist es einfach
π̃ij (0) = ∆(0) =
1
Pj (τj > 0)
=
.
Ej [τj ]
Ej [τj ]
Um die obige Identität für alle n ∈ N zu zeigen, bemerken wir zuerst, dass
X
π̃ij (n) = ∆(n) +
Pi (τ̃j (t) = n)
t∈N
= ∆(n) +
= ∆(n) +
n
XX
Pi (τ̃j (0) = h)Pi (∆τ̃j (1) + . . . + ∆τ̃j (t) = n − h)
t∈N h=1
n
X
Pi (τ̃j (0) = h)πijn−h .
h=1
Dann folgt nach dem Lemma 2.1, dass für n ≥ 1
π̃ij (n) = ∆(n) +
n X
n−h
X
(k)
Pi (τ̃j (0) = h)πijn−h−k fii
h=1 k=1
= ∆(n) +
n
X
(k)
π̃ij (n − k)fii
k=1
gilt. Aus der obigen Gleichung erhalten wir
ˆ
ˆ
ˆ ,
π̃(s)
= ∆(s)
+ fˆ(s)π̃(s)
wobei für eine beliebige Folge {pn }n∈N
X
p̂(s) :=
sn pn ,
0 ≤ s < 1,
0 ≤ s < 1.
n∈N
Da
1 X n
s Pj (τj > n) ,
Ej [τj ] n≥1
ˆ
∆(s)
=
genügt es zu zeigen, dass
P
sn Pj (τj > n)
1
=
ˆ
1−s
1 − f (s)
n≥1
gilt, so dass
ˆ
π̃(s)
=
1
1
1 X n
=
s ,
Ej [τj ] 1 − s
Ej [τj ] n≥1
44
(4.7)
also (4.6). Der Beweis von (4.7):
k
1 − fˆ(s) X 1 − sk (k) X (k) X n
=
fjj =
fjj
s
1−s
1
−
s
n=1
k≥1
k≥1
X (k) X
X
n
n
s
fjj =
s Pj (τj > n) .
n≥1
n≥1
k≥n+1
3) Kopplung. Sei die Zufallsfolge {Vj (t)}t∈N durch
Vj (t) := τj (t) − τ̃j (t) =
t
X
∆τj (k) − ∆τ̃j (k) − τ̃j (0)
(4.8)
k=1
definiert und N := inf{t : Vj (t) = 0}. Wir sehen sofort, dass {Vj (t) − Vj (0)}t∈N
für alle j ∈ I eine Markoff-Kette ist und zwar eine 1-dimensionale Irrfahrt mit
Startverteilung ∆(n) und Zuwächsen ∆τj (t) − ∆τ̃j (t). Ausserdem ist, wegen des
Satzes von Chung und Fuchs (Satz 3.2), diese Kette rekurrent, d.h. P (N < ∞) = 1,
da E[Vj (t) − Vj (t − 1)] = 0 für t ≥ 1 und E[|Vj (t) − Vj (t − 1)|] ≤ 2Ej [τj ] < ∞.
Somit gilt
X
X
Pi (τ̃j (t) = n, N < t) =
Pi (τj (t) = n, N < t) ,
t∈N0
t∈N0
da N Pi -f.s. endlich ist, so dass
X
Pi (τj (t) = n)
πijn =
t∈N
=
X
Pi (τ̃j (t) = n) +
t∈N0
X
Pi (τj (t) = n) −
t∈N
= π̃ij +
X
t∈N
n
t∈N
Pi (τ̃j (t) = n)
t∈N0
Pi (τj (t) = n, N ≥ t) −
Deshalb wollen wir zeigen, dass
X
lim
Pi (τj (t) = n, N ≥ t) = 0 ,
X
X
Pi (τ̃j (t) = n, N ≥ t) .
t∈N0
lim
n
X
Pi (τ̃j (t) = n, N ≥ t) = 0 .
(4.9)
t∈N0
Wir bemerken, dass τj (t) und τ̃j (t) Pi -f.s. ansteigend bezüglich t sind, da
P (∆τj ≥ 0) = P (∆τ̃j ≥ 0) = 1 ,
also τj (t) ≤ τj (N ) und τ̃j (t) ≤ τ̃j (N ) Pi -f.s. für t ≤ N . Dann existiert ein n̄ ∈ N,
so dass für alle n ≥ n̄
X
Pi (τj (t) = n, N ≥ t) ≤ Pi (τj (N ) = n)
t∈N
und
X
Pi (τ̃j (t) = n, N ≥ t) ≤ Pi (τ̃j (N ) = n) .
t∈N0
45
Natürlich ist
lim Pi (τj (N ) = n) = Pi (τj (N ) = ∞) = 0
n
und analog
lim Pi (τ̃j (N ) = n) = 0 ,
n
da N Pi -f.s. endlich ist. Kombinieren wir (4.6) und (4.9), so erhalten wir
1
lim πijn = π̃ij =
.
n
Ej [τj ]
Bemerkung 4.2. Der originale Beweis des Erneuerungssatzes (nach Erdos,
Feller und Pollard 1949) ist viel kürzer und gilt auch, wenn E[τ ] = ∞ ist. Hier
haben wir uns für einen längere Beweis entschieden, um den wichtigen Begriff
Erneuerung zu betonen.
46
KAPITEL 3
Martingale mit diskretem Zeitparameter
1. Erste Definitionen und Eigenschaften
Herzlich willkommen in der wunderbaren Welt der Martingale!
Definition 1.1. Sei T ⊆ R, {Ft }t∈T eine Filtrierung des Wahrscheinlichkeitsraums (Ω, F, P ), und X := {Xt }t∈N ein Ft -angepasster stochastischer Prozess mit
E[|Xt |] < ∞ ,
i)
ii)
iii)
Wenn T
∀t ∈ T .
Ist E[Xs |Ft ] = Xt P −f.s. für alle t ≤ s, so heisst Xt ein Ft -Martingal;
Ist E[Xs |Ft ] ≥ Xt P −f.s. für alle t ≤ s, so heisst Xt ein Ft -Submartingal;
Ist E[Xs |Ft ] ≤ Xt P −f.s. für alle t ≤ s, so heisst Xt ein Ft -Supermartingal.
eine diskrete Menge ist, z.B. T ⊆ N, heisst Xt ein diskrete Ft -Martingal.
Bemerkung 1.1. Für nicht negative Zufallsvariablen kann auf Integrierbarkeit
in der Definition verzichtet werden. Ausserdem ist Xt ein Ft -Submartingal genau
dann, wenn −Xt ein Ft -Supermartingal ist.
Bemerkung 1.2. In dem diskretem Fall T = N ist {Xn }n∈N genau dann ein
Martingal, wenn
E[Xn+1 |Fn ] = Xn P − f.s.
(1.1)
gilt (analog für Sub- oder Supermartingale). Dies folgt durch Induktion, wobei
die Induktionsbasis ist (1.1). Wir nehmen E[Xn+m |Fn ] = Xn an und wollen
E[Xn+m+1 |Fn ] = Xn beweisen. Wir bemerken, dass Xn+m = E[Xn+m+1 |Fn+m ].
So gilt
E[Xn+m+1 |Fn ] = E[E[Xn+m+1 |Fn+m ]|Fn ] = E[Xn+m |Fn ] = Xn .
Aus (1.1) folgt sofort
E[E[Xn+1 |Fn ]] = E[Xn+1 ] = E[Xn ] = · · · = E[X0 ]
(1.2)
und analog für Submartingale
E[E[Xn+1 |Fn ]] ≥ E[Xn+1 ] ≥ E[Xn ] ≥ · · · ≥ E[X0 ]
(1.3)
oder für Supermartingale
E[E[Xn+1 |Fn ]] ≤ E[Xn+1 ] ≤ E[Xn ] ≤ · · · ≤ E[X0 ] .
47
(1.4)
Drei kanonische Beispiele folgen.
B1) Sei Fn eine beliebige Filtrierung und X eine Zufallsvariable mit E[|X|] <
∞. Dann ist
Xn := E[X|Fn ] n ∈ N
ein Martingal. Der leichte Beweis sei dem Leser überlassen.
B2) (nochmals) Die Irrfahrt auf Zν : Sei {ξn }n∈N eine Folge von
P unabhängigen
gleichverteilten Zufallsvariablen mit E[|ξ1 |] < ∞, X0 = 0, Xn := ni=1 ξi für n ≥ 1
und Fn := σ(ξ1 , . . . , ξn ). Dann gilt
E[Xn+1 |Fn ] = E[Xn |Fn ] + E[ξn+1 |Fn ] = Xn + E[ξn+1 ] .
(1.5)
Somit ist X ein Martingal, wenn E[ξ1 ] = 0 gilt und es ist ein Submartingal (Supermartingal), wenn E[ξ1 ] ≥ 0 (E[ξ1 ] ≤ 0).
B3) Sei {ξn }n∈N eine Folge von unabhängigen gleichverteilten Zufallsvariablen
mit E[ξ1 ] = 1, Fn := σ(ξ1 , . . . , ξn ) n ≥ 1 und F0 := {∅, Ω}. Der Prozess {Xn }n∈N
definiert durch
n
Y
Xn :=
ξi , n ≥ 1, X0 := 1 ,
i=1
ist ein Fn -Martingal. Offenbar ist Xn angepasst und integrierbar. Dann gilt
E[Xn |Fn−1 ] = E[ξn Xn−1 |Fn−1 ] = ξn E[Xn−1 |Fn−1 ] = ξn Xn−1 = Xn .
Übung 1.1. Beweisen Sie, dass eine symmetrische Irrfahrt Sn auf Z existiert,
d
so dass Xn = eSn gilt.
Übung 1.2. Beweisen Sie die folgende Aussage: Ist ϕ : R 7→ R eine Fn messbare konvexe Funktion und Xn ein Martingal, so ist ϕ(Xn ) ein Submartingal.
Insbesondere ist |Xn |p für p ≥ 1 ein Submartingal (Tipp: Verwenden Sie das Lemma 2.1 des Kapitels 1).
Sei {fn }n∈N eine P -f.s. ansteigende reelle Folge. Dann ist {fn }n∈N trivialerweise
bezüglich aller Filtrierungen ein Submartingal, da
E[fn+1 |Fn ] = fn+1 ≥ fn .
Im allgemeinen gilt der folgende Satz.
Satz 1.1 (Doobsche Zerlegung). Sei {Xn }n∈N0 eine Folge von integrierbaren Zufallsvariablen und Fn := σ(X1 , . . . , Xn ). Dann existiert ein Fn -Martingal
{Yn }n∈N und eine Folge von Zufallsvariablen {fn }n∈N , mit fn Fn−1 -m.b., so dass
Xn = Yn + fn ,
∀n ≥ 1
(1.6)
gilt. Diese Zerlegung ist eindeutig.
Beweis. Sei die Folge {fn }n∈N durch
f1 := E[X1 − X0 |F0 ] ,
fn := fn−1 + E[Xn − Xn−1 |Fn−1 ] ,
48
n ≥ 1,
definiert. Dann ist Yn := Xn − fn ein Martingal, da
E[Xn − fn |Fn−1 ] = E[Xn |Fn−1 ] − E[fn−1 |Fn−1 ] − E[E[Xn − Xn−1 |Fn−1 ]|Fn−1 ]
= E[Xn |Fn−1 ] − fn−1 − E[Xn − Xn−1 |Fn−1 ] = Xn−1 − fn−1 .
Sei nun (Yn0 , fn0 ) ein anderes Paar, das die Annahmen des Satzes erfüllt, so dass
Xn = Yn0 + fn0 . Dann folgt für n ≥ 1
0
0
Yn+1
− Yn0 + fn+1
− fn0 = Yn+1 − Yn + fn+1 − fn .
Daher gilt
0
E[fn+1
− fn0 |Fn ] = E[fn+1 − fn |Fn ] ,
0
− fn0 = fn+1 − fn für alle n ∈ N P -f.s. Da f1 = f10 , folgt die Eindeutigkeit
d.h. fn+1
von fn , also der Zerlegung (1.6).
Bemerkung 1.3. {Xn }n∈N0 ist ein Submartingal genau dann, wenn {fn }n∈N P f.s. ansteigend ist und {Xn }n∈N0 ist ein Supermartingal genau dann, wenn {fn }n∈N
P -f.s. fallend ist.
Proposition 1.1. {Xn }n∈N0 ist ein Martingal mit supn∈N0 E[|Xn |] < ∞ genau
dann, wenn zwei nicht-negative Martingale {Yn }n∈N0 und {Zn }n∈N0 existieren, so
dass Xn = Zn − Yn .
Beweis. Eine Rechnung ist einfach: Seien {Yn }n∈N0 , {Zn }n∈N0 zwei nichtnegative Martingale, so dass Xn = Zn − Yn auch ein Martingal ist. Dann gilt
E[|Xn |] = E[|Yn − Zn |] ≤ E[|Yn |] + E[|Zn |] = E[Yn ] + E[Zn ] = E[Y1 ] + E[Z1 ] < ∞ .
Sei nun {Xn }n∈N0 ein Martingal mit supn∈N0 E[|Xn |] < ∞. Wir setzen
Yj,n := E[|Xn ||Fj ] 0 ≤ j ≤ n .
(1.7)
Offenbar ist {Yj,n }n∈N0 ,0≤j≤n eine Folge von nicht-negativen Zufallsvariablen. Ausserdem ist die Folge {Yj,n }n∈N0 für jedes feste 0 ≤ j ≤ n P -f.s. absteigend: Es gilt
(aus dem Satz 2.1 (5) und (3))
Yj,n+1 − Yj,n = E[|Xn+1 | − |Xn ||Fj ] = E[E[|Xn+1 | − |Xn ||Fn ]|Fj ] ≥ 0 ,
da, wegen der Konvexität, {|Xn+1 |}n∈N ein Submartingal ist (sehen Sie Übung 1.2).
Nochmals ergibt Satz 2.1 (5), dass {Yj,n }n∈N ein Fj -Martingal ist, da
E[Yj+1,n |Fj ] = E[E[|Xn ||Fj+1 ]|Fj ] = E[|Xn ||Fj ] = Yj,n
P -f.s. gilt. Offenbar ist auch Zj,n := Xj + Yj,n ein Fj -Martingal für 0 ≤ j ≤ n mit
Zj,n = E[Xn + |Xn ||Fj ] ≥ 0 ,
P -f.s.
Somit existieren wegen des Satzes von Lebesgue zwei Martingale
{Yj }j∈N0 = lim{Yj,n }0≤j≤n ,
{Zj }j∈N0 = lim{Zj,n }0≤j≤n ,
n
n
mit Zj − Yj = Xj P -f.s.
49
2. Stoppzeiten für Martingale
Der Begriff der Stoppzeit spielt auch eine wichtige Rolle auch in der Theorie
S
der Martingale. Sei {Fn }n∈N eine Filtrierung und F∞ die σ-Algebra, die von n Fn
erzeugt wird (d.h. F∞ ist die kleinste σ-Algebra, die alle Fn enthält). Dann folgt
sofort aus der Definition einer Stoppzeit τ , dass {τ = ∞} ∈ F∞ . Ausserdem setzen
wir
Fτ := {A ∈ F∞ : A ∩ {τ = n} ∈ Fn , ∀n ∈ N0 } .
Es ist leicht zu beweisen, dass Fτ eine Teil-σ-Algebra von F∞ ist und
Fτ = {A ∈ F∞ : A ∩ {τ ≤ n} ∈ Fn , ∀n ∈ N0 } .
Lemma 2.1. Seien τ, τ 0 zwei Stoppzeiten. Dann ist {τ ≤ τ 0 } ∈ Fτ ∩ Fτ 0 .
Ausserdem impliziert τ ≤ τ 0 P -f.s., dass Fτ ⊆ Fτ 0 .
Beweis. Wir bemerken, dass
[
[
{τ ≤ τ 0 } =
{τ ≤ τ 0 } ∩ {τ = n} =
{τ ≤ τ 0 } ∩ {τ 0 = n} .
n∈N0
n∈N0
Wir haben
{τ ≤ τ 0 } ∩ {τ = n} = {n ≤ τ 0 } ∩ {τ = n} = {τ 0 ≤ n − 1}c ∩ {τ = n} ∈ Fn ,
also {τ ≤ τ 0 } ∈ Fτ . Analog gilt
{τ ≤ τ 0 } ∩ {τ 0 = n} = {n ≤ τ } ∩ {τ 0 = n} = {τ ≤ n − 1}c ∩ {τ 0 = n} ∈ Fn .
also {τ ≤ τ 0 } ∈ Fτ 0 , woraus {τ ≤ τ 0 } ∈ Fτ ∩ Fτ 0 folgt.
Sei nun A ∈ Fτ . Wenn τ ≤ τ 0 P -f.s., dann folgt
{τ 0 ≤ n} = {τ 0 ≤ n} ∩ {τ ≤ n} .
Somit gilt
A ∩ {τ 0 ≤ n} = (A ∩ {τ ≤ n}) ∩ {τ 0 ≤ n} ∈ Fn
∀n ∈ N0 ,
d.h. es gilt A ∈ Fτ 0 .
Übung 2.1. Sei τ eine Stoppzeit und {Xn }n∈N ein disktreter stochastischer
Prozess. Beweisen Sie, dass Xτ Fτ -m.b. ist.
Der folgende Satz erklärt, dass die Martingaleigenschaft erhalten bleibt, wenn
wir die Zeit durch Stoppzeiten ersetzen.
Proposition 2.1. Sei {Xn }n∈N ein Supermartingal und τ, τ 0 zwei Stoppzeiten,
so dass P (τ ≤ τ 0 ) = 1 und supω∈Ω |τ (ω)| ≤ supω∈Ω |τ 0 (ω)| < ∞. Dann gilt
E[Xτ 0 |Fτ ] ≤ Xτ
P -f.s.
Diese Ungleichung ist eine Gleichung, wenn {Xn }n∈N ein Martingal ist.
50
Beweis. Für Supermartingale benutzen wir die Zerlegung von Doob, d.h. Satz
1.1. Wir bemerken zuerst, dass τ ≤ τ 0 P (fτ ≥ fτ 0 ) = 1 impliziert. Somit gilt
E[Xτ 0 |Fτ ] = E[Yτ 0 |Fτ ]+E[fτ 0 |Fτ ] ≤ E[Yτ 0 |Fτ ]+E[fτ |Fτ ] = E[Yτ 0 |Fτ ]+fτ
P -f.s. ,
da fτ Fτ -m.b. ist. Daher gilt die Aussage für Supermartingale, wenn dieselbe gültig
für Martingale ist.
Sei Xn ein Martingal und τ̄ eine Stoppzeit mit supω∈Ω τ̄ (ω) ≤ c̄ < ∞, c̄ ∈ N.
Dann gilt
Xτ̄ = E[Xc̄ |Fτ̄ ] P -f.s.
(2.1)
Um diese Formel zu zeigen, schreiben wir für jedes B ∈ Fτ ⊆ Fc̄
[
B=
{ω ∈ B : τ̄ = j} ,
j=1,...,c̄
also (wir erinnern uns an die Definition von Martingal 1.1, i))
E[1B Xτ̄ ] =
c̄
X
E[1{ω∈B : τ̄ =j} Xτ̄ ] =
j=1
=
c̄
X
c̄
X
E[1{ω∈B : τ̄ =j} Xj ]
j=1
E[1{ω∈B : τ̄ =j} E[Xc̄ |Fj ]] = E[1B E[Xc̄ |Fτ̄ ]] .
(2.2)
j=1
Sei nun c := supω∈Ω |τ 0 (ω)|. Da Fτ ⊆ Fτ 0 ⊆ Fc , folgt
E[Xc |Fτ ] = E[E[Xc |Fτ 0 ]|Fτ ] P -f.s.
aus Punkt (5) des Satzes 2.1 (Kapitel 1). Damit ergibt die Formel (2.1) die Aussage.
Übung 2.2. Sei {Xn }n∈N ein Martingal und τ 0 eine beschrankte Stoppzeit.
Beweisen Sie, dass E[Xτ ] = E[X0 ].
Dieses Ergebnis hat eine unmittelbare Bedeutung: Ein Spieler kann nicht aus
einem fairen Spiel Gewinn machen, wenn er nicht in die Zukunft blicken kann.
Wir werden im folgenden sehen, dass dies unter allgemeineren Annahmen bewiesen
werden kann.
Definition 2.1. Seien {Xn }n∈N0 und {fn }n∈N zwei stochastische Prozesse mit
fn Fn−1 -m.b. für n ≥ 1. Wir definieren den Prozess {Ẋn }n∈N0 durch Ẋ0 := 0 und
Ẋn+1 := Ẋn + fn+1 (Xn+1 − Xn ) .
Wir nennen den stochastischen Prozess {Ẋn }n∈N Martingaltransformation von Xn
durch fn .
Offenbar ist E[fn (Xn+1 − Xn )|Fn ] = fn E[Xn+1 − Xn |Fn ] ≤ 0, wenn Xn ein
Supermartingal ist. Damit ist die Martingaltransformation eines Supermartingals
ein Supermartingal (analog für Martingale und Submartingale).
51
Satz 2.1 (Doob’sche Stoppsatz). Es seien τ eine Stoppzeit und {Xn }n∈N ein
Supermartingal. Dann ist {Xn∧τ }n∈N ein Supermartingal. Ist {Xn }n∈N ein Martingal, so auch {Xn∧τ }n∈N .
Beweis. Wir betrachten den Prozess {1{τ ≥n} }n∈N , der Fn−1 -m.b. ist, da {τ ≥
n} = {τ ≤ n − 1}c ∈ Fn−1 . Somit ist die Martingalstransformation von Xn durch
1{τ ≥n} einfach zu berechnen:
Ẋn+1 = Ẋn + 1{τ ≥n+1} (Xn+1 − Xn ) =
n+1
X
1{τ ≥k} (Xk − Xk−1 ) ,
k=1
= 1{τ ≥n+1}
n+1
X
n+1
X
k=1
k=1
(Xk − Xk−1 ) + 1{τ ≤n}
(Xk − Xk−1 )
= 1{τ ≥n+1} (Xn+1 − X0 ) + 1{τ ≤n} (Xτ − X0 )
⇒ Ẋn = Xn∧τ − X0 .
Da {Ẋn }n∈N ein Supermartingal ist (bzw. ein Martingal), so auch {Xn∧τ }n∈N . Wenn {Xn }n∈N ein Supermartingal ist, dann folgt aus E[Ẋn ] ≤ E[Ẋ0 ] = 0,
dass E[Xn∧τ ] ≤ E[X0 ]. Wir erhalten sofort das folgende Korollar:
Korollar 2.2. Seien {Xn }n∈N ein positive Supermartingal und τ eine Stoppzeit mit P (τ < ∞) = 1. Dann ist E[Xτ ] ≤ E[X0 ].
Beweis. Wir können das Lemma von Fatou verwenden (da Xn ≥ 0) und
erhalten
E[Xτ ] = E[lim Xn∧τ ] ≤ lim E[Xn∧τ ] ≤ E[X0 ] .
n
n
Die Tatsache E[Ẋn ] = E[Ẋ0 ] = 0 für das Martingal Xn impliziert im allgemeinen nicht, dass E[Xτ ] = E[X0 ]. Wir erklären dies durch ein Beispiel. Sei
{Xn }n∈N die symmetrische Irrfahrt auf N0 mit Absorption in 0 und Start in j ≥ 1.
Dieser Prozess ist ein Martingal, der Beweis ist analog wie im Beispiel B2). Die
Zufallsvariable
τ := inf{n ∈ N0 : Xn = 0}
S
ist eine Stoppzeit, da {τ ≤ n} = nk=0 {Xk = 0} ∈ σ(X0 , . . . , Xn ). Die Rekurrenz
der eindimensionalen Irrfahrt ergibt P (τ < ∞) = 1. Damit ist E[Xn∧τ ] = E[X0 ] =
j ≥ 1 für alle n ∈ N0 (aus dem Satz 2.1), aber offenbar E[Xτ ] = 0 < E[X0 ]. Offenbar gilt limn E[Xn∧τ ] = E[Xτ ], dennoch dürfen wir den Satz von Lebesgue nicht
benutzen, da keine integrierbare dominante Funktion für die Folge {Xn∧τ }n∈N0
existiert (beweisen Sie dies).
Die nächste Proposition gibt einige hinreichende Kriterien für E[Xτ ] = E[X0 ].
Proposition 2.2. Es seien τ eine Stoppzeit und {Xn }n∈N ein Supermartingal
(bzw. ein Martingal), die eine der folgenden Bedingungen erfüllen:
52
i) supω∈Ω |τ (ω)| = M < ∞;
ii) P (τ < ∞) = 1 und L := supn∈N supω∈Ω |Xn (ω)| < ∞;
iii) E[τ ] < ∞ und supn∈N supω∈Ω |Xn (ω) − Xn−1 (ω)| < ∞.
iv) E[τ ] < ∞ und es gibt a > 0, so dass E[|Xn+1 − Xn | |Fn ]1{τ ≥n} ≤ a P -f.s.
Dann ist Xτ integrierbar und es gilt E[Xτ ] ≤ E[X0 ] (bzw. E[Xτ ] = E[X0 ]).
Beweis. Wir erinnern daran, dass nach Satz 2.1 E[Xn∧τ ] ≤ E[X0 ] (bzw.
E[Xn∧τ ] = E[X0 ]) für alle n ∈ N gilt.
i) Da supω∈Ω |τ (ω)| = M < ∞, gilt τ ∧n = τ für alle n ≥ M , also limn E[Xn∧τ ] =
E[Xτ ] ≤ E[X0 ] (bzw. E[Xn∧τ ] = E[X0 ]).
ii) Eine leichte Berechnung gibt
E[|Xn∧τ |] = E[|Xn∧τ |1{τ <∞} ] ≤ L .
Damit können wir den Satz von Lebesgue und den Doob’sche Stoppsatz verwenden:
E[Xτ ] = E[lim Xn∧τ ] = lim E[Xn∧τ ] = lim E[X0∧τ ] ≤ E[X0 ] (bzw. =) .
n
n
n
iii) Wegen supn∈N supω∈Ω |Xn (ω) − Xn−1 (ω)| < ∞, existiert ein K > 0, so dass
P (|Xn − Xn−1 | ≤ K) = 1 für alle n ∈ N. Somit folgt P (|Xn − X0 | ≤ Kn) = 1 für
alle n ∈ N, also P (|Xτ ∧n − X0 | ≤ Kτ ) = 1. Daher gilt
E[Xτ ∧n ] = E[Xτ ∧n 1{|Xτ ∧n −X0 |≤Kτ } ] ≤ E[Kτ + X0 ] < ∞ ,
also ergibt der Satz von Lebesgue die Aussage.
iv) Wir setzen X0 := 0 P -a.s. Zn := |Xn+1 − Xn |, n ∈ N0 und
X
Zn 1{τ ≥n} .
Yτ :=
n∈N
Nun berechnen wir
E[Yτ ] =
X
E[Zn 1{τ ≥n} ] =
=
E[E[Zn 1{τ ≥n} |Fn ]]
n∈N
n∈N
X
X
E[1{τ ≥n} E[Zn |Fn ]] ≤ a
n∈N
X
P (τ ≥ n) = aE[τ ] .
n∈N
Wir bemerken, dass wir stets |Xτ | ≤ Yτ haben (aus der Dreiecksungleichung).
Ausserdem gilt
1{τ ≥N } |XN | ≤
N
X
n=1
Zn 1{τ ≥N } ≤
X
Zn 1{τ ≥n} 1{τ ≥N } ,
N ∈ N,
n∈N
also
E[|Xτ ∧n |] = E[|Xτ ∧n |1{τ ≥n} ]+E[|Xτ ∧n |1{τ ≤n} ] ≤ E[|Xn |1{τ ≥n} ]+E[|Xτ |] ≤ 2aE[τ ] .
Daher ergibt der Satz von Lebesgue die Aussage.
53
Literaturverzeichnis
[1]
[2]
[3]
[4]
[5]
H. Bauer, Wahrsheinlichkeitstheorie, de Gruyter, (1991).
L. Breiman, Probability, SIAM Classic Edition, (1992).
T. Hida, Brownian Motion, Springer, (1980)
D. Williams, Probability with Martingales, Cambridge University Press, (1991).
S. R. S. Varadhan, Probability, Courant Lecture Notes, AMS (2001).
55
Herunterladen