Angewandte Stochastik - Mathematisches Institut

Werbung
Universität Basel
Frühlingsemester 2017
Angewandte Stochastik
Giuseppe Genovese
Institut für Mathematik, Universität Zürich, CH-8057 Zürich, Switzerland
&
Matematisches Institut, Universität Basel, Spiegelgasse 1, 4051 Basel,
Switzerland.
email: [email protected]; [email protected]
Inhaltsverzeichnis
Kapitel 1. Einführende Begriffe
1. Notation und Terminologie
2. Bedingte Wahrscheinlichkeiten und Bedingter Erwartungswert
3. Reguläre bedingte Wahrscheinlichkeiten
4. Stochastische Prozesse
Anhang: der Radon-Nikodym Satz
3
3
4
10
12
16
Kapitel 2. Markoff-Ketten
1. Definitionen, starke Markoff-Eigenschaft und Beispiele
2. Rekurrenz und Transienz
3. Noch mehr über Irrfahrten
4. Invariante Masse
21
21
26
31
38
Literaturverzeichnis
47
1
KAPITEL 1
Einführende Begriffe
1. Notation und Terminologie
Ein messbarer Raum ist ein Paar (Ω, F), wobei Ω eine nicht leere Menge und F
eine σ-Albegra ist. Ein Massraum ist ein Tripel (Ω, F, µ), wobei (Ω, F) ein messbarer Raum und µ ein Mass ist. Wir sprechen von einem Wahrscheinlichkeitsraum,
wenn µ(Ω) = 1 ist.
(Ω, F, P ) bezeichnet durchweg einen Wahrscheinlichkeitsraum. B(Ω) ist die
Borel-σ-Algebra auf Ω, d.h. die kleinste σ-Algebra, die von den offenen Mengen
erzeugt ist. λn ist das Lebesgue Mass auf (Rn , B(Rn )).
Sind (Ω, F) und (Ω0 , F 0 ) zwei messbare Räume, so heisst eine Abbildung f :
Ω 7→ Ω0 F − F 0 -messbar (kurz m.b.), wenn für jedes B ∈ F 0 f −1 (B) ∈ F. Eine
Zufallsvariable X auf (Ω, F, P ) ist eine F − B(R)-m.b. Abbildung. Wir verwenden
oft die kurze Notation "X ist F-m.b." für Zufallsvariablen X auf F. Ist X eine
Zufallsvariable auf (Ω, F, P ), so bezeichnet σ(X) := {X −1 (B) : B ∈ B(R)} die
von X erzeugte σ-Algebra. Wir geben ohne Beweis den folgenden wichtigen Satz
an:
Satz 1.1. Ist Y eine σ(X)-m.b. Zufallsvariable, so existiert eine B(R)-m.b.
Funktion Φ mit Y = Φ ◦ X.
Wir sagen, dass eine Eigenschaft P -fast sicher gilt (kurz P -f.s.), wenn ihre
Wahrscheinlichkeit Eins ist.
Ist µ ein Mass auf F und f : Ω 7→ Ω0 , so ist das Mass µf −1 auf (Ω0 , F 0 )
definiert durch µf −1 (B) := µ(f −1 (B)) das induzierte Mass. Das induzierte Wahrscheinlichkeitmass P X −1 , das ein Wahrscheinlichkeitmass auf (R, B(R)) ist, nennt
man die Verteilung von X. Wir schreiben
Z
Z
E[X] =
P (dω)X(ω) =
P X −1 (dx)x .
Ω
R
X hat eine Dichte, wenn P X −1 absolut stetig bezüglich λ ist, und der Erwartungswert lässt sich in diesem Fall als
Z
d(P X −1 )
E[X] =
xdx
dx
R
darstellen.
3
2. Bedingte Wahrscheinlichkeiten und Bedingter Erwartungswert
Erstens erinnern wir an die Definition bedingter Wahrscheinlichkeit:
Definition 2.1. Seien A, B ∈ Ω mit P (B) > 0. Die bedingte Wahrscheinlichkeit von A gegen B P (A|B) ist durch
P (A ∩ B)
P (B)
P (A|B) :=
(2.1)
definiert.
Wir können diese Definition einfach mit diskreten Zufallsvariablen anwenden.
Sei I eine abzählbare Menge, X : Ω → I eine Zufallsvariable und IX := {x ∈ I :
P (X = x) > 0}. Dann ist
P (A|{X = x}) =
P (A ∩ {X = x})
,
P (X = x)
∀x ∈ IX .
(2.2)
Wir bemerken, dass {P (A|{X = x})}x∈IX eine σ(X)-m.b. Funktion auf Ω darstellt, die konstant auf jedem Ereignis {X = x} ist. Da es eine Zufallsvariable ist,
bezeichnen wir sie mit P (A|σ(X)). Es gilt die folgende Formel:
P (A ∩ B) = E[1B P (A|σ(X))] ,
(2.3)
für A ∈ F und B ∈ σ(X). Der Beweis
verwendet den Satz über die totale WahrS
scheinlichkeit. Sei nämlich B = x∈IX Bx mit Bx := {X = x} ∩ B, so dass
!
[
P (A ∩ B) = P A ∩ Bx
x
=
X
P (A ∩ Bx ) =
X
x
=
X
P (A ∩ B|{X = x})P ({X = x})
x
P (A|{X = x})P (X = x)1B = E[1B P (A|σ(X))] .
(2.4)
x
Übung 2.1. Verallgemeiern Sie die obige Konstruktion für Zufallsvariablen
X : Ω 7→ R.
Der allgemeine Fall verlangt eine andere Annäherung. Wir setzen P̃A (B) :=
P (A ∩ B), so dass P̃A ein bezüglich P absolutstetiges Mass auf Ω definiert (dies
folgt aus 0 ≤ P (A ∩ B) ≤ P (B)). Offenbar ist im allgemeinen P (X = x) = 0 für
gegebenes x, so dass (2.2) unsinnig ist. Jedoch können wir beliebig kleine Mengen
betrachten: Sei ε > 0 und Cε ∈ F mit P (Cε ) < ε. Dann haben wir
P (A|Cε ) =
P (A ∩ Cε )
.
P (Cε )
4
Die entscheidende Idee ist, den Limes ε → 0 zu nehmen. Nach dem Satz von
Radon-Nikodym (sehen Sie den Anhang) existiert eine eindeutige (P -f.s.) G-m.b.
P̃A
Funktion ddP
(die Radon-Nikodym Ableitung) mit
Z
dP̃A
P̃A (B) =
P (dω)
,
(2.5)
dP
B
für alle B ∈ σ(X). Wir sehen sofort, dass (2.3) und (2.5) dieselbe Relation sind.
P̃A
eine σ(X)-m.b. Funktion auf Ω in [0, 1] (der leichte Beweis ist dem
Dabei ist ddP
Leser überlassen) und es gibt natürlich eine P -f.s. eindeutige σ(X)-m.b. Zufallsvariable, die (2.3) (oder (2.5)) für alle B ∈ σ(X) erfüllt. Ferner können wir diese
Konstruktion für eine beliebige Teil-σ-Algebra von F anwenden. Das begründet
die folgende Definition
Definition 2.2. Sei G eine Teil-σ-Algebra von F. Wir bezeichnen als die
bedingte Wahrscheinlichkeit von A ∈ F gegen G, P (A|G) : Ω 7→ [0, 1], die P -f.s.
eindeutige G-m.b. Zufallsvariable die
P (A ∩ B) = E[1B P (A|G)] ,
(2.6)
erfüllt.
Sei Y eine Zufallsvariable mit E[|Y |] < ∞. In dem diskreten Fall ist der bedingte Erwartungswert der Zufallsvariable Y gegen X definiert als
Z
E[Y |{X = x}] :=
P (dω|{X = x})Y (ω)
Z
E[1{X=x} Y ]
Y (ω)
P (dω)
=
=
.
(2.7)
P ({X = x})
P ({X = x})
{X=x}
Nochmals können wir {E[Y |{X = x}]}x∈I als eine σ(X)-m.b. Zufallsvariable interpretieren:
X E[1{X=x} Y ]
1{X=x} (ω) , ω ∈ Ω .
(2.8)
E[Y |X] =
P ({X = x})
x∈I
Eine direkte Berechnung ergibt
E[1B E[Y |X]] = E[1B Y ] ,
(2.9)
für alle B ∈ σ(X). Diese Relation bestimmt eine P -f.s. eindeutige Zufallsvariable
E[Y |X] (für diskrete Zufallsvariablen). Abermals erlaubt der Radon-Nikodym Satz
die Definition für den allgemeinen Fall zu geben. Zuerst berechnen wir Y ≥ 0 P f.s. und definieren P̄Y (B) := E[1B Y ] für B ∈ σ(X) und bemerken, dass für jedes
B ∈ σ(X)
|P̄Y (B)| = |E[1B Y ]| ≤ E[1B |Y |] ≤ E[|Y |] < ∞ .
5
Ferner seien {Bn }n∈N disjunkte Mengen in Ω, so dass {Xn ∈ Bn }n∈N auch disjunkt
sind. Dann ist
!
[
X
X
P̄Y
Bn = E 1Sn Bn Y =
E[1Bn Y ] =
PY (Bn ) ,
n
n
n
woraus die σ-Additivität von P̄Y folgt. Somit ist P̄Y ein Mass auf Ω, das absolutstetig bezüglich P ist. Aus dem Satz von Radon-Nikodym (cfr. Anhang) folgt,
P̄Y
eine σ(X)-m.b. Zufallsvariable ist mit
dass ddP
Z
dP̄Y
P (dω)
= P̄Y (B) ,
für alle B ∈ σ(X) .
dP
B
Dies ist äquivalent zu (2.9). Im allgemeinen Fall gilt die Zerlegung Y = Y + − Y +
mit Y + := max(Y, 0) ≥ 0 P -f.s. und Y − := − min(Y, 0) ≥ 0 P -f.s., so dass
P̄Y = P̄Y + − P̄Y − gilt, wobei P̄Y± zwei Masses sind (diese ist die Hahn’sche Zerlegung
von P̄Y ). Damit haben wir einfach
dP̄Y
dP̄Y +
dP̄Y −
=
−
dP
dP
dP
Wir geben daher die folgende Definition für den bedingten Erwartungswert
Definition 2.3. Sei G eine Teil-σ-Algebra von F. Für jede integrierbare Zufallsvariable Y ist der bedingte Erwartungswert E[Y |G] die P -f.s. eindeutige G-m.b.
Zufallsvariable, die
E[1B E[Y |G]] = E[1B Y ]
(2.10)
für jedes B ∈ G erfüllt. Ausserdem schreibt man E[Y |X] anstelle von E[Y |σ(X)].
Wir haben hier die Definition für eine beliebige Teil-σ-Algebra von F angegeben.
Bemerkung 2.1.
i) Bedingte Wahrscheinlichkeiten sind einfache Spezialfälle von bedingten
Erwartungswerten: P (A|G) = E[1A |G].
ii) Die Zufallsvariable Y erfüllt trivialerweise (2.10), aber sie ist nicht immer
G-m.b. Wenn Y G-m.b. ist, dann E[Y |G] = Y . Z. B. gilt E[Y |X] = Y ,
wenn Y σ(X)-m.b. ist, d.h. Y = ϕ(X) mit einer Borel Funktion ϕ (gamäss
Satz 1.1). Im Allgemeinen existiert eine σ(X)-m.b. Abbildung Φ, so dass
E[Y |X] = Φ(X).
Übung 2.2. Beweisen Sie, dass, wenn G die triviale σ-Algebra (d.h. G = {∅, Ω})
ist, dann gilt E[X|G] = E[X] P -f.s.
Der folgende Satz listet einige nützliche Eigenschaften der bedingten Erwartungswerter auf.
Satz 2.1. Es seien X, X 0 ∈ L1 (Ω, F, P ) und G, G 0 Teil-σ-Algebren von F. Dann
gilt
6
(1) Sind X und G unabhängig, so gilt E[X|G] = E[X] P -f.s.
(2) Für α, β ∈ R gilt E[αX + βX 0 |G] = αE[X|G] + βE[X 0 |G] P -f.s.
(3) Ist X ≥ X 0 P -f.s., so gilt E[X|G] ≥ E[X 0 |G] P -f.s.
(4) Es gilt |E[X|G]| ≤ E[|X||G] P -f.s.
(5) Ist G 0 ⊂ G, so gilt E[E[X|G]|G 0 ] = E[X|G 0 ] P -f.s.
Beweis.
(1) Aus der Definition der Unabhängigekeit und des bedingte Erwartungswert
es folgt
E[1B E[X|G]] = E[1B X] = P (B)E[X] = E[1B E[X]] ,
für alle B ∈ G .
Da die konstante Abbildung ω 7→ E[X] G-m.b. ist, finden wir E[X|G] =
E[X] P -f.s.
(2) Da X, X 0 G-m.b. sind, so gilt dies für deren Linearkombinationen. Ausserdem gilt
E[1B E[αX + βX 0 |G]] =
=
=
=
E[1B (αX + βX 0 )]
αE[1B X] + βE[1B X 0 ]
αE[1B E[X|G]] + βE[1B E[X 0 |G]]
E[1B (αE[X|G] + βE[X 0 |G])]
für alle B ∈ G.
(3) Für jedes B ∈ G gilt
E[1B E[X|G]] = E[1B X] ≥ E[1B X 0 ] = E[1B E[X 0 |G]] ,
woraus (3) folgt.
(4) Seien X + := max(X, 0) und X − := − min(X, 0), so dass X = X + − X −
und |X| = X + + X − . Aus (2) und
|E[X + − X − |G]| ≤ |E[X + + X − |G]| = E[X + + X − |G]
folgt (4).
(5) B ∈ G 0 impliziert B ∈ G. Daher gilt für alle B ∈ G 0
E[1B E[E[X|G]|G 0 ]] = E[1B E[X|G]] = E[1B X] = E[1B E[X|G 0 ]] .
Übliche Konvergenzsätze für bedingte Erwartungswerte:
7
Satz 2.2. Seien X und {Xn }n∈N integrierbare Zufallsvariablen und G eine Teilσ-Algebra von F.
(1) Monotone Konvergenz: Ist Xn ≥ 0 und Xn % X P -f.s., so gilt
E[Xn |G] % E[X|G] P -f.s.
(2) Lemma von Fatou: Ist Xn ≥ 0 und Xn → X P -f.s., so gilt
E[X|G] ≤ lim inf E[Xn |G]
P -f.s.
n
(3) Satz von Lebesgue: Existiert Y ∈ L1 (Ω, F, P ) mit |Xn | ≤ Y für alle
n ∈ N und Xn → X P -f.s., so ist E[X|G] = limn E[Xn |G] P -f.s.
Beweis.
(1) Monotone Konvergenz: Wir benutzen zweimal den üblichen Satz über
Monotone Konvergenz. Zunächs Xn ≥ 0 und Xn % X P -f.s. implizieren
E[Xn |G] % Y P -f.s., wobei Y eine G-m.b. Zufallsvariable ist, mit Y ≤
E[X|G] P -f.s. Dann gilt für alle B ∈ G
E[1B (E[X|G] − Y )] = E[1B X] − E[1B lim E[Xn |G]]
n
= E[1B X] − lim E[1B E[Xn |G]] = E[1B X] − E[1B X] = 0 ,
n
somit ist Y = X P -f.s.
(2) Lemma von Fatou: Wir setzen Yk := E[inf n≥k Xn |G] und bemerken,
dass {Yk }k∈N eine monotone Folge von nicht-negativen Zufallsvariablen ist.
Es folgt, wegen (1), dass Yk % E[X|G] P -f.s. gilt. Offenbar ist E[inf n≥k Xn |G] ≤
inf n≥k E[Xn |G], also gilt für alle B ∈ G
E[X|G] ≤ lim inf E[Xn |G] = lim inf E[Xn |G], P − f.s.
k
n
n≥k
(3) Satz von Lebesgue: Die Zufallsvariablen Xn +Y und Y −Xn sind nichtnegative P -f.s. Daher folgen aus den Lemma von Fatou
E[X + Y |G] ≤ lim inf E[Xn + Y |G] ,
n
E[−X + Y |G] ≤ lim inf E[Xn + Y |G] .
n
und wegen − lim sup Xn = lim inf(−Xn ) ist
lim sup E[Xn |G] ≤ E[X|G] ≤ lim inf E[Xn |G] .
n
n
Satz 2.3. Seien X, Y zwei integrierbare Zufallsvariablen mit E[XY ] < ∞. Sei
G eine Teil-σ-Algebra von F und sei Y G-m.b. Dann gilt
E[XY |G] = Y E[X|G] P − f.s.
8
Beweis. Zuerst weisen wir den Satz für einfache Funktionen nach. Sei C ∈ G
und Y := 1C . So gilt für jedes B ∈ G
E[1B E[XY |G]] = E[1B XY ] = E[1B∩C X] = E[1B∩C E[X|G]] = E[1B Y E[X|G]]
d.h. E[XY |G] = Y E[X|G] P -f.s. Der Satz ist daher für einfache Funktionen mit
der Linearität des bedingten Erwartungswerts beweisen. Man erstreckt das Ergebnis über nicht-negative Y via monotone Konvergenz und endlich über allgemeine
Zufallsvariablen mittels Zerlegung in Positiv- und Negativteil.
Bemerkung 2.2. Wir können den bedingten Erwatungswert auch für nicht
integrierbare Zufallsvariablen definieren. Wenn X ≥ 0 ist, setzen wir Xn :=
min(n, X) und definieren
E[X|G] := lim E[Xn |G] .
n
Aus Punkt (3) von Satz 2.1 sehen wir, dass die Folge {E[Xn |G]}n∈N P -f.s. ansteigend ist, aber der Limes kann dennoch endlich sein (z. B. wenn F = G ist, dann
gilt E[X|G] = X).
Für allgemeine Zufallsvariablen X wir benützen die übliche Zerlegung in Positivund Negativteil X : X + − X − , so dass E[X|G] = E[X + |G] − E[X − |G], sofern
E[X ± |G] endlich sind.
Der folgende Satz verallgemeinert die Jensensche Ungleichung für bedingte
Erwartungswerte.
Lemma 2.1. Sei ϕ : R 7→ R eine konvexe Funktion, X eine integrierbare
Zufallsvariable und G eine Teil-σ-Algebra von F. Ist E[ϕ(X)] < ∞, so gilt
ϕ(E[X|G]) ≤ E[ϕ(X)|G] .
(2.11)
Beweis. Die Konvexität von ϕ ergibt
ϕ(y) − ϕ(x) ≥ ψz (x)(x − y) ,
für jedes z ∈ [x, y], wobei ψz (x) := ϕ(z)−ϕ(x)
. Wir nehmen y = X und x = E[X|G],
z−x
so dass
ϕ(X) − ϕ(E[X|G]) ≥ ψz (E[X|G])(E[X|G] − X) .
Wir bemerken, dass ψz (E[X|G]) offenbar eine G-m.b. Zufallsvariable ist, also
E[ψz (E[X|G])(E[X|G] − X)|G] = ψz (E[X|G])E[(E[X|G] − X)|G]
= ψz (E[X|G])(E[E[X|G]] − E[X|G]) = 0 .
Somit ergibt die Anwendung des bedingten Erwartungwertes (2.11).
Übung 2.3. Beweisen Sie das obige Lemma für konvexe und nicht-negative ϕ,
aber ohne die Voraussetzung E[ϕ(X)] < ∞.
9
3. Reguläre bedingte Wahrscheinlichkeiten
Wir haben die bedingte Wahrscheinlichkeit als eine Zufallsvariable vorgestellt
und die Definitionen bedingter Wahrscheinlichkeit und des bedingten Erwartungswertes sind unabhänginge. Der Grund ist, dass die bedingte Wahrscheinlichkeit
nicht immer eine Wahrscheinlichkeit ist. Es ist einfach zu beweisen, dass, falls G
eine Teil-σ-Algebra von F ist, dann ist P (A|G) ∈ [0, 1] P -f.s. mit P (A|G) = 0
P -f.s. genau dann, wenn A = ∅ und P (A|G) = 1 genau dann, wenn A = Ω. Ferner
sei {Bn }n∈N ⊆ F eine Folge disjunkter Teilmengen von Ω, dann gilt
!
[
X
P
Bn G =
P (Bn |G) , P − f.s.
(3.1)
n∈N
n∈N
Übung 3.1. Beweisen Sie die obige Formel (P -f.s. σ-Additivität).
Das Problem ist, dass alle diese Eigenschaften nur P -f.s. gelten. Für eine gegebene Folge {Bn }n∈N könnte also insbesondere eine Nullmenge existieren, so dass
(3.1) nicht erfüllt ist. Da im Allgemeinen überabzählbar viele Folgen {Bn }n∈N
disjunkter Teilmengen von Ω existieren, könnte die σ-Additivität also für eine
überabzählbare Vereinigung von Nullmengen ungültig sein.
Um diesen Punkt erklären, diskutieren wir nun ein Beispiel (nach Dieudonné,
1948). Wir betrachten die Borel σ-Algebra auf [0, 1] B([0, 1]) und eine Vitalische
Menge, die wir V nennen. Sei B 0 die kleinste σ-Algebra, welche B([0, 1]) und V
anthält. Es ist einfach zu zeigen, dass für jedes A ∈ B 0 B, C ∈ B([0, 1]) existieren,
so dass
A = (V ∩ B) ∪ (V c ∩ C) .
Wir betrachten ein Wahrscheinlichkeitsmass auf ([0, 1], B 0 ), definiert durch
1
P (A) = (λ(B) + λ(C)) , A ∈ B 0 .
2
Offenbar P (A) = λ(A), falls A ∈ B([0, 1]) und P (V ) = 12 . Ausserdem ist B eine
Teil-σ-Algebra von B 0 , und P (·|B) ist ein bedingtes Wahrscheinlichkeitsmass. Für
{An }n∈N ⊂ B([0, 1]) mit A := ∪n An , wir betrachten die Folge Vn := V ∩ An , mit
∪n Vn = V ∩ A. Nun beachten wir
1
E[1B P (V ∩ A|B)] = P (B ∩ V ∩ A) = E[1B P (V ∩ A)] = E 1B 1A , (3.2)
2
für alle A, B ∈ B. Also
1
P − f.s.
P (V ∩ A|B) = 1A
2
Sei
\
1
Y(A) := ω ∈ [0, 1] : P (V ∩ A|B) = 1A , Y :=
Y(A) .
2
A∈B
10
Für jedes A ∈ B, ist Y(A) Borel-massbar mit P (Y(A)) = 1. Wir zeigen, dass
P (Y) < 1 ,
so dass die sub-Additivität von P (·|B) auf einer Menge positiver Masses nicht
besteht. Falls ω ∈ Y, dann
1
1
P (V ∩ Y|B)(ω) = 1Y (ω) 6= 1Y/{ω} (ω) = P (V ∩ Y/{ω}|B)(ω) ,
2
2
daher V ∩ Y =
6 V ∩ Y/{ω} d.h. ω ∈ V . Somit ergibt Y ⊆ V die Ungleichnung
P (Y) ≤ 21 .
Wir können jetzt die folgende Definition geben:
Definition 3.1. Sei G eine Teil-σ-Algebra von F. Wir nennen P ∗ (·|G) reguläre
bedingte Wahrscheinlichtkeit von P gegen G, wenn P ∗ (·|G) = P (·|G) P -f.s. und
für jedes ω ∈ Ω P ∗ (·|G) ein Wahrscheinlichtkeit mass auf G ist.
Diese Definition erlaubt die bedingten Erwartungswerte gerade bezüglich der
bedingten Wahrscheinlichtkeit zu definieren.
Proposition 3.1. Sei P ∗ eine reguläre bedingte Wahrscheinlichtkeit auf G und
Y eine Zufallsvariable auf (Ω, G) mit E[|Y |] < ∞. Dann gilt
Z
E[Y |G] = Y (ω)P ∗ (dω|G) P − f.s.
(3.3)
Beweis. Zuerst betrachten wir die Zufallsvariable 1B für B ∈ G. Wegen der
Definition der regulären bedingten Wahrscheinlichtkeit gilt dann
Z
∗
E[1B |G] = P (B|G) = P (B|G) = 1B P ∗ (dω|G) P − f.s.
So haben wir (3.3) für einfache Funktionen bewiesen. Wir verwenden Satz 2.2, (1)
und, dass einfache Funktionen dicht in positiven integrierbaren Funktionen sind,
um den Beweis beliebige positive integrierbare Y zu erweitern. Das Ergebnis im
allgemeinen Fall folgt wie in Satz 2.2, (3).
Übung 3.2. Beweisen Sie die Hölder Ungleichung für bedingte Wahrscheinlichtkeiten aus der normalen Hölder Ungleichung:
1
1
E[|XY ||G] ≤ E[|X|p |G] p E[|Y |q |G] q ,
mit
1
p
+
1
q
= 1.
Wenn man nur die Borel σ-Algebra betrachtet, dann existiert immer eine reguläre bedingte Wahrscheinlichtkeit, wie angegeben im nächsten Satz. Wir lassen
den Beweis aus.
Satz 3.1. Sind (Ω, B(Ω), P ) eine Borel Wahrscheinlichtkeitsraum und G eine
Teil-σ-Algebra von B(Ω), so existiert eine reguläre bedingte Wahrscheinlichtkeit
von P gegen G.
11
Wir bemerken, dass die Borel Annahme nicht zu restriktiv ist, da man sich
meistens für die bedingten Wahrscheinlichtkeiten von Ereingnissen, die durch Zufallsvariablen (d.h. Borel massbare Funktionen) definiert sind, interessiert.
Zum Schluss, diskutieren wir (reguläre) bedingte Wahrscheinlichkeitsdichten.
Seien X, Y zwei Zufallsvariablen auf (Ω, B(Ω), P ) deren gemeinsame Wahrscheinlichkeitsmass absolut stetig ist, mit Dichte f (x, y):
Z
P ((X, Y ) ∈ A) =
f (x, y)dxdy ∀A ∈ B(Ω × Ω) .
A
Sei f (y) die Randdichte
f˜(y) :=
Z
dxf (x, y) .
Wir definieren
( f (x,y)
fX|Y (x, y) :=
f˜(y)
0,
, f˜(y) > 0
f˜(y) = 0 .
(3.4)
Dann ist fX|Y (x, y) die Dichte der regulären bedingten Wahrscheinlichkeit:
Z
P (X ∈ A|Y ) =
dxdyfX|Y (x, y) .
(3.5)
A
Die obige Gleichung hat einen einfachen Beweis. Für alle Borel Mengen A, B gilt
Z
Z
Z
P (A ∩ B) =
dy dxf (x, y) =
f˜(y)dyP (X ∈ A|Y ) ,
B
A
B
wobei die zweite Gleichung aus der Definition 2.2 folgt. Satz 3.1 zeigt, dass beide
Seiten der obigen Gleichung null sind, falls B ∩ {y : f (y) > 0} = ∅, sonst
R
dxf (x, y)
P (X ∈ A|Y ) = A
f˜(y)
für alle A gilt.
4. Stochastische Prozesse
Hier führen wir die grundlegenden Begriffe des stochastischen Prozesses, des
Filtrierung und der Stoppzeit ein. Grob gesprochen sind ein stochastischer Prozess
und eine Filtrierung von einen Parameter abhängige Kollektionen von Zufallvariablen und σ-Algebren. Eine Stoppzeit ist eine Zufallvariable, die messbar bezüglich
einer Filtrierung ist.
Definition 4.1. Sei T ⊂ R. Wir nennen eine Funktion Xt (ω) : T × Ω → R, so
dass für alle t ∈ T Xt (ω) eine Zufallsvariable ist, einen reellwertigen stochastischen
Prozess.
12
Falls T abzälbar ist, sprechen wir von einem diskreten Prozess. Zum Beispiel
ist eine Folge von unabhängigen Zufallsvariablen ein einfacher diskreter Prozess.
Markoff-Ketten und Martingale sind andere interessante diskrete stochastische
Prozesse, die wir in den nächsten Kapiteln vertiefen werden.
Jetzt geben wir die Definition einer Filtrierung:
Definition 4.2.
(1) Sei T ⊂ R. Eine Familie {Ft }t∈T von Teil-σ-Algebren heisst eine Filtrierung von F, wenn Fs ⊂ Ft für s ≤ t gilt.
(2) Sei X := {Xt }t∈T ein stochastischer Prozess auf (Ω, F, P ) und FtX :=
σ(Xs : s ≤ t). Die Familie {Ft }t∈T heisst die zu X gehörende oder kanonische Filtrierung.
(3) Ein stochastischer Prozess X := {Xt }t∈T heisst angepasst an eine Filtrierung {Ft }t∈T , wenn Xt Ft -mb. ist ∀t ∈ T .
Offenbar ist eine zu einem stochastischen Prozess gehörende Filtrierung eine
Filtrierung. Im diskreten Fall, ist eine kanonische Filtrierung eifach aus den Teilσ-Algebren σ(X0 , . . . , Xn ) gegeben.
Eine oft passende Sicht über stochastische Prozesse (besonders Markoff-Ketten)
ist Xt als (stochastische) Zeitentwicklung der Grösse X zu interpretieren. Die dynamische Deutung begründet die folgende Definition
Definition 4.3. Sei {Ft }t∈T eine Filtrierung auf (Ω, F, P ). Die Zufallsvariable
τ heisst Stoppzeit genau dann, wenn für alle t ∈ T {τ ≤ t} ∈ Ft gilt.
Ungefär sind Stoppzeiten zufällige Zeite, die nicht in die Zukunft blicken können.
Wir geben ein einfaches Beispiel, nämlich die Irrfahrt auf Zν . Sei {ξn }n∈N eine Folge
unabhängigen gleichverteilten Zufallsvariablen, ξ1 : Ω → Zν , und
Pvon
n
Xn := i=1 ξi (natürlich sind die Xn nicht unabhängig). Die Folge {Xn }n∈N ist
ein diskreter stochastischer Prozess. Es gibt zwei standard-Filtrierungen für diesen
Prozess: Fn := σ(X1 , . . . , Xn ), die kanonische Filtrierung, und Fn0 := σ(ξ1 , . . . , ξn ).
Für jedes k ∈ Zν definieren wir τk := inf{i ∈ N : Xi = k}, d.h. die erste Zeit für
die Xn sich an Platz k einfindet (τk kann +∞ sein). Die Zufallsvariable τk ist eine
Stoppzeit sowohl bezüglich Fn als auch Fn0 :
{τk ≤ n} = {inf{i ∈ N : Xi = k} ≤ n}
= {X1 = k} ∪ {X1 6= k, X2 = k} ∪ {X1 , X2 6= k, X3 = k} ∪ ...
Dieses Ereignis liegt sicherlich an Fn (endliche Vereinigung von Ereignissen in Fn ).
Wir überlassen dem Leser den analogen Beweis für Fn0 .
Übung 4.1. Beweisen Sie, dass {τk ≤ n} ∈ Fn0 .
13
Gemäss der Definition 4.1, wurde ein Prozess Xt t für t aus dem Wahrscheinlichkeitsraum (Ω, F, P ) gebildet. Formal, können wir auch ein Ereignis ω̄ aus einem gegeben Wahrscheinlichkeitsraum festhalten und die ganze Funktion T 3 t 7→ Xt (ω̄)
betrachten (wir heissen diese Funktion einen Pfad des Prozesses). In welchen
Raum? Der Erweiterungssatz
von Kolmogorov gibt eine Antwort.
Q
Sei K := t∈T R der Raum von reellwertigen Funktionen auf T , oder Pfaden,
mit der Topologie von Tychonoff. Für jedes n ∈ N, t(n) := (t1 , . . . , tn ) ∈ T n und
A ∈ B(Rn ) wir betrachten die Klasse der Mengen
Γ(t(n), A) := {x ∈ K : x(t1 ), . . . , x(tn ) ∈ A} .
(4.1)
Wir nennen diese Mengen Zylindermengen. Die kleinste σ-Algebra erzeugt durch
T := {Γ(t(n), A)}n∈N,t(n)∈T,A∈B(Rn )
ist (per Definition) die Borelsche σ-Algebra auf K , B(K ) := σ(T ). So ist (K , B(K ))
ein Borelscher Massraum, den wir mit einem geeigneten Wahrscheinlichkeitsmass
ausstatten möchten. Die kanonischen Projektionen πn : K 7→ Rn sind durch
πt(n) (x) := (x(t1 ), . . . , x(tn ))
definiert. Wir betrachnen eine Folge {µn }n∈N von Borel Wahrscheinlichkeitsmassen
auf Rn . Wir brauchen die folgende Definition:
Definition 4.4. Wir nennen {µn }n∈N eine verträgliche Familie von Borel
Wahrscheinlichkeitsmasse genau dann, wenn
K1) Für alle I1 , . . . In ∈ B(R) µn (I1 × · · · × In ) = µn (Iσ(1) × · · · × Iσ(n) ) (σ ist
die Permutationsgruppe);
k−mal
z
}|
{
n
K2) Für alle A ∈ B(R ) und k ≥ 1 µn+k (A × R × · · · × R) = µn (A).
Man kann aus einer verträglichen Familie von Borel Wahrscheinlichkeitsmassen auf endlich-dimensionalen Räumen durch den folgenden Erweiterungssatz von
Kolmogorov ein Wahrscheinlichkeitsmass auf (K , B(K )) bilden:
Satz 4.1. Sei {µn }n∈N eine verträgliche Familie von Borel Wahrscheinlichkeitsmassen. Dann gibt es ein eindeutiges Wahrscheinlichkeitsmass µ auf (K , B(K )),
so dass µ ◦ πn−1 = µn gilt.
Der Beweis des Satzes von Kolmogorov wendet einen wichtigen Satz der Masstheorie an, nämlich der Satz von Carathéodory. Wir formulieren hier diesen Satz im
besonderen Falls der Wahrscheinlichtkeitsmasse.
Satz 4.2 (Satz von Carathéodory). Sei A eine Algebra und µ : A 7→ [0, 1]
eine σ-additive Funktion mit µ(∅) = 0. Dann existiert eine eindeutige Erweiterung
µ̄ : σ(A) 7→ [0, 1] von µ, die ein Wahrscheinlichtkeitsmass ist.
14
Beweis. Wir definieren die Funktion µ : T 7→ [0, 1] durch
µ(Γ(t(n), A)) := µn (Γ(t(n), A))
(die Mengen Γ(t(n), A) waren in (4.1) definiert). Die Bedingungen K1), K2) stellen sicher, dass verschiedene äquivalente Darstellungen von µ(Γ(t(n), A)) gleiches
Mass haben, so dass µ wohldefiniert ist. Ausserdem folgt aus K2 µ ◦ πn−1 = µn .
Die endliche Additivität von µ auf T ist klar. Wir müssen jetzt die σ-Additivität
zeigen. Dann folgt die Erweiterung von µ als Wahrscheinlichkeitmass auf (K , B(K ))
aus dem Satz von Carathéodory.
T
Sei {Γj }j∈N eine Folge von Zylindermengen, mit Γj+1 ⊂ Γj und j≥1 Γj = ∅.
Wir schreiben
Γj := {x ∈ K : x(tj,1 ), . . . , x(tj,nj ) ∈ Aj } ,
Aj ∈ B(Rnj ) ,
und wir nehmen t(j) ⊂ t(j + 1) an (wir erinnern uns, dass t(j) = (tj,1 , . . . , tj,nj )),
d.h. nj ≤ nj+1 und tj,i = tj+1,i , i = 1, . . . , nj (die Ordung der Punkte tj,i spielt
keine Rolle). Ausserdem wählen wir Aj , so dass eine kompakte Menge Cj ⊂ Rnj
existiert mit
µj (Aj − Cj ) ≤ c2−j−1 ,
wobei c > 0 eine feste ausreichend, kleine Konstante ist. Offenbar
µ(Γj ) ≥ µ(Γj+1 )
T
und die σ-Additivität ist äquivalent zu limj µ(Γj ) = µ
j≥1 Γj = 0. Wir beweisen dies durch Widerspruch: Wir nehmen limj µ(Γj ) 6= 0 an, d.h. es gibt δ > 0, so
T
dass µ( kj=1 Γj ) ≥ δ > 0 ∀k ∈ N gilt.
Sei {Γ0j }j∈N ⊂ T , mit
Γ0j := {x ∈ K : x(tj,1 ), . . . , x(tj,nj ) ∈ Cj } .
T
0
Γ
Dann Γ0j ⊂ Γj mit µ(Γj − Γ0j ) ≤ c2−j−1 . Ausserdem µ
j∈N j ≥ δ/2 > 0, da für
alle k ∈ N und δ ≥ c:
!
!
k
k
k
\
\
X
0
µ
Γj
≥ µ
µ(Γj − Γ0j )
Γj −
j=1
≥ δ−
Somit gilt für alle k ∈ N ∅ ⊂
j=1
j=1
Tk
j=1
c
2
k
X
2−j ≥ δ −
j=1
c
δ
≥ > 0.
2
2
Γ0j ⊂ Γk , und daher folgt
k
\\
Γ0j = ∅ .
k∈N j=1
15
(4.2)
Wir setzen einfachheitshalber
Dk :=
k
\
Γ0j
,
D :=
j=1
k
\\
Γ0j .
k∈N j=1
Offenbar Dj ⊂ Di für j > i und es gibt kompakte Mengen Cj0 ⊆ Cj , so dass
Dj = {x ∈ K : (x(tj,1 ) , . . . , x(tj,nj )) ∈ Cj0 } .
Wir bemerken, dass jedes x ∈ Dj die ersten nj Koordinaten (x(tj,1 ) , . . . , x(tj,nj ))
in Cj0 hat und, wenn nj ≥ ni ist, die ersten ni (x(ti,1 ) , . . . , x(ti,ni )) in Ci0 . Somit
Cj0 ⊂ Ci0 , wenn i ≥ j und es existiert ein x̄, so dass x̄ ∈ Ci0 für alle i ∈ N. Es
folgt, dass x̄ ∈ D, was einen Widerspruch zu (4.2) ergibt. Schliesslich, zeigen wir
die Eindeutigkeit von µ. Wir nehmen die Existenz von zwei solcher Masse µ, µ0 an.
Denn µ ◦ πn−1 = µ0 ◦ πn−1 , daher µ = µ0 auf T und somit auf B(K ), da B(K ) von
T erzeugt wird.
Bemerkung 4.1. Wir haben die Existenz des Wahrscheinlichtkeitsmasses direkt auf dem Funktionenraum der Pfad des Prozesses gezeigt. Dieser Zugang ist
mehr analytisch als wahrscheinlichkeitstheoretisch, da die Probabilisten nicht mögen den Wahrscheinlichtkeitsraum zu spezifizieren. Alternativ, kann ein Prozess als
eine Zufallsvariable aus einem Wahrscheinlichkeitsraum
ΩK zu dem Pfadsraum K
Q
betrachtet werden. Denn ΩK = t∈T Ωt und das Satz von Kolmogorov kann in
ähnlicher Weise formuliert und bewiesen werden.
Der Satz von Kolmogorov funktioniert gut, wenn T abzählbar ist, aber es ist
nicht ganz befriedigend für überabzählbar T (z. B. T = [0, 1]). Der Grund ist, dass
man im überabzählbar Fall ein Approximationsargument mit abzählbaren Mengen
verwendet und dies zu einem Verlust von Information führt. Das Resultat ist, dass
viele interessante Grössen keine Zufallsvariablen auf (K , B(K ), µ) sind und zwar
jede Funktion auf K , die eine übernabzählbare Anzahl von Koordinaten involviert, zum Beispiel ist supt∈T Xt nicht messbar. Es gibt in diesem Fall raffiniertere
Weisen, um einen unendlich-dimensionalen Wahrscheinlichkeitsraum zu bilden, die
wir in diesem Kurs jedoch nicht studieren werden.
Anhang: der Radon-Nikodym Satz
Wir erinnern an die Dichte eines Wahrscheinlichkeitsmasses P auf (Rn , B(Rn ))
eine nicht-negative messbare und integrierbare Funktion ρ : Rn → [0; ∞) ist, mit
Z
P (A) =
ρ(x)λn (dx) , für alle A ∈ B(Rn ) ,
A
wobei λn (dx) die n-dimensionale Lebesgue-Mass ist.
Dies Begriff findet die folgende Verallgemeinerung:
16
Definition 4.5. Seien µ und ν zwei Masse auf (Ω, F). Wir sagen, dass ν
absolut stetig bezüglich µ ist, wenn µ(A) = 0 ν(A) = 0 für jede A ∈ F impliziert.
Wir schreiben in diesem Fall ν µ. Ein Mass ν auf (Rn , B(Rn )) heisst einfach
absolut stetig, wenn ν λn . Umgekehrt heissen µ, ν zueinander singulär, falls
eine Menge A ∈ F existiert, so dass µ(A) = 0 und ν(Ac ) = 0 ist. In diesem Fall
schreiben wir µ ⊥ ν.
Satz 4.3 (Satz von Radon-Nikodym). Seien µ, ν zwei Wahrscheinlichkeitmasse
auf (Ω, F). Ist ν µ, so existiert eine Funktion g : Ω → [0; ∞) messbar, mit
Z
g(x)µ(dx)
ν(A) =
A
für alle A ∈ F. Die Funktion g ist µ-f.s. eindeutig und heisst die Radon-Nikodym
Ableitung von ν bezüglich µ.
Um dieser Satz nachzuweisen, führen wir den Begriff von signierten Mass ein.
Definition 4.6. Sei (Ω, F) ein messbarer Raum und µ : F → [−∞; ∞] mit
µ(∅) = 0 und
!
[
X
µ
An =
µ(An )
n∈N
n∈N
für jede Folge (An )n∈N von disjukten Mengen in F. So heisst µ ein signiertes Mass
auf (Ω, F).
Übung 4.2. Zeigen Sie, dass für jede Folge {An }n∈N mitTAn ↑ A oder An ↓ A,
A ∈ F µ(limn An )S= limn µ(An ) gilt. Insbesondere ist µ ( n An ) = limn An für
An ⊆ An−1 und µ ( n An ) = limn An für An ⊆ An+1 .
P
Damit µ : F → [−∞; ∞] ein signiertes Mass ist, muss die Summe n∈N µ(An )
wohldefiniert sein, für jede Folge disjunkter Mengen in F. Insbesonde kann µ nur
den Wert +∞ oder den Wert −∞ annehmen, aber nicht beide. Ist |µ(Ω)| < ∞
so muss µ(A) < ∞ endlich sein, für alle A ⊂ Ω. Ist µ(Ω) = +∞, so kann es kein
A ∈ F existieren mit µ(A) = −∞ (analog für µ(Ω) = −∞).
Definition 4.7. Sei (Ω, F, µ) ein Massraum mit µ ein signiertes Mass. Wir
nennen A ∈ F eine positive Menge für µ, falls µ(B) ≥ 0 für alle B ⊂ A. Analog
nennen wir A ∈ F eine negative Menge für µ, falls µ(B) ≤ 0 für alle B ⊂ A.
Zuerst brauchen wir das folgend technische Lemma.
Lemma 4.1. Sei µ ein signiertes Mass auf ein messbarer Raum (Ω, F), und
sei A ∈ F mit µ(A) ∈ (−∞, 0). Dann existiert eine negative Menge B ∈ F mit
B ⊆ A und µ(B) ≤ µ(A).
Beweis. Wenn A negativ ist, haben wir B = A. Damit nehmen wir an, dass
A nicht negativ ist. Sei
δ1 := sup {µ(E) : E ∈ F und E ⊂ A} ≥ 0
17
und sei A1 ∈ F mit A1 ⊂ A und mit µ(A1 ) ≥
δ1
.
2
Sei nun
δ2 := sup {µ(E) : E ∈ F und E ⊂ A\A1 } ≥ 0
und A2 ∈ F mit A2 ⊂ A\A1 mit µ(A2 ) ≥
definieren
(
δ2
.
2
Wir iterieren diese Konstruktion und
δn = sup µ(E) : E ∈ F und E ⊂ A\
n−1
[
!)
Ak
≥0
k=1
S
und dann wählen wir An ∈ F mit An ⊂ A\ nj=1 Aj und mit µ(An ) ≥
definieren dann
∞
[
A∞ :=
An und B := A\A∞ ⊆ A .
δn
.
2
Wir
n=1
Da An ∈ F disjunkt sind, mit µ(An ) ≥ 0 für alle n ∈ N, folgt
µ(A) = µ(A∞ ) + µ(B) ≥ µ(B) .
Wir müssen nun die Tatsache zeigen, dass B eine
P negative Menge ist. Da µ(A) >
−∞, muss µ(A∞ ) < ∞ sein. Da aber µ(A∞ ) = n µ(An ), es folgt, dass µ(An ) →
0. Deswegen muss δn → 0. Für ein beliebiges E ⊂ B haben wir nun µ(E) ≤ δn für
alle n ∈ N, es muss µ(E) ≤ 0 gelten.
Mit Hilfe des Lemma können wir nun zeigen, dass jedes signierte Mass µ auf
(Ω, F) eine Hahn Zerlegung (P, N ) besitzt, wobei P, N ∈ F mit P ∪ N = Ω und
so, dass P eine positive und N eine negative Menge für µ sind.
Satz 4.4 (Hahn’sche Zerlegungstheorem). Sei (Ω, F) ein messbarer Raum, und
sei µ ein signiertes Mass auf (Ω, F). Dann existieren P, N ∈ F so, dass P eine
positive und N eine negative Menge für µ sind und so, dass P ∪ N = Ω.
Beweis. Nehmen wir an µ nimmt den Wert −∞ nicht an (sonst nimmt µ den
Wert +∞ nicht an, und man kann analog vorgehen). Sei
L = inf {µ(A) : A eine negative Menge für µ ist}
Sei nun {An }n∈N eine Folge in F von negativen Mengen für µ, mit L = limn→∞ µ(An ).
Sei N := ∪n∈N An . Dann ist N offenbar eine negative Menge für µ. Also L ≤
µ(N ) ≤ µ(An ) ≤ 0 für alle n ∈ N. Es folgt, dass L = µ(N ) ∈ (−∞, 0] (weil µ
den Wert −∞ nicht annimmt). Sei nun P := N c . Wir müssen noch zeigen, dass P
eine positive Menge für µ ist. Nehmen wir indirekt an, dass A ⊂ P in F existiert,
mit µ(A) < 0. Dann existiert aber aus Lemma 4.1 eine negative Menge Ñ ⊂ P . In
diesem Fall wäre aber auch Ñ ∪ N eine negative Menge für µ, mit
µ(N ∪ Ñ ) = µ(N ) + µ(Ñ ) < µ(N ) = L
in Widerspruch zur Definition von L.
18
Bemerkung 4.2. Seien µ+ und µ− positive Masse, definiert durch
(
(
µ(A) A ⊆ P
0
A⊆P
µ+ (A) :=
µ− (A) :=
0
A⊆N
−µ(A) A ⊆ N
(4.3)
für jedes A ∈ F. Dann folgt aus dem obigen Satz, dass µ = µ+ − µ− , mit µ+ ⊥ µ− .
Wir können nun den Satz von Radon-Nykodim beweisen.
Beweis des Satzes 4.3. Sei
Z
J = f : Ω → [0; ∞] messbar, s.d.
f (x)µ(dx) ≤ ν(A) für alle A ∈ F .
A
J ist nicht leer, weil die Konstante Funktion f = 0 in J ist. Wir werden zeigen,
dass g ∈ J existiert, mit
Z
Z
g(x)µ(dx) = sup
f (x)µ(dx) : f ∈ J
und
Z
ν(A) =
g(x)µ(dx) .
(4.4)
A
Um die Behauptung zu zeigen, bemerken wir zunächst, dass max{f1 , f2 } ∈ J ,
wenn f1 , f2 ∈ J . In der Tat, für ein beliebiges A ∈ F, wir können A1 = {x ∈ A :
f1 (x) > f2 (x)} und A2 = {x ∈ A : f1 (x) ≤ f2 (x)} definieren. Dann gilt
Z
Z
Z
max{f1 , f2 }(x) µ(dx) =
f1 (x)µ(dx) +
f2 (x)µ(dx)
A1
A
A2
≤ ν(A1 ) + ν(A2 ) = ν(A1 ∪ A2 ) = ν(A) .
Offenbar gilt dies auch für max{f1 , f2 , . . . , fk }, mit fi ∈ J , i = 1, . . . k, für alle
k ∈ N (mit gleichen Beweis). Sei nun {fn }n∈N eine Folge in J mit
Z
Z
lim
fn (x)µ(dx) = sup
f (x)µ(dx) : f ∈ J .
n→∞
Dann gilt offenbar auch
Z
Z
lim
max(f1 , . . . , fn )(x)µ(dx) ≥ sup
f (x)µ(dx) : f ∈ J .
n→∞
Da die Folge max(f1 , . . . , fn ) monoton wachsend ist, können wir den Limes
g = lim max(f1 , . . . , fn )
n→∞
punktweise definieren. Das monoton Konvergenz Theorem zeigt, dass
Z
Z
gµ(dx) = lim
max(f1 , . . . , fn )µ(dx) ≤ ν(A) ,
A
n→∞
A
19
weil max(f1 , . . . , fn ) ∈ J für alle n ∈ N und auch, dass
Z
Z
Z
gµ(dx) = lim
max(f1 , . . . , fn )µ(dx) = sup
f µ(dx) : f ∈ J .
n→∞
Jetzt beweisen wir (4.4). für alle A ∈ F gilt. Für ein beliebiges A ∈ F, wir setzen
Z
ν0 (A) = ν(A) −
gµ(dx) .
A
Da g ∈ J , ist ν0 : F → [0; ∞] ein Mass auf F. Zu zeigen bleibt, dass ν0 = 0.
Nehmen wir an ν0 6= 0. Dann finden wir ε > 0 mit ν0 (Ω) > εµ(Ω) (weil µ ist
endlich, nach Annahme). Es ist einfach zu überprüfen, dass ν0 −εµ : F → [−∞; ∞]
ein signiertes Mass auf F ist. Sei (P, N ) eine Hahn’sche Zerlegung von ν0 − εµ.
Also, P, N ∈ F mit P ∪ N = Ω und so, dass P eine positive und N eine
negative Menge für ν0 − εµ sind. Wir bemerken sofort, dass µ(P ) > 0 sein muss.
Wäre nämlich µ(P ) = 0, dann müsste auch ν(P ) = 0 (aus der absolute Stetigkeit
ν µ) und also ν0 (P ) = 0. Deswegen wäre
ν0 (Ω) − εµ(Ω) = (ν0 − εµ)(N ) ≤ 0
in Widerspruch mit der Annahme, dass ν0 (Ω) > εµ(Ω). Das zeigt, dass µ(P ) > 0.
Ferner, für ein beliebiges A ∈ F gilt ν0 (A ∩ P ) ≥ εµ(A ∩ P ). Deswegen
Z
Z
gµ(dx) + ν0 (A ∩ P )
gµ(dx) + ν0 (A) ≥
ν(A) =
A
Z
ZA
≥
gµ(dx) + εµ(A ∩ P ) = (g + ε1P )µ(dx) .
A
A
Das zeigt, dass g + ε1P ∈ J . Da aber
Z
gµ(dx) ≤ ν(Ω) < ∞
und
Z
Z
(g + ε1P )µ(dx) =
Z
gµ(dx) + εµ(P ) >
gµ(dx)
finden wir ein Widerspruch zur Definition von g in Schritt 1. Das zeigt, dass ν0 = 0,
also (4.4).
20
KAPITEL 2
Markoff-Ketten
1. Definitionen, starke Markoff-Eigenschaft und Beispiele
Die einfachste Weise sich eine Markoff-Kette vorzustellen, ist an ein (stochastisches) dynamisches System in diskreter Zeit zu denken. Die Bewegung von N
Teilchen ist durch ein System von Differentialgleichungen bestimmt. Daher ist die
Konfiguration der N Teilchen zur Zeit t eindeutig durch diejenige zur Zeit t0 gegeben, ohne Rücksicht auf das Systemverhalten für t < t0 . Das gleiche gilt für
Markoff-Ketten:
Definition 1.1. Ein diskreter stochastischer Prozess {Xn }n∈N auf (Ω, F, P )
heisst Markoff-Kette genau dann, wenn eine reguläre bedingte Wahrscheinlichtkeit
existiert, so dass
P (Xn+1 ∈ A|X0 , . . . , Xn ) = P (Xn+1 ∈ A|Xn ) P-f.s.
(1.1)
für alle n ∈ N und A ∈ F gilt.
Die Theorie der Markoff-Ketten ist viel leichter, wenn Xn : Ω 7→ I, mit einer
höchstens abzählbaren Menge I, für alle n ∈ N gilt und wir werden hier nur diesen
Fall betrachten (diskreten Markoff-Ketten). Wir bemerken, dass in diesem Fall der
Pfadsraum der Markoff-Kette einfach I N0 ist. So lässt sich (1.1) auch als
P (Xn+1 = in+1 |X0 = i0 , . . . , Xn = in ) = P (Xn+1 = in+1 |Xn = in ) P-f.s. (1.2)
für alle i1 , . . . , in+1 ∈ I schreiben. An diesem Punkt ist die folgende Definition
nützlich:
Definition 1.2. Sei I eine nichtleere und höchstens abzählbare Menge. Eine
Matrix π = {πij }i,j∈I heisst stochastische Matrix, wenn
X
πij ∈ [0, 1] ∀i, j ∈ I und
πij = 1 ∀i ∈ I
j∈I
gilt. Die Einträge πij der stochastische Matrix π nennt man die Übergangwahrschenlichkeiten von i nach j.
Deshalb bestimmet jede Markoff-Kette {Xn }n∈N auf I eine stochastische Matrix
{π(n)}n∈N , da wir immer
πij (n) := P (Xn+1 = j|Xn = i) ,
21
i, j ∈ I
(1.3)
setzen können. Die Startverteilung einer Markoff-Kette ist durch
ν(i) := P (X0 = i)
(1.4)
definiert. Umgekehrt bestimmt jede Folge von stochastischen Matrixen {π(n)}n∈N ,
mit einer gegebenen Startverteilung eine Markoff-Kette, die (1.3) erfüllt, da wir
(1.1) und die Formel von Bayes iterativ benützen können, so dass
=
=
=
=
=
P (Xn = in , . . . , X0 = i0 )
P (Xn = in |Xn−1 = in−1 . . . X0 = i0 )P (Xn−1 = in−1 . . . X0 = i0 )
P (Xn = in |Xn−1 = in−1 )P (Xn−1 = in−1 . . . X0 = i0 )
..
.
P (Xn = in |Xn−1 = in−1 ) . . . P (X1 = i1 |X0 = i0 )P (X0 = i0 )
πin−1 ,in (n) . . . πi1 ,i2 (1)ν(i0 ) .
Oft betrachten wir den einfachen Fall zeitlich homogener Ketten π(n) = π
∀n ∈ N. Wir können eine inhomogene Kette jedoch mit einen leichten Trick (aus
der Klassichen Mechanik) auf eine homogene Kette reduzieren. Wenn {Xn }n∈N
eine inhomogene Markoff-Kette ist, betrachtet man die Folge X̃n := {Xn , n}n∈N ,
die Werte in I ×N0 annimmt. So ist X̃ eine homogene Markoff-Kette auf I ×N0 , mit
Übergangwahrscheilchtkeiten π̃αβ = δm,n+1 πij (n), mit α, β ∈ I × N0 , α := (i, n),
β := (j, m).
Wir definieren die n-te Potenz der stochastischen Matrix π rekursiv durch das
n-fache Matrixproduct:
X
n−1
πij0 = δij ,
πijn =
πik
πkj n ≥ 1 .
k∈I
n
Aus dieser Definition folgt, dass π auch eine stochastiche Matrix ist. Somit gilt
π n+m = π n π m , d. h.
X
n m
πik
πkj = πijn+m .
(1.5)
k∈I
Man nennt diese letze Gleichnung die Chapman-Kolmogorov-Gleichungen für diskrete Markoff-Ketten.
In diesem Kapitel werden wir die Markoff-Ketten als von der Startverteilung ν
abhängige stochastiche Matrixen studieren. Um dies zu betonen, schreiben wir Pν
für die Wahrscheinlichtkeiten der Kette mit Startverteilung ν, Pi , wenn ν(j) = δij
ist, und PZ , wenn ν die Verteilung der Zufallsvariablen Z ist.
Eine wichtige Eigenschaft der Markoff-Kette, die aus der zeitlichen Homogeneität kommt, ist die Invarianz unter ein Zeit-shift:
Proposition 1.1. Sei {Xn }n∈N0 eine zeitlich Homogene Markoff-Kette und
k ∈ N. Es gilt
P ({Xn+k }n∈N0 ∈ A) = PXk ({Xn }n∈N0 ∈ A) ,
22
A ⊂ I N0 .
(1.6)
Der Beweis ist dem Leser überlassen.
Diese Eigenschaft gilt auch für Stoppzeiten. Zunächst erinnern wir an die Definition der Stoppzeit für Markoff-Ketten:
τ : {τ = n} ∈ σ(X0 , . . . , Xn ) .
Definition 1.3. Wir nennen A ⊆ Ω ein Prä-τ -Ereignis, wenn
A ∩ {τ ≥ n} ∈ σ(X0 , . . . , Xn ) .
Fτ ist die von den Prä-τ -Ereignissen erzeugte σ-Algebra.
Wir haben das folgende wichtige Ergebnis:
Satz 1.1 (Starke Markoff-Eigenschaft). Sei τ eine Stoppzeit für die MarkoffKette {Xn }n∈N und A ⊆ I N0 . Dann gilt
P ({Xn+τ }n∈N0 ∈ A|Fτ ) = PXτ ({Xn }n∈N0 ∈ A|Fτ ) P-f.s.
(1.7)
Die starke Markoff-Eigenschaft hat die folgende einfache Deutung. Die bedingte
Wahrscheinlichkeit, dass die Kette ab der Zufallszeit τ in einer gegebenen Menge A ist, ist gleich der bedingten Wahrscheinlichkeit, dass die Kette, die ab der
Zufallsstellung Xτ startet, stets in der Menge A bleibt.
Beweis. Sei B ∈ Fτ . Dann ergibt das Gesetz der totalen Wahrscheinlichkeit
E[1B P (Xτ , Xτ +1 , · · · ∈ A|Fτ )] = P (Xτ , Xτ +1 , · · · ∈ A, B)
X
=
P (Xn , Xn+1 , · · · ∈ A, B, τ = n) .
n≥0
Offenbar gilt für alle n ≥ 0 B ∩ {τ = n} ∈ Fτ , daher
P (Xn , Xn+1 , · · · ∈ A, B, τ = n) = E[1B∩{τ =n} P (Xn , Xn+1 , · · · ∈ A|Fτ )]
= E[1B 1{τ =n} PXn (X0 , X1 , · · · ∈ A|Fτ )] .(1.8)
Es folgt, dass
E[1B P (Xτ , Xτ +1 , · · · ∈ A|Fτ )] =
X
E[1B 1{τ =n} PXn (X0 , X1 , · · · ∈ A|Fτ )]
n≥0
"
= E 1B
#
X
1{τ =n} PXn (X0 , X1 , · · · ∈ A|Fτ )
n≥0
= E [1B PXτ (X0 , X1 , · · · ∈ A|Fτ )] .
Da diese Gleichung für alle B ∈ Fτ gilt, wir folgern (1.7).
Hier erklären wir drei typische Beispiele von Markoff-Ketten, die wir im weiterem Verlauf des Kapitels untersuchen werden.
23
B1) Irrfahrt auf Zν . Wir haben diesen Prozess schon getroffen. {ξn }n∈N ist
eine Folge von unabhängigen gleichverteilten
Zufallsvariablen (die Zuwächse des
P
Prozesses), ξ1 : Ω → Zν , und Sn := ni=1 ξi . Wir haben
!
n+1
X
P (Sn+1 = in+1 |Fn ) = P
ξj = in+1 S0 = i0 , . . . , Sn = in
j=1
= P (Sn + ξn+1 = in+1 |S0 = i0 , . . . , Sn = in )
= P (Sn+1 = in+1 |Sn = in ) ,
also (1.2). Somit ist eine Irrfahrt auf Zν eine homogene Markoff-Kette mit Übergangwahrscheinlichkeiten
πij = P (Sn+1 = i|Sn = j) = P (ξ1 = i − j) .
B2) Ehrenfests Urnenmodell. Wir betrachten zwei Urnen U 1 und U 2, die
insgesamt 2N gleiche Kugeln enthalten. Man wählt zu jedem Zeitpunkt n eine Urne
jeweils mit Wahrscheinlichkeit proportional zur Anzahl der Kugeln in dieser Urne.
Dann wird eine Kugel aus einer Urne gezogen und in die andere Urne verschoben.
Wir betrachten die Zufallsvariable Xn als die Anzahl der Kugeln zur Zeit n in U 1
und wir nehmen I := {0, . . . , 2N } als die Menge der Belegungen von U 1. Daher
gilt für jede Belegung in ∈ I
P (Xn = in |Xn−1 = in ±1, Xn−1 = in ±1±1, . . . ) = P (Xn = in |Xn−1 = in ±1) =: p±
mit
πj,j−1 = p− =
k
,
2N
πj,j+1 = p+ =
2N − k
2N
und πij = 0 sonst.
B3) Erneuerungsketten. Ein diskreter Prozess {Rn }n∈N0 mit Rn ∈ {0, 1},
so dass
Pν ({Rn+k }n∈N0 ∈ B|R0 , . . . , Rk ) = Pν ({Rn }n∈N0 ∈ B)
(1.9)
für jede Ereignis B gilt, heisst Erneuerungsprozess. Zum Beispiel betrachten wir
eine Irrfahrt auf Z {Sn }n∈N0 und setzen für ein festes j̄ ∈ Z
Rn (j̄) := 1{Sn =j̄} .
(1.10)
Der Einfachheit halber, setzen wir j̄ = 0 und Rn := Rn (0). Für jedes B ∈
σ(Rk+1 , Rk+2 , . . . ) existiert B̃ ∈ σ(Sk+1 , Sk+2 , . . . ), so dass (1.2) und die zeitliche
Homogenität
P0 ({Rn+k }n∈N0 ∈ B|R0 , . . . , Rk ) = P0 ({Sn+k }n∈N ∈ B̃|S0 , . . . , Sk−1 )
= P0 ({Sn+k }n∈N0 ∈ B̃|Sk−1 )
= P0 ({Sn }n∈N0 ∈ B̃) = P0 ({Rn }n∈N0 ∈ B)
ergeben.
24
Diese Konstruktion kann einfach für eine beliebige Markoff-Kette gemacht werden. Es ist auch möglich zurückzugehen und eine Markoff-Kette {Xn }n∈N0 aus einem Erneuerungsprozess {Rn }n∈N0 zu bilden, so dass {Xn = 0} = {Rn = 1} gilt.
Für einen gegebenen Erneuerungsprozess {Rn }n∈N0 definieren wir die Zufallszeiten
τ0 = 0 ,
τk := inf{n > τk−1 : Rn = 1} k ≥ 1 ,
∆τk := τk − τk−1 ,
k≥1
und Tn := τk 1{τk ≤n<τk+1 } . Alle diese Zufallszeiten sind ganze Zahlen. Die τk sind
die nachfolgende Epoche, in denen Rn = 1 ist, d.h. Rτ1 = Rτ2 = · · · = 1 und R = 0
sonst. Die Zeiten Tn bilden die Teilfolge derjenigen τk , die, n für n, vor der Zeit n
fallen. Jetzt setzen wir
Xn := n − Tn , X0 = 0 .
Es folgt
{Xn = 0} = {τn = n} = {∃k : τk = n} = {Rn = 1} .
Der Prozess {Xn }n∈N : N × Ω 7→ N ist eine Markoff-Kette, die Erneuerungskette
heisst. Angenommen, dass Xn = j für eine gegebene ganze Zahl j gilt, dann ist
Tn = n − j. Daher ist entweder Tn+1 = n − j, also Xn+1 = j, oder Tn+1 = n + 1,
also Xn+1 = 0. Wir sehen sofort, dass Xn+1 nur durch die Werte des Prozesses zur
Zeit n bestimmt ist, so dass {Xn }n∈N eine Markoff-Kette ist.
Die Zuwächse ∆τk sind unabhängige gleichverteilten Zufallsvariablen. Um dies
zu beweisen, bemerken wir zunächst, dass ∆τ1 eine Stoppzeit bezüglich σ(X0 , . . . , Xn )
ist, da
{∆τ1 = n} = {τ1 = n} = {Rn = 1} = {Xn = 0} ∈ σ(X0 , . . . , Xn )
gilt. Nochmals ergeben die starke Markoff-Eigenschaft (1.7) und die zeitliche Homogenität
P0 (X∆τ1 +1 , X∆τ1 +2 , · · · ∈ A|Xn , ∆τ1 ≥ n) = PX∆τ1 ({Xn }n∈N0 ∈ A|F∆τ1 )
= P0 ({Xn }n∈N0 ∈ A) P-f.s. .
Es folgt, dass der Prozess (X∆τ1 +1 , X∆τ1 +2 , . . . ) von der σ-Algebra σ(Xn , {∆τ1 ≥
n}) unabhängig ist, also auch von ∆τ1 . Daher müssen ∆τ1 und {∆τk }k≥1 unabhängig sein. Man kann dieses Argument iterieren, um zu beweisen, dass ∆τk
unabhängige gleichverteilte Zufallsvariablen sind. Daher schreiben wir die Übergangwahrscheinlichkeiten als
P (Xn+1 = j + 1|Xn = j) = P (Tn+1 = n − j − 1|Tn = n − j)
= P (∆τn+1 ≥ j + 1|∆τn+1 ≥ j)
P (∆τ1 ≥ j + 1)
=
=: πj,j+1 ,
P (∆τ1 ≥ j)
wobei wir die Formel von Bayes und die Unabhängigkeit der ∆τk benutzt haben.
Übung 1.1. Was ist die zum Erneuerungsprozess (1.10) zugehörige Erneuerungskette?
25
2. Rekurrenz und Transienz
Sei π = {πij }i,j∈I eine stochastische Matrix. Vorab führen wir eine Äquivalenzrelation auf I ein. Wir schreiben i → j für i, j ∈ I, so dass ein n existiert, mit
πijn >0, d. h. die Kette erlaubt den Weg mit n Zeitsstufen von i zu j. Wir sagen
in diesem Fall, dass j von i erreichbar ist. Erreichbarkeit ist reflexiv und transitiv,
aber sie ist nicht symmetrisch. Ausserdem definieren wir für alle i, j ∈ I
i ∼ j ⇐⇒ i → j
und j → i .
(2.1)
Diese Relation ist offenbar reflexiv, i ∼ i, und symmetrisch, i ∼ j ⇒ j ∼ i. Wenn
m
m
n
> 0,
, πkj
> 0 und πjk
i ∼ j und j ∼ k ist, dann existieren n und m, so dass πijn , πji
n+m
n+m
n m
n m
also πij πjk = πik > 0 und πji πkj = πki > 0, woraus Transitivität folgt. Somit
ist ∼ eine Äquivalenzrelation auf I, die Äquivalenzklassen auf I definiert.
Definition 2.1. a) Wir nennen jede Äquivalenzklasse von einem gegebenen
i ∈ I, d.h.
Ai := {j ∈ I : i ∼ j} ,
eine irreduzible Teilmenge von I. Eine Markoff-Kette heisst irreduzibel genau dann,
wenn I die eindeutige irreduzibel Menge ist, d. h. i ∼ j für alle i, j ∈ I.
b) Eine Teilmenge I¯ ⊂ I heisst abgeschlossen genau dann, wenn keine i ∈ I
und j ∈ I/I¯ existieren, so dass i → j.
Wir geben ein ganz einfaches Beispiel. Ein Kind spielt mit Farben. Es hat vier
Filzschreiber: Rot, Blau, Gelb und Schwarz. Es startet mit ein Zufallsfarbe und
dann folgt diese Regel: Wenn es Rot verwendet, dann verwendet es Rot nochmals
mit Wahrscheinlichkeit 21 und mit Wahrscheinlichkeit 12 Schwarz; wenn es Schwarz
verwendet, dann verwendet es Schwarz sicher; wenn es Blau verwendet, dann verwendet es Blau nochmals mit Wahrscheinlichkeit 14 und mit Wahrscheinlichkeit
3
Gelb; wenn es Gelb verwendet, dann verwendet es Gelb nochmals mit Wahr4
scheinlichkeit 13 und mit Wahrscheinlichkeit 23 Blau. Dies ist eine Markoff-Kette
auf I := {Rot, Schwarz, Blau, Gelb} mit stochastischer Matrix

0 0
 0 1 0 0 

π=
 0 0 1 3 .
4
4
0 0 32 13

1
2
1
2
(2.2)
Wenn das Kind mit Rot (oder mit Schwarz) startet, wird es nie die Farbe Blau
und Gelb benutzen (gleiches gilt für {Blau, Gelb}). Die Mengen {Rot, Schwarz}
26
und {Blau, Gelb} sind zwei abgeschlossene Klassen, die auch irreduzibel sind, da
 1 1 n

0 0
2
2


0 1
10 30 n  .
πn = 
(2.3)


0 0
4
4
2
1
0 0
3
3
Übung 2.1. Bestimmen Sie, ob die Markoff-Ketten der Beispiele B1), B2) und
B3) irreduzibel sind.
Ein anderer wichtiger Begriff ist die Periodizität.
Definition 2.2. Der Grösster gemeinsamer Teiler der Menge {n : πiin > 0},
der wir di nennt, heisst die Periode von i. Wir nennen den Zustand i ∈ I aperiodisch, wenn di = 1 ist, und d-periodisch, wenn di ≥ 2 ist. Eine irreduzibel MarkoffKette mit einem d-periodisch Zustand heisst d-periodisch (oder aperiodisch, falls
d = 1).
Übung 2.2. Beweisen Sie, dass j ∈ I d-periodisch ist, wenn, für ein d-periodisch
i ∈ I, i ∼ j ist.
Für jede Markoff-Kette Xn können wir die folgenden Zufallszeiten einführen:
τA := min{n ∈ N : Xn ∈ A} ,
A⊂I.
(2.4)
Nun setzen wir
(n)
fiA := Pi (τA = n) = P (τA = n|X0 = i) ,
und
fiA := Pi (τA < ∞) =
X
(n)
fiA .
n≥1
Wir schreiben τj ,
(n)
fij
und fij , wenn A = {j} ist.
Bemerkung 2.1. Eine andere bequeme Formulierung der Wahrscheinlichkei(n)
ten fiA ist
(n)
fiA = P (Xn ∈ A | X1 = i, X2 ∈
/ A, . . . , Xn−1 ∈
/ A) ,
(2.5)
d.h. die Wahrscheinlichkeiten, dass die Kette erstmals zur Zeit n die Menge A
besucht, wenn die Startstelle i ist.
Eine wichtige Grösse ist die Wahrscheinlichkeit fii , dass die Kette zu i züruckkehrt. Natürlich gilt immer fii ≤ 1, aber, wenn τi = ∞ ist, haben wir fii < 1.
Definition 2.3. Ein Element i ∈ I heisst rekurrent genau dann, wenn fii = 1
gilt, andernfalls heisst es transient.
Wir werden auch eine starkere Eigenschaft brauchen, nämlich dass eine (irreduzibel) Kette an jeder Stelle in endlicher Zeit zurückkehrt.
27
Definition 2.4. Ein rekurrentes i heisst positiv rekurrent, wenn
X (n)
E[τi ] =
nfii < ∞
(2.6)
n≥1
gilt. Ansonsten heisst es null-rekurrent.
Rekurrenz und Transienz sind Klasseineigenschaften, d.h.
Satz 2.1. Seien i, j ∈ I mit i ∼ j. Dann ist i genau dann rekurrent, wenn j
es ist.
Um diesen Satz zu beweisen, brauchen wir zwei Zwischenergebnisse:
Lemma 2.1. Für alle i, j ∈ I gilt
n
n
X
X
(k) n−k
(n−k)
n
πij =
fij πjj =
.
πijk fii
k=1
(2.7)
k=1
Beweis. Starte bei i und erreiche j in k Zeitsstufen, ohne durch i zu führen.
Dann mache einen Kreislauf um j in n − k Zeitsstufen. Da k beliebig ist, wir
müssen über k ∈ {1, 2, . . . , n} summieren, um die Wahrscheilichkeit von i → j in
n Zeitsstufen zu erhalten. Die zweite Gleichung wird analog erhalten: Starte bei
i und mache k Kreisläufe; dann gehe zu j, ohne durch i zu führen und summiere
über k (wie oben).
Übung 2.3. Beweisen Sie, dass fij die minimale nicht-negative Lösung zu
X
πij fji
(2.8)
fij =
j∈I
ist. Ausserdem sei
X
Ei [τj ] :=
(n)
nfij .
n∈N
Zeigen Sie, dass
(
P
1 + k6=j πik Ek [τj ] i 6= j ,
Ei [τj ] =
0
i=j
gilt.
Proposition 2.1. i ∈ I ist genau dann transient, wenn
X
πiin < ∞
n∈N0
gilt.
Beweis. Wir verwenden die Gleichung (2.7) mit i = j, d.h.
n
X
(k)
πiin =
fii πiin−k .
k=1
28
(2.9)
Daher
X
πiin
= 1+
n≥0
n
XX
(k)
fii πiin−k = 1 +
n≥1 k=1
= 1+
X
(k)
fii πiin−k
k≥1 n≥k
X
(k)
fii
k≥1
XX
πiin = 1 + fii
n≥0
X
πiin .
n≥0
P
Da fii ≥ 0 ist, gilt die letzte Gleichung ∞ = ∞, fallsP n≥0 πiin divergent ist. Wenn
fii = 1 ist, d.h. i rekurrent ist, dann gilt ausserdem n≥0 πiin = ∞. Somit nehmen
wir fii < 1 an. Für t ∈ (0, 1) setzen wir
X
X
(n)
π̂(t) :=
tn πiin
fˆ(t) :=
tn fii
n≥0
n≥0
(diese Reihen konvergieren für t ∈ (0, 1)). Mit einer ähnlichen Berechnung wie
zuvor erhalten wir
n
XX
(k)
π̂(t) = 1 +
tk fii tn−k πiin−k
n≥1 k=1
= 1+
X
(k)
tk fii
X
tn πiin = 1 + fˆ(t)π̂(t) ,
n≥0
k≥1
also
π̂(t) = (1 − fˆ(t))−1 t ∈ (0, 1) .
Wegen fii < 1 können wir den Grenzewert t → 1− nehmen und erhalten
X
π n = lim (1 − fˆ(t))−1 = (1 − fii )−1 < ∞ .
ii
n≥0
t→1−
Beweis des Satzes 2.1. i ∼ j impliziert, dass n1 , n2 existieren, so dass πijn1 >
n2
0 und πji
> 0. Aus den Chapman-Kolmogorov-Gleichungen (1.5) folgt sofort für
n2 n n1
n n2
πji und analog πiin+n1 +n2 ≥ πji
πii πij . Somit
alle n ∈ N πiin+n1 +n2 ≥ πijn1 πjj
X
X
X
n2
n2 2
n
πiin ≥ πijn1 πji
πjj
≥ (πijn1 πji
)
πiin ,
n≥0
n≥0
n≥0
woraus fii < 1 ⇐⇒ fjj < 1 folgt.
Bemerkung 2.2. Aus Proposition 2.1 folgt auch, dass, wenn j transient ist,
X
πijn < ∞
n≥1
gilt, da
X
n≥1
πijn
=
n
XX
n≥1 k=1
(k)
n−k
fij πjj
=
XX
k≥1 n≥k
29
(k)
n−k
fij πjj
= fij
X
n≥1
n
πjj
.
Die letzte Bemerkung zu folgendem Satz:
Satz 2.2. Rekurrente Äquivalenzklassen sind Abgeschlossen.
Beweis. Wir beweisen, dass, wenn i rekurrent ist und i → j, dann gilt i ∼ j.
Dies impliziert, dass j rekurrent ist (gemäss Staz 2.1). Somit ist kein Übergang
von einer rekurrenten Stelle i zu einer transienten Stelle l möglich, d.h. rekurrente
Äquivalenzklassen sind Abgeschlossen.
Um j → i zu zeigen, führen wir ein Widerspruchsbeweis. Wir nehmen fii = 1,
n̄ := inf{n : πijn > 0} < ∞ .
(2.10)
n
= 0 ∀n ∈ N an. So
(d.h. πijn̄ > 0) und πji
1 = fii = P (τi < ∞) = P (τi < ∞, Xn̄ = j) + P (τi < ∞, Xn̄ 6= j)
≤ P (τi < ∞, Xn̄ = j) + P (Xn̄ 6= j) = P (τi < ∞, Xn̄ = j) + 1 − πijn̄ .
n−n̄
Nun bemerken wir, dass Pi (Xn = 1, Xn̄ = j) = πijn̄ πji
= 0 für alle n > n̄ und für
n n̄−n
n ∈ {1, . . . , n̄} Pi (Xn = 1, Xn̄ = j) = πii πij = 0 (gemäss der Definition von n̄),
also
X
Pi (τi < ∞, Xn̄ = j) ≤
Pi (Xn = i, Xn̄ = j) = 0
n≥0
(wobei wir die einfache Ungleichung P (∪i Ai ) ≤
πijn̄ = 0, ein Widerspruch.
P
i
P (Ai ) benutzt haben). Es folgt
Bemerkung 2.3. Ist π irreduzibel und i positiv rekurrent, so folgt (einfach),
dass alle Zustelle positiv rekurrent sind. In diesem Fall sprechen wir von positiv
rekurrenten Markoff-Kette.
Alle Stellen einer Rekurrenzklasse sind in endlicher Zeit verbunden:
Proposition 2.2. Sei i ∼ j mit i rekurrent. So gilt fij = fji = 1.
Beweis. Der erst Teil des Beweises ist ähnlich wie in obigem Lemma. Wir
setzen
n̄ := inf{n : πijn > 0} = inf{n : Pi (Xn = j) > 0} .
Wegen fii = Pi (τi < ∞) = 1, gilt
πijn̄ = Pi (τi < ∞, Xn̄ = j) = Pi (τi < n̄, Xn̄ = j) + Pi (n̄ < τi < ∞, Xn̄ = j) .
Die obige Ungleichung gibt
Pi (τi < n̄, Xn̄ = j) ≤
n−1
X
Pi (Xk = i, Xn̄ = j) ,
k=1
aber es gilt nach Definition von n̄ (2.10) Pi (Xk = i, Xn̄ = j) = Pi (Xn̄−k = j) = 0
für alle k ∈ {1, . . . , n − 1}, daher
πijn̄ = Pi (n̄ < τi < ∞, Xn̄ = j) .
30
Dann folgt aus der Formel von Bayes und der Markoff-Eigenschaft (1.2), dass
πijn̄ = Pi (n̄ < τi < ∞, Xn̄ = j)
= Pi (X1 6= i, . . . , Xn̄−1 6= i, Xn̄ = j, τi < ∞)
= Pi (τi < ∞ | X1 6= i, . . . , Xn̄−1 6= i, Xn̄ = j)Pi (X1 6= i, . . . , Xn̄−1 6= i, Xn̄ = j)
= Pj (τi < ∞)Pi (Xn̄ = j) = fji πijn̄
gilt. Daraus ergibt sich fji = 1. Man zeigt analog, dass fij = 1.
Übung 2.4. Beweisen Sie, dass endliche, irreduzible Markoff-Ketten rekurrent
sind.
3. Noch mehr über Irrfahrten
Nun diskutieren wir zwei namhafte Beispiele, nämlich die Rekurrenz der Irrfahrt (wenn die Dimension variiert) und die Ruinwahrscheinlichtkeit des Spielers.
Zuerst studieren wir die Rekurrenz der folgenden klasse von irriduziblen Irrfahrten. Da die Zufallsvariable ξ1 auf Zν Ihre Werte annimmt, schreiben wir (ξ1 )i ,
um die i-te Komponente des Zufallsvektor ξ1 = ((ξ1 )1 , . . . , (ξ1 )ν ) zu bezeichnen.
Wir betrachten diejenigen Zuwachsverteilungen mit
P (ξ1 = x) = P (ξ1 = −x) ,
und
E[|(ξ1 )α1 1
. . . (ξ1 )αν ν |]
E[(ξ1 )i (ξ1 )j ] =: Bij > 0 ,
< ∞ , wenn
ν
X
αh = 3 , αh ≥ 0 .
h=1
Wir bemerken, dass, wegen der Parität der Zuwächsverteilung,
E[(ξ1 )α1 1 . . . (ξ1 )αν ν ] = 0
P
gilt, wenn νh=1 αh ungerade ist.
Um die Rekurrenz (oder die Transienz) zu zeigen, genügt es nur f00 zu betrachten, da diese Irrfahrten irreduzible Markoff-Ketten sind. Wir wollen das folgende
Ergebnis zeigen:
Satz 3.1. Unter den obigen Annahmen ist f00 = 1, für ν = 1, 2, und f00 < 1
für ν ≥ 3.
Für ν = 1, 2 ist die Irrfahrt rekurrent und sie ist transient für ν ≥ 3. Eine
alternative (nicht mathematische) Formulierung dieses Statzes ist: Ein Irrer kann
immer den weg nach Hause finden, aber wird sich eine Irrtaube ewig verirren.
Um diesen Satz nachzuweisen, ist die erste Stufe das asymptotische Verhalten
der Wahrscheinlichkeit, dass die Irrfahrt auf 0 zurückkommt, zu bestimmen. Die
Fourier-Analysis ist wie ein Gespenst, das immer über uns schwebt und wird von
31
Zeit zu Zeit, wie in der folgenden Proposition, auf uns schlagen. Die Charakteristische Funktion der Zuwächse
X
ϕ(λ) :=
P (ξ1 = x)eixλ , λ ∈ [−π, π]
(3.1)
x∈Zν
spielt eine zentrale Rolle. Es ist eine einfache Übung zu beweisen, dass
X
ϕSn (λ) :=
P (Sn = x)eixλ = ϕn (λ) .
(3.2)
x∈Zν
Offenbar ist ϕ(0) = 1. Eine wichtige Eigenschaft von ϕ(λ) ist, dass, da die
Irrfahrt irreduzibel ist, |ϕ(λ)| < 1 für λ ∈ (0, 2π) gilt. Wir zeigen dies durch
Widerspruch: Sei λ∗ 6= 0, so dass |ϕ(λ∗ )| = 1. Dann gilt
X
∗
1=
eiλ (x−y) P (ξ1 = x)P (ξ1 = y) .
x,y∈Zν
Diese Gleichung gilt genau dann, wenn P (ξ1 = x) = δx,x̄ für ein gegeben x̄ ∈ Zν
ist, die die Verteilung einer reduzible Irrfahrt ist. Da wir hier nur die irreduziblen
Irrfahrten studieren wollen, es kann |ϕ(λ)| = 1 nur für λ = 0, 2π sein.
Die Strategie des Beweises der folgenden Proposition ist einige geeignete Eigenschaften von ϕ(λ) zu bestimmen, um das asymptotische Verhalten von P0 (Sn = 0)
durch die Inversion der Fourier-Reihe
Z π
Z π
dλ n
dλ n
−ixλ ϕ (λ)e
=
ϕ (λ) .
(3.3)
P0 (Sn = 0) =
x=0
−π 2π
−π 2π
zu berechnen.
Erstens erklären wir eine nützliche Entwicklung für ϕ(λ). Wir berechnen
X
X
∂λi ϕ(λ)λ=0 = ∂λi
P (ξ1 = x)eixλ = i
P (ξ1 = x)xi = iE[(ξ1 )i ] ,
(3.4)
x∈Zν
x∈Zν
sowie
∂λi ∂λj ϕ(λ)λ=0 = −E[(ξ1 )i (ξ1 )j ] = −Bij .
(3.5)
P
∂λα11 . . . ∂λανν ϕ(λ)λ=0 = (i) h αh E[(ξ1 )α1 1 . . . (ξ1 )αν ν ] .
(3.6)
Allgemein gilt
Deshalb schreiben wir die Taylor Entwicklung von ϕ(λ) an [−ε, ε]ν als
1
ϕ(λ) = 1 − (λ, Bλ) + o(|λ|3 ) ,
2
und
1
log ϕ(λ) = − (λ, Bλ) + o(|λ|3 ) .
2
Somit gilt
1
3
1
ϕ(λ) = elog ϕ(λ) = e− 2 (λ,Bλ)+o(|λ| ) = e− 2 (λ,Bλ) (1 + o(|λ|3 )) ,
da e
o(|λ|3 )
= 1 + o(|λ|3 ) ist.
32
(3.7)
(3.8)
Proposition 3.1. Unter den obigen Annahmen gilt
1
−ν/2
P0 (Sn = 0) ∼ n
+o
.
(3.9)
ν
n2
√
Beweis. Durch die Variablenstrasformation λ 7→ λ/ n schreiben wir die Gleichung (3.3) als
Z
dλ
λ
n
.
(3.10)
P0 (Sn = 0) =
ϕ √
ν/2
√
√
n
[−π n,π n]ν 2πn
Diese Formel und (3.8) geben
Z
P0 (Sn = 0) =
3 n
|λ|
dλ − (λ,Bλ)
2
1
+
o
ν e
3
√ √
n2
[−ε n,ε n]ν 2πn 2
Z
dλ n λ
ϕ √
+
√
√
√ √
n
[−π n,π n]ν /[−ε n,ε n]ν 2π
Z
dλ − (λ,Bλ)
1
=
e 2 +o
ν
√ √ ν 2πn ν2
n2
[−ε n,ε n]
Z
dλ n λ
ϕ √
+
.
√
√
√ √
n
[−π n,π n]ν /[−ε n,ε n]ν 2π
(3.11)
Um den letzen Ausdruck dieser Gleichung zu berechnen, bemerken wir, dass
ein b > 0 existiert, so dass
2
ϕ(λ) < e−b|λ| ,
∀λ ∈ [−π, π]ν .
(3.12)
Aus (3.7) sehen wir, dass ein b > 0 existiert, so dass
2
ϕ(λ) ≤ 1 − b|λ|2 ≤ e−b|λ| ,
∀λ ∈ [−ε, ε]ν
gilt. Andererseits, da |ϕ(λ)| < 1 für λ 6= 0 gilt, gibt es ein A > 0, so dass für
|λ| ≥ ε |ϕ(λ)| < A gilt. Daher gilt (3.12) fur alle λ ∈ [−π, π]. Also gilt
Z
Z
2
dλ n λ
dλ − b|λ|2
− bε2 n
√
ϕ
≤
e
e 2
√ ν
√ √ ν 2π
√
√ ν
√ √ ν 2πn ν2
√
n
[−π n,π n] /[−ε n,ε n]
[−π n,π n] /[−ε n,ε n]
Z
bε2 n
bε2 n
dλ − b|λ|2
2
≤ e− 2
= b−ν e− 2 .(3.13)
ν e
Rν 2πn 2
Nun zeigen wir
Z
√ √
[−ε n,ε n]ν
dλ − (λ,Bλ)
1
2
=
ν e
ν + o
2πn 2
2πn 2
33
1
ν
n2
.
(3.14)
Wir schreiben
Z
Z
dλ − (λ,Bλ)
2
ν e
Rν 2πn 2
Z
dλ − (λ,Bλ)
2
+
ν e
√ √
Rν /[−ε n,ε n]ν 2πn 2
Z
dλ − (λ,Bλ)
1
2
=
ν +
ν e
√
√
2
ν
ν
2πn 2
2πn
R /[−ε n,ε n]
Z
1
dλ − (λ,Bλ)
− 4b ε2 n
2
,
≤
ν + e
ν e
2πn 2
Rν 2πn 2
Dies ergibt (3.14). Die Gleichungen (3.11), (3.13) und (3.14) ergeben (3.9).
√ √
[−ε n,ε n]ν
dλ − (λ,Bλ)
2
=
ν e
2πn 2
Nun können wir den Beweis des Satzes 3.1 beenden.
Beweis des Satzes 3.1. Wir beweisen, dass
"
#−1
X
f00 = 1 −
P0 (Sn = 0)
.
(3.15)
n≥0
P
Aus dieser Formel folgt, dass f00 = 1, wenn n≥0 P0 (Sn = 0) divergent ist und
f00 < 1 sonst. Für ν = 1 sagt Proposition 3.1, dass
X
1
P0 (Sn = 0) ' √ , also
P0 (Sn = 0) = ∞ ⇒ f00 = 1 .
n
n≥0
Analog gilt für ν = 2
P0 (Sn = 0) '
1
,
n
also
X
P0 (Sn = 0) = ∞ ⇒ f00 = 1 ,
n≥0
1
aber für ν = 2 ist P0 (Sn = 0) ' nν/2
, also konvergiert die Reihe
und es ist f00 < 1.
Um die Formel (3.15) zu beweisen, führen wir
X
R :=
1{Sn =0}
P
n≥0
P0 (Sn = 0)
n≥0
ein, so dass
E[R] =
X
P0 (Sn = 0)
n≥0
gilt. R ist die zufällige Anzahl der Rückführungen zu 0. Dann ergibt die MarkoffEigenschaft
P0 (R = k) = P (∃n1 , . . . , nk−1 ∈ N : S0 = 0, Sn1 = 0, . . . , Snk−1 = 0 , Sn>nk−1 6= 0)
= P0 (∃n ∈ N : Sn = 0) . . . P0 (∃n ∈ N : Sn = 0)P0 (@n ∈ N : Sn = 0)
k−1
= P0 (τ0 < ∞)k−1 P0 (τ0 = ∞) = f00
(1 − f00 )
34
für k ≥ 2 und natürlich ist P0 (R = 1) = 1, da P0 (S0 = 1). Somit gilt
X
X
k−1
E[R] =
kP0 (R = k) = (1 − f00 )
kf00
k≥0
k≥0
d X k
d
(1 − f00 )−1 = (1 − f00 )−1 ,
= (1 − f00 )
f00 = (1 − f00 )
df00 k≥0
df00
also (3.15).
In dem Falls ν = 1 kann man ein besser Ergebnis erhalten:
Satz 3.2 (Satz von Chung und Fuchs (1951)). Sei ν = 1, E[|ξ1 |] < ∞ und
E[ξ1 ] = 0. Dann gilt f00 = 1.
Wir werden dieses Satz am ende des Kapitels verwenden.
Jetzt diskutieren wir eine vereinfachte Variante eines klassischen Problems der
Wahrscheinlichkeitstheorie, nämlich den Ruin des Spielers. Ein Spieler besitzt i
CHF und wettet auf jedes Ergebnis eines gegebenen Glücksspiels. Der Spieler gewinnt mit Wahrscheinlichkeit p ∈ (0, 1) und verliert mit Wahrscheinlichkeit 1 − p
(das Spiel kann unfair sein). Was ist die Wahrscheinlichkeit, dass der Spieler ruiniert ist?
Dieses Problem besitzt eine einfache Formulierung durch Markoff-Ketten und
zwar ist es eine Irrfahrt mit 0 als absorbierende Rand. Die (unendliche) stochastische Matrix ist
π0,0 = 1 ,
πi,i+1 = p ,
πi,i−1 = 1 − p
1
p
 1−p
0

1−p
 0
..
..
.
.

0
p
0
..
.
und πij = 0 sonst .
0 ···
0 ···
p ···
.. ..
. .

0
0 

0 .
..
.
(3.16)
(3.17)
Wir haben doch die Zufallszeit
τA := inf{n ∈ N : Xn ∈ A}
eingeführt. Wir setzen
ςA := inf{n ∈ N0 : Xn ∈ A} .
Sowohl τA als auch ςA sind Stoppenzeiten. Für i ∈ A gilt trivialerweise Pi (ςA =
0) = 1, ferner gilt Pi (τA = ςA ) für alle i ∈
/ A. Wir definieren die folgende Funktion
(n)
hA (i) := Pi (ςA < ∞) .
hA (i) := Pi (ςA = n) ,
35
1-p
1-p
1-p
1
2
3
0
p
p
p
Abbildung 1. Irrfahrt mit 0 als absorbierenden Rand, deren stochastische Matrix ist (3.17).
Proposition 3.2. hA (i) ist die kleinste nicht-negative Funktion, die
(P
/A
j∈I πij F (A, i) i ∈
F (A, i) =
1
i ∈ A.
(3.18)
erfüllt.
Beweis. Offenbar ist hA (i) = 1 für i ∈ A, also betrachten wir den Fall i ∈
/ A.
Zunächst zeigen wir, dass
X
(n)
(n+1)
πij hA (i)
(3.19)
fiA
=
j∈I
gilt. Die folgende Kette von Gleichungen
X
Pi (TA ≤ n + 1|X1 = j)πij
Pi (τA < ∞) =
j∈I
=
X
P (X1 , . . . , Xn ∈
/ A, Xn+1 ∈ A|X0 = i , X1 = j)πij
j∈I
=
X
Pj (X0 , . . . , Xn−1 ∈
/ A, Xn ∈ A)πij =
j∈I
X
Pj (ςA = n)πij
j∈I
gibt
(n+1)
hA
(i) =
X
(n)
πij hA (i) .
j∈I
Also
hA (i) = fA (i) =
X
n≥0
(n+1)
fiA
=
X
πij
X
n≥0
j∈I
(n)
hA (i) =
X
πij hA (j) .
(3.20)
j∈I
Sei nun g(i) eine nicht-negative Lösung von (3.18). Wir zeigen mit Induktion nach
(n)
n, dass g(i) ≥ hA (i) für alle i ∈ I und n ∈ N0 ist, woraus g(i) ≥ hA (i) folgt. Für
36
n = 0 ist g(i) ≥ Pi (ςA = 0), da g(i) = Pi (ςA = 0) für i ∈ A und Pi (ςA = 0) = 0 ≤
(n)
g(i) sonst. Dann folgt aus der Induktionsannahme g(i) ≥ hA (i)
X
X
(n)
(n+1)
g(i) =
πij g(i) ≥
πij hA (i) = hA (i) .
j∈I
j∈I
Der folgende Satz stellt die Ruinwahrscheinlichkeit des Spieler her, wenn p ∈
(0, 1) variiert.
Satz 3.3 (Ruin des Spielers).
i) Für p ≤
ii) Für p >
1
2
1
2
gilt fi0 = 1, für alle i ∈ N.
gilt
i
1−p
fi0 =
, für alle i ∈ N .
p
(3.21)
Bemerkung 3.1. Wenn das Spiel unfair ist (gegen den Spieler, d.h. p < 21 ),
wird der Spieler sicher sein ganzes Kapital verlieren, aber dies passiert auch, wenn
das Spiel fair ist (p = 12 ).
Beweis. Offenbar ist h0 (i) = fi0 für i > 0. Die obige Proposition ergibt
(
h0 (0) = 1
(3.22)
h0 (i) = ph0 (i + 1) + (1 − p)h0 (i − 1) i ≥ 1 .
Wir wollen die Lösungen dieser Rekursion finden. Wir sehen sofort, dass die konstante Funktion h0 (i) = 1 für alle i ∈ N stets eine Lösung ist. Wir setzen
h0 (i + 1)
υi :=
,
h0 (i)
und bemerken, dass (3.22) als
υi+1 = M υi = M i υ0 ,
mit
M :=
− 1−p
p
1
0
1
p
,
(3.23)
geschrieben werden kann. Die Matrix M i hat die gleichen Eigenvektoren und Eigenwerte wie M . Eine einfache Berechnung ergibt
1−p 1−p 1−p
1
1
p
p
M
=
M
=
.
(3.24)
1
1
1
1
p
37
Wir schreiben für α ∈ [0, 1]
1−p h0 (1)
1
p
,
=α
+ (1 − α)
1
1
1
also
M i υ0 = α
1
1
 1−p
p
+β i+1 
1−p
p
i  ,
daher gilt
i
1−p
h0 (i) = α + (1 − α)
.
(3.25)
p
Somit sehen wir, dass die Annahme p ≤ 21 und p > 12 ein verschiedenes Verhalten
i
1
von h0 (i) ergeben. p < 2 impliziert 1−p
→ ∞ für i → ∞, somit muss α = 1
p
i
= 1, also h0 (i) = α + β = 1
gelten (da h0 (i) ≤ 1). Wenn p = 21 ist, dann gilt 1−p
p
für alle i ∈ N. Dies beweist i).
1
Was den Fall p > 2 betrifft, ist 1−p
≤ 1 und wir haben die Familie der
p
Lösungen
i
1−p
≤ 1 , α ∈ [0, 1] .
h0 (i; α) = α + (1 − α)
p
Da
i
d
1−p
h0 (i; α) ≤ 0
h0 (i; 1) = 1 ≥
= h0 (i; 0) ,
dα
p
i
ist die minimale h0 (i; α), wenn α ∈ [0, 1] variiert, h0 (i; 0) = 1−p
= fi0 .
p
4. Invariante Masse
Zuerst geben wir die Definition eines invarianten Masses.
Definition 4.1. Ein nicht identisch-null Mass auf I mit
X
µ(j) =
µ(i)πij ,
∀j ∈ I ,
(4.1)
i∈I
P
heisst invariantes Mass bezüglich der stochastichen Matrix π. Wenn Z := i∈I µ(i) <
∞ ist, dann nennt man Z −1 µ(i) ein invariantes Wahrscheinlichkeitmass oder auch
eine invariante Verteilung.
Bemerkung 4.1. Ist µ ein invariantes Mass, so gilt
X
(n)
µ(j) =
µ(i)πij ,
∀n ∈ N0 .
i∈I
38
(n̄)
Wenn π irreduzibel ist, dann existiert n̄ für alle i, j ∈ I, so dass πij > 0. Sei i ∈ I
(n̄)
mit µ(i) > 0. Dann µ(j) ≥ µ(i)πij > 0. Es folgt daraus, dass µ(j) > 0 ∀j ∈ I gilt.
Wenn die Startverteilung die invariante Verteilung ist, dann gilt natürlich
P (X0 = j) = P (Xn = j) für alle n ∈ N0 .
Die Existenz und die Klassifizierung der invarianten Masse ist ein Problem,
das wir in dem Rest dieses Kapitel ausführlich studieren werden. Ein einfacher
Fall ist, wenn I eine endliche Menge ist. Dann existiert immer mindestens eine
invariante Verteilung, die eindeutig ist, wenn die Kette irreduzibel ist. Die Existenz
ist leicht zu zeigen. Wir nehmen an, dass I = {1, . . . , κ} mit κ ∈ N und dass die
Startverteilung ein Kronecker-Delta an Stelle 1 ist: ν(i) = δ1i . Dann bilden wir die
Folge {π n ν(i)}n∈N0 , die als eine Folge in [0, 1]κ ausgelegt werden kann. Da [0, 1]κ
kompakt ist, gibt es eine Folge {nk }k∈N0 , so dass der Limes
µ̄1 := lim π nk ν(i)
k
existiert. Offenbar ist µ̄1 invariant bezüglich π. Eine allgemeine Startverteilung
ν(i) ist eine konvexe Kombination von Delta Massen, d.h.
X
ν(i) =
δij αj
j∈I
P
mit αj ∈ [0, 1] und j αj = 1. Wenn π irreduzibel ist, dann existiert ein invariante
Verteilung, die konvexe Kombination des obigen Limes ist, nämlich
X
µ̄ =
αj µ̄j ,
µ̄j (i) := lim π nk δij .
k
j
Wenn die Kette reduzibel ist, ist die Situation etwas anders. Der Einfachheit halber
nehmen wir an, dass die Kette die Menge I in zwei irreduzible Klassen, I+ und I− ,
zersetzt. Wir setzen
X
αj δij ,
ν + + ν− = ν ,
ν± (i) :=
j∈I±
d.h. die Wahrscheinlichkeiten, dass die Kette von I± startet. Da diese Mengen
irreduzible sind, muss der Träger der invarianten Verteilung muss in I+ enthalten
sein, wenn die Kette von I+ startet (analog für I− ). Dies bedeutet (etwas formal)
µ̄(i) = P (lim Xn = i) = P (X∞ = i |, X0 ∈ I+ )P (I+ ) + P (X∞ = i |, X0 ∈ I− )P (I− )
n
= µ̄+ (i)ν+ (i) + µ̄− (i)ν− (i) ,
wobei
µ̄± =
X
j∈I±
39
αj µ̄j .
Aus dem obigen Beispiel man leitet sofort den allgemeinen Fall ab: Wenn K irreduzible Klassen Ik , k = 1, . . . K, mit Startverteilungen νk (i) existieren, dann
gilt
µ̄(i) =
K
X
µ̄k (i)νk (i) ,
k=1
wobei jedes µ̄k (i) die invariante Verteilung der k-ten Klasse ist. Dieses einfache,
aber allgemeine Prinzip ein für allemal erklärt, werden wir fortan nur (noch) irreduzible Ketten betrachten.
Die obige Konstruktion kann für rekurrente Markoff-Ketten verallgemeinert
werden. Wir betrachten ν(i) = δik , für i ∈ I und bemerken, dass
X
Pk (Xn = i) ,
n≥1
falls konvergent, auch ein invariantes Mass ist (natürlich ist π n ν(i) = Pν (Xn = i)).
Im Allgemeinen konvergiert die obige Reihe nicht, aber wenn die Kette rekurrent
ist, dann können wir eine Menge mit unitären Massen finden, so dass die Reihe
konvergent ist. Wir setzen
#
"τ
k
X
X
1{Xn =i} .
(4.2)
µk (i) :=
Pk (Xn = i, τk ≥ n) = Ek
n=1
n≥1
Proposition 4.1. Sei π irreduzibel und rekurrent und für k ∈ I µk (i) durch
(4.2) definiert. Dann ist 0 < µk (i) < ∞ und es ist das einzige invariante Mass,
das µk (k) = 1 erfüllt.
Beweis. Die Bayesche Formel und Rekurrenz ergeben einfach
X
X
µk (k) =
Pk (τk ≥ n | Xn = k)Pk (Xn = k) =
Pk (Xn = k) = 1 .
n≥1
(4.3)
n≥1
Dann ergibt die Markoff-Eigenschaft für m ≥ 1
XX
µk (i) =
Pk (Xn = i , Xn−m = j , τk ≥ n)
n≥1 j∈I
=
XX
Pk (τk ≥ n , | Xn = i , Xn−m = j)Pk (Xn = i , Xn−m = j)
n≥1 j∈I
=
XX
=
X
Pk (τk ≥ n , | Xn = j , )Pk (Xn = j) , Pj (Xm = i)
n≥1 j∈I
m
µk (j)πji
.
(4.4)
j∈I
40
Die obige Gleichung mit m = 1 zeigt die Invarianz von γk . Ausserdem existiert für
n̄
jedes j ∈ I, wegen der Irreduzibilität, ein n̄ ∈ N mit πji
> 0. Dann gilt
X
n̄
n̄
µk (j)
µk (j) ≥ πjk
1 = µk (k) =
πjk
j∈I
für jedes feste j ∈ I. Somit existiert für jedes j ∈ I ein n̄ ∈ N, so dass µk (j) ≤
m
n̄ −1
. Daher existiert
) < ∞. Anderseits folgt auch aus (4.4), dass µk (i) ≥ µk (k)πki
(πjk
n̄
für jedes j ∈ I ein n̄ ∈ N mit πki > 0, also µk (i) > 0.
Endlich nehmen wir an, dass ein invariantes Masses µ̃(i) mit µ̃(k) = 1 existiert.
Dann ist δ(i) := µ̃(i) − µk (i) auch ein invariantes Mass mit δ(k) = 0. Somit gilt
X
n
δ(j)
∀n ∈ N ,
0 = δ(k) =
πjk
j∈I
woraus, nochmals wegen der Irreduzibilität δ(i) = 0 für alle i ∈ I folgt.
Die Existenz und Eindeutigkeit der invarianten Verteilung sind etwas komplizierter zu beweisen, denn die einfache Rekurrenz genügt nicht.
Der Hauptstatz dieses Kapitel ist
Satz 4.1. Ein eindeutiges invariantes Wahrscheinlichtkeitmass µ existiert genau dann, wenn die Markoff-Kette positiv rekurrent ist. Ausserdem gilt
1
µ(k) =
.
(4.5)
Ek [τk ]
Übung 4.1. Sei p ∈ (0, 1) und {ξn }n∈N eine Folge von unabhängigen und
gleichverteilten Zufallsvariablen mit P (ξ1 = 1) = p, P (ξ1 = −1) = 1 − p. Beweisen
P
Sie, dass die Irrfahrt SN := N
n=1 ξi null-rekurrent ist. Was ist das invariante Mass?
Übung 4.2. Beweisen Sie, dass jede endliche Markoff-Kette positiv rekurrent
ist.
Wir werden diesen Satz nur für den Fall beweisen, dass die Kette aperiodisch
ist (d.h. d = 1). Die Annahme d ≥ 2 erschwert den Beweis, aber er enthalt nicht
viele neue Informationen. Der Existenz-Teil ist einfacher und kann sofort bewiesen
werden.
Beweis (nur Existenz). Da die Kette irreduzibel und rekurrent ist, wissen
wir aus Satz 4.1, dass µk (i) ein invariantes Mass ist. Nun gilt
X
XX
µk (k) =
Pk (τk ≥ n | Xn = j)Pk (Xn = j)
j∈I n≥1
j∈I
=
XX
Pk (τk ≥ n | Xn = j)Pk (Xn = j)
n≥1 j∈I
=
X
Pk (τk ≥ n) =
n≥1
X
n≥1
41
nPk (τk ≤ n) = Ek [τk ] .
(4.6)
Somit ist
µk (i)
Ek [τk ]
eine invariante Verteilung. Wenn wir den obigen Ausdruck in i = k auswerten,
erhalten wir (4.5).
Wir haben (doch) bewiesen, dass positive Rekurrenz die Existenz der invarianten Verteilung impliziert. Wenn eine eindeutige invariante Verteilung existiert,
dann sehen wir umgekehrt sofort aus Satz 4.1 und (4.6), dass sie wie in (4.5)
schreiben lässt.
µ(i) :=
Der Beweis der Eindeutigkeit der invarianten Verteilung für positiv rekurrente
und irreduzible Markoff-Ketten braucht etwas mehr Arbeit. Zunächst zeigen wir
ein wichtiges Zwischenergebnis.
Proposition 4.2. Existiert
µ(i) = lim πijn
n
j-unabhängig, so ist µ(i) eine invariantes endliches Mass. Wenn
dann ist µ(i) die einzige invariante Verteilung.
P
i
µ(i) = 1 gilt,
Beweis. Zunächst bemerken wir, dass, wegen des Lemmas von Fatou,
X X
X
n+1
n
πij lim πijn ≤ lim inf
πij πki
= lim inf πkj
πij µi =
= µj
n
i∈I
i∈I
n
n
i∈I
P
gilt,
i∈I πij µi ≤ µj . Nun nehmen wir an, dass ein j0 existiert, so dass
P d.h.
π
µ
≤
µj0 . Dann gilt
i∈I ij0 i
X
XX
X X
X
µj >
πij µi =
µi
πij =
µi .
j∈I
j∈I i∈I
i∈I
j∈I
i∈I
P
Dieser Widerspruch impliziert, dass i∈I πij µi = µj ist, d.h. µ invariant ist. Es
folgt, dass
X
πijn µi = µj ∀n ∈ N
i∈I
ist. Daher ergibt der Satz der dominierten Konvergenz
X
X
X
µi = lim
πijn µi =
lim πijn µi = µj
µi .
n
i∈I
i∈I
n
i∈I
P
Somit µj (1P
− i∈I µi ) = 0 für alle i ∈ I. Deshalb ist entweder µi = 0 für alle
i ∈ I oder i∈I µi = 1. Da die Kette positiv rekurrent ist, folgt, dass {µi }i∈I eine
invariante Verteilung ist.
P
Sei nun qi i∈I eine anderePinvariante Verteilung. Dann gilt i∈I qi πijn = qj für
alle n ∈ N, also für n → ∞ i∈I qi µj = qj . Dies ergibt µj = qj für alle j ∈ I. Endlich können wir den Beweis des Satzes 4.1 beenden.
42
Beweis des Satzes 4.1 (Eindeutigkeit). Wegen der obigen Proposition
genügt es nachzuweisen, dass
1
(4.7)
lim πijn =
n
E[τi ]
für rekurrente Markoff-Ketten gilt. Dies ist auch als Erneuerungssatz bekannt.
Natürlich, da E[τi ] = ∞ für null-rekurrente Markoff-Ketten, ergibt (4.7) die Existenz und Eindeutigkeit der invarianten Verteilung für positiv rekurrente MarkoffKetten.
Der Beweis von (4.7) ist sehr lang und wir teilen ihn in mehrere Schritte.
1) Erneuerungskette. Wir erinnern an einige nützliche Definitionen über Erneuerungsketten. Sei Rn (j) := 1{Xn =j} , j ∈ I. Offenbar gilt
πijn = Pi (Xn = j) = Ei [Rn (j)] = Pi (Rn (j) = 1) .
Die Erneuerungsepochen sind durch
τj (k) := inf{n > τj (k − 1) : Rn (j) = 1} k ≥ 1
τj (0) = 0 ,
(n)
definiert. Natürlich ist τj (1) = τj , also Pi (τj (1) = n) = fij für alle i, j ∈ I.
Die entscheidende Idee ist, dass die Kette die Erinnerung an den vergangenen
Pfad verliert, jedes mal, wenn sie auf die Stelle j zurückkehrt. Daher ist der Pfad
der Kette in mehrere unabhängige Teile, jede in den Zeiten zwischen τj (k) und
(n)
τj (k + 1), gespalten. Es folgt, dass Pi (τj (k) = n) = fij ist, unabhängig von
k, und {τj (k)}k∈N0 ist eine Folge von unabhängigen Zufallsvariablen mit gleicher
(n)
Verteilung {fij }n∈N . Wir können die diesen Zufallsvariablen zugeordnete Irrfahrt
durch
n
X
Tj (n) :=
τj (k)
k=0
definieren. Offenbar ist
Pi (Tj (t) = n) =
X
(k )
(k )
fij 1 . . . fij 1
k1 +···+kt =n
und
πijn = Pi (Xn = j) =
X
Pi (Tj (t) = n) .
t∈N
2) Eine stationäre Erneuerungskette. Wir führen jetzt eine zusätliche Erneuerungskette {τ̃ (k)}k∈N0 ein. Wir setzen für k ≥ 1 τ̃ (k) ∼ τj (k) und
∆(n) := P (τ̃ (0) = n) =
Sei
T̃j (n) :=
n
X
Pi (τ > n)
.
E[τi ]
τ̃ (k) und π̃ij (n) :=
X
t∈N
k=0
43
Pi (T̃ (t) = n) ,
so gilt
π̃ij (n) =
X
Pi (T̃ (t) = n) =
t∈N
1
E[τi ]
∀n ∈ N .
(4.8)
Dann bemerken wir, dass aus der zweiten Gleichung in (2.7) folgt, dass
πijn
n
X
(k)
πijn−k fii ,
n≥0
(4.9)
π̃ijn−k fii
n ≥ 0.
(4.10)
ˆ
ˆ
ˆ ,
π̃(s)
= ∆(s)
+ fˆ(s)π̃(s)
|s| < 1 ,
(4.11)
= δ(n) +
k=1
gilt. Analog ist
π̃ijn
= ∆(n) +
n
X
(k)
k=1
Aus der obigen Gleichung erhalten wir
wobei
p̂(s) :=
X
sn pn ,
|s| < 1 .
n∈N
Da
ˆ
∆(s)
=
1 X n
s Pi (τ > n) ,
E[τi ] n≥1
genügt es zu zeigen, dass
P
sn Pi (τ > n)
1
=
ˆ
1−s
1 − f (s)
n≥1
(4.12)
gilt, so dass
ˆ
π̃(s)
=
1
1
,
E[τi ] 1 − s
also (4.8). Der Beweis von (4.12):
k
1 − fˆ(s) X 1 − sn (k) X (k) X n
fii
s
=
f =
1−s
1 − s ii
n=1
k≥1
k≥1
X
X (k) X
sn
fii =
sn Pi (τ > n) .
n≥1
k≥n+1
n≥1
3) Kopplung. Sei die Zufallsfolge {Uj (n)}n∈N durch
Vj (t) := Tj (t) − T̃j (t)
(4.13)
definiert und N := inf{t : Vj (t) = 0}. Wir sehen sofort, dass {Vj (t) − Vj (0)}n∈N
eine Markoff-Kette ist. Ausserdem ist, wegen des Satzes von Chung und Fuchs
44
(Satz 3.2), die Kette rekurrent ist, d.h. P (N < ∞) = 1, da E[Vj (t)] = 0 für n ≥ 1
und E[|Vj (t)|] ≤ 2E[τj ] < ∞. Somit gilt
X
X
Pi (T̃j (t) = n, N < t) =
Pi (Tj (t) = n, N < t) ,
t∈N
t∈N
da N Pi -f.s. endlich ist, so dass
X
πijn =
Pi (T̃j (t) = n)
t∈N
+
X
Pi (Tj (t) = n, N ≥ t) −
X
t∈N
Deshalb wollen wir zeigen, dass
X
lim
Pi (Tj (t) = n, N ≥ t) = 0 ,
n
t∈N
Pi (T̃j (t) = n, N ≥ t) .
t∈N
lim
n
X
Pi (T̃j (t) = n, N ≥ t) = 0 .
(4.14)
t∈N
Wir bemerken, dass Tj (t) und T̃j (t) ansteigend bezüglich t sind, also Tj (t) ≤
Tj (N ) und T̃j (t) ≤ T̃j (N ) für t ≤ N . Dann gilt
X
Pi (Tj (t) = n, N ≥ t) ≤ Pi (Tj (N ) = n) = Pi (T̃j (N ) = n)
t∈N
und limn Pi (Tj (N ) = n) = Pi (Tj (N ) = ∞) muss null sein, da N Pi -f.s. endlich ist.
Kombinieren wir (4.12) und (4.14), so erhalten wir
1
.
lim πijn =
n
E[τj ]
Bemerkung 4.2. Der originale Beweis des Erneuerungssatzes (nach Erdos,
Feller und Pollard 1949) ist viel kürzer und gilt auch, wenn E[τ ] = ∞ ist. Hier
haben wir uns für einen längere Beweis entschieden, um den wichtigen Begriff
Erneuerung zu betonen.
45
Literaturverzeichnis
[1]
[2]
[3]
[4]
[5]
H. Bauer, Wahrsheinlichkeitstheorie, de Gruyter, (1991).
L. Breiman, Probability, SIAM Classic Edition, (1992).
T. Hida, Brownian Motion, Springer, (1980)
D. Williams, Probability with Martingales, Cambridge University Press, (1991).
S. R. S. Varadhan, Probability, Courant Lecture Notes, AMS (2001).
47
Herunterladen