Universität Basel Frühlingsemester 2017 Angewandte Stochastik Giuseppe Genovese Institut für Mathematik, Universität Zürich, CH-8057 Zürich, Switzerland & Matematisches Institut, Universität Basel, Spiegelgasse 1, 4051 Basel, Switzerland. email: [email protected]; [email protected] Inhaltsverzeichnis Kapitel 1. Einführende Begriffe 1. Notation und Terminologie 2. Bedingte Wahrscheinlichkeiten und Bedingter Erwartungswert 3. Reguläre bedingte Wahrscheinlichkeiten 4. Stochastische Prozesse Anhang: der Radon-Nikodym Satz 3 3 4 10 12 16 Kapitel 2. Markoff-Ketten 1. Definitionen, starke Markoff-Eigenschaft und Beispiele 2. Rekurrenz und Transienz 3. Noch mehr über Irrfahrten 4. Invariante Masse 21 21 26 31 38 Literaturverzeichnis 47 1 KAPITEL 1 Einführende Begriffe 1. Notation und Terminologie Ein messbarer Raum ist ein Paar (Ω, F), wobei Ω eine nicht leere Menge und F eine σ-Albegra ist. Ein Massraum ist ein Tripel (Ω, F, µ), wobei (Ω, F) ein messbarer Raum und µ ein Mass ist. Wir sprechen von einem Wahrscheinlichkeitsraum, wenn µ(Ω) = 1 ist. (Ω, F, P ) bezeichnet durchweg einen Wahrscheinlichkeitsraum. B(Ω) ist die Borel-σ-Algebra auf Ω, d.h. die kleinste σ-Algebra, die von den offenen Mengen erzeugt ist. λn ist das Lebesgue Mass auf (Rn , B(Rn )). Sind (Ω, F) und (Ω0 , F 0 ) zwei messbare Räume, so heisst eine Abbildung f : Ω 7→ Ω0 F − F 0 -messbar (kurz m.b.), wenn für jedes B ∈ F 0 f −1 (B) ∈ F. Eine Zufallsvariable X auf (Ω, F, P ) ist eine F − B(R)-m.b. Abbildung. Wir verwenden oft die kurze Notation "X ist F-m.b." für Zufallsvariablen X auf F. Ist X eine Zufallsvariable auf (Ω, F, P ), so bezeichnet σ(X) := {X −1 (B) : B ∈ B(R)} die von X erzeugte σ-Algebra. Wir geben ohne Beweis den folgenden wichtigen Satz an: Satz 1.1. Ist Y eine σ(X)-m.b. Zufallsvariable, so existiert eine B(R)-m.b. Funktion Φ mit Y = Φ ◦ X. Wir sagen, dass eine Eigenschaft P -fast sicher gilt (kurz P -f.s.), wenn ihre Wahrscheinlichkeit Eins ist. Ist µ ein Mass auf F und f : Ω 7→ Ω0 , so ist das Mass µf −1 auf (Ω0 , F 0 ) definiert durch µf −1 (B) := µ(f −1 (B)) das induzierte Mass. Das induzierte Wahrscheinlichkeitmass P X −1 , das ein Wahrscheinlichkeitmass auf (R, B(R)) ist, nennt man die Verteilung von X. Wir schreiben Z Z E[X] = P (dω)X(ω) = P X −1 (dx)x . Ω R X hat eine Dichte, wenn P X −1 absolut stetig bezüglich λ ist, und der Erwartungswert lässt sich in diesem Fall als Z d(P X −1 ) E[X] = xdx dx R darstellen. 3 2. Bedingte Wahrscheinlichkeiten und Bedingter Erwartungswert Erstens erinnern wir an die Definition bedingter Wahrscheinlichkeit: Definition 2.1. Seien A, B ∈ Ω mit P (B) > 0. Die bedingte Wahrscheinlichkeit von A gegen B P (A|B) ist durch P (A ∩ B) P (B) P (A|B) := (2.1) definiert. Wir können diese Definition einfach mit diskreten Zufallsvariablen anwenden. Sei I eine abzählbare Menge, X : Ω → I eine Zufallsvariable und IX := {x ∈ I : P (X = x) > 0}. Dann ist P (A|{X = x}) = P (A ∩ {X = x}) , P (X = x) ∀x ∈ IX . (2.2) Wir bemerken, dass {P (A|{X = x})}x∈IX eine σ(X)-m.b. Funktion auf Ω darstellt, die konstant auf jedem Ereignis {X = x} ist. Da es eine Zufallsvariable ist, bezeichnen wir sie mit P (A|σ(X)). Es gilt die folgende Formel: P (A ∩ B) = E[1B P (A|σ(X))] , (2.3) für A ∈ F und B ∈ σ(X). Der Beweis verwendet den Satz über die totale WahrS scheinlichkeit. Sei nämlich B = x∈IX Bx mit Bx := {X = x} ∩ B, so dass ! [ P (A ∩ B) = P A ∩ Bx x = X P (A ∩ Bx ) = X x = X P (A ∩ B|{X = x})P ({X = x}) x P (A|{X = x})P (X = x)1B = E[1B P (A|σ(X))] . (2.4) x Übung 2.1. Verallgemeiern Sie die obige Konstruktion für Zufallsvariablen X : Ω 7→ R. Der allgemeine Fall verlangt eine andere Annäherung. Wir setzen P̃A (B) := P (A ∩ B), so dass P̃A ein bezüglich P absolutstetiges Mass auf Ω definiert (dies folgt aus 0 ≤ P (A ∩ B) ≤ P (B)). Offenbar ist im allgemeinen P (X = x) = 0 für gegebenes x, so dass (2.2) unsinnig ist. Jedoch können wir beliebig kleine Mengen betrachten: Sei ε > 0 und Cε ∈ F mit P (Cε ) < ε. Dann haben wir P (A|Cε ) = P (A ∩ Cε ) . P (Cε ) 4 Die entscheidende Idee ist, den Limes ε → 0 zu nehmen. Nach dem Satz von Radon-Nikodym (sehen Sie den Anhang) existiert eine eindeutige (P -f.s.) G-m.b. P̃A Funktion ddP (die Radon-Nikodym Ableitung) mit Z dP̃A P̃A (B) = P (dω) , (2.5) dP B für alle B ∈ σ(X). Wir sehen sofort, dass (2.3) und (2.5) dieselbe Relation sind. P̃A eine σ(X)-m.b. Funktion auf Ω in [0, 1] (der leichte Beweis ist dem Dabei ist ddP Leser überlassen) und es gibt natürlich eine P -f.s. eindeutige σ(X)-m.b. Zufallsvariable, die (2.3) (oder (2.5)) für alle B ∈ σ(X) erfüllt. Ferner können wir diese Konstruktion für eine beliebige Teil-σ-Algebra von F anwenden. Das begründet die folgende Definition Definition 2.2. Sei G eine Teil-σ-Algebra von F. Wir bezeichnen als die bedingte Wahrscheinlichkeit von A ∈ F gegen G, P (A|G) : Ω 7→ [0, 1], die P -f.s. eindeutige G-m.b. Zufallsvariable die P (A ∩ B) = E[1B P (A|G)] , (2.6) erfüllt. Sei Y eine Zufallsvariable mit E[|Y |] < ∞. In dem diskreten Fall ist der bedingte Erwartungswert der Zufallsvariable Y gegen X definiert als Z E[Y |{X = x}] := P (dω|{X = x})Y (ω) Z E[1{X=x} Y ] Y (ω) P (dω) = = . (2.7) P ({X = x}) P ({X = x}) {X=x} Nochmals können wir {E[Y |{X = x}]}x∈I als eine σ(X)-m.b. Zufallsvariable interpretieren: X E[1{X=x} Y ] 1{X=x} (ω) , ω ∈ Ω . (2.8) E[Y |X] = P ({X = x}) x∈I Eine direkte Berechnung ergibt E[1B E[Y |X]] = E[1B Y ] , (2.9) für alle B ∈ σ(X). Diese Relation bestimmt eine P -f.s. eindeutige Zufallsvariable E[Y |X] (für diskrete Zufallsvariablen). Abermals erlaubt der Radon-Nikodym Satz die Definition für den allgemeinen Fall zu geben. Zuerst berechnen wir Y ≥ 0 P f.s. und definieren P̄Y (B) := E[1B Y ] für B ∈ σ(X) und bemerken, dass für jedes B ∈ σ(X) |P̄Y (B)| = |E[1B Y ]| ≤ E[1B |Y |] ≤ E[|Y |] < ∞ . 5 Ferner seien {Bn }n∈N disjunkte Mengen in Ω, so dass {Xn ∈ Bn }n∈N auch disjunkt sind. Dann ist ! [ X X P̄Y Bn = E 1Sn Bn Y = E[1Bn Y ] = PY (Bn ) , n n n woraus die σ-Additivität von P̄Y folgt. Somit ist P̄Y ein Mass auf Ω, das absolutstetig bezüglich P ist. Aus dem Satz von Radon-Nikodym (cfr. Anhang) folgt, P̄Y eine σ(X)-m.b. Zufallsvariable ist mit dass ddP Z dP̄Y P (dω) = P̄Y (B) , für alle B ∈ σ(X) . dP B Dies ist äquivalent zu (2.9). Im allgemeinen Fall gilt die Zerlegung Y = Y + − Y + mit Y + := max(Y, 0) ≥ 0 P -f.s. und Y − := − min(Y, 0) ≥ 0 P -f.s., so dass P̄Y = P̄Y + − P̄Y − gilt, wobei P̄Y± zwei Masses sind (diese ist die Hahn’sche Zerlegung von P̄Y ). Damit haben wir einfach dP̄Y dP̄Y + dP̄Y − = − dP dP dP Wir geben daher die folgende Definition für den bedingten Erwartungswert Definition 2.3. Sei G eine Teil-σ-Algebra von F. Für jede integrierbare Zufallsvariable Y ist der bedingte Erwartungswert E[Y |G] die P -f.s. eindeutige G-m.b. Zufallsvariable, die E[1B E[Y |G]] = E[1B Y ] (2.10) für jedes B ∈ G erfüllt. Ausserdem schreibt man E[Y |X] anstelle von E[Y |σ(X)]. Wir haben hier die Definition für eine beliebige Teil-σ-Algebra von F angegeben. Bemerkung 2.1. i) Bedingte Wahrscheinlichkeiten sind einfache Spezialfälle von bedingten Erwartungswerten: P (A|G) = E[1A |G]. ii) Die Zufallsvariable Y erfüllt trivialerweise (2.10), aber sie ist nicht immer G-m.b. Wenn Y G-m.b. ist, dann E[Y |G] = Y . Z. B. gilt E[Y |X] = Y , wenn Y σ(X)-m.b. ist, d.h. Y = ϕ(X) mit einer Borel Funktion ϕ (gamäss Satz 1.1). Im Allgemeinen existiert eine σ(X)-m.b. Abbildung Φ, so dass E[Y |X] = Φ(X). Übung 2.2. Beweisen Sie, dass, wenn G die triviale σ-Algebra (d.h. G = {∅, Ω}) ist, dann gilt E[X|G] = E[X] P -f.s. Der folgende Satz listet einige nützliche Eigenschaften der bedingten Erwartungswerter auf. Satz 2.1. Es seien X, X 0 ∈ L1 (Ω, F, P ) und G, G 0 Teil-σ-Algebren von F. Dann gilt 6 (1) Sind X und G unabhängig, so gilt E[X|G] = E[X] P -f.s. (2) Für α, β ∈ R gilt E[αX + βX 0 |G] = αE[X|G] + βE[X 0 |G] P -f.s. (3) Ist X ≥ X 0 P -f.s., so gilt E[X|G] ≥ E[X 0 |G] P -f.s. (4) Es gilt |E[X|G]| ≤ E[|X||G] P -f.s. (5) Ist G 0 ⊂ G, so gilt E[E[X|G]|G 0 ] = E[X|G 0 ] P -f.s. Beweis. (1) Aus der Definition der Unabhängigekeit und des bedingte Erwartungswert es folgt E[1B E[X|G]] = E[1B X] = P (B)E[X] = E[1B E[X]] , für alle B ∈ G . Da die konstante Abbildung ω 7→ E[X] G-m.b. ist, finden wir E[X|G] = E[X] P -f.s. (2) Da X, X 0 G-m.b. sind, so gilt dies für deren Linearkombinationen. Ausserdem gilt E[1B E[αX + βX 0 |G]] = = = = E[1B (αX + βX 0 )] αE[1B X] + βE[1B X 0 ] αE[1B E[X|G]] + βE[1B E[X 0 |G]] E[1B (αE[X|G] + βE[X 0 |G])] für alle B ∈ G. (3) Für jedes B ∈ G gilt E[1B E[X|G]] = E[1B X] ≥ E[1B X 0 ] = E[1B E[X 0 |G]] , woraus (3) folgt. (4) Seien X + := max(X, 0) und X − := − min(X, 0), so dass X = X + − X − und |X| = X + + X − . Aus (2) und |E[X + − X − |G]| ≤ |E[X + + X − |G]| = E[X + + X − |G] folgt (4). (5) B ∈ G 0 impliziert B ∈ G. Daher gilt für alle B ∈ G 0 E[1B E[E[X|G]|G 0 ]] = E[1B E[X|G]] = E[1B X] = E[1B E[X|G 0 ]] . Übliche Konvergenzsätze für bedingte Erwartungswerte: 7 Satz 2.2. Seien X und {Xn }n∈N integrierbare Zufallsvariablen und G eine Teilσ-Algebra von F. (1) Monotone Konvergenz: Ist Xn ≥ 0 und Xn % X P -f.s., so gilt E[Xn |G] % E[X|G] P -f.s. (2) Lemma von Fatou: Ist Xn ≥ 0 und Xn → X P -f.s., so gilt E[X|G] ≤ lim inf E[Xn |G] P -f.s. n (3) Satz von Lebesgue: Existiert Y ∈ L1 (Ω, F, P ) mit |Xn | ≤ Y für alle n ∈ N und Xn → X P -f.s., so ist E[X|G] = limn E[Xn |G] P -f.s. Beweis. (1) Monotone Konvergenz: Wir benutzen zweimal den üblichen Satz über Monotone Konvergenz. Zunächs Xn ≥ 0 und Xn % X P -f.s. implizieren E[Xn |G] % Y P -f.s., wobei Y eine G-m.b. Zufallsvariable ist, mit Y ≤ E[X|G] P -f.s. Dann gilt für alle B ∈ G E[1B (E[X|G] − Y )] = E[1B X] − E[1B lim E[Xn |G]] n = E[1B X] − lim E[1B E[Xn |G]] = E[1B X] − E[1B X] = 0 , n somit ist Y = X P -f.s. (2) Lemma von Fatou: Wir setzen Yk := E[inf n≥k Xn |G] und bemerken, dass {Yk }k∈N eine monotone Folge von nicht-negativen Zufallsvariablen ist. Es folgt, wegen (1), dass Yk % E[X|G] P -f.s. gilt. Offenbar ist E[inf n≥k Xn |G] ≤ inf n≥k E[Xn |G], also gilt für alle B ∈ G E[X|G] ≤ lim inf E[Xn |G] = lim inf E[Xn |G], P − f.s. k n n≥k (3) Satz von Lebesgue: Die Zufallsvariablen Xn +Y und Y −Xn sind nichtnegative P -f.s. Daher folgen aus den Lemma von Fatou E[X + Y |G] ≤ lim inf E[Xn + Y |G] , n E[−X + Y |G] ≤ lim inf E[Xn + Y |G] . n und wegen − lim sup Xn = lim inf(−Xn ) ist lim sup E[Xn |G] ≤ E[X|G] ≤ lim inf E[Xn |G] . n n Satz 2.3. Seien X, Y zwei integrierbare Zufallsvariablen mit E[XY ] < ∞. Sei G eine Teil-σ-Algebra von F und sei Y G-m.b. Dann gilt E[XY |G] = Y E[X|G] P − f.s. 8 Beweis. Zuerst weisen wir den Satz für einfache Funktionen nach. Sei C ∈ G und Y := 1C . So gilt für jedes B ∈ G E[1B E[XY |G]] = E[1B XY ] = E[1B∩C X] = E[1B∩C E[X|G]] = E[1B Y E[X|G]] d.h. E[XY |G] = Y E[X|G] P -f.s. Der Satz ist daher für einfache Funktionen mit der Linearität des bedingten Erwartungswerts beweisen. Man erstreckt das Ergebnis über nicht-negative Y via monotone Konvergenz und endlich über allgemeine Zufallsvariablen mittels Zerlegung in Positiv- und Negativteil. Bemerkung 2.2. Wir können den bedingten Erwatungswert auch für nicht integrierbare Zufallsvariablen definieren. Wenn X ≥ 0 ist, setzen wir Xn := min(n, X) und definieren E[X|G] := lim E[Xn |G] . n Aus Punkt (3) von Satz 2.1 sehen wir, dass die Folge {E[Xn |G]}n∈N P -f.s. ansteigend ist, aber der Limes kann dennoch endlich sein (z. B. wenn F = G ist, dann gilt E[X|G] = X). Für allgemeine Zufallsvariablen X wir benützen die übliche Zerlegung in Positivund Negativteil X : X + − X − , so dass E[X|G] = E[X + |G] − E[X − |G], sofern E[X ± |G] endlich sind. Der folgende Satz verallgemeinert die Jensensche Ungleichung für bedingte Erwartungswerte. Lemma 2.1. Sei ϕ : R 7→ R eine konvexe Funktion, X eine integrierbare Zufallsvariable und G eine Teil-σ-Algebra von F. Ist E[ϕ(X)] < ∞, so gilt ϕ(E[X|G]) ≤ E[ϕ(X)|G] . (2.11) Beweis. Die Konvexität von ϕ ergibt ϕ(y) − ϕ(x) ≥ ψz (x)(x − y) , für jedes z ∈ [x, y], wobei ψz (x) := ϕ(z)−ϕ(x) . Wir nehmen y = X und x = E[X|G], z−x so dass ϕ(X) − ϕ(E[X|G]) ≥ ψz (E[X|G])(E[X|G] − X) . Wir bemerken, dass ψz (E[X|G]) offenbar eine G-m.b. Zufallsvariable ist, also E[ψz (E[X|G])(E[X|G] − X)|G] = ψz (E[X|G])E[(E[X|G] − X)|G] = ψz (E[X|G])(E[E[X|G]] − E[X|G]) = 0 . Somit ergibt die Anwendung des bedingten Erwartungwertes (2.11). Übung 2.3. Beweisen Sie das obige Lemma für konvexe und nicht-negative ϕ, aber ohne die Voraussetzung E[ϕ(X)] < ∞. 9 3. Reguläre bedingte Wahrscheinlichkeiten Wir haben die bedingte Wahrscheinlichkeit als eine Zufallsvariable vorgestellt und die Definitionen bedingter Wahrscheinlichkeit und des bedingten Erwartungswertes sind unabhänginge. Der Grund ist, dass die bedingte Wahrscheinlichkeit nicht immer eine Wahrscheinlichkeit ist. Es ist einfach zu beweisen, dass, falls G eine Teil-σ-Algebra von F ist, dann ist P (A|G) ∈ [0, 1] P -f.s. mit P (A|G) = 0 P -f.s. genau dann, wenn A = ∅ und P (A|G) = 1 genau dann, wenn A = Ω. Ferner sei {Bn }n∈N ⊆ F eine Folge disjunkter Teilmengen von Ω, dann gilt ! [ X P Bn G = P (Bn |G) , P − f.s. (3.1) n∈N n∈N Übung 3.1. Beweisen Sie die obige Formel (P -f.s. σ-Additivität). Das Problem ist, dass alle diese Eigenschaften nur P -f.s. gelten. Für eine gegebene Folge {Bn }n∈N könnte also insbesondere eine Nullmenge existieren, so dass (3.1) nicht erfüllt ist. Da im Allgemeinen überabzählbar viele Folgen {Bn }n∈N disjunkter Teilmengen von Ω existieren, könnte die σ-Additivität also für eine überabzählbare Vereinigung von Nullmengen ungültig sein. Um diesen Punkt erklären, diskutieren wir nun ein Beispiel (nach Dieudonné, 1948). Wir betrachten die Borel σ-Algebra auf [0, 1] B([0, 1]) und eine Vitalische Menge, die wir V nennen. Sei B 0 die kleinste σ-Algebra, welche B([0, 1]) und V anthält. Es ist einfach zu zeigen, dass für jedes A ∈ B 0 B, C ∈ B([0, 1]) existieren, so dass A = (V ∩ B) ∪ (V c ∩ C) . Wir betrachten ein Wahrscheinlichkeitsmass auf ([0, 1], B 0 ), definiert durch 1 P (A) = (λ(B) + λ(C)) , A ∈ B 0 . 2 Offenbar P (A) = λ(A), falls A ∈ B([0, 1]) und P (V ) = 12 . Ausserdem ist B eine Teil-σ-Algebra von B 0 , und P (·|B) ist ein bedingtes Wahrscheinlichkeitsmass. Für {An }n∈N ⊂ B([0, 1]) mit A := ∪n An , wir betrachten die Folge Vn := V ∩ An , mit ∪n Vn = V ∩ A. Nun beachten wir 1 E[1B P (V ∩ A|B)] = P (B ∩ V ∩ A) = E[1B P (V ∩ A)] = E 1B 1A , (3.2) 2 für alle A, B ∈ B. Also 1 P − f.s. P (V ∩ A|B) = 1A 2 Sei \ 1 Y(A) := ω ∈ [0, 1] : P (V ∩ A|B) = 1A , Y := Y(A) . 2 A∈B 10 Für jedes A ∈ B, ist Y(A) Borel-massbar mit P (Y(A)) = 1. Wir zeigen, dass P (Y) < 1 , so dass die sub-Additivität von P (·|B) auf einer Menge positiver Masses nicht besteht. Falls ω ∈ Y, dann 1 1 P (V ∩ Y|B)(ω) = 1Y (ω) 6= 1Y/{ω} (ω) = P (V ∩ Y/{ω}|B)(ω) , 2 2 daher V ∩ Y = 6 V ∩ Y/{ω} d.h. ω ∈ V . Somit ergibt Y ⊆ V die Ungleichnung P (Y) ≤ 21 . Wir können jetzt die folgende Definition geben: Definition 3.1. Sei G eine Teil-σ-Algebra von F. Wir nennen P ∗ (·|G) reguläre bedingte Wahrscheinlichtkeit von P gegen G, wenn P ∗ (·|G) = P (·|G) P -f.s. und für jedes ω ∈ Ω P ∗ (·|G) ein Wahrscheinlichtkeit mass auf G ist. Diese Definition erlaubt die bedingten Erwartungswerte gerade bezüglich der bedingten Wahrscheinlichtkeit zu definieren. Proposition 3.1. Sei P ∗ eine reguläre bedingte Wahrscheinlichtkeit auf G und Y eine Zufallsvariable auf (Ω, G) mit E[|Y |] < ∞. Dann gilt Z E[Y |G] = Y (ω)P ∗ (dω|G) P − f.s. (3.3) Beweis. Zuerst betrachten wir die Zufallsvariable 1B für B ∈ G. Wegen der Definition der regulären bedingten Wahrscheinlichtkeit gilt dann Z ∗ E[1B |G] = P (B|G) = P (B|G) = 1B P ∗ (dω|G) P − f.s. So haben wir (3.3) für einfache Funktionen bewiesen. Wir verwenden Satz 2.2, (1) und, dass einfache Funktionen dicht in positiven integrierbaren Funktionen sind, um den Beweis beliebige positive integrierbare Y zu erweitern. Das Ergebnis im allgemeinen Fall folgt wie in Satz 2.2, (3). Übung 3.2. Beweisen Sie die Hölder Ungleichung für bedingte Wahrscheinlichtkeiten aus der normalen Hölder Ungleichung: 1 1 E[|XY ||G] ≤ E[|X|p |G] p E[|Y |q |G] q , mit 1 p + 1 q = 1. Wenn man nur die Borel σ-Algebra betrachtet, dann existiert immer eine reguläre bedingte Wahrscheinlichtkeit, wie angegeben im nächsten Satz. Wir lassen den Beweis aus. Satz 3.1. Sind (Ω, B(Ω), P ) eine Borel Wahrscheinlichtkeitsraum und G eine Teil-σ-Algebra von B(Ω), so existiert eine reguläre bedingte Wahrscheinlichtkeit von P gegen G. 11 Wir bemerken, dass die Borel Annahme nicht zu restriktiv ist, da man sich meistens für die bedingten Wahrscheinlichtkeiten von Ereingnissen, die durch Zufallsvariablen (d.h. Borel massbare Funktionen) definiert sind, interessiert. Zum Schluss, diskutieren wir (reguläre) bedingte Wahrscheinlichkeitsdichten. Seien X, Y zwei Zufallsvariablen auf (Ω, B(Ω), P ) deren gemeinsame Wahrscheinlichkeitsmass absolut stetig ist, mit Dichte f (x, y): Z P ((X, Y ) ∈ A) = f (x, y)dxdy ∀A ∈ B(Ω × Ω) . A Sei f (y) die Randdichte f˜(y) := Z dxf (x, y) . Wir definieren ( f (x,y) fX|Y (x, y) := f˜(y) 0, , f˜(y) > 0 f˜(y) = 0 . (3.4) Dann ist fX|Y (x, y) die Dichte der regulären bedingten Wahrscheinlichkeit: Z P (X ∈ A|Y ) = dxdyfX|Y (x, y) . (3.5) A Die obige Gleichung hat einen einfachen Beweis. Für alle Borel Mengen A, B gilt Z Z Z P (A ∩ B) = dy dxf (x, y) = f˜(y)dyP (X ∈ A|Y ) , B A B wobei die zweite Gleichung aus der Definition 2.2 folgt. Satz 3.1 zeigt, dass beide Seiten der obigen Gleichung null sind, falls B ∩ {y : f (y) > 0} = ∅, sonst R dxf (x, y) P (X ∈ A|Y ) = A f˜(y) für alle A gilt. 4. Stochastische Prozesse Hier führen wir die grundlegenden Begriffe des stochastischen Prozesses, des Filtrierung und der Stoppzeit ein. Grob gesprochen sind ein stochastischer Prozess und eine Filtrierung von einen Parameter abhängige Kollektionen von Zufallvariablen und σ-Algebren. Eine Stoppzeit ist eine Zufallvariable, die messbar bezüglich einer Filtrierung ist. Definition 4.1. Sei T ⊂ R. Wir nennen eine Funktion Xt (ω) : T × Ω → R, so dass für alle t ∈ T Xt (ω) eine Zufallsvariable ist, einen reellwertigen stochastischen Prozess. 12 Falls T abzälbar ist, sprechen wir von einem diskreten Prozess. Zum Beispiel ist eine Folge von unabhängigen Zufallsvariablen ein einfacher diskreter Prozess. Markoff-Ketten und Martingale sind andere interessante diskrete stochastische Prozesse, die wir in den nächsten Kapiteln vertiefen werden. Jetzt geben wir die Definition einer Filtrierung: Definition 4.2. (1) Sei T ⊂ R. Eine Familie {Ft }t∈T von Teil-σ-Algebren heisst eine Filtrierung von F, wenn Fs ⊂ Ft für s ≤ t gilt. (2) Sei X := {Xt }t∈T ein stochastischer Prozess auf (Ω, F, P ) und FtX := σ(Xs : s ≤ t). Die Familie {Ft }t∈T heisst die zu X gehörende oder kanonische Filtrierung. (3) Ein stochastischer Prozess X := {Xt }t∈T heisst angepasst an eine Filtrierung {Ft }t∈T , wenn Xt Ft -mb. ist ∀t ∈ T . Offenbar ist eine zu einem stochastischen Prozess gehörende Filtrierung eine Filtrierung. Im diskreten Fall, ist eine kanonische Filtrierung eifach aus den Teilσ-Algebren σ(X0 , . . . , Xn ) gegeben. Eine oft passende Sicht über stochastische Prozesse (besonders Markoff-Ketten) ist Xt als (stochastische) Zeitentwicklung der Grösse X zu interpretieren. Die dynamische Deutung begründet die folgende Definition Definition 4.3. Sei {Ft }t∈T eine Filtrierung auf (Ω, F, P ). Die Zufallsvariable τ heisst Stoppzeit genau dann, wenn für alle t ∈ T {τ ≤ t} ∈ Ft gilt. Ungefär sind Stoppzeiten zufällige Zeite, die nicht in die Zukunft blicken können. Wir geben ein einfaches Beispiel, nämlich die Irrfahrt auf Zν . Sei {ξn }n∈N eine Folge unabhängigen gleichverteilten Zufallsvariablen, ξ1 : Ω → Zν , und Pvon n Xn := i=1 ξi (natürlich sind die Xn nicht unabhängig). Die Folge {Xn }n∈N ist ein diskreter stochastischer Prozess. Es gibt zwei standard-Filtrierungen für diesen Prozess: Fn := σ(X1 , . . . , Xn ), die kanonische Filtrierung, und Fn0 := σ(ξ1 , . . . , ξn ). Für jedes k ∈ Zν definieren wir τk := inf{i ∈ N : Xi = k}, d.h. die erste Zeit für die Xn sich an Platz k einfindet (τk kann +∞ sein). Die Zufallsvariable τk ist eine Stoppzeit sowohl bezüglich Fn als auch Fn0 : {τk ≤ n} = {inf{i ∈ N : Xi = k} ≤ n} = {X1 = k} ∪ {X1 6= k, X2 = k} ∪ {X1 , X2 6= k, X3 = k} ∪ ... Dieses Ereignis liegt sicherlich an Fn (endliche Vereinigung von Ereignissen in Fn ). Wir überlassen dem Leser den analogen Beweis für Fn0 . Übung 4.1. Beweisen Sie, dass {τk ≤ n} ∈ Fn0 . 13 Gemäss der Definition 4.1, wurde ein Prozess Xt t für t aus dem Wahrscheinlichkeitsraum (Ω, F, P ) gebildet. Formal, können wir auch ein Ereignis ω̄ aus einem gegeben Wahrscheinlichkeitsraum festhalten und die ganze Funktion T 3 t 7→ Xt (ω̄) betrachten (wir heissen diese Funktion einen Pfad des Prozesses). In welchen Raum? Der Erweiterungssatz von Kolmogorov gibt eine Antwort. Q Sei K := t∈T R der Raum von reellwertigen Funktionen auf T , oder Pfaden, mit der Topologie von Tychonoff. Für jedes n ∈ N, t(n) := (t1 , . . . , tn ) ∈ T n und A ∈ B(Rn ) wir betrachten die Klasse der Mengen Γ(t(n), A) := {x ∈ K : x(t1 ), . . . , x(tn ) ∈ A} . (4.1) Wir nennen diese Mengen Zylindermengen. Die kleinste σ-Algebra erzeugt durch T := {Γ(t(n), A)}n∈N,t(n)∈T,A∈B(Rn ) ist (per Definition) die Borelsche σ-Algebra auf K , B(K ) := σ(T ). So ist (K , B(K )) ein Borelscher Massraum, den wir mit einem geeigneten Wahrscheinlichkeitsmass ausstatten möchten. Die kanonischen Projektionen πn : K 7→ Rn sind durch πt(n) (x) := (x(t1 ), . . . , x(tn )) definiert. Wir betrachnen eine Folge {µn }n∈N von Borel Wahrscheinlichkeitsmassen auf Rn . Wir brauchen die folgende Definition: Definition 4.4. Wir nennen {µn }n∈N eine verträgliche Familie von Borel Wahrscheinlichkeitsmasse genau dann, wenn K1) Für alle I1 , . . . In ∈ B(R) µn (I1 × · · · × In ) = µn (Iσ(1) × · · · × Iσ(n) ) (σ ist die Permutationsgruppe); k−mal z }| { n K2) Für alle A ∈ B(R ) und k ≥ 1 µn+k (A × R × · · · × R) = µn (A). Man kann aus einer verträglichen Familie von Borel Wahrscheinlichkeitsmassen auf endlich-dimensionalen Räumen durch den folgenden Erweiterungssatz von Kolmogorov ein Wahrscheinlichkeitsmass auf (K , B(K )) bilden: Satz 4.1. Sei {µn }n∈N eine verträgliche Familie von Borel Wahrscheinlichkeitsmassen. Dann gibt es ein eindeutiges Wahrscheinlichkeitsmass µ auf (K , B(K )), so dass µ ◦ πn−1 = µn gilt. Der Beweis des Satzes von Kolmogorov wendet einen wichtigen Satz der Masstheorie an, nämlich der Satz von Carathéodory. Wir formulieren hier diesen Satz im besonderen Falls der Wahrscheinlichtkeitsmasse. Satz 4.2 (Satz von Carathéodory). Sei A eine Algebra und µ : A 7→ [0, 1] eine σ-additive Funktion mit µ(∅) = 0. Dann existiert eine eindeutige Erweiterung µ̄ : σ(A) 7→ [0, 1] von µ, die ein Wahrscheinlichtkeitsmass ist. 14 Beweis. Wir definieren die Funktion µ : T 7→ [0, 1] durch µ(Γ(t(n), A)) := µn (Γ(t(n), A)) (die Mengen Γ(t(n), A) waren in (4.1) definiert). Die Bedingungen K1), K2) stellen sicher, dass verschiedene äquivalente Darstellungen von µ(Γ(t(n), A)) gleiches Mass haben, so dass µ wohldefiniert ist. Ausserdem folgt aus K2 µ ◦ πn−1 = µn . Die endliche Additivität von µ auf T ist klar. Wir müssen jetzt die σ-Additivität zeigen. Dann folgt die Erweiterung von µ als Wahrscheinlichkeitmass auf (K , B(K )) aus dem Satz von Carathéodory. T Sei {Γj }j∈N eine Folge von Zylindermengen, mit Γj+1 ⊂ Γj und j≥1 Γj = ∅. Wir schreiben Γj := {x ∈ K : x(tj,1 ), . . . , x(tj,nj ) ∈ Aj } , Aj ∈ B(Rnj ) , und wir nehmen t(j) ⊂ t(j + 1) an (wir erinnern uns, dass t(j) = (tj,1 , . . . , tj,nj )), d.h. nj ≤ nj+1 und tj,i = tj+1,i , i = 1, . . . , nj (die Ordung der Punkte tj,i spielt keine Rolle). Ausserdem wählen wir Aj , so dass eine kompakte Menge Cj ⊂ Rnj existiert mit µj (Aj − Cj ) ≤ c2−j−1 , wobei c > 0 eine feste ausreichend, kleine Konstante ist. Offenbar µ(Γj ) ≥ µ(Γj+1 ) T und die σ-Additivität ist äquivalent zu limj µ(Γj ) = µ j≥1 Γj = 0. Wir beweisen dies durch Widerspruch: Wir nehmen limj µ(Γj ) 6= 0 an, d.h. es gibt δ > 0, so T dass µ( kj=1 Γj ) ≥ δ > 0 ∀k ∈ N gilt. Sei {Γ0j }j∈N ⊂ T , mit Γ0j := {x ∈ K : x(tj,1 ), . . . , x(tj,nj ) ∈ Cj } . T 0 Γ Dann Γ0j ⊂ Γj mit µ(Γj − Γ0j ) ≤ c2−j−1 . Ausserdem µ j∈N j ≥ δ/2 > 0, da für alle k ∈ N und δ ≥ c: ! ! k k k \ \ X 0 µ Γj ≥ µ µ(Γj − Γ0j ) Γj − j=1 ≥ δ− Somit gilt für alle k ∈ N ∅ ⊂ j=1 j=1 Tk j=1 c 2 k X 2−j ≥ δ − j=1 c δ ≥ > 0. 2 2 Γ0j ⊂ Γk , und daher folgt k \\ Γ0j = ∅ . k∈N j=1 15 (4.2) Wir setzen einfachheitshalber Dk := k \ Γ0j , D := j=1 k \\ Γ0j . k∈N j=1 Offenbar Dj ⊂ Di für j > i und es gibt kompakte Mengen Cj0 ⊆ Cj , so dass Dj = {x ∈ K : (x(tj,1 ) , . . . , x(tj,nj )) ∈ Cj0 } . Wir bemerken, dass jedes x ∈ Dj die ersten nj Koordinaten (x(tj,1 ) , . . . , x(tj,nj )) in Cj0 hat und, wenn nj ≥ ni ist, die ersten ni (x(ti,1 ) , . . . , x(ti,ni )) in Ci0 . Somit Cj0 ⊂ Ci0 , wenn i ≥ j und es existiert ein x̄, so dass x̄ ∈ Ci0 für alle i ∈ N. Es folgt, dass x̄ ∈ D, was einen Widerspruch zu (4.2) ergibt. Schliesslich, zeigen wir die Eindeutigkeit von µ. Wir nehmen die Existenz von zwei solcher Masse µ, µ0 an. Denn µ ◦ πn−1 = µ0 ◦ πn−1 , daher µ = µ0 auf T und somit auf B(K ), da B(K ) von T erzeugt wird. Bemerkung 4.1. Wir haben die Existenz des Wahrscheinlichtkeitsmasses direkt auf dem Funktionenraum der Pfad des Prozesses gezeigt. Dieser Zugang ist mehr analytisch als wahrscheinlichkeitstheoretisch, da die Probabilisten nicht mögen den Wahrscheinlichtkeitsraum zu spezifizieren. Alternativ, kann ein Prozess als eine Zufallsvariable aus einem Wahrscheinlichkeitsraum ΩK zu dem Pfadsraum K Q betrachtet werden. Denn ΩK = t∈T Ωt und das Satz von Kolmogorov kann in ähnlicher Weise formuliert und bewiesen werden. Der Satz von Kolmogorov funktioniert gut, wenn T abzählbar ist, aber es ist nicht ganz befriedigend für überabzählbar T (z. B. T = [0, 1]). Der Grund ist, dass man im überabzählbar Fall ein Approximationsargument mit abzählbaren Mengen verwendet und dies zu einem Verlust von Information führt. Das Resultat ist, dass viele interessante Grössen keine Zufallsvariablen auf (K , B(K ), µ) sind und zwar jede Funktion auf K , die eine übernabzählbare Anzahl von Koordinaten involviert, zum Beispiel ist supt∈T Xt nicht messbar. Es gibt in diesem Fall raffiniertere Weisen, um einen unendlich-dimensionalen Wahrscheinlichkeitsraum zu bilden, die wir in diesem Kurs jedoch nicht studieren werden. Anhang: der Radon-Nikodym Satz Wir erinnern an die Dichte eines Wahrscheinlichkeitsmasses P auf (Rn , B(Rn )) eine nicht-negative messbare und integrierbare Funktion ρ : Rn → [0; ∞) ist, mit Z P (A) = ρ(x)λn (dx) , für alle A ∈ B(Rn ) , A wobei λn (dx) die n-dimensionale Lebesgue-Mass ist. Dies Begriff findet die folgende Verallgemeinerung: 16 Definition 4.5. Seien µ und ν zwei Masse auf (Ω, F). Wir sagen, dass ν absolut stetig bezüglich µ ist, wenn µ(A) = 0 ν(A) = 0 für jede A ∈ F impliziert. Wir schreiben in diesem Fall ν µ. Ein Mass ν auf (Rn , B(Rn )) heisst einfach absolut stetig, wenn ν λn . Umgekehrt heissen µ, ν zueinander singulär, falls eine Menge A ∈ F existiert, so dass µ(A) = 0 und ν(Ac ) = 0 ist. In diesem Fall schreiben wir µ ⊥ ν. Satz 4.3 (Satz von Radon-Nikodym). Seien µ, ν zwei Wahrscheinlichkeitmasse auf (Ω, F). Ist ν µ, so existiert eine Funktion g : Ω → [0; ∞) messbar, mit Z g(x)µ(dx) ν(A) = A für alle A ∈ F. Die Funktion g ist µ-f.s. eindeutig und heisst die Radon-Nikodym Ableitung von ν bezüglich µ. Um dieser Satz nachzuweisen, führen wir den Begriff von signierten Mass ein. Definition 4.6. Sei (Ω, F) ein messbarer Raum und µ : F → [−∞; ∞] mit µ(∅) = 0 und ! [ X µ An = µ(An ) n∈N n∈N für jede Folge (An )n∈N von disjukten Mengen in F. So heisst µ ein signiertes Mass auf (Ω, F). Übung 4.2. Zeigen Sie, dass für jede Folge {An }n∈N mitTAn ↑ A oder An ↓ A, A ∈ F µ(limn An )S= limn µ(An ) gilt. Insbesondere ist µ ( n An ) = limn An für An ⊆ An−1 und µ ( n An ) = limn An für An ⊆ An+1 . P Damit µ : F → [−∞; ∞] ein signiertes Mass ist, muss die Summe n∈N µ(An ) wohldefiniert sein, für jede Folge disjunkter Mengen in F. Insbesonde kann µ nur den Wert +∞ oder den Wert −∞ annehmen, aber nicht beide. Ist |µ(Ω)| < ∞ so muss µ(A) < ∞ endlich sein, für alle A ⊂ Ω. Ist µ(Ω) = +∞, so kann es kein A ∈ F existieren mit µ(A) = −∞ (analog für µ(Ω) = −∞). Definition 4.7. Sei (Ω, F, µ) ein Massraum mit µ ein signiertes Mass. Wir nennen A ∈ F eine positive Menge für µ, falls µ(B) ≥ 0 für alle B ⊂ A. Analog nennen wir A ∈ F eine negative Menge für µ, falls µ(B) ≤ 0 für alle B ⊂ A. Zuerst brauchen wir das folgend technische Lemma. Lemma 4.1. Sei µ ein signiertes Mass auf ein messbarer Raum (Ω, F), und sei A ∈ F mit µ(A) ∈ (−∞, 0). Dann existiert eine negative Menge B ∈ F mit B ⊆ A und µ(B) ≤ µ(A). Beweis. Wenn A negativ ist, haben wir B = A. Damit nehmen wir an, dass A nicht negativ ist. Sei δ1 := sup {µ(E) : E ∈ F und E ⊂ A} ≥ 0 17 und sei A1 ∈ F mit A1 ⊂ A und mit µ(A1 ) ≥ δ1 . 2 Sei nun δ2 := sup {µ(E) : E ∈ F und E ⊂ A\A1 } ≥ 0 und A2 ∈ F mit A2 ⊂ A\A1 mit µ(A2 ) ≥ definieren ( δ2 . 2 Wir iterieren diese Konstruktion und δn = sup µ(E) : E ∈ F und E ⊂ A\ n−1 [ !) Ak ≥0 k=1 S und dann wählen wir An ∈ F mit An ⊂ A\ nj=1 Aj und mit µ(An ) ≥ definieren dann ∞ [ A∞ := An und B := A\A∞ ⊆ A . δn . 2 Wir n=1 Da An ∈ F disjunkt sind, mit µ(An ) ≥ 0 für alle n ∈ N, folgt µ(A) = µ(A∞ ) + µ(B) ≥ µ(B) . Wir müssen nun die Tatsache zeigen, dass B eine P negative Menge ist. Da µ(A) > −∞, muss µ(A∞ ) < ∞ sein. Da aber µ(A∞ ) = n µ(An ), es folgt, dass µ(An ) → 0. Deswegen muss δn → 0. Für ein beliebiges E ⊂ B haben wir nun µ(E) ≤ δn für alle n ∈ N, es muss µ(E) ≤ 0 gelten. Mit Hilfe des Lemma können wir nun zeigen, dass jedes signierte Mass µ auf (Ω, F) eine Hahn Zerlegung (P, N ) besitzt, wobei P, N ∈ F mit P ∪ N = Ω und so, dass P eine positive und N eine negative Menge für µ sind. Satz 4.4 (Hahn’sche Zerlegungstheorem). Sei (Ω, F) ein messbarer Raum, und sei µ ein signiertes Mass auf (Ω, F). Dann existieren P, N ∈ F so, dass P eine positive und N eine negative Menge für µ sind und so, dass P ∪ N = Ω. Beweis. Nehmen wir an µ nimmt den Wert −∞ nicht an (sonst nimmt µ den Wert +∞ nicht an, und man kann analog vorgehen). Sei L = inf {µ(A) : A eine negative Menge für µ ist} Sei nun {An }n∈N eine Folge in F von negativen Mengen für µ, mit L = limn→∞ µ(An ). Sei N := ∪n∈N An . Dann ist N offenbar eine negative Menge für µ. Also L ≤ µ(N ) ≤ µ(An ) ≤ 0 für alle n ∈ N. Es folgt, dass L = µ(N ) ∈ (−∞, 0] (weil µ den Wert −∞ nicht annimmt). Sei nun P := N c . Wir müssen noch zeigen, dass P eine positive Menge für µ ist. Nehmen wir indirekt an, dass A ⊂ P in F existiert, mit µ(A) < 0. Dann existiert aber aus Lemma 4.1 eine negative Menge Ñ ⊂ P . In diesem Fall wäre aber auch Ñ ∪ N eine negative Menge für µ, mit µ(N ∪ Ñ ) = µ(N ) + µ(Ñ ) < µ(N ) = L in Widerspruch zur Definition von L. 18 Bemerkung 4.2. Seien µ+ und µ− positive Masse, definiert durch ( ( µ(A) A ⊆ P 0 A⊆P µ+ (A) := µ− (A) := 0 A⊆N −µ(A) A ⊆ N (4.3) für jedes A ∈ F. Dann folgt aus dem obigen Satz, dass µ = µ+ − µ− , mit µ+ ⊥ µ− . Wir können nun den Satz von Radon-Nykodim beweisen. Beweis des Satzes 4.3. Sei Z J = f : Ω → [0; ∞] messbar, s.d. f (x)µ(dx) ≤ ν(A) für alle A ∈ F . A J ist nicht leer, weil die Konstante Funktion f = 0 in J ist. Wir werden zeigen, dass g ∈ J existiert, mit Z Z g(x)µ(dx) = sup f (x)µ(dx) : f ∈ J und Z ν(A) = g(x)µ(dx) . (4.4) A Um die Behauptung zu zeigen, bemerken wir zunächst, dass max{f1 , f2 } ∈ J , wenn f1 , f2 ∈ J . In der Tat, für ein beliebiges A ∈ F, wir können A1 = {x ∈ A : f1 (x) > f2 (x)} und A2 = {x ∈ A : f1 (x) ≤ f2 (x)} definieren. Dann gilt Z Z Z max{f1 , f2 }(x) µ(dx) = f1 (x)µ(dx) + f2 (x)µ(dx) A1 A A2 ≤ ν(A1 ) + ν(A2 ) = ν(A1 ∪ A2 ) = ν(A) . Offenbar gilt dies auch für max{f1 , f2 , . . . , fk }, mit fi ∈ J , i = 1, . . . k, für alle k ∈ N (mit gleichen Beweis). Sei nun {fn }n∈N eine Folge in J mit Z Z lim fn (x)µ(dx) = sup f (x)µ(dx) : f ∈ J . n→∞ Dann gilt offenbar auch Z Z lim max(f1 , . . . , fn )(x)µ(dx) ≥ sup f (x)µ(dx) : f ∈ J . n→∞ Da die Folge max(f1 , . . . , fn ) monoton wachsend ist, können wir den Limes g = lim max(f1 , . . . , fn ) n→∞ punktweise definieren. Das monoton Konvergenz Theorem zeigt, dass Z Z gµ(dx) = lim max(f1 , . . . , fn )µ(dx) ≤ ν(A) , A n→∞ A 19 weil max(f1 , . . . , fn ) ∈ J für alle n ∈ N und auch, dass Z Z Z gµ(dx) = lim max(f1 , . . . , fn )µ(dx) = sup f µ(dx) : f ∈ J . n→∞ Jetzt beweisen wir (4.4). für alle A ∈ F gilt. Für ein beliebiges A ∈ F, wir setzen Z ν0 (A) = ν(A) − gµ(dx) . A Da g ∈ J , ist ν0 : F → [0; ∞] ein Mass auf F. Zu zeigen bleibt, dass ν0 = 0. Nehmen wir an ν0 6= 0. Dann finden wir ε > 0 mit ν0 (Ω) > εµ(Ω) (weil µ ist endlich, nach Annahme). Es ist einfach zu überprüfen, dass ν0 −εµ : F → [−∞; ∞] ein signiertes Mass auf F ist. Sei (P, N ) eine Hahn’sche Zerlegung von ν0 − εµ. Also, P, N ∈ F mit P ∪ N = Ω und so, dass P eine positive und N eine negative Menge für ν0 − εµ sind. Wir bemerken sofort, dass µ(P ) > 0 sein muss. Wäre nämlich µ(P ) = 0, dann müsste auch ν(P ) = 0 (aus der absolute Stetigkeit ν µ) und also ν0 (P ) = 0. Deswegen wäre ν0 (Ω) − εµ(Ω) = (ν0 − εµ)(N ) ≤ 0 in Widerspruch mit der Annahme, dass ν0 (Ω) > εµ(Ω). Das zeigt, dass µ(P ) > 0. Ferner, für ein beliebiges A ∈ F gilt ν0 (A ∩ P ) ≥ εµ(A ∩ P ). Deswegen Z Z gµ(dx) + ν0 (A ∩ P ) gµ(dx) + ν0 (A) ≥ ν(A) = A Z ZA ≥ gµ(dx) + εµ(A ∩ P ) = (g + ε1P )µ(dx) . A A Das zeigt, dass g + ε1P ∈ J . Da aber Z gµ(dx) ≤ ν(Ω) < ∞ und Z Z (g + ε1P )µ(dx) = Z gµ(dx) + εµ(P ) > gµ(dx) finden wir ein Widerspruch zur Definition von g in Schritt 1. Das zeigt, dass ν0 = 0, also (4.4). 20 KAPITEL 2 Markoff-Ketten 1. Definitionen, starke Markoff-Eigenschaft und Beispiele Die einfachste Weise sich eine Markoff-Kette vorzustellen, ist an ein (stochastisches) dynamisches System in diskreter Zeit zu denken. Die Bewegung von N Teilchen ist durch ein System von Differentialgleichungen bestimmt. Daher ist die Konfiguration der N Teilchen zur Zeit t eindeutig durch diejenige zur Zeit t0 gegeben, ohne Rücksicht auf das Systemverhalten für t < t0 . Das gleiche gilt für Markoff-Ketten: Definition 1.1. Ein diskreter stochastischer Prozess {Xn }n∈N auf (Ω, F, P ) heisst Markoff-Kette genau dann, wenn eine reguläre bedingte Wahrscheinlichtkeit existiert, so dass P (Xn+1 ∈ A|X0 , . . . , Xn ) = P (Xn+1 ∈ A|Xn ) P-f.s. (1.1) für alle n ∈ N und A ∈ F gilt. Die Theorie der Markoff-Ketten ist viel leichter, wenn Xn : Ω 7→ I, mit einer höchstens abzählbaren Menge I, für alle n ∈ N gilt und wir werden hier nur diesen Fall betrachten (diskreten Markoff-Ketten). Wir bemerken, dass in diesem Fall der Pfadsraum der Markoff-Kette einfach I N0 ist. So lässt sich (1.1) auch als P (Xn+1 = in+1 |X0 = i0 , . . . , Xn = in ) = P (Xn+1 = in+1 |Xn = in ) P-f.s. (1.2) für alle i1 , . . . , in+1 ∈ I schreiben. An diesem Punkt ist die folgende Definition nützlich: Definition 1.2. Sei I eine nichtleere und höchstens abzählbare Menge. Eine Matrix π = {πij }i,j∈I heisst stochastische Matrix, wenn X πij ∈ [0, 1] ∀i, j ∈ I und πij = 1 ∀i ∈ I j∈I gilt. Die Einträge πij der stochastische Matrix π nennt man die Übergangwahrschenlichkeiten von i nach j. Deshalb bestimmet jede Markoff-Kette {Xn }n∈N auf I eine stochastische Matrix {π(n)}n∈N , da wir immer πij (n) := P (Xn+1 = j|Xn = i) , 21 i, j ∈ I (1.3) setzen können. Die Startverteilung einer Markoff-Kette ist durch ν(i) := P (X0 = i) (1.4) definiert. Umgekehrt bestimmt jede Folge von stochastischen Matrixen {π(n)}n∈N , mit einer gegebenen Startverteilung eine Markoff-Kette, die (1.3) erfüllt, da wir (1.1) und die Formel von Bayes iterativ benützen können, so dass = = = = = P (Xn = in , . . . , X0 = i0 ) P (Xn = in |Xn−1 = in−1 . . . X0 = i0 )P (Xn−1 = in−1 . . . X0 = i0 ) P (Xn = in |Xn−1 = in−1 )P (Xn−1 = in−1 . . . X0 = i0 ) .. . P (Xn = in |Xn−1 = in−1 ) . . . P (X1 = i1 |X0 = i0 )P (X0 = i0 ) πin−1 ,in (n) . . . πi1 ,i2 (1)ν(i0 ) . Oft betrachten wir den einfachen Fall zeitlich homogener Ketten π(n) = π ∀n ∈ N. Wir können eine inhomogene Kette jedoch mit einen leichten Trick (aus der Klassichen Mechanik) auf eine homogene Kette reduzieren. Wenn {Xn }n∈N eine inhomogene Markoff-Kette ist, betrachtet man die Folge X̃n := {Xn , n}n∈N , die Werte in I ×N0 annimmt. So ist X̃ eine homogene Markoff-Kette auf I ×N0 , mit Übergangwahrscheilchtkeiten π̃αβ = δm,n+1 πij (n), mit α, β ∈ I × N0 , α := (i, n), β := (j, m). Wir definieren die n-te Potenz der stochastischen Matrix π rekursiv durch das n-fache Matrixproduct: X n−1 πij0 = δij , πijn = πik πkj n ≥ 1 . k∈I n Aus dieser Definition folgt, dass π auch eine stochastiche Matrix ist. Somit gilt π n+m = π n π m , d. h. X n m πik πkj = πijn+m . (1.5) k∈I Man nennt diese letze Gleichnung die Chapman-Kolmogorov-Gleichungen für diskrete Markoff-Ketten. In diesem Kapitel werden wir die Markoff-Ketten als von der Startverteilung ν abhängige stochastiche Matrixen studieren. Um dies zu betonen, schreiben wir Pν für die Wahrscheinlichtkeiten der Kette mit Startverteilung ν, Pi , wenn ν(j) = δij ist, und PZ , wenn ν die Verteilung der Zufallsvariablen Z ist. Eine wichtige Eigenschaft der Markoff-Kette, die aus der zeitlichen Homogeneität kommt, ist die Invarianz unter ein Zeit-shift: Proposition 1.1. Sei {Xn }n∈N0 eine zeitlich Homogene Markoff-Kette und k ∈ N. Es gilt P ({Xn+k }n∈N0 ∈ A) = PXk ({Xn }n∈N0 ∈ A) , 22 A ⊂ I N0 . (1.6) Der Beweis ist dem Leser überlassen. Diese Eigenschaft gilt auch für Stoppzeiten. Zunächst erinnern wir an die Definition der Stoppzeit für Markoff-Ketten: τ : {τ = n} ∈ σ(X0 , . . . , Xn ) . Definition 1.3. Wir nennen A ⊆ Ω ein Prä-τ -Ereignis, wenn A ∩ {τ ≥ n} ∈ σ(X0 , . . . , Xn ) . Fτ ist die von den Prä-τ -Ereignissen erzeugte σ-Algebra. Wir haben das folgende wichtige Ergebnis: Satz 1.1 (Starke Markoff-Eigenschaft). Sei τ eine Stoppzeit für die MarkoffKette {Xn }n∈N und A ⊆ I N0 . Dann gilt P ({Xn+τ }n∈N0 ∈ A|Fτ ) = PXτ ({Xn }n∈N0 ∈ A|Fτ ) P-f.s. (1.7) Die starke Markoff-Eigenschaft hat die folgende einfache Deutung. Die bedingte Wahrscheinlichkeit, dass die Kette ab der Zufallszeit τ in einer gegebenen Menge A ist, ist gleich der bedingten Wahrscheinlichkeit, dass die Kette, die ab der Zufallsstellung Xτ startet, stets in der Menge A bleibt. Beweis. Sei B ∈ Fτ . Dann ergibt das Gesetz der totalen Wahrscheinlichkeit E[1B P (Xτ , Xτ +1 , · · · ∈ A|Fτ )] = P (Xτ , Xτ +1 , · · · ∈ A, B) X = P (Xn , Xn+1 , · · · ∈ A, B, τ = n) . n≥0 Offenbar gilt für alle n ≥ 0 B ∩ {τ = n} ∈ Fτ , daher P (Xn , Xn+1 , · · · ∈ A, B, τ = n) = E[1B∩{τ =n} P (Xn , Xn+1 , · · · ∈ A|Fτ )] = E[1B 1{τ =n} PXn (X0 , X1 , · · · ∈ A|Fτ )] .(1.8) Es folgt, dass E[1B P (Xτ , Xτ +1 , · · · ∈ A|Fτ )] = X E[1B 1{τ =n} PXn (X0 , X1 , · · · ∈ A|Fτ )] n≥0 " = E 1B # X 1{τ =n} PXn (X0 , X1 , · · · ∈ A|Fτ ) n≥0 = E [1B PXτ (X0 , X1 , · · · ∈ A|Fτ )] . Da diese Gleichung für alle B ∈ Fτ gilt, wir folgern (1.7). Hier erklären wir drei typische Beispiele von Markoff-Ketten, die wir im weiterem Verlauf des Kapitels untersuchen werden. 23 B1) Irrfahrt auf Zν . Wir haben diesen Prozess schon getroffen. {ξn }n∈N ist eine Folge von unabhängigen gleichverteilten Zufallsvariablen (die Zuwächse des P Prozesses), ξ1 : Ω → Zν , und Sn := ni=1 ξi . Wir haben ! n+1 X P (Sn+1 = in+1 |Fn ) = P ξj = in+1 S0 = i0 , . . . , Sn = in j=1 = P (Sn + ξn+1 = in+1 |S0 = i0 , . . . , Sn = in ) = P (Sn+1 = in+1 |Sn = in ) , also (1.2). Somit ist eine Irrfahrt auf Zν eine homogene Markoff-Kette mit Übergangwahrscheinlichkeiten πij = P (Sn+1 = i|Sn = j) = P (ξ1 = i − j) . B2) Ehrenfests Urnenmodell. Wir betrachten zwei Urnen U 1 und U 2, die insgesamt 2N gleiche Kugeln enthalten. Man wählt zu jedem Zeitpunkt n eine Urne jeweils mit Wahrscheinlichkeit proportional zur Anzahl der Kugeln in dieser Urne. Dann wird eine Kugel aus einer Urne gezogen und in die andere Urne verschoben. Wir betrachten die Zufallsvariable Xn als die Anzahl der Kugeln zur Zeit n in U 1 und wir nehmen I := {0, . . . , 2N } als die Menge der Belegungen von U 1. Daher gilt für jede Belegung in ∈ I P (Xn = in |Xn−1 = in ±1, Xn−1 = in ±1±1, . . . ) = P (Xn = in |Xn−1 = in ±1) =: p± mit πj,j−1 = p− = k , 2N πj,j+1 = p+ = 2N − k 2N und πij = 0 sonst. B3) Erneuerungsketten. Ein diskreter Prozess {Rn }n∈N0 mit Rn ∈ {0, 1}, so dass Pν ({Rn+k }n∈N0 ∈ B|R0 , . . . , Rk ) = Pν ({Rn }n∈N0 ∈ B) (1.9) für jede Ereignis B gilt, heisst Erneuerungsprozess. Zum Beispiel betrachten wir eine Irrfahrt auf Z {Sn }n∈N0 und setzen für ein festes j̄ ∈ Z Rn (j̄) := 1{Sn =j̄} . (1.10) Der Einfachheit halber, setzen wir j̄ = 0 und Rn := Rn (0). Für jedes B ∈ σ(Rk+1 , Rk+2 , . . . ) existiert B̃ ∈ σ(Sk+1 , Sk+2 , . . . ), so dass (1.2) und die zeitliche Homogenität P0 ({Rn+k }n∈N0 ∈ B|R0 , . . . , Rk ) = P0 ({Sn+k }n∈N ∈ B̃|S0 , . . . , Sk−1 ) = P0 ({Sn+k }n∈N0 ∈ B̃|Sk−1 ) = P0 ({Sn }n∈N0 ∈ B̃) = P0 ({Rn }n∈N0 ∈ B) ergeben. 24 Diese Konstruktion kann einfach für eine beliebige Markoff-Kette gemacht werden. Es ist auch möglich zurückzugehen und eine Markoff-Kette {Xn }n∈N0 aus einem Erneuerungsprozess {Rn }n∈N0 zu bilden, so dass {Xn = 0} = {Rn = 1} gilt. Für einen gegebenen Erneuerungsprozess {Rn }n∈N0 definieren wir die Zufallszeiten τ0 = 0 , τk := inf{n > τk−1 : Rn = 1} k ≥ 1 , ∆τk := τk − τk−1 , k≥1 und Tn := τk 1{τk ≤n<τk+1 } . Alle diese Zufallszeiten sind ganze Zahlen. Die τk sind die nachfolgende Epoche, in denen Rn = 1 ist, d.h. Rτ1 = Rτ2 = · · · = 1 und R = 0 sonst. Die Zeiten Tn bilden die Teilfolge derjenigen τk , die, n für n, vor der Zeit n fallen. Jetzt setzen wir Xn := n − Tn , X0 = 0 . Es folgt {Xn = 0} = {τn = n} = {∃k : τk = n} = {Rn = 1} . Der Prozess {Xn }n∈N : N × Ω 7→ N ist eine Markoff-Kette, die Erneuerungskette heisst. Angenommen, dass Xn = j für eine gegebene ganze Zahl j gilt, dann ist Tn = n − j. Daher ist entweder Tn+1 = n − j, also Xn+1 = j, oder Tn+1 = n + 1, also Xn+1 = 0. Wir sehen sofort, dass Xn+1 nur durch die Werte des Prozesses zur Zeit n bestimmt ist, so dass {Xn }n∈N eine Markoff-Kette ist. Die Zuwächse ∆τk sind unabhängige gleichverteilten Zufallsvariablen. Um dies zu beweisen, bemerken wir zunächst, dass ∆τ1 eine Stoppzeit bezüglich σ(X0 , . . . , Xn ) ist, da {∆τ1 = n} = {τ1 = n} = {Rn = 1} = {Xn = 0} ∈ σ(X0 , . . . , Xn ) gilt. Nochmals ergeben die starke Markoff-Eigenschaft (1.7) und die zeitliche Homogenität P0 (X∆τ1 +1 , X∆τ1 +2 , · · · ∈ A|Xn , ∆τ1 ≥ n) = PX∆τ1 ({Xn }n∈N0 ∈ A|F∆τ1 ) = P0 ({Xn }n∈N0 ∈ A) P-f.s. . Es folgt, dass der Prozess (X∆τ1 +1 , X∆τ1 +2 , . . . ) von der σ-Algebra σ(Xn , {∆τ1 ≥ n}) unabhängig ist, also auch von ∆τ1 . Daher müssen ∆τ1 und {∆τk }k≥1 unabhängig sein. Man kann dieses Argument iterieren, um zu beweisen, dass ∆τk unabhängige gleichverteilte Zufallsvariablen sind. Daher schreiben wir die Übergangwahrscheinlichkeiten als P (Xn+1 = j + 1|Xn = j) = P (Tn+1 = n − j − 1|Tn = n − j) = P (∆τn+1 ≥ j + 1|∆τn+1 ≥ j) P (∆τ1 ≥ j + 1) = =: πj,j+1 , P (∆τ1 ≥ j) wobei wir die Formel von Bayes und die Unabhängigkeit der ∆τk benutzt haben. Übung 1.1. Was ist die zum Erneuerungsprozess (1.10) zugehörige Erneuerungskette? 25 2. Rekurrenz und Transienz Sei π = {πij }i,j∈I eine stochastische Matrix. Vorab führen wir eine Äquivalenzrelation auf I ein. Wir schreiben i → j für i, j ∈ I, so dass ein n existiert, mit πijn >0, d. h. die Kette erlaubt den Weg mit n Zeitsstufen von i zu j. Wir sagen in diesem Fall, dass j von i erreichbar ist. Erreichbarkeit ist reflexiv und transitiv, aber sie ist nicht symmetrisch. Ausserdem definieren wir für alle i, j ∈ I i ∼ j ⇐⇒ i → j und j → i . (2.1) Diese Relation ist offenbar reflexiv, i ∼ i, und symmetrisch, i ∼ j ⇒ j ∼ i. Wenn m m n > 0, , πkj > 0 und πjk i ∼ j und j ∼ k ist, dann existieren n und m, so dass πijn , πji n+m n+m n m n m also πij πjk = πik > 0 und πji πkj = πki > 0, woraus Transitivität folgt. Somit ist ∼ eine Äquivalenzrelation auf I, die Äquivalenzklassen auf I definiert. Definition 2.1. a) Wir nennen jede Äquivalenzklasse von einem gegebenen i ∈ I, d.h. Ai := {j ∈ I : i ∼ j} , eine irreduzible Teilmenge von I. Eine Markoff-Kette heisst irreduzibel genau dann, wenn I die eindeutige irreduzibel Menge ist, d. h. i ∼ j für alle i, j ∈ I. b) Eine Teilmenge I¯ ⊂ I heisst abgeschlossen genau dann, wenn keine i ∈ I und j ∈ I/I¯ existieren, so dass i → j. Wir geben ein ganz einfaches Beispiel. Ein Kind spielt mit Farben. Es hat vier Filzschreiber: Rot, Blau, Gelb und Schwarz. Es startet mit ein Zufallsfarbe und dann folgt diese Regel: Wenn es Rot verwendet, dann verwendet es Rot nochmals mit Wahrscheinlichkeit 21 und mit Wahrscheinlichkeit 12 Schwarz; wenn es Schwarz verwendet, dann verwendet es Schwarz sicher; wenn es Blau verwendet, dann verwendet es Blau nochmals mit Wahrscheinlichkeit 14 und mit Wahrscheinlichkeit 3 Gelb; wenn es Gelb verwendet, dann verwendet es Gelb nochmals mit Wahr4 scheinlichkeit 13 und mit Wahrscheinlichkeit 23 Blau. Dies ist eine Markoff-Kette auf I := {Rot, Schwarz, Blau, Gelb} mit stochastischer Matrix 0 0 0 1 0 0 π= 0 0 1 3 . 4 4 0 0 32 13 1 2 1 2 (2.2) Wenn das Kind mit Rot (oder mit Schwarz) startet, wird es nie die Farbe Blau und Gelb benutzen (gleiches gilt für {Blau, Gelb}). Die Mengen {Rot, Schwarz} 26 und {Blau, Gelb} sind zwei abgeschlossene Klassen, die auch irreduzibel sind, da 1 1 n 0 0 2 2 0 1 10 30 n . πn = (2.3) 0 0 4 4 2 1 0 0 3 3 Übung 2.1. Bestimmen Sie, ob die Markoff-Ketten der Beispiele B1), B2) und B3) irreduzibel sind. Ein anderer wichtiger Begriff ist die Periodizität. Definition 2.2. Der Grösster gemeinsamer Teiler der Menge {n : πiin > 0}, der wir di nennt, heisst die Periode von i. Wir nennen den Zustand i ∈ I aperiodisch, wenn di = 1 ist, und d-periodisch, wenn di ≥ 2 ist. Eine irreduzibel MarkoffKette mit einem d-periodisch Zustand heisst d-periodisch (oder aperiodisch, falls d = 1). Übung 2.2. Beweisen Sie, dass j ∈ I d-periodisch ist, wenn, für ein d-periodisch i ∈ I, i ∼ j ist. Für jede Markoff-Kette Xn können wir die folgenden Zufallszeiten einführen: τA := min{n ∈ N : Xn ∈ A} , A⊂I. (2.4) Nun setzen wir (n) fiA := Pi (τA = n) = P (τA = n|X0 = i) , und fiA := Pi (τA < ∞) = X (n) fiA . n≥1 Wir schreiben τj , (n) fij und fij , wenn A = {j} ist. Bemerkung 2.1. Eine andere bequeme Formulierung der Wahrscheinlichkei(n) ten fiA ist (n) fiA = P (Xn ∈ A | X1 = i, X2 ∈ / A, . . . , Xn−1 ∈ / A) , (2.5) d.h. die Wahrscheinlichkeiten, dass die Kette erstmals zur Zeit n die Menge A besucht, wenn die Startstelle i ist. Eine wichtige Grösse ist die Wahrscheinlichkeit fii , dass die Kette zu i züruckkehrt. Natürlich gilt immer fii ≤ 1, aber, wenn τi = ∞ ist, haben wir fii < 1. Definition 2.3. Ein Element i ∈ I heisst rekurrent genau dann, wenn fii = 1 gilt, andernfalls heisst es transient. Wir werden auch eine starkere Eigenschaft brauchen, nämlich dass eine (irreduzibel) Kette an jeder Stelle in endlicher Zeit zurückkehrt. 27 Definition 2.4. Ein rekurrentes i heisst positiv rekurrent, wenn X (n) E[τi ] = nfii < ∞ (2.6) n≥1 gilt. Ansonsten heisst es null-rekurrent. Rekurrenz und Transienz sind Klasseineigenschaften, d.h. Satz 2.1. Seien i, j ∈ I mit i ∼ j. Dann ist i genau dann rekurrent, wenn j es ist. Um diesen Satz zu beweisen, brauchen wir zwei Zwischenergebnisse: Lemma 2.1. Für alle i, j ∈ I gilt n n X X (k) n−k (n−k) n πij = fij πjj = . πijk fii k=1 (2.7) k=1 Beweis. Starte bei i und erreiche j in k Zeitsstufen, ohne durch i zu führen. Dann mache einen Kreislauf um j in n − k Zeitsstufen. Da k beliebig ist, wir müssen über k ∈ {1, 2, . . . , n} summieren, um die Wahrscheilichkeit von i → j in n Zeitsstufen zu erhalten. Die zweite Gleichung wird analog erhalten: Starte bei i und mache k Kreisläufe; dann gehe zu j, ohne durch i zu führen und summiere über k (wie oben). Übung 2.3. Beweisen Sie, dass fij die minimale nicht-negative Lösung zu X πij fji (2.8) fij = j∈I ist. Ausserdem sei X Ei [τj ] := (n) nfij . n∈N Zeigen Sie, dass ( P 1 + k6=j πik Ek [τj ] i 6= j , Ei [τj ] = 0 i=j gilt. Proposition 2.1. i ∈ I ist genau dann transient, wenn X πiin < ∞ n∈N0 gilt. Beweis. Wir verwenden die Gleichung (2.7) mit i = j, d.h. n X (k) πiin = fii πiin−k . k=1 28 (2.9) Daher X πiin = 1+ n≥0 n XX (k) fii πiin−k = 1 + n≥1 k=1 = 1+ X (k) fii πiin−k k≥1 n≥k X (k) fii k≥1 XX πiin = 1 + fii n≥0 X πiin . n≥0 P Da fii ≥ 0 ist, gilt die letzte Gleichung ∞ = ∞, fallsP n≥0 πiin divergent ist. Wenn fii = 1 ist, d.h. i rekurrent ist, dann gilt ausserdem n≥0 πiin = ∞. Somit nehmen wir fii < 1 an. Für t ∈ (0, 1) setzen wir X X (n) π̂(t) := tn πiin fˆ(t) := tn fii n≥0 n≥0 (diese Reihen konvergieren für t ∈ (0, 1)). Mit einer ähnlichen Berechnung wie zuvor erhalten wir n XX (k) π̂(t) = 1 + tk fii tn−k πiin−k n≥1 k=1 = 1+ X (k) tk fii X tn πiin = 1 + fˆ(t)π̂(t) , n≥0 k≥1 also π̂(t) = (1 − fˆ(t))−1 t ∈ (0, 1) . Wegen fii < 1 können wir den Grenzewert t → 1− nehmen und erhalten X π n = lim (1 − fˆ(t))−1 = (1 − fii )−1 < ∞ . ii n≥0 t→1− Beweis des Satzes 2.1. i ∼ j impliziert, dass n1 , n2 existieren, so dass πijn1 > n2 0 und πji > 0. Aus den Chapman-Kolmogorov-Gleichungen (1.5) folgt sofort für n2 n n1 n n2 πji und analog πiin+n1 +n2 ≥ πji πii πij . Somit alle n ∈ N πiin+n1 +n2 ≥ πijn1 πjj X X X n2 n2 2 n πiin ≥ πijn1 πji πjj ≥ (πijn1 πji ) πiin , n≥0 n≥0 n≥0 woraus fii < 1 ⇐⇒ fjj < 1 folgt. Bemerkung 2.2. Aus Proposition 2.1 folgt auch, dass, wenn j transient ist, X πijn < ∞ n≥1 gilt, da X n≥1 πijn = n XX n≥1 k=1 (k) n−k fij πjj = XX k≥1 n≥k 29 (k) n−k fij πjj = fij X n≥1 n πjj . Die letzte Bemerkung zu folgendem Satz: Satz 2.2. Rekurrente Äquivalenzklassen sind Abgeschlossen. Beweis. Wir beweisen, dass, wenn i rekurrent ist und i → j, dann gilt i ∼ j. Dies impliziert, dass j rekurrent ist (gemäss Staz 2.1). Somit ist kein Übergang von einer rekurrenten Stelle i zu einer transienten Stelle l möglich, d.h. rekurrente Äquivalenzklassen sind Abgeschlossen. Um j → i zu zeigen, führen wir ein Widerspruchsbeweis. Wir nehmen fii = 1, n̄ := inf{n : πijn > 0} < ∞ . (2.10) n = 0 ∀n ∈ N an. So (d.h. πijn̄ > 0) und πji 1 = fii = P (τi < ∞) = P (τi < ∞, Xn̄ = j) + P (τi < ∞, Xn̄ 6= j) ≤ P (τi < ∞, Xn̄ = j) + P (Xn̄ 6= j) = P (τi < ∞, Xn̄ = j) + 1 − πijn̄ . n−n̄ Nun bemerken wir, dass Pi (Xn = 1, Xn̄ = j) = πijn̄ πji = 0 für alle n > n̄ und für n n̄−n n ∈ {1, . . . , n̄} Pi (Xn = 1, Xn̄ = j) = πii πij = 0 (gemäss der Definition von n̄), also X Pi (τi < ∞, Xn̄ = j) ≤ Pi (Xn = i, Xn̄ = j) = 0 n≥0 (wobei wir die einfache Ungleichung P (∪i Ai ) ≤ πijn̄ = 0, ein Widerspruch. P i P (Ai ) benutzt haben). Es folgt Bemerkung 2.3. Ist π irreduzibel und i positiv rekurrent, so folgt (einfach), dass alle Zustelle positiv rekurrent sind. In diesem Fall sprechen wir von positiv rekurrenten Markoff-Kette. Alle Stellen einer Rekurrenzklasse sind in endlicher Zeit verbunden: Proposition 2.2. Sei i ∼ j mit i rekurrent. So gilt fij = fji = 1. Beweis. Der erst Teil des Beweises ist ähnlich wie in obigem Lemma. Wir setzen n̄ := inf{n : πijn > 0} = inf{n : Pi (Xn = j) > 0} . Wegen fii = Pi (τi < ∞) = 1, gilt πijn̄ = Pi (τi < ∞, Xn̄ = j) = Pi (τi < n̄, Xn̄ = j) + Pi (n̄ < τi < ∞, Xn̄ = j) . Die obige Ungleichung gibt Pi (τi < n̄, Xn̄ = j) ≤ n−1 X Pi (Xk = i, Xn̄ = j) , k=1 aber es gilt nach Definition von n̄ (2.10) Pi (Xk = i, Xn̄ = j) = Pi (Xn̄−k = j) = 0 für alle k ∈ {1, . . . , n − 1}, daher πijn̄ = Pi (n̄ < τi < ∞, Xn̄ = j) . 30 Dann folgt aus der Formel von Bayes und der Markoff-Eigenschaft (1.2), dass πijn̄ = Pi (n̄ < τi < ∞, Xn̄ = j) = Pi (X1 6= i, . . . , Xn̄−1 6= i, Xn̄ = j, τi < ∞) = Pi (τi < ∞ | X1 6= i, . . . , Xn̄−1 6= i, Xn̄ = j)Pi (X1 6= i, . . . , Xn̄−1 6= i, Xn̄ = j) = Pj (τi < ∞)Pi (Xn̄ = j) = fji πijn̄ gilt. Daraus ergibt sich fji = 1. Man zeigt analog, dass fij = 1. Übung 2.4. Beweisen Sie, dass endliche, irreduzible Markoff-Ketten rekurrent sind. 3. Noch mehr über Irrfahrten Nun diskutieren wir zwei namhafte Beispiele, nämlich die Rekurrenz der Irrfahrt (wenn die Dimension variiert) und die Ruinwahrscheinlichtkeit des Spielers. Zuerst studieren wir die Rekurrenz der folgenden klasse von irriduziblen Irrfahrten. Da die Zufallsvariable ξ1 auf Zν Ihre Werte annimmt, schreiben wir (ξ1 )i , um die i-te Komponente des Zufallsvektor ξ1 = ((ξ1 )1 , . . . , (ξ1 )ν ) zu bezeichnen. Wir betrachten diejenigen Zuwachsverteilungen mit P (ξ1 = x) = P (ξ1 = −x) , und E[|(ξ1 )α1 1 . . . (ξ1 )αν ν |] E[(ξ1 )i (ξ1 )j ] =: Bij > 0 , < ∞ , wenn ν X αh = 3 , αh ≥ 0 . h=1 Wir bemerken, dass, wegen der Parität der Zuwächsverteilung, E[(ξ1 )α1 1 . . . (ξ1 )αν ν ] = 0 P gilt, wenn νh=1 αh ungerade ist. Um die Rekurrenz (oder die Transienz) zu zeigen, genügt es nur f00 zu betrachten, da diese Irrfahrten irreduzible Markoff-Ketten sind. Wir wollen das folgende Ergebnis zeigen: Satz 3.1. Unter den obigen Annahmen ist f00 = 1, für ν = 1, 2, und f00 < 1 für ν ≥ 3. Für ν = 1, 2 ist die Irrfahrt rekurrent und sie ist transient für ν ≥ 3. Eine alternative (nicht mathematische) Formulierung dieses Statzes ist: Ein Irrer kann immer den weg nach Hause finden, aber wird sich eine Irrtaube ewig verirren. Um diesen Satz nachzuweisen, ist die erste Stufe das asymptotische Verhalten der Wahrscheinlichkeit, dass die Irrfahrt auf 0 zurückkommt, zu bestimmen. Die Fourier-Analysis ist wie ein Gespenst, das immer über uns schwebt und wird von 31 Zeit zu Zeit, wie in der folgenden Proposition, auf uns schlagen. Die Charakteristische Funktion der Zuwächse X ϕ(λ) := P (ξ1 = x)eixλ , λ ∈ [−π, π] (3.1) x∈Zν spielt eine zentrale Rolle. Es ist eine einfache Übung zu beweisen, dass X ϕSn (λ) := P (Sn = x)eixλ = ϕn (λ) . (3.2) x∈Zν Offenbar ist ϕ(0) = 1. Eine wichtige Eigenschaft von ϕ(λ) ist, dass, da die Irrfahrt irreduzibel ist, |ϕ(λ)| < 1 für λ ∈ (0, 2π) gilt. Wir zeigen dies durch Widerspruch: Sei λ∗ 6= 0, so dass |ϕ(λ∗ )| = 1. Dann gilt X ∗ 1= eiλ (x−y) P (ξ1 = x)P (ξ1 = y) . x,y∈Zν Diese Gleichung gilt genau dann, wenn P (ξ1 = x) = δx,x̄ für ein gegeben x̄ ∈ Zν ist, die die Verteilung einer reduzible Irrfahrt ist. Da wir hier nur die irreduziblen Irrfahrten studieren wollen, es kann |ϕ(λ)| = 1 nur für λ = 0, 2π sein. Die Strategie des Beweises der folgenden Proposition ist einige geeignete Eigenschaften von ϕ(λ) zu bestimmen, um das asymptotische Verhalten von P0 (Sn = 0) durch die Inversion der Fourier-Reihe Z π Z π dλ n dλ n −ixλ ϕ (λ)e = ϕ (λ) . (3.3) P0 (Sn = 0) = x=0 −π 2π −π 2π zu berechnen. Erstens erklären wir eine nützliche Entwicklung für ϕ(λ). Wir berechnen X X ∂λi ϕ(λ)λ=0 = ∂λi P (ξ1 = x)eixλ = i P (ξ1 = x)xi = iE[(ξ1 )i ] , (3.4) x∈Zν x∈Zν sowie ∂λi ∂λj ϕ(λ)λ=0 = −E[(ξ1 )i (ξ1 )j ] = −Bij . (3.5) P ∂λα11 . . . ∂λανν ϕ(λ)λ=0 = (i) h αh E[(ξ1 )α1 1 . . . (ξ1 )αν ν ] . (3.6) Allgemein gilt Deshalb schreiben wir die Taylor Entwicklung von ϕ(λ) an [−ε, ε]ν als 1 ϕ(λ) = 1 − (λ, Bλ) + o(|λ|3 ) , 2 und 1 log ϕ(λ) = − (λ, Bλ) + o(|λ|3 ) . 2 Somit gilt 1 3 1 ϕ(λ) = elog ϕ(λ) = e− 2 (λ,Bλ)+o(|λ| ) = e− 2 (λ,Bλ) (1 + o(|λ|3 )) , da e o(|λ|3 ) = 1 + o(|λ|3 ) ist. 32 (3.7) (3.8) Proposition 3.1. Unter den obigen Annahmen gilt 1 −ν/2 P0 (Sn = 0) ∼ n +o . (3.9) ν n2 √ Beweis. Durch die Variablenstrasformation λ 7→ λ/ n schreiben wir die Gleichung (3.3) als Z dλ λ n . (3.10) P0 (Sn = 0) = ϕ √ ν/2 √ √ n [−π n,π n]ν 2πn Diese Formel und (3.8) geben Z P0 (Sn = 0) = 3 n |λ| dλ − (λ,Bλ) 2 1 + o ν e 3 √ √ n2 [−ε n,ε n]ν 2πn 2 Z dλ n λ ϕ √ + √ √ √ √ n [−π n,π n]ν /[−ε n,ε n]ν 2π Z dλ − (λ,Bλ) 1 = e 2 +o ν √ √ ν 2πn ν2 n2 [−ε n,ε n] Z dλ n λ ϕ √ + . √ √ √ √ n [−π n,π n]ν /[−ε n,ε n]ν 2π (3.11) Um den letzen Ausdruck dieser Gleichung zu berechnen, bemerken wir, dass ein b > 0 existiert, so dass 2 ϕ(λ) < e−b|λ| , ∀λ ∈ [−π, π]ν . (3.12) Aus (3.7) sehen wir, dass ein b > 0 existiert, so dass 2 ϕ(λ) ≤ 1 − b|λ|2 ≤ e−b|λ| , ∀λ ∈ [−ε, ε]ν gilt. Andererseits, da |ϕ(λ)| < 1 für λ 6= 0 gilt, gibt es ein A > 0, so dass für |λ| ≥ ε |ϕ(λ)| < A gilt. Daher gilt (3.12) fur alle λ ∈ [−π, π]. Also gilt Z Z 2 dλ n λ dλ − b|λ|2 − bε2 n √ ϕ ≤ e e 2 √ ν √ √ ν 2π √ √ ν √ √ ν 2πn ν2 √ n [−π n,π n] /[−ε n,ε n] [−π n,π n] /[−ε n,ε n] Z bε2 n bε2 n dλ − b|λ|2 2 ≤ e− 2 = b−ν e− 2 .(3.13) ν e Rν 2πn 2 Nun zeigen wir Z √ √ [−ε n,ε n]ν dλ − (λ,Bλ) 1 2 = ν e ν + o 2πn 2 2πn 2 33 1 ν n2 . (3.14) Wir schreiben Z Z dλ − (λ,Bλ) 2 ν e Rν 2πn 2 Z dλ − (λ,Bλ) 2 + ν e √ √ Rν /[−ε n,ε n]ν 2πn 2 Z dλ − (λ,Bλ) 1 2 = ν + ν e √ √ 2 ν ν 2πn 2 2πn R /[−ε n,ε n] Z 1 dλ − (λ,Bλ) − 4b ε2 n 2 , ≤ ν + e ν e 2πn 2 Rν 2πn 2 Dies ergibt (3.14). Die Gleichungen (3.11), (3.13) und (3.14) ergeben (3.9). √ √ [−ε n,ε n]ν dλ − (λ,Bλ) 2 = ν e 2πn 2 Nun können wir den Beweis des Satzes 3.1 beenden. Beweis des Satzes 3.1. Wir beweisen, dass " #−1 X f00 = 1 − P0 (Sn = 0) . (3.15) n≥0 P Aus dieser Formel folgt, dass f00 = 1, wenn n≥0 P0 (Sn = 0) divergent ist und f00 < 1 sonst. Für ν = 1 sagt Proposition 3.1, dass X 1 P0 (Sn = 0) ' √ , also P0 (Sn = 0) = ∞ ⇒ f00 = 1 . n n≥0 Analog gilt für ν = 2 P0 (Sn = 0) ' 1 , n also X P0 (Sn = 0) = ∞ ⇒ f00 = 1 , n≥0 1 aber für ν = 2 ist P0 (Sn = 0) ' nν/2 , also konvergiert die Reihe und es ist f00 < 1. Um die Formel (3.15) zu beweisen, führen wir X R := 1{Sn =0} P n≥0 P0 (Sn = 0) n≥0 ein, so dass E[R] = X P0 (Sn = 0) n≥0 gilt. R ist die zufällige Anzahl der Rückführungen zu 0. Dann ergibt die MarkoffEigenschaft P0 (R = k) = P (∃n1 , . . . , nk−1 ∈ N : S0 = 0, Sn1 = 0, . . . , Snk−1 = 0 , Sn>nk−1 6= 0) = P0 (∃n ∈ N : Sn = 0) . . . P0 (∃n ∈ N : Sn = 0)P0 (@n ∈ N : Sn = 0) k−1 = P0 (τ0 < ∞)k−1 P0 (τ0 = ∞) = f00 (1 − f00 ) 34 für k ≥ 2 und natürlich ist P0 (R = 1) = 1, da P0 (S0 = 1). Somit gilt X X k−1 E[R] = kP0 (R = k) = (1 − f00 ) kf00 k≥0 k≥0 d X k d (1 − f00 )−1 = (1 − f00 )−1 , = (1 − f00 ) f00 = (1 − f00 ) df00 k≥0 df00 also (3.15). In dem Falls ν = 1 kann man ein besser Ergebnis erhalten: Satz 3.2 (Satz von Chung und Fuchs (1951)). Sei ν = 1, E[|ξ1 |] < ∞ und E[ξ1 ] = 0. Dann gilt f00 = 1. Wir werden dieses Satz am ende des Kapitels verwenden. Jetzt diskutieren wir eine vereinfachte Variante eines klassischen Problems der Wahrscheinlichkeitstheorie, nämlich den Ruin des Spielers. Ein Spieler besitzt i CHF und wettet auf jedes Ergebnis eines gegebenen Glücksspiels. Der Spieler gewinnt mit Wahrscheinlichkeit p ∈ (0, 1) und verliert mit Wahrscheinlichkeit 1 − p (das Spiel kann unfair sein). Was ist die Wahrscheinlichkeit, dass der Spieler ruiniert ist? Dieses Problem besitzt eine einfache Formulierung durch Markoff-Ketten und zwar ist es eine Irrfahrt mit 0 als absorbierende Rand. Die (unendliche) stochastische Matrix ist π0,0 = 1 , πi,i+1 = p , πi,i−1 = 1 − p 1 p 1−p 0 1−p 0 .. .. . . 0 p 0 .. . und πij = 0 sonst . 0 ··· 0 ··· p ··· .. .. . . 0 0 0 . .. . (3.16) (3.17) Wir haben doch die Zufallszeit τA := inf{n ∈ N : Xn ∈ A} eingeführt. Wir setzen ςA := inf{n ∈ N0 : Xn ∈ A} . Sowohl τA als auch ςA sind Stoppenzeiten. Für i ∈ A gilt trivialerweise Pi (ςA = 0) = 1, ferner gilt Pi (τA = ςA ) für alle i ∈ / A. Wir definieren die folgende Funktion (n) hA (i) := Pi (ςA < ∞) . hA (i) := Pi (ςA = n) , 35 1-p 1-p 1-p 1 2 3 0 p p p Abbildung 1. Irrfahrt mit 0 als absorbierenden Rand, deren stochastische Matrix ist (3.17). Proposition 3.2. hA (i) ist die kleinste nicht-negative Funktion, die (P /A j∈I πij F (A, i) i ∈ F (A, i) = 1 i ∈ A. (3.18) erfüllt. Beweis. Offenbar ist hA (i) = 1 für i ∈ A, also betrachten wir den Fall i ∈ / A. Zunächst zeigen wir, dass X (n) (n+1) πij hA (i) (3.19) fiA = j∈I gilt. Die folgende Kette von Gleichungen X Pi (TA ≤ n + 1|X1 = j)πij Pi (τA < ∞) = j∈I = X P (X1 , . . . , Xn ∈ / A, Xn+1 ∈ A|X0 = i , X1 = j)πij j∈I = X Pj (X0 , . . . , Xn−1 ∈ / A, Xn ∈ A)πij = j∈I X Pj (ςA = n)πij j∈I gibt (n+1) hA (i) = X (n) πij hA (i) . j∈I Also hA (i) = fA (i) = X n≥0 (n+1) fiA = X πij X n≥0 j∈I (n) hA (i) = X πij hA (j) . (3.20) j∈I Sei nun g(i) eine nicht-negative Lösung von (3.18). Wir zeigen mit Induktion nach (n) n, dass g(i) ≥ hA (i) für alle i ∈ I und n ∈ N0 ist, woraus g(i) ≥ hA (i) folgt. Für 36 n = 0 ist g(i) ≥ Pi (ςA = 0), da g(i) = Pi (ςA = 0) für i ∈ A und Pi (ςA = 0) = 0 ≤ (n) g(i) sonst. Dann folgt aus der Induktionsannahme g(i) ≥ hA (i) X X (n) (n+1) g(i) = πij g(i) ≥ πij hA (i) = hA (i) . j∈I j∈I Der folgende Satz stellt die Ruinwahrscheinlichkeit des Spieler her, wenn p ∈ (0, 1) variiert. Satz 3.3 (Ruin des Spielers). i) Für p ≤ ii) Für p > 1 2 1 2 gilt fi0 = 1, für alle i ∈ N. gilt i 1−p fi0 = , für alle i ∈ N . p (3.21) Bemerkung 3.1. Wenn das Spiel unfair ist (gegen den Spieler, d.h. p < 21 ), wird der Spieler sicher sein ganzes Kapital verlieren, aber dies passiert auch, wenn das Spiel fair ist (p = 12 ). Beweis. Offenbar ist h0 (i) = fi0 für i > 0. Die obige Proposition ergibt ( h0 (0) = 1 (3.22) h0 (i) = ph0 (i + 1) + (1 − p)h0 (i − 1) i ≥ 1 . Wir wollen die Lösungen dieser Rekursion finden. Wir sehen sofort, dass die konstante Funktion h0 (i) = 1 für alle i ∈ N stets eine Lösung ist. Wir setzen h0 (i + 1) υi := , h0 (i) und bemerken, dass (3.22) als υi+1 = M υi = M i υ0 , mit M := − 1−p p 1 0 1 p , (3.23) geschrieben werden kann. Die Matrix M i hat die gleichen Eigenvektoren und Eigenwerte wie M . Eine einfache Berechnung ergibt 1−p 1−p 1−p 1 1 p p M = M = . (3.24) 1 1 1 1 p 37 Wir schreiben für α ∈ [0, 1] 1−p h0 (1) 1 p , =α + (1 − α) 1 1 1 also M i υ0 = α 1 1 1−p p +β i+1 1−p p i , daher gilt i 1−p h0 (i) = α + (1 − α) . (3.25) p Somit sehen wir, dass die Annahme p ≤ 21 und p > 12 ein verschiedenes Verhalten i 1 von h0 (i) ergeben. p < 2 impliziert 1−p → ∞ für i → ∞, somit muss α = 1 p i = 1, also h0 (i) = α + β = 1 gelten (da h0 (i) ≤ 1). Wenn p = 21 ist, dann gilt 1−p p für alle i ∈ N. Dies beweist i). 1 Was den Fall p > 2 betrifft, ist 1−p ≤ 1 und wir haben die Familie der p Lösungen i 1−p ≤ 1 , α ∈ [0, 1] . h0 (i; α) = α + (1 − α) p Da i d 1−p h0 (i; α) ≤ 0 h0 (i; 1) = 1 ≥ = h0 (i; 0) , dα p i ist die minimale h0 (i; α), wenn α ∈ [0, 1] variiert, h0 (i; 0) = 1−p = fi0 . p 4. Invariante Masse Zuerst geben wir die Definition eines invarianten Masses. Definition 4.1. Ein nicht identisch-null Mass auf I mit X µ(j) = µ(i)πij , ∀j ∈ I , (4.1) i∈I P heisst invariantes Mass bezüglich der stochastichen Matrix π. Wenn Z := i∈I µ(i) < ∞ ist, dann nennt man Z −1 µ(i) ein invariantes Wahrscheinlichkeitmass oder auch eine invariante Verteilung. Bemerkung 4.1. Ist µ ein invariantes Mass, so gilt X (n) µ(j) = µ(i)πij , ∀n ∈ N0 . i∈I 38 (n̄) Wenn π irreduzibel ist, dann existiert n̄ für alle i, j ∈ I, so dass πij > 0. Sei i ∈ I (n̄) mit µ(i) > 0. Dann µ(j) ≥ µ(i)πij > 0. Es folgt daraus, dass µ(j) > 0 ∀j ∈ I gilt. Wenn die Startverteilung die invariante Verteilung ist, dann gilt natürlich P (X0 = j) = P (Xn = j) für alle n ∈ N0 . Die Existenz und die Klassifizierung der invarianten Masse ist ein Problem, das wir in dem Rest dieses Kapitel ausführlich studieren werden. Ein einfacher Fall ist, wenn I eine endliche Menge ist. Dann existiert immer mindestens eine invariante Verteilung, die eindeutig ist, wenn die Kette irreduzibel ist. Die Existenz ist leicht zu zeigen. Wir nehmen an, dass I = {1, . . . , κ} mit κ ∈ N und dass die Startverteilung ein Kronecker-Delta an Stelle 1 ist: ν(i) = δ1i . Dann bilden wir die Folge {π n ν(i)}n∈N0 , die als eine Folge in [0, 1]κ ausgelegt werden kann. Da [0, 1]κ kompakt ist, gibt es eine Folge {nk }k∈N0 , so dass der Limes µ̄1 := lim π nk ν(i) k existiert. Offenbar ist µ̄1 invariant bezüglich π. Eine allgemeine Startverteilung ν(i) ist eine konvexe Kombination von Delta Massen, d.h. X ν(i) = δij αj j∈I P mit αj ∈ [0, 1] und j αj = 1. Wenn π irreduzibel ist, dann existiert ein invariante Verteilung, die konvexe Kombination des obigen Limes ist, nämlich X µ̄ = αj µ̄j , µ̄j (i) := lim π nk δij . k j Wenn die Kette reduzibel ist, ist die Situation etwas anders. Der Einfachheit halber nehmen wir an, dass die Kette die Menge I in zwei irreduzible Klassen, I+ und I− , zersetzt. Wir setzen X αj δij , ν + + ν− = ν , ν± (i) := j∈I± d.h. die Wahrscheinlichkeiten, dass die Kette von I± startet. Da diese Mengen irreduzible sind, muss der Träger der invarianten Verteilung muss in I+ enthalten sein, wenn die Kette von I+ startet (analog für I− ). Dies bedeutet (etwas formal) µ̄(i) = P (lim Xn = i) = P (X∞ = i |, X0 ∈ I+ )P (I+ ) + P (X∞ = i |, X0 ∈ I− )P (I− ) n = µ̄+ (i)ν+ (i) + µ̄− (i)ν− (i) , wobei µ̄± = X j∈I± 39 αj µ̄j . Aus dem obigen Beispiel man leitet sofort den allgemeinen Fall ab: Wenn K irreduzible Klassen Ik , k = 1, . . . K, mit Startverteilungen νk (i) existieren, dann gilt µ̄(i) = K X µ̄k (i)νk (i) , k=1 wobei jedes µ̄k (i) die invariante Verteilung der k-ten Klasse ist. Dieses einfache, aber allgemeine Prinzip ein für allemal erklärt, werden wir fortan nur (noch) irreduzible Ketten betrachten. Die obige Konstruktion kann für rekurrente Markoff-Ketten verallgemeinert werden. Wir betrachten ν(i) = δik , für i ∈ I und bemerken, dass X Pk (Xn = i) , n≥1 falls konvergent, auch ein invariantes Mass ist (natürlich ist π n ν(i) = Pν (Xn = i)). Im Allgemeinen konvergiert die obige Reihe nicht, aber wenn die Kette rekurrent ist, dann können wir eine Menge mit unitären Massen finden, so dass die Reihe konvergent ist. Wir setzen # "τ k X X 1{Xn =i} . (4.2) µk (i) := Pk (Xn = i, τk ≥ n) = Ek n=1 n≥1 Proposition 4.1. Sei π irreduzibel und rekurrent und für k ∈ I µk (i) durch (4.2) definiert. Dann ist 0 < µk (i) < ∞ und es ist das einzige invariante Mass, das µk (k) = 1 erfüllt. Beweis. Die Bayesche Formel und Rekurrenz ergeben einfach X X µk (k) = Pk (τk ≥ n | Xn = k)Pk (Xn = k) = Pk (Xn = k) = 1 . n≥1 (4.3) n≥1 Dann ergibt die Markoff-Eigenschaft für m ≥ 1 XX µk (i) = Pk (Xn = i , Xn−m = j , τk ≥ n) n≥1 j∈I = XX Pk (τk ≥ n , | Xn = i , Xn−m = j)Pk (Xn = i , Xn−m = j) n≥1 j∈I = XX = X Pk (τk ≥ n , | Xn = j , )Pk (Xn = j) , Pj (Xm = i) n≥1 j∈I m µk (j)πji . (4.4) j∈I 40 Die obige Gleichung mit m = 1 zeigt die Invarianz von γk . Ausserdem existiert für n̄ jedes j ∈ I, wegen der Irreduzibilität, ein n̄ ∈ N mit πji > 0. Dann gilt X n̄ n̄ µk (j) µk (j) ≥ πjk 1 = µk (k) = πjk j∈I für jedes feste j ∈ I. Somit existiert für jedes j ∈ I ein n̄ ∈ N, so dass µk (j) ≤ m n̄ −1 . Daher existiert ) < ∞. Anderseits folgt auch aus (4.4), dass µk (i) ≥ µk (k)πki (πjk n̄ für jedes j ∈ I ein n̄ ∈ N mit πki > 0, also µk (i) > 0. Endlich nehmen wir an, dass ein invariantes Masses µ̃(i) mit µ̃(k) = 1 existiert. Dann ist δ(i) := µ̃(i) − µk (i) auch ein invariantes Mass mit δ(k) = 0. Somit gilt X n δ(j) ∀n ∈ N , 0 = δ(k) = πjk j∈I woraus, nochmals wegen der Irreduzibilität δ(i) = 0 für alle i ∈ I folgt. Die Existenz und Eindeutigkeit der invarianten Verteilung sind etwas komplizierter zu beweisen, denn die einfache Rekurrenz genügt nicht. Der Hauptstatz dieses Kapitel ist Satz 4.1. Ein eindeutiges invariantes Wahrscheinlichtkeitmass µ existiert genau dann, wenn die Markoff-Kette positiv rekurrent ist. Ausserdem gilt 1 µ(k) = . (4.5) Ek [τk ] Übung 4.1. Sei p ∈ (0, 1) und {ξn }n∈N eine Folge von unabhängigen und gleichverteilten Zufallsvariablen mit P (ξ1 = 1) = p, P (ξ1 = −1) = 1 − p. Beweisen P Sie, dass die Irrfahrt SN := N n=1 ξi null-rekurrent ist. Was ist das invariante Mass? Übung 4.2. Beweisen Sie, dass jede endliche Markoff-Kette positiv rekurrent ist. Wir werden diesen Satz nur für den Fall beweisen, dass die Kette aperiodisch ist (d.h. d = 1). Die Annahme d ≥ 2 erschwert den Beweis, aber er enthalt nicht viele neue Informationen. Der Existenz-Teil ist einfacher und kann sofort bewiesen werden. Beweis (nur Existenz). Da die Kette irreduzibel und rekurrent ist, wissen wir aus Satz 4.1, dass µk (i) ein invariantes Mass ist. Nun gilt X XX µk (k) = Pk (τk ≥ n | Xn = j)Pk (Xn = j) j∈I n≥1 j∈I = XX Pk (τk ≥ n | Xn = j)Pk (Xn = j) n≥1 j∈I = X Pk (τk ≥ n) = n≥1 X n≥1 41 nPk (τk ≤ n) = Ek [τk ] . (4.6) Somit ist µk (i) Ek [τk ] eine invariante Verteilung. Wenn wir den obigen Ausdruck in i = k auswerten, erhalten wir (4.5). Wir haben (doch) bewiesen, dass positive Rekurrenz die Existenz der invarianten Verteilung impliziert. Wenn eine eindeutige invariante Verteilung existiert, dann sehen wir umgekehrt sofort aus Satz 4.1 und (4.6), dass sie wie in (4.5) schreiben lässt. µ(i) := Der Beweis der Eindeutigkeit der invarianten Verteilung für positiv rekurrente und irreduzible Markoff-Ketten braucht etwas mehr Arbeit. Zunächst zeigen wir ein wichtiges Zwischenergebnis. Proposition 4.2. Existiert µ(i) = lim πijn n j-unabhängig, so ist µ(i) eine invariantes endliches Mass. Wenn dann ist µ(i) die einzige invariante Verteilung. P i µ(i) = 1 gilt, Beweis. Zunächst bemerken wir, dass, wegen des Lemmas von Fatou, X X X n+1 n πij lim πijn ≤ lim inf πij πki = lim inf πkj πij µi = = µj n i∈I i∈I n n i∈I P gilt, i∈I πij µi ≤ µj . Nun nehmen wir an, dass ein j0 existiert, so dass P d.h. π µ ≤ µj0 . Dann gilt i∈I ij0 i X XX X X X µj > πij µi = µi πij = µi . j∈I j∈I i∈I i∈I j∈I i∈I P Dieser Widerspruch impliziert, dass i∈I πij µi = µj ist, d.h. µ invariant ist. Es folgt, dass X πijn µi = µj ∀n ∈ N i∈I ist. Daher ergibt der Satz der dominierten Konvergenz X X X µi = lim πijn µi = lim πijn µi = µj µi . n i∈I i∈I n i∈I P Somit µj (1P − i∈I µi ) = 0 für alle i ∈ I. Deshalb ist entweder µi = 0 für alle i ∈ I oder i∈I µi = 1. Da die Kette positiv rekurrent ist, folgt, dass {µi }i∈I eine invariante Verteilung ist. P Sei nun qi i∈I eine anderePinvariante Verteilung. Dann gilt i∈I qi πijn = qj für alle n ∈ N, also für n → ∞ i∈I qi µj = qj . Dies ergibt µj = qj für alle j ∈ I. Endlich können wir den Beweis des Satzes 4.1 beenden. 42 Beweis des Satzes 4.1 (Eindeutigkeit). Wegen der obigen Proposition genügt es nachzuweisen, dass 1 (4.7) lim πijn = n E[τi ] für rekurrente Markoff-Ketten gilt. Dies ist auch als Erneuerungssatz bekannt. Natürlich, da E[τi ] = ∞ für null-rekurrente Markoff-Ketten, ergibt (4.7) die Existenz und Eindeutigkeit der invarianten Verteilung für positiv rekurrente MarkoffKetten. Der Beweis von (4.7) ist sehr lang und wir teilen ihn in mehrere Schritte. 1) Erneuerungskette. Wir erinnern an einige nützliche Definitionen über Erneuerungsketten. Sei Rn (j) := 1{Xn =j} , j ∈ I. Offenbar gilt πijn = Pi (Xn = j) = Ei [Rn (j)] = Pi (Rn (j) = 1) . Die Erneuerungsepochen sind durch τj (k) := inf{n > τj (k − 1) : Rn (j) = 1} k ≥ 1 τj (0) = 0 , (n) definiert. Natürlich ist τj (1) = τj , also Pi (τj (1) = n) = fij für alle i, j ∈ I. Die entscheidende Idee ist, dass die Kette die Erinnerung an den vergangenen Pfad verliert, jedes mal, wenn sie auf die Stelle j zurückkehrt. Daher ist der Pfad der Kette in mehrere unabhängige Teile, jede in den Zeiten zwischen τj (k) und (n) τj (k + 1), gespalten. Es folgt, dass Pi (τj (k) = n) = fij ist, unabhängig von k, und {τj (k)}k∈N0 ist eine Folge von unabhängigen Zufallsvariablen mit gleicher (n) Verteilung {fij }n∈N . Wir können die diesen Zufallsvariablen zugeordnete Irrfahrt durch n X Tj (n) := τj (k) k=0 definieren. Offenbar ist Pi (Tj (t) = n) = X (k ) (k ) fij 1 . . . fij 1 k1 +···+kt =n und πijn = Pi (Xn = j) = X Pi (Tj (t) = n) . t∈N 2) Eine stationäre Erneuerungskette. Wir führen jetzt eine zusätliche Erneuerungskette {τ̃ (k)}k∈N0 ein. Wir setzen für k ≥ 1 τ̃ (k) ∼ τj (k) und ∆(n) := P (τ̃ (0) = n) = Sei T̃j (n) := n X Pi (τ > n) . E[τi ] τ̃ (k) und π̃ij (n) := X t∈N k=0 43 Pi (T̃ (t) = n) , so gilt π̃ij (n) = X Pi (T̃ (t) = n) = t∈N 1 E[τi ] ∀n ∈ N . (4.8) Dann bemerken wir, dass aus der zweiten Gleichung in (2.7) folgt, dass πijn n X (k) πijn−k fii , n≥0 (4.9) π̃ijn−k fii n ≥ 0. (4.10) ˆ ˆ ˆ , π̃(s) = ∆(s) + fˆ(s)π̃(s) |s| < 1 , (4.11) = δ(n) + k=1 gilt. Analog ist π̃ijn = ∆(n) + n X (k) k=1 Aus der obigen Gleichung erhalten wir wobei p̂(s) := X sn pn , |s| < 1 . n∈N Da ˆ ∆(s) = 1 X n s Pi (τ > n) , E[τi ] n≥1 genügt es zu zeigen, dass P sn Pi (τ > n) 1 = ˆ 1−s 1 − f (s) n≥1 (4.12) gilt, so dass ˆ π̃(s) = 1 1 , E[τi ] 1 − s also (4.8). Der Beweis von (4.12): k 1 − fˆ(s) X 1 − sn (k) X (k) X n fii s = f = 1−s 1 − s ii n=1 k≥1 k≥1 X X (k) X sn fii = sn Pi (τ > n) . n≥1 k≥n+1 n≥1 3) Kopplung. Sei die Zufallsfolge {Uj (n)}n∈N durch Vj (t) := Tj (t) − T̃j (t) (4.13) definiert und N := inf{t : Vj (t) = 0}. Wir sehen sofort, dass {Vj (t) − Vj (0)}n∈N eine Markoff-Kette ist. Ausserdem ist, wegen des Satzes von Chung und Fuchs 44 (Satz 3.2), die Kette rekurrent ist, d.h. P (N < ∞) = 1, da E[Vj (t)] = 0 für n ≥ 1 und E[|Vj (t)|] ≤ 2E[τj ] < ∞. Somit gilt X X Pi (T̃j (t) = n, N < t) = Pi (Tj (t) = n, N < t) , t∈N t∈N da N Pi -f.s. endlich ist, so dass X πijn = Pi (T̃j (t) = n) t∈N + X Pi (Tj (t) = n, N ≥ t) − X t∈N Deshalb wollen wir zeigen, dass X lim Pi (Tj (t) = n, N ≥ t) = 0 , n t∈N Pi (T̃j (t) = n, N ≥ t) . t∈N lim n X Pi (T̃j (t) = n, N ≥ t) = 0 . (4.14) t∈N Wir bemerken, dass Tj (t) und T̃j (t) ansteigend bezüglich t sind, also Tj (t) ≤ Tj (N ) und T̃j (t) ≤ T̃j (N ) für t ≤ N . Dann gilt X Pi (Tj (t) = n, N ≥ t) ≤ Pi (Tj (N ) = n) = Pi (T̃j (N ) = n) t∈N und limn Pi (Tj (N ) = n) = Pi (Tj (N ) = ∞) muss null sein, da N Pi -f.s. endlich ist. Kombinieren wir (4.12) und (4.14), so erhalten wir 1 . lim πijn = n E[τj ] Bemerkung 4.2. Der originale Beweis des Erneuerungssatzes (nach Erdos, Feller und Pollard 1949) ist viel kürzer und gilt auch, wenn E[τ ] = ∞ ist. Hier haben wir uns für einen längere Beweis entschieden, um den wichtigen Begriff Erneuerung zu betonen. 45 Literaturverzeichnis [1] [2] [3] [4] [5] H. Bauer, Wahrsheinlichkeitstheorie, de Gruyter, (1991). L. Breiman, Probability, SIAM Classic Edition, (1992). T. Hida, Brownian Motion, Springer, (1980) D. Williams, Probability with Martingales, Cambridge University Press, (1991). S. R. S. Varadhan, Probability, Courant Lecture Notes, AMS (2001). 47