Skript zur Vorlesung Stochastik Frühlingsemester 2015 Prof. Benjamin Schlein Inhaltsverzeichnis 1 Einführung 1.1 Zufallsexperimente und Glückspiele . . . . . . . . . . . . 1.2 Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmasse 1.3 Kombinatorische Wahrscheinlichkeit . . . . . . . . . . . 1.4 Wahrscheinlichkeit und Frequenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 5 7 9 2 Masstheoretische Zugang zu Wahrscheinlichkeitstheorie 2.1 Charakterisierung von Wahrscheinlichkeitsmasse . . . . . . 2.2 Wahrscheinlichkeitsdichte für absolut stetige Masse . . . . . 2.3 Wichtige Beispiele von Wahrscheinlichkeitsmasse . . . . . . 2.4 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Erwartungswert und Varianz einer Zufallvariable . . . . . . 2.6 Charakteristische Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 10 15 23 26 28 35 . . . . 40 40 43 48 59 4 Konvergenzbegriffe 4.1 Konvergenz von Wahrscheinlichkeitsmasse . . . . . . . . . . . . . . . . . 4.2 Konvergenz von Zufallvariablen . . . . . . . . . . . . . . . . . . . . . . . 64 64 67 5 Das 5.1 5.2 5.3 73 73 73 78 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit 3.1 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . 3.2 Unabhängige Zufallvariablen . . . . . . . . . . . . . . 3.3 Unendliche Produkte und stochastische Prozesse . . 3.4 Asymptotische Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gesetz der grossen Zahlen Schwaches Gesetz der grossen Zahlen . . . . . . . . . . . . . . . . . . . . Starkes Gesetz der grossen Zahlen . . . . . . . . . . . . . . . . . . . . . Anwendungen in der Statistik . . . . . . . . . . . . . . . . . . . . . . . . 6 Der zentrale Grenzwertsatz 83 7 Markovketten 7.1 Markovketten mit stationären Übergangswahrscheinlichkeiten . . . . . . 7.2 Invariante Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Stoppzeiten und der starke Ergodensatz . . . . . . . . . . . . . . . . . . 1 89 92 94 107 1 Einführung Der zentrale Begriff dieser Vorlesung ist der Zufall. Wir sprechen von Zufall, wenn wir mit Ereignissen zu tun haben, die nicht mit Sicherheit vorhersehbar sind, und bei denen mit verschiedenen Wahrscheinlichkeiten verschiedene Ergebnissen möglich sind. Die Wahrscheinlichkeitstheorie, die Theorie des Zufalls, hat enorm viele Anwendungen im Alltag (das Lottospiel und andere Glückspiele, Wetterprognose,...), in der Wirtschaft (Versicherungen, Finanz,...) und auch in der Naturwissenschaft (Physik, Chemie,...). Zufall wird zur Beschreibung von Systemen benutzt, wo Informationen fehlen. Literatur. Das Buch, das die Vorlesung am nächsten kommt ist Hans-Otto Georgii. Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auslage, 2009, de Gruyter. Ein Klassiker ist William Feller. An Introduction to probability theory and its applications. Vol. I. Wiley. Teile der Vorlesungen werde ich auch aus dem Skript von Prof. Anton Bovier, aus der Universität Bonn, nehmen (zB. die Einführung von Wahrscheinlichkeiten als Bewertungen von Ereignissen in Zufallsexperimenten) 1.1 Zufallsexperimente und Glückspiele Ein Zufallsexperiment ist ein Experiment, bei dem verschiedene Ergebnisse möglich sind. Ein Paar einfache Bespiele von Zufallsexperimente sind das Münzwurf (zwei mögliche Ergebnisse, “Kopf” und “Zahl”), das Würfeln (6 mögliche Ergebnisse, die wir mit den Zahlen 1, 2, ,̇6 bezeichnen), die Roulette (37 mögliche Ergebnisse, die wir mit den Zahlen 0, 1, . . . , 36), das Lotto (von einer Urne mit 45 numerierte Kugel werden 6 herausgefisch; es gibt also 45!/(6!39!) = 8, 145, 060 mögliche Ergebnisse). Man nennt die Menge der mögliche Ergebnisse der Ergebnisraum des Zufallsexperiment, und wir bezeichnen ihn normalerweise mit Ω. Zum Beispiel, Ω = {“Kopf”, “Zahl”} beim Münzwurf, Ω = {1, 2, 3, 4, 5, 6} beim Würfeln, Ω = {0, 1, . . . , 36} bei der Roulette, Ω = {(n1 , . . . , n6 ) : 1 ≤ n1 < n2 < · · · < n6 ≤ 45} bei dem Lotto. In einem Glücksspiel wetten Spieler über das Ergebnis x ∈ Ω eines Zufallsexperiments. Spieler dürfen einen Einsatz g auf Teilmengen A ⊂ Ω setzen. Wenn das Ereigniss x ∈ A eintritt, zahlt die Bank ein Vielfaches nA g vom Einsatz g an dem Spieler aus (der reine Gewinn vom Spieler ist (nA − 1)g). Die Zahl nA wird von der Bank festgelegt; sie gibt eine Abschätzung der Wahrscheinlichkeit, dass A eintritt. Nehmen wir als Beispiel das Roulette-Spiel. Man darf zB. auf der Teilmenge A = {25} wetten, die aus einer einzigen Zahl besteht. Wenn die Kugel gerade auf der Zahl 25 fällt, also wenn das Ereignis A eintritt, so bezahlt die Bank 36 Mal den Einsatz vom Spieler. Man kann auch auf der Teilmenge B = {1, 3, 5, . . . , 35} (ungerade Zahlen) wetten. Tritt B ein, so bezahlt die Bank 2 Mal den Einsatz. Also, nA = 36 und nB = 2. Es gibt keine eindeutige Wahl dieser Bewertungen. Die Bank könnte zB. nA = 10 setzen; dann würden aber die Spieler das Spiel nicht als fair empfinden, und sie würden deswegen weniger Geld spielen. Die Bank könnte auch nA = 50 setzen; dann würde sie aber bald Geld verlieren. Es stellt sich die 2 Frage, welche Bedingungen müssen die Bewertungen nA erfüllen, damit die Bank kein Geld verliert und, anderseits, damit das Spiel von den Spielern als fair empfunden wird. Um diese Frage zu beantworten, betrachten wir ein allgemeines Glückspiel. Wir bezeichnen mit Ω der Ergebnisraum eines Zufallsexperiments. Weiter, sei A ⊂ P (Ω) die Menge aller Teilmengen von Ω über welche die Spieler wetten dürfen. Wir nehmen an, A sei eine Algebra, d.h. i) Ω ∈ A, ii) Ist A ∈ A so ist auch Ac ∈ A, iii) Sind A, B ∈ A, dann ist auch A ∪ B ∈ A. Die Bank muss Zahlen nA für alle A ∈ A festlegen. Eine Bewertung {nA }A∈A heisst zulässig, falls es für die Spieler nicht möglich ist, ein Gewinn zu erzielen, unabängig aus dem Ergebnis des Zufallsexperiments. Die erste offenbare Bedingung, die erfüllt sein muss, damit eine Bewertung zulässig sein kann, ist die Ungleichung nΩ ≤ 1 (weil das Ereignis x ∈ Ω immer mit Sicherheit erfüllt ist). Ferner finden wir: jede zulässige Bewertung muss die Bedingung 1 1 + ≥1 nA nAc (1) für alle A ∈ A erfüllen. In der Tat, betrachten wir die folgende Situation. Ein Spieler setzt den Einsatz gA auf dem Ereignis A ∈ A und den Einsatz gAc auf dem Ereignis Ac . Wählt der Spieler gAc = nA gA /nAc , dann erzielt er den Gewinn nA gA = nAc gAc unabhängig aus dem Resultat des Experiments. Damit die Bewertung zulässig ist, muss also nA gA ≤ gA + gAc = gA + nA gA /nAc gelten. Das impliziert, dass nA ≤ 1 + nA /nAc und (1) folgt. Die Bewertung {nA }A∈A heisst fair, wenn 1 1 + =1 nA nAc für alle A ∈ A (Banken benutzen tatsächlich keine faire Bewertungen, weil sonst würden sie kein Geld verdienen). Es folgt sofort aus der Definition, dass für eine zulässige und faire Bewertung nΩ = 1 und n∅ = ∞ gelten muss. Tatsächlich haben die Zulässigkeit und das Fairness einer Bewertung mehrere Folgerungen, wie wir im nächsten Lemma zeigen. Lemma 1.1. Sei {nA }A∈A eine faire, zulässige Bewertung. Dann gilt, für alle A, B ∈ A, 1 nA∪B = 1 1 1 + − nA nB nA∩B (2) Beweis. Wir betrachten zunächst den Fall A ∩ B = ∅. Wir müssen dann zeigen, dass −1 −1 n−1 A∪B = nA + nB (weil nΩ = 1 und deswegen n∅ = ∞). Betrachte die drei Ereignisse A, B und (A ∪ B)c . Nehmen wir an, dass ein Spieler die Einsätze gA , gB und g(A∪B)c auf dieser drei Ereignisse so wählt, dass nA gA = nB gB = n(A∪B)c g(A∪B)c 3 Nach dem Experiment bekommt der Spieler von der Bank die Summe nA gA , unabhängig aus dem Ergebnis von Experiment. Damit die Bewertung zulässig ist, muss also sicher nA gA ≤ gA + gB + g(A∪B)c = gA + gA gelten. Das zeigt, dass nA ≤ 1 + nA nA + gA nB n(A∪B)c nA nA + nB n(A∪B)c und damit, dass 1≤ 1 1 1 1 1 1 + + + +1− = nA nB n(A∪B)c nA nB nA∪B weil das Spiel fair ist. Also −1 −1 n−1 A∪B ≤ nA + nB (3) Um die umgekehrte Ungleichung zu zeigen, betrachten wir ein Spieler, der die Einsätze gAc , gB c und gA∪B auf den drei Ereignissen Ac , B c , A ∪ B so wählt, dass nAc gAc = nB c gB c = nA∪B gA∪B . Der Gewinn vom Spieler beträgt dann 2nAc gAc , unabhängig vom Ergebniss vom Experiment (unabhängig aus dem Ergebniss sind immer zwei der drei Ereignisse erfüllt). Damit das Spiel zulässig ist, muss also gAc + gB c + gA∪B ≥ 2nAc gAc oder 1 1 1 + + ≤2 c c nA nB nA∪B −1 −1 −1 Aus dem Fairness vom Spiel wissen wir, dass n−1 Ac = 1 − nA und nB c = 1 − nB . Damit finden wir 1 1 1 ≤ + nA∪B nA nB Aus (3) finden wir 1 nA∪B = 1 1 + nA nB für alle A, B ∈ A, mit A ∩ B = ∅. Um (2) zu zeigen müssen wir nun einfach die Menge A∪B als Vereining von den drei disjunkten Mengen A\B, B\A und A∩B darstellen. Wir haben also gezeigt, dass die einfachen Bedingungen, dass die Bewertungen zulässig und fair sein müssen, sofort die Eigenschaften i) ii) nΩ = 1 −1 −1 n−1 A∪B = nA + nB für alle A, B ∈ A, mit A ∩ B = ∅ (4) implizieren. Anderseits, kann man sich leicht überzeugen, dass diese Bedingungen hinreichend sind, um sicher zu sein, dass es keine Wette existiert, bei der die Spieler ein Gewinn sichern können. Um diese Tatsache zu zeigen, nehmen wir der Einfachkeits halber an, dass Ω eine endliche Menge ist und, dass {x} ∈ A, für alle x ∈ Ω (d.h. man kann immer auf Ereignisse wetten, die aus einem einzigen Ergebnis bestehen). Nehmen 4 wir an, ein Spieler wettet den Einsatz gA auf dem Ergebnis A ∈ A, für alle A ∈ A (er kann also gleichzeitig auf mehrere Ergebnisse wetten). Wir bezeichnen dann mit r(x) den Gewinn oder den Verlust vom Spieler, wenn beim Experiment das Ergebnis x ∈ Ω eintritt. Es gilt X X r(x) = gA nA 1A (x) − gA A∈A A∈A Aus der Bedingungen nΩ = 1 und (2) folgt, dass X n−1 x r(x) = x∈Ω X n−1 x x∈Ω X = A∈A gA = 1. Daher nA gA 1A (x) − A∈A " X −1 x∈Ω nx P X gA A∈A # X n−1 x nA − 1 = 0 x∈A aus (2). Das zeigt, dass wenn x ∈ Ω existiert, mit n−1 x r(x) > 0 (was ein Gewinn für den Spieler garantiert), dann muss auch y ∈ Ω existieren, mit n−1 y r(y) < 0 (was ein Verlust für den Spieler darstellt). Mit andere Wörter: es existiert keine Wette, die ein sicherer Gewinn sichert. Zusammenfassend: die Bedingungen (4) sind notwending und hinreichend, um zu garantieren, dass eine Bewertung zulässig und fair ist. Bemerke, aber, dass die Bedingungen (4) die Bewertung nicht eindeutig festlegen. Es gibt immer noch sehr viele Freiheit in der Wahl der Zahlen nA , die die Bank benutzen soll, um Verluste zu vermeiden (beim Münzwurf wäre zB. die Bewertung nKopf = 8 und nZahl = 8/7 zulässig und fair; wenn aber die Spieler immer auf “Kopf” wetten würden, würde die Bank bald viel Geld verlieren). Die Tatsache, dass die Bank eine zulässige und faire Bewertung {nA }A∈A wählt bedeutet, dass die Bank die Wahrscheinlichkeit n−1 A zum Ereigniss A zuordnet. In dieser Weise sind Wahrscheinlichkeiten, wie Bewertungen, subjektiv; sie hängen von der Schätzung der Bank ab. Wir können also den Begriff von zulässige und faire Bewertung um den Begriff von Wahrscheinlichkeit axiomatisch einzuführen. 1.2 Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmasse Wir betrachten allgemein ein Zufallsexperiment mit einem beliebigen Ergebnisraum Ω. Im letzten Abschnitt haben wir angenommen, dass die Ereignisse über welche die Spieler wetten dürfen eine Algebra A von Teilmengen von Ω bilden. Für den Fall, dass der Ergebnisraum Ω unendlich viele Elemente enthält, lohnt es sich zu verlangen, dass A eine σ-Algebra über Ω ist (das wird uns erlauben, Wahrscheinlichkeiten von unendliche Vereinigungen von Mengen in A zu betrachten). Wir erinneren aus Analysis 3 die Definition einer σ-Algebra. Definition 1.2. Sei Ω eine Menge. Eine Menge A von Teilmengen von Ω heisst eine σ-Algebra auf Ω falls die folgende Bedingungen erfüllt sind. i) Ω ∈ A. ii) Falls A ∈ A, so ist auch Ac ∈ A. 5 iii) Ist {An }n∈N eine Folge in A, so ist auch [ An ∈ A n∈N Also, σ-Algebren enthalten Ω und ∅ und sie sind bezüglich der Operation A → Ac und bezüglich abzählbare Vereinigungen abgeschlossen. Ist Ω eine endliche Menge, so ist jede Algebra auf Ω auch eine σ-Algebra. Ist nun Ω eine Menge, und A eine σ-Algebra auf Ω, so können wir den Begriff von Wahrscheinlichkeitsmass wie folgt definieren. Definition 1.3. Sei Ω eine Menge und A eine σ-Algebra auf Ω. Ein Wahrscheinlichkeitsmass auf (Ω, A) ist eine Funktion P : A → R mit den Eigenschaften i) P(∅) = 0, ii) P(Ω) = 1, iii) σ-Additivität: sei {An }n∈N eine Folge in A von disjukten Teilmengen von Ω, d.h. Ai ∩ Aj = ∅ für alle i 6= j. Dann gilt [ X P Aj = P(Aj ) . j∈N j∈N Bemerkungen: • Das Tripel (Ω, A, P), mit Ω ein Ergebnismenge, A eine σ-Algebra auf Ω und P ein Wahrscheinlichkeitsmass auf (Ω, A), wird als Wahrscheinlichkeitsraum bezeichnet. • Ein Wahrscheinlichkeitsmass ist einfach ein Mass (im Sinne von der Masstheorie), mit der zusätzliche Bedingung P(Ω) = 1. • Statt Wahrscheinlichkeitsmass benutzt man oft auch die Bezeichnung Wahrscheinlichkietsverteilung oder einfach Verteilung. • Die Bedingungen P(∅) = 0 und P(Ω) = 1 entsprechen genau die Bedingungen n∅ = ∞ und nΩ = 1 für zulässige faire Bewertungen. Die σ-Additivität ist dagegen eine Verallgemeinerung zu abzählbare Vereinigung der Additivität P(A ∪ B) = P(A) + P(B) für disjukte A, B ∈ A. Die Additivität eines Wahrscheinlichkeitsmasses entspricht die Bedingung ii) in (4) für zulässige und faire Bewertungen. Mit andere Wörter, wir haben die wichtigste Eigenschaften von Bewertungen genommen (Zulässigkeit und Fairness), und wir haben sie als Axiome für Wahrscheinlichkeitsmasse postuliert. Die Def. 1.3 gibt eine axiomatische Definition von Wahrscheinlichkeitsmass (nach Kolmogorov). Sie bestimmt aber nicht welches Wahrscheinlichkeitsmass fuer die Beschreibung eines Zufallsexperiments benutzt werden soll. 6 1.3 Kombinatorische Wahrscheinlichkeit Wenn Ω eine endliche Menge ist, gibt es ein Wahrscheinlichkeitsmass, das eine besonder wichtige Rolle spielt. Das ist die Gleichverteilung, wo jedem Element x ∈ Ω die selbe Wahrscheinlichkeit P({x}) = 1/|Ω| zugeordnet wird. Beim Münzwurf, beim Würfeln, bei der Roulette erwarten wir eine Gleichverteilung aus Symmetrie-Gründen (zB. beim Würfeln gibt es keinen Grund, warum das Ergebnis 6 wahrscheinlicher als das Ergebnis 3 sein sollte, usw.). Unter Annahme einer Gleichverteilung gilt einfach P(A) = |A|/|Ω|. Um Wahrscheinlichkeiten von Ereignissen zu bestimmen, müssen wir dann nur die Kardinalität von Teilmengen von Ω berechnen. Das ist oft ein nicht triviales Problem. Wir diskutieren hier ein Paar klassischen Beispiele. Wir betrachten als Zufallsexperiment die Auswahl von r Elemente aus einer Population von n Elemente. Das Experiment kann in verscheidene Weise durchgeführt werden; das führt zu verschiedene Ergebnisräume und zu verschiedenen Wahrscheinlichkeiten. Die erste Frage, ist ob für uns die Reihenfolge der r ausgewählten Elemente eine Rolle spielt oder nicht. Die zweite Frage ist, ob wir die ausgewählte Elemente nach dem Wahl zurück in der ursprünglichen Population legen oder nicht. Man spricht von Auswahl mit oder ohne Zurücklegen (manchmal auch “mit oder ohne Wiederholung”). Wir betrachten die 4 Fälle separat: • Mit Reihenfolge, mit Zurückziehen. Wenn die Reihenfolge wichtig ist, und wenn nach jeder Auswahl das ausgewählte Element zurückgezogen wird, gibt es genau nr mögliche Auswähle von r Elemente aus einer Population von n (wir haben n mögliche Auswähle für das erste Element, n für das zweite, usw.). • Mit Reihenfolge, ohne Zurückziehen. Hier muss r ≤ n sein. Es gibt dann genau n(n − 1)(n − 2) . . . (n − r + 1) = n! (n − r)! mögliche Auswähle von r Elemente aus einer Population von n. • Ohne Reihenfolge, mit Zurückziehen. Es gibt in diesem Fall n+r−1 r mögliche Ergebnisse. • Ohne Reihenfolge, ohne Zurückziehen. Auch hier muss r ≤ n sein. Das Zufallsexperiment hat dann n n! = r r!(n − r)! mögliche Ergebnisse. Viele Probleme in der kombinatorische Wahrscheinlichkeitstheorie können auf einem Auswahl-Problem zurückgeführt werden. Wir diskutieren ein Paar Beispiele. 7 • Karten mit verschiedenen Werten. Wir wählen 5 Karten aus einem Stapel mit 52 Karten. Was ist die Wahrscheinlichkeit dafür, dass die 5 Karten 5 verschiedene Werten tragen? Wir nehmen an, alle Kombinationen von 5 Karten haben dieselbe Wahrscheinlichkeit. Da die Reihenfolge der Karte keine Rolle spielt, und da die Karten ohne Zurückziehen ausgewählt werden, besteht der Ergebnisraum aus 52 |Ω| = 5 Elementen. Sei nun A der Ereignis, dass die 5 gewählte Karte fünf verschiedene Werten haben. Die Frage ist, was ist die Kardinalität von A. Es gibt 13 5 Weise, um die Werten der 5 Karten zu wählen. Wenn wir die Werten der 5 Karten festgewählt haben, können wir noch die Farben der 5 Karten wählen. Also 45 13 |A| 444036 45 · 13 cot 12 · 11 · 10 · 9 5 P(A) = = 52 = = ' 0.51 |Ω| 52 · 51 · 50 · 49 · 48 515049 5 • Belegungsproblem 1). r (unterscheidbare) Kugeln werden in n unterscheidbare Zellen verteilt. Was ist die Wahrscheinlichkeit dafür, dass eine gegebene Zelle genau k Kugel enthält? Die Anzahl mögliche Verteilungen der r Kugeln in den n Zellen ist einfach nr (jede Kugel kann in n verschiedenen Zellen gelegt werden). Sei Ak das Ereignis, dass die gewählte Zelle genau k Kugeln enthält. Wir haben r |Ak | = (n − 1)r−k k Also, r (n − 1)r−k r 1 1 r−k P(Ak ) = = 1− k k nk nr n Man nennt P(Ak ) die binomiale Verteilung. Bemerke, dass, wie erwartet, r X P(Ak ) = 1 k=0 • Belegungsproblem 2). Wir betrachten das selbe Zufallsexperiment wie im letzten Beispiel, d.h. wir möchten r (unterscheidbare) Kugeln in n unterscheidbare Zellen verteilen. Die Frage ist nun: Was ist die Wahscheinlichkeit dafür, dass die j-te Zelle genau rj Kugeln enthält, für alle j = 1, . . . , n (unter der Annahme, dass r1 + r2 + · · · + rn = r)? 8 Wie im letzten Beispiel, die Anzahl mögliche Verteilungen ist einfach nr . Die Kardinalität vom Ereignis A =“rj Kugel im j-te Zelle, für alle j = 1, . . . , n” ist dagegen r! r − r1 − · · · − rn−1 r r − r1 = ... rn r2 r1 r1 !r2 ! . . . rn ! Also, P(A) = 1 r! r n r1 !r2 ! . . . rn ! • Zerlegungproblem. Wir müssen n ununterscheidbare Kugel in k unterscheidbare Zellen teilen (die Zellen dürfen auch leer sein). Was ist die Wahrscheinlichkeit dafür, dass alle Elemente in der ersten Zelle sind? Das Problem ist ähnlich wie das Belegungsproblem, hier sind aber die Kugeln ununterscheidbar (wichtig ist nur wieviele Kugel in den verschiedenen Zellen sind; welche Kugel in welche Zelle ist spielt dagegen keine Rolle). Um das Problem zu lösen, müssen wir bestimmen, wie viele Wahle von ganzen Zahlen r1 , . . . , rk ≥ 0 existieren, die die Bedingung r1 + r2 + · · · + rk = n erfüllen. Die Antwort ist n+k−1 (n + k − 1)! (n + k − 1)(n + k − 2) . . . (n) = = k k!(n − 1)! k(k − 1) . . . 1 Also, die Wahrscheinlichkeit für das Ereignis “n Kugel in der ersten Zelle” ist n+k−1 −1 . k 1.4 Wahrscheinlichkeit und Frequenzen Im letzten Abschnitt haben wir gesehen, dass aus Symmetrie-Gründen die Gleichverteilung eine wichtige Rolle bei Experimenten mit einem endlichen Ergebnisraum spielt. In der Praxis ist aber die Symmetrie nie perfekt; es stellt sich also die Frage, ob eine Spielbank bei einem Spiel wie das Würfeln oder die Roulette wirklich die Gleichverteilung als Wahrscheinlichkeitsmass wählen soll, um Geldverluste zu vermeiden. Wir betrachten nun ein unendlich oft wiederholbar Zufallsexperiment (wie zum Beispiel die Roulette oder das Würfeln) mit endlichen Ergebnisraum Ω und mit σ-Algebra A. Wir nehmen an ein Spieler wiederholt k Mal das Zufallsexperiment, immer mit den gleichen Einsätzen {gA }A∈A . Wir bezeichnen die Ergebnisse der k Experimenten mit x1 , . . . , xk ∈ Ω. Wir definieren auf A die Funktion fk (A) = k 1X 1(xi ∈ A) k i=1 Man kann leicht überprüfen, dass (für alle x1 , ,̇xk ∈ Ω) die Funktion fk : A → [0; ∞) ein Wahrscheinlichkeitsmass ist. fk heisst die empirische Verteilung der Ergebnisse. Lemma 1.4. Ist nA = 1/fk (A) für alle A ∈ A, dann ist die Summe der Auszahlungen der Bank in den k Spielen gleich zur Summer der Einsätze des Spielers. Für jede andere zulässige und faire Bewertung gibt es eine mögliche Einsatzstrategie (d.h. eine Wahl der Einsätze {gA }A∈A ), die einen positiven Gewinn garantiert. 9 Beweis. Nehmen wir zunächst an, dass nA = 1/fk (A) für alle A ∈ A. Die Auszahlung der Bank beträgt (erinnere, dass der Spieler k Mal mit den gleichen Einsätzen spielt) k X X gA nA 1(xi ∈ A) = j=1 A X gA na kfk (A) = k A X gA A was genau die gesamte Summe entspricht, die vom Spieler in den k Experimenten eingesetzt wird. Wenn A ∈ A existiert, mit nA 6= 1/fk (A), haben wir entweder nA > 1/fk (A) oder nAc > 1/fk (Ac ). O.B.d.A. können wir annehmen, dass nA > 1/fk (A). Dann wählen wir die Einsätze gA = 1 und gB = 0 für alle B ∈ A mit B 6= A. In den k Spielen gewinnt der Spieler die Summe k X nA 1(xi ∈ A) = knA fk (A) > k i=1 also mehr als der gesamten Einsatz k. Das Problem mit der empirische Verteilung fk ist, dass die Bank die Bewertung vor den Spielen festlegen muss. Der frequentistischen Ansatz zu Wahrscheinlichkeiten und Bewertungen ist deswegen nur sinnvoll, wenn die Frequenzen fk im Limes k → ∞ einen Grenzwert f haben. In diesem Fall ist f : A → [0; ∞) ein Wahrscheinlichkeitsmass, und die Bewertung nA = 1/f (A) ist optimal im Sinne, dass k 1 XX gA (nA 1(xi ∈ A) − 1) = 0 k→∞ k lim i=1 A für jede Einsatzstrategie {gA }A∈A . In der Statistik heissen die Frequenzen fk Schätzer für die Wahrscheinlichkeitsdichte f . 2 2.1 Masstheoretische Zugang zu Wahrscheinlichkeitstheorie Charakterisierung von Wahrscheinlichkeitsmasse Wir betrachten ein Ergebnisraum Ω, und eine σ-Algebra A auf Ω. In diesem Abschnitt untersuchen wir die Frage, wie können wir ein Wahrscheinlichkeitsmass P auf A characterizieren? Die Antwort zu dieser Frage ist einfach, falls Ω endlich ist. Nehmen wir zunächst P an, dass A = P (Ω) die Potenzmenge von Ω ist. Seien pi ∈ [0; 1], für alle i ∈ Ω, mit pi = 1. Dann gibt es ein eindeutiges Wahrscheinlichkeitsmass P : A → [0; ∞) mit P({i}) = pi für alle i ∈ Ω. Mit anderen Wörter, jede Wahrscheinlichkeitsmass P wird eindeutig durch die Werten von P auf den Mengen {i}, i ∈ Ω, bestimmt. Das folgt einfach aus der Tatsache, dass jede Menge in A als abzählbare Vereinigung von disjukten Mengen der Form {i}i∈Ω geschrieben werden kann. Nun, falls A = 6 P (Ω), finden wir trotzdem eine minimale Partition π1 , . . . , πn von Ω mit Ω = ∪nj=1 πj und πk ∩ B ∈ {∅, πk } für alle B ∈ A und alle k = 1, . . . , n. Dann gilt: 10 P für alle p1 , . . . , pn ∈ [0; 1] mit nj=1 pj = 1 gibt es genau ein Wahrscheinlichkeitsmass P auf A mit P(πj ) = pj für alle j = 1, . . . , n. Jetzt kommen wir zurück zum allgemeinen Fall, wo Ω nicht notwendigerweise endlich ist. Das folgende wichtige Theorem zeigt, dass ein Wahrscheinlichkeitsmass P auf einer σ-Algebra A eindeutig durch die Werten von P auf einer beliebigen Teilmenge G ⊂ A, die A erzeugt, characterisiert wird. Theorem 2.1 (Carathéodory Erweiterungstheorem). Sei (Ω, A) ein messbarer Raum und G eine Algebra auf Ω, mit σ(G) = A. Sei P0 : G → [0; 1] mit P0 (∅) = 0, P0 (Ω) = 1, und ! X [ P0 (An ) P0 An = n∈N n∈N für alle Folge {An }n∈N in G mit ∪n∈N An ∈ G und An ∩ Am = ∅ für alle n 6= m. Dann gibt es ein eindeutiges Wahrscheinlichkeitsmass P auf A, mit P|G = P0 . Bemerkungen: Sei G ein Ring auf einer Menge Ω (ein Ring ist eine Familie von Teilmengen von Ω, mit ∅ ∈ G und abgeschlossen bezüglich Differenzen und endliche Vereinigungen). Eine Funktion µ0 : G → [0; ∞] mit µ0 (∅) = 0 und µ0 (∪n∈N An ) = P µ (A ) für alle Folge An in G mit ∪n An ∈ G heisst ein Prämass auf G (ein 0 n n∈N Prämass auf einer σ-Algebra ist ein Mass). In seiner allgemeiner Version besagt das Erweiterungstheorem von Carathéodory, dass es ein Mass µ auf σ(G) existiert, mit µ|G = µ0 (d.h. dass jede Prämass auf einem Ring G zu einem Mass auf dem von G erzeugten σAlgebra erweitert werden kann). Die Erweiterung ist eindeutig, wenn G stabil bezüglich Durchschnitte ist (was in einer Algebra immer den Fall ist), und falls eine Folge En in G existiert, mit ∪n∈N En = Ω und mit µ0 (En ) < ∞ für alle n ∈ N (diese Bedingung ist automatisch erfüllt für ein Wahrscheinlichkeitsmass, weil es endlich ist). Beweis. Für beliebige A ⊂ Ω wir definieren CA = {Folge (An )n∈N in G mit [ An ⊃ A} n∈N Auf der Potenzmenge P (Ω) definieren wir die Abbildung ( ) X ∗ P0 (An ) : (An ) ∈ CA P (A) := inf n∈N (da Ω ∈ G ist CA sicher nicht leer). Schritt 1. P∗ (A) = P0 (A) für alle A ∈ G. Einerseits, mit der Folge (A, ∅, ∅, . . . ) ∈ CA finden wir, dass P∗ (A) ≤ P0 (A). AnderS seits, falls (An )n∈N eine Folge in CA ist, dann ist n∈N (An ∩ A) = A und deswegen (aus Subadditivität der Abbildung P0 auf G) X X P0 (A) ≤ P0 (An ∩ A) ≤ P0 (An ) n∈N n∈N Also, P0 (A) ≤ P∗ (A). Das zeigt, dass P0 (A) = P∗ (A) für alle A ∈ G. 11 Schritt 2. P∗ : P (Ω) → [0; ∞] ist ein äusseres Mass. Wir müssen zeigen, dass i) P∗ (∅) = 0 (klar), ii) ist A ⊂ B, so gilt P∗ (A) ≤ P∗ (B) (auch klar), iii) ist (An )n∈N eine Folge in P (Ω), so gilt ! X [ P∗ P∗ (An ) (5) An ≤ n∈N n∈N Um (5) zu zeigen bemerken wir, dass, aus der Definition von P∗ , finden wir zu jedem ε > 0 und n ∈ N eine Folge (An,m )m∈N in CAn (die Mengen An,m sind insbesondere in G) mit X ε P∗ (An ) ≥ P0 (An,m ) − n 2 m∈N Dann ist die Doppelfolge (An,m )n,m∈N in C∪n An und deswegen ! XX X [ ∗ P P0 (An,m ) ≤ P∗ (An ) + ε An ≤ n∈N n∈N m∈N n∈N Da ε > 0 beliebig ist, finden wir (5). Schritt 3. Jede A ∈ G ist P∗ -messbar. Wir erinnern aus Analysis 3, dass A ⊂ Ω P∗ -messbar ist, wenn P∗ (B) = P∗ (B ∩ A) + P∗ (B ∩ Ac ) für alle B ⊂ Ω. Sei nun A ∈ G, und B ⊂ Ω beliebig. Zu beliebigem ε > 0 finden wir eine Folge An in CB mit X P∗ (B) ≥ P0 (An ) − ε n∈N Wegen der Additivität von P0 auf G finden wir P0 (An ) = P0 (An ∩ A) + P0 (An ∩ Ac ) für alle n ∈ N, und deswegen X X P∗ (B) ≥ P0 (An ∩ A) + P0 (An ∩ Ac ) − ε ≥ P∗ (B ∩ A) + P∗ (B ∩ Ac ) − ε n∈N n∈N weil die Folgen (An ∩ A)n∈N und (An ∩ Ac )n∈N in CB∩A , bzw. in CB∩Ac liegen. Da ε > 0 beleibig war, erhalten wir P∗ (B) ≥ P∗ (B ∩ A) + P∗ (B ∩ Ac ) Aus der Subadditivität des äusseres Masses P∗ , schliessen wir, dass P∗ (B) = P∗ (B ∩ A) + P∗ (B ∩ Ac ) 12 und also, dass G ⊂ MP∗ . Das impliziert auch, dass σ(G) ⊂ MP∗ . Das zeigt, dass die Einschränkung von P∗ auf σ(G) ein Mass ist, das auf G mit P0 übereinstimmt. Schritt 4. Eindeutigkeit: seien P1 und P2 zwei Wahrscheinlichkeitsmasse auf σ(G), mit P1 (A) = P2 (A) für alle A ∈ G. Wir behaupten, dass P1 = P2 . Wir setzen D = {B ∈ σ(G) : P1 (B) = P2 (B)} Wir zeigen, dass D ein Dynkin-System ist. Wir müssen zeigen, dass Ω ∈ D und, dass D stabil ist, bezüglich der Operation B → B c und bezüglich abzählbare Vereinigungen von disjukten Mengen. Ω ∈ D ist offenbar weil Ω ∈ G. Sei nun B ∈ D. Dann gilt P1 (B c ) = 1 − P1 (B) = 1 − P2 (B) = P2 (B c ) Also, B c ∈ D. Schlussendlich, sei (Bn )n∈N eine Folge disjunkten Mengen in D. Dann gilt, aus der σ-Additivität von P1 und P2 , ! ! X X [ [ P1 (Bn ) = P2 (Bn ) = P2 Bn P1 Bn = n n n n und deswegen ist auch ∪n Bn ∈ D. Das zeigt, dass D ein Dynkin-System ist. Es gilt offenbar G ⊂ D. Sei nun δ(G) das Dynkin System, das von G erzeugt wird (d.h. das kleinste Dynkin System, das G enthält). Dann gilt auch δ(G) ⊂ D. Da aber G eine Algebra ist (und deswegen stabil bezüglich Durchschnitte), gilt δ(G) = σ(G) (Analysis 3, Satz 2.14). Wir haben gezeigt, dass σ(G) = D, d.h. P1 und P2 stimmen auf der ganze σ-Algebra σ(G) überein. Eine Anwendung vom Carathéodory Erweiterungstheorem ist die folgende Charackterisierung von Wahrscheinlichkeitsmasse auf R. Satz 2.2. Für jede monoton wachsende rechtsstetige Funktion F : R → R mit lim F (x) = 0, x→−∞ und lim F (x) = 1 x→∞ gibt es genau ein Wahrscheinlichkeitsmass P auf (R, B(R)) so, dass P((a; b]) = F (b) − F (a) für alle −∞ < a < b < ∞. Beweis. Wir bezeichnen mit G0 die Menge aller halboffenen Intervalle (s; t] mit −∞ ≤ s < t < ∞ und aller Intervalle der Form (s; ∞), mit s ∈ R. Wir bezeichnen mit G die Menge aller endlichen Vereinigungen von Mengen aus G0 . Dann ist G eine Algebra. Auf G0 definieren wir P0 ((s; t]) = F (t) − F (s) und P0 ((s; ∞)) = F (∞) − F (s) = 1 − F (s). Durch endliche Additivität kann P0 auf der ganze Algebra G definiert werden. Wichtig dabei ist die Tatsache, dass P0 ((s; t]) + P0 ((t; r]) = P0 ((s; r]), und P0 ((s; t]) + P0 (t; ∞)) = P0 ((s; ∞)), die leicht überprüft werden kann. 13 Damit ist P0 ein endlich additives Mass auf der Algebra G. Um Theorem 2.1 anzuwenden, müssen wir überprüfen, dass ! X [ P0 (An ) P0 An = n∈N n∈N für alle Folge (An )n∈N in G mit ∪n An ∈ G (d.h. wir müssen überprüfen, dass P0 ein Prämass ist). Wir haben in Analysis 3 gezeigt (Proposition 2.20), dass ein endlich additives Mass µ auch σ-additiv ist, wenn limn→∞ µ(An ) = 0 für jede monoton fallende Folge (An )n∈N mit ∩n∈N An = ∅. Also, um zu zeigen, dass P0 ein Prämass ist, müssen wir beweisen, dass lim P0 (An ) = 0 n→∞ für jede Folge (An )n∈N in G mit An ⊂ An−1 für alle n ∈ N und ∩n An = ∅. Sei also (An )n∈N eine Folge in G mit An ⊂ An−1 für alle n ∈ N und ∩n∈N An = ∅ aber mit lim P0 (An ) = a > 0 n→∞ (aus der Monotonie, der Limes existiert immer). Wir bemerken, dass für jedes Intervall I ∈ G0 (also entweder I = (s; t] oder I = (s; ∞)) und jedes ε > 0, eine kompakte Menge K und ein Intervall I 0 ∈ G0 existieren, mit I 0 ⊂ K ⊂ I und P0 (I 0 ) ≥ P(I) − ε. Hier spielt die Annahme, dass F rechtsstetig ist eine wichtige Rolle; zu einem gegebenen Intervall I = (s; t], die Tatsache, dass F rechtsstetig ist, erlaubt uns s0 ∈ (s; t) zu finden, mit F (s0 ) − F (s) < ε. Dann können wir I 0 = (s0 ; t] und K = [(s+s0 )/2, t] wählen (analog können wir im Fall I = (s; ∞) vorgehen, durch Benutzung der Rechtsstetigkeit und der Annahme F (∞) = limt→∞ F (t) = 1). Also, für alle n ∈ N finden wir Bn ∈ G und Kn kompakt, mit Bn ⊂ Kn ⊂ An und P0 (Bn ) ≥ P0 (An ) − a2−n−1 . Da An ⊂ An−1 für alle n, finden wir, dass An ⊂ (B1 ∩ B2 ∩ · · · ∩ Bn ) ∪ n [ (Aj \Bj ) j=1 Das impliziert, dass P0 (B1 ∩ · · · ∩ Bn ) ≥ P0 (An ) − P0 n [ (Aj \Bj ) ≥ P0 (An ) − j=1 n X a2−j−1 ≥ a/2 j=1 gleichmässig in n. Wir setzen nun K n = K1 ∩ · · · ∩ Kn . K n ist dann eine fallende Folge von kompakten Mengen. Es gilt k \ K n = K k 6= ∅ (6) n=1 weil K k ⊃ B1 ∩ B2 ∩ · · · ∩ Bk und P0 (B1 ∩ · · · ∩ Bk ) ≥ a/2. Da K n kompakt ist, für alle n ∈ N, es folgt, dass ∞ \ K n 6= ∅ (7) n=1 14 c c In der Tat, falls ∩n∈N K n = ∅, dann wäre ∪n∈N K n = R und also K m ⊂ ∪n∈N K n . D.h. c (K n )n∈N wäre eine offene Überdeckung von K m . Da K m kompakt ist, würde es dann eine endliche Teilüberdeckung existieren. D.h. es würde n0 existieren, mit Km ⊂ n0 [ c Kn n=1 Das impliziert, dass n0 [ c c Kn ∪ Km = R n0 \ d.h. n=1 Kn ∩ Km = ∅ n=1 in Widerspruch zu (6). Das zeigt (7). Da \ \ Kn ⊂ An n∈N n∈N es folgt, dass ∩n An 6= ∅, in Widerspruch zu (7). Das zeigt, dass P0 ein Prämass ist. Mit Theorem 2.1, erhalten wir das gewünschte Resultat, weil σ(G) = B(R). Satz 2.2 zeigt, dass jede rechtsstetige und monoton wachsende Funktion F : R → R mit F (−∞) = 0 und F (∞) = 1 ein eindeutiges Wahrscheinlichkeitsmass P auf (R, B(R)) definiert, mit P((s; t]) = F (t) − F (s). Umgekehrt, jedes Wahrscheinlichkeitsmass P auf (R, B(R)) definiert durch F (t) := P((−∞; t]) eine rechtsstetige und monoton wachsende Funktion (mit F (−∞) = 0 und F (∞) = 1). Wir nennen F : R → R die Verteilungsfunktion vom Wahrscheinlichkeitsmass P. 2.2 Wahrscheinlichkeitsdichte für absolut stetige Masse Neben der Verteilungsfunktion F : R → [0; 1], spielt für Wahrscheinlichkeitsmasse P auf (R, B(R)) die Wahrscheinlichkeitsdichte ρ, wann sie existiert, eine wichtige Rolle. Die Dichte eines Wahrscheinlichkeitsmasses P auf (R, B(R)) ist eine nicht-negative messbare und integrierbare Funktion ρ : R → [0; ∞) mit Z P((s; t]) = F (t) − F (s) = t ρ(x)dλ(x) s für alle −∞ ≤ s < t < ∞. Hier ist λ das Lebesgue Mass auf (R, B(R)). Nicht jedes Wahrscheinlichkeitsmass hat eine Dichte. Wir zeigen in Theorem 2.4, dass jedes “absolut stetiges” Wahrscheinlichkeitsmass eine Dichte hat. Definition 2.3. Sei (Ω, A) ein messbarer Raum und µ und ν zwei Masse auf (Ω, A). Wir sagen, dass ν absolut stetig bezüglich µ ist, wenn A ∈ A mit µ(A) = 0 ⇒ ν(A) = 0 Wir schreiben in diesem Fall ν µ. Ein Mass ν auf (Rn , B(Rn )) heisst einfach absolut stetig, wenn sie bezüglich das Lebesgue Mass λn absolut stetig ist. 15 Sei (Ω, A, µ) ein Massraum. Für jede f : Ω → [0; ∞) messbar und bezüglich µ integrierbar, betrachten wir das Mass Z f dµ νf (A) = A Ist dann A ∈ A mit µ(A) = 0 so muss offenbar auch νf (A) = 0 sein (weil das Integrand f χA ausserhalb einer Menge mit Mass Null verschwindet). Also νf µ für alle f ∈ L1 (Ω, A, µ) mit nicht-negativen Werten. Wir zeigen im nächsten Theorem, dass jede absolut stetige Mass (bzg. einem σ-endlichen Mass µ) in dieser Weise geschrieben werden kann. Theorem 2.4 (Radon-Nikodym Theorem). Sei (Ω, A) ein messbarer Raum und seien µ, ν zwei σ-endliche Masse auf (Ω, A). Ist ν µ, so existiert eine Funktion g : Ω → [0; ∞) messbar, mit Z gdµ ν(A) = A für alle A ∈ A. Die Funktion g ist eindeutig, bis auf Gleichheit auf einer µ-Nullmenge. g heisst die Radon-Nikodym derivative of ν bezüglich µ. Sei P ein Wahrscheinlichkeitsmass auf (Rn , B(Rn )), das absolut stetig bezüglich dem Lebesgue Mass λn auf Rn ist. Es folgt aus Theorem 2.4, dass eine Lebesgue messbare nicht-negative Funktion ρ : Rn → [0; ∞) existiert, mit Z P(A) = ρ dλn A für alle A ∈ B(Rn ). D.h. die Wahrscheinlichkeit vom Ereignis A kann einfach ausgerechnet werden, indem man das Lebesgue Integral von ρ auf A berechnet. Wir nennen ρ die Wahrscheinlichkeitsdichte von P. Bemerke, dass Wahrscheinlichkeitsdichte immer so normiert sind, dass Z ρdλn = 1 (weil P(Rn ) = 1). Insbesodere, falls P ein absolut stetiges Wahrscheinlichkeitsmass auf (R, B(R)) ist, so können wir eine Dichte ρ : R → [0; ∞) finden, mit Z P((s; t]) = t ρdλ s für alle −∞ ≤ s < t < ∞. Um Theorem 2.4 zu zeigen, führen wir den Begriff von signierten Mass ein. Definition 2.5. Sei (Ω, A) ein messbarer Raum. Eine Funktion µ : A → [−∞; ∞] heisst ein signiertes Mass auf (Ω, A) wenn µ(∅) = 0 und wenn, für jede Folge (An )n∈N von disjukten Mengen in A, es gilt ! [ X µ An = µ(An ) n∈N n∈N 16 P Damit µ : A → [−∞; ∞] ein signiertes Mass ist, muss die Summe n∈N µ(An ) wohldefiniert sein, für jede Folge disjunkter Mengen in A. Insbesonde kann µ nur den Wert +∞ oder den Wert −∞ annehmen, aber nicht beide. Ist |µ(Ω)| < ∞ so muss µ(A) < ∞ endlich sein, für alle A ⊂ Ω. Ist µ(Ω) = +∞, so kann es kein A ∈ A existieren mit µ(A) = −∞. Ist dagegen µ(Ω) = −∞, so wird es kein A ⊂ Ω mit µ(A) = +∞. Es ist einfach zu üeberprüfen, dass ein signiertes Mass viele der Eigenschaften eines positiven Mass hat. Z.B. wenn (An )n∈N eine wachsende Folge von Mengen in A, ! [ µ An = lim µ(An ) n→∞ n∈N Ist (An )n∈N eine fallende Folge in A mit µ(An ) endlich für ein n ∈ N, so gilt ! \ µ An = lim µ(An ) n→∞ n∈N Sei nun (Ω, A) ein messbarer Raum und µ ein signiertes Mass auf (Ω, A). Wir sagen A ∈ A ist eine positive Menge für µ, falls µ(B) ≥ 0 für alle B ⊂ A. Wir sagen A ∈ A ist eine negative Menge für µ, falls µ(B) ≤ 0 für alle B ⊂ A. Lemma 2.6. Sei µ ein signiertes Mass auf ein messbarer Raum (Ω, A), und sei A ∈ A mit −∞ < µ(A) < 0. Dann existiert eine negative Menge B ∈ A mit B ⊂ A und µ(B) ≤ µ(A). Proof. Sei δ1 = sup {µ(E) : E ∈ A und E ⊂ A} und sei A1 ∈ A mit A1 ⊂ A und mit µ(A1 ) ≥ min(1, δ1 /2) Sei nun δ2 = sup {µ(E) : E ∈ A und E ⊂ A\A1 } und A2 ∈ A mit A2 ⊂ A\A1 mit µ(A2 ) ≥ min(1, δ2 /2) Wir iterieren diese Konstruktion und definieren ( δn = sup µ(E) : E ∈ A und E ⊂ A\ n−1 [ k=1 und dann wählen wir An ∈ A mit An ⊂ A\ Sn j=1 Aj und mit µ(An ) ≥ min(1, δn /2) Wir definieren dann A∞ = ∞ [ An und n=1 17 B = A\A∞ !) Ak und wir behaupten, B hat die gewünschte Eigenschaften. In der Tat, An ∈ A sind disjuknt mit µ(An ) ≥ 0 für alle n ∈ N. Also µ(A) = µ(A∞ ) + µ(B) ≥ µ(B) Wir müssen nun die Tatsache zeigen, dassPB eine negative Menge ist. Da µ(A) > −∞, muss µ(A∞ ) < ∞ sein. Da aber µ(A∞ ) = n µ(An ), es folgt, dass µ(An ) → 0. Deswegen muss δn → 0. Für ein beliebiges E ⊂ B haben wir nun µ(E) ≤ δn für alle n ∈ N, es muss µ(E) ≤ 0 gelten. Mit Hilfe des letzten Lemma können wir nun zeigen, dass jedes signierte Mass µ auf (Ω, A) eine Hahn Zerlegung (P, N ) besitzt, wobei P, N ∈ A mit P ∪ N = Ω und so, dass P eine positive und N eine negative Menge für µ sind. Theorem 2.7 (Hahn’sche Zerlegungstheorem). Sei (Ω, A) ein messbarer Raum, und sei µ ein signiertes Mass auf (Ω, A). Dann existieren P, N ∈ A so, dass P eine positive und N eine negative Menge für µ sind und so, dass P ∪ N = Ω. Beweis. Nehmen wir an µ nimmt den Wert −∞ nicht an (sonst nimmt µ den Wert +∞ nicht an, und man kann analog vorgehen). Sei L = inf {µ(A) : A eine negative Menge für µ ist} Sei nun (An )n∈N eine Folge in A von negativen Mengen für µ, mit L = limn→∞ µ(An ). Sei N = ∪n∈N An . Dann ist N offenbar eine negative Menge für µ. Also L ≤ µ(N ) ≤ µ(An ) für alle n ∈ N. Es folgt, dass L = µ(N ) > −∞ (weil µ den Wert −∞ nicht annimmt). Sei nun P = N c . Wir müssen noch zeigen, dass P eine positive Menge für µ ist. Nehmen wir indirekt an, dass A ⊂ P in A existiert, mit µ(A) < 0. Dann existiert aber aus Lemma 2.6 eine negative Menge B ⊂ A. In diesem Fall wäre aber auch B ∪ N eine negative Menge für µ, mit µ(N ∪ B) = µ(N ) + µ(B) < µ(N ) = L in Widerspruch zur Definition von L. Wir können nun das Radon-Nykodim Theorem beweisen. Beweis von Theorem 2.4. Wir betrachten zunächst den Fall, dass µ, ν endliche Masse sind. Sei Z F = f : Ω → [0; ∞] messbar, s.d. f dµ ≤ ν(A) für alle A ∈ A A Dann ist F nicht leer, weil die Konstante Funktion f = 0 sicher in F gehört. Schritt 1. Es existiert g ∈ F, mit Z Z gdµ = sup f dµ : f ∈ F Um die Behauptung zu zeigen, bemerken wir zunächst, dass f1 , f2 ∈ F ⇒ max{f1 , f2 } ∈ F 18 In der Tat, für ein beliebiges A ∈ A, wir können A1 = {x ∈ A : f1 (x) > f2 (x)} und A2 = {x ∈ A : f1 (x) ≤ f2 (x)} definieren. Dann gilt Z Z Z f2 dµ ≤ ν(A1 ) + ν(A2 ) = ν(A1 ∪ A2 ) = ν(A) f1 dµ + max{f1 , f2 } dµ = A1 A A2 Sei nun (fn )n∈N eine Folge in F mit Z Z lim fn dµ = sup f dµ : f ∈ F n→∞ Dann gilt offenbar auch Z Z lim max(f1 , . . . , fn )dµ = sup f dµ : f ∈ F n→∞ Da die Folge max(f1 , . . . , fn ) monoton wachsend ist, können wir den Limes g = lim max(f1 , . . . , fn ) n→∞ punktweise definieren. Das monoton Konvergenz Theorem zeigt, dass Z Z gdµ = lim max(f1 , . . . , fn )dµ ≤ ν(A) n→∞ A A weil max(f1 , . . . , fn ) ∈ F für alle n ∈ N und auch, dass Z Z Z gdµ = lim max(f1 , . . . , fn )dµ = sup f dµ : f ∈ F n→∞ Schritt 2. Sei g wie im Schritt 1. Wir behaupten, dass Z ν(A) = gdµ A für alle A ∈ A. Für ein beliebiges A ∈ A, wir setzen Z ν0 (A) = ν(A) − gdµ A Da g ∈ F, ist ν0 : A → [0; ∞] ein Mass auf A. Zu zeigen bleibt, dass ν0 = 0. Nehmen wir an ν0 6= 0. Dann finden wir ε > 0 mit ν0 (Ω) > εµ(Ω) (weil µ ist endlich, nach Annahme). Es ist einfach zu überprüfen, dass ν0 − εµ : A → [−∞; ∞] ein signiertes Mass auf A ist. Sei (P, N ) eine Hahn’sche Zerlegung von ν0 − εµ. Also, P, N ∈ A mit P ∪ N = Ω und so, dass P eine positive und N eine negative Menge für ν0 − εµ sind. Wir bemerken sofort, dass µ(P ) > 0 sein muss. Wäre nämlich µ(P ) = 0, dann müsste auch ν(P ) = 0 (aus der absolute Stetigkeit ν µ) und also ν0 (P ) = 0. Deswegen wäre ν0 (Ω) − εµ(Ω) = (ν0 − εµ)(N ) ≤ 0 19 in Widerspruch mit der Annahme, dass ν0 (Ω) > εµ(Ω). Das zeigt, dass µ(P ) > 0. Ferner, für ein beliebiges A ∈ A gilt ν0 (A ∩ P ) ≥ εµ(A ∩ P ). Deswegen Z Z Z Z gdµ + εµ(A ∩ P ) = (g + ε1P )dµ gdµ + ν0 (A ∩ P ) ≥ gdµ + ν0 (A) ≥ ν(A) = A A A A Das zeigt, dass g + ε1P ∈ F. Da aber Z gdµ ≤ ν(Ω) < ∞ und Z Z (g + ε1P )dµ = Z gdµ + εµ(P ) > gdµ finden wir ein Widerspruch zur Definition von g in Schritt 1. Das zeigt, dass ν0 = 0 und also, dass Z gdµ ν(A) = A für alle A ∈ A. Schritt 1 und 2 zeigen das Theorem im Fall, dass ν, µ endlich sind. In allgemein finden wir eine Folge (An )n∈N von disjunkten Mengen in A mit ∪n An = Ω und so, dass µ(An ) und ν(An ) endlich sind, für alle n ∈ N. Für alle n ∈ N finden wir dann eine Funktion gn : An → [0; ∞] mit Z ν(E) = gn dµ E für alle E ∈ A mit E ⊂ An . Wir können g : Ω → [0; ∞] durch g = gn auf An , für alle n ∈ N, definieren. Es ist dann einfach zu überprüfen, dass g die gewünschte Eigenschaften hat. Schlussendlich zeigen wir die Eindeutigkeit der Funktion g. Wir betrachten zunächst den Fall, dass ν endlich ist. Nehmen wir an g, h : Ω → [0; ∞] sind beide A-messbar und so, dass Z Z ν(A) = gdµ = A hdµ A für alle A ∈ A. Da ν endlich ist, es folgt, dass Z (g − h)dµ = 0 A für alle A ∈ A. Wenn wir zunächst A = {x ∈ Ω : g(x) ≥ h(x)} und dann A = {x ∈ Ω : g(x) > h(x)} wählen, finden wir, dass Z |g − h|dµ = 0 und damit, dass g = h µ-fast überall. Wenn ν σ-endlich aber nicht unbedingt endlich ist, finden wir eine Folge von disjukten Mengen (An )n∈N in A mit Ω = ∪n An und so, dass ν(An ) < ∞ für alle n ∈ N. Wie oben können wir dann zeigen, dass g = h µ-f.ü. auf An , für alle n ∈ N. Das zeigt auch, dass g = h µ-f.ü. auf Ω. 20 Theorem 2.4 zeigt, dass jedes absolut stetiges Wahrscheinlichkeitsmass auf Rn eine Wahrscheinlichkeitsdichte hat. Natürlich sind nicht alle Wahrscheinlichkeitsmasse absolut stetig bezüglich das Lebesgue Mass. Was man aber zeigen kann ist, dass jede Wahrscheinlichkeitsmass in der Summe eines absolut stetigen und eines singulären Teil zerlegt werden kann. Was ein singuläres Mass ist (bezüglich dem Lebesgue Mass) wird in der nächste Definition erklärt. Definition 2.8. Sei (Ω, A) ein messbarer Raum. Wir sagen ein Mass µ ist auf einer Menge A ⊂ Ω geträgt, falls µ(Ac ) = 0. Zwei Masse µ, ν auf (Ω, A) heissen zuenander singulär, falls eine Menge E ∈ A existiert so, dass µ auf E und ν auf E c geträgt werden. In diesem Fall schreiben wir µ ⊥ ν. Mit dieser Definition können wir nun zeigen, dass ein beliebiges Mass in einem absolut stetigen und einem singulären Teil zerlegt werden kann. Theorem 2.9 (Lebesgue’sche Zerlegungstheorem). Sei (Ω, A) ein messbarer Raum, µ ein Mass und ν ein σ-endliches Mass auf (Ω, A). Dann existieren eindeutige Masse νa , νs auf (Ω, A) so, dass νa µ, νs ⊥ µ und ν = νa + νs . νs und νa heissen den singulären und den absolut stetigen Teil von ν bezüglich µ. Beweis. Wir definieren Nµ = {B ∈ A : µ(B) = 0} Wir wählen eine Folge (Bj )j∈N in Nµ so, dass lim ν(Bj ) = sup{ν(B) : B ∈ Nµ } j→∞ Sei N = ∪j∈N Bj . Wir definieren νa und νs durch νa (A) = ν(A ∩ N c ), νs (A) = ν(A ∩ N ) Offenbar ν = νa + νs . Ferner, µ(N ) ≤ X µ(Bj ) = 0 j und deswegen ist νs ⊥ µ. Anderseits, wir haben ν(N ) = sup{ν(B) : B ∈ Nµ } . Ist nun A ∈ A mit A ⊂ N c und mit µ(A) = 0, so muss N ∪ A ∈ Nµ und also ν(N ) + ν(A) = ν(N ∪ A) ≤ sup{ν(B) : B ∈ Nµ } = ν(N ) Deswegen muss auch ν(A) = 0. Das zeigt, dass νa (A) = 0 für alle A ∈ A mit µ(A) = 0. Das einfachste Beispiel einer bezüglich Lebesgue singulären Mass auf (Rn , B(Rn )) ist das Dirac’sche δ-Mass in einem Punkt x ∈ Rn , definiert durch δx (A) = 1, falls x ∈ A, und δx (A) = 0 sonst. Das Mass δx ist im Punkt x geträgt, also auf einer Menge mit Lebesgue Mass Null. Das bedeutet, dass δx ⊥ λn . 21 Jede abzählbare konvexe Kombinationen von Dirac-δ Masse definiert wieder ein Wahrscheinlichkeitsmass auf (Rn ; B(Rn )), dasP singulär bezüglich λn ist. Sei nämlich (pj )j∈N eine Folge von Zahlen 0 ≤ pj ≤ 1, mit j pj = 1, und (xj )j∈N irgendeine Folge in Rn . Dann ist X P := pj δxj (8) j∈N ein Wahrscheinlichkeitsmass auf (Rn ; B(Rn )), das auf der Menge {xj : j ∈ N} geträgt wird. Da jede abzählbare Menge Lebesgue Mass Null hat, ist ν ⊥ λn . Punkten x ∈ Rn , mit P({x}) > 0 heissen Atome für das Wahrscheinlichkeitsmass P (die Elemente xj sind Atome für das Mass (8)). Man nennt ein Mass wie (8), das auf abzählbar viele Atome geträgt wird, ein diskretes Mass. Für Wahrscheinlichkeitsmasse auf (R, B(R)) entspricht jede Atome eine Unstetigkeit in der Verteilungsfunktion. In der Tat, mit F (t) = P((−∞; t]), finden wir, für eine Folge tn , die monoton von links gegen einem Punkt t ∈ R strebt, lim F (tn ) = lim P((−∞; tn ]) = P((−∞; t)) = P((−∞; t]) − P({t}) = F (t) − P({t}) n→∞ n→∞ Das zeigt, dass F genau dann im Punkt t ∈ R unstetig ist, wenn t ein Atom des Wahrscheinlichkeitsmasses P ist. Da eine Verteilungsfunktion auf R höchstens abzählbar viele Unstetigkeiten hat, hat jedes Wahrscheinlichkeitsmass höchstens abzählbar viele Atome. Ist P ein diskretes Mass (d.h. wird P auf abzählbar viele Punkte geträgt), so ist F konstant bis auf abzählbar viele Punkte, wo sie ein Sprung hat. Neben diskrete Masse existieren auch komplizierteren Beispiele von singuläre Masse, die auf überabzählbare Lebesgue Nullmengen in Rn geträgt werden. Es ist einfach ein Beispiel mit Hilfe der Cantor Funktion zu konstruieren. Sei K = ∩n∈N Kn ⊂ [0; 1] die Cantor Menge (K0 = [0; 1], K1 = [0; 1/3] ∪ [2/3; 1] wird definiert, indem man den mittlere Drittel von K0 entfernt, und so weiter). Wir erinneren, dass die Cantor Funktion f : R → [0; 1] wie folgt definiert wird. Man setzt im ersten Schritt f (x) = 1/2 für x ∈ K0 \K1 = (1/3; 2/3). Im n-te Schritt wird f auf Kn \Kn−1 definiert. Kn \Kn−1 besteht aus 2n−1 offene Intervalle der Länge 3−n . Die Funktion f wird so definiert, dass sie den Wert (2k −1)/2n in der k-te Intervall, für k = 1, . . . , 2n−1 annimmt. Das definiert f auf [0; 1]\K. Wir erweitern f auf R indem wir f (x) = 0 für alle x ≤ 0, f (x) = 1 für alle x ≥ 1, und f (x) = sup{f (t) : t ∈ [0; 1]\K und t < x} für alle x ∈ K definieren. Dann ist f monoton wachsend, mit f (−∞) = 0 und f (+∞) = 1. Wir haben in Analysis 3 gezeigt, dass f stetig ist. Das zeigt, dass f die Verteilungsfunktion eines Masses Pcantor auf (R; B(R)) ist. Da f auf K c Konstant ist, und da λ(K) = 0, ist Pcantor ein singuläres Mass bezüglich dem Lebesgue Mass. Anderseits, da f stetig ist, gilt Pcantor ({x}) = 0 für alle x ∈ R. Also Pcantor enthält keine Atome. Man nennt ein Mass wie Pcantor auf (R, B(R)), das singulär bezüglich dem Lebesgue Mass ist aber keine Atome enthält (d.h. die Verteilungfunktion ist stetig) ein singuläres stetiges Mass (“singular continuous measure” auf Englisch). Wir finden: jede Wahrscheinlichkeitsmass P auf (R; B(R)) kann in der Summe von drei Teilen zerlegt werden P = Pac + Pd + Psc , wobei Pac absolut stetig bezüglich dem 22 Lebesgue Mass λ ist, Pd ein diskretes Mass ist, das auf abzählbar viele Punkten (Atome) geträgt wird und Psc ein singuläres stetiges Mass ist, das singulär bezüglich λ ist und eine stetige Verteilungsfunktion hat (also keine Atome). Der absolut stetiger Teil Pac kann einfach durch eine Wahrscheinlichkeitsdichte ρ beschrieben werden, mit der Eigenschaft Z ρ dλ Pac (A) = A Der diskreter Teil hat die Form Pd = X pn δxn n∈N P für Folgen (xn )n∈N in R und (pn )n∈N in [0; 1] mit pn = 1. Es ist schwieriger den singulären stetigen Teil zu beschreiben (man braucht in diesem Fall die stetige Verteilungsfunktion zu geben). Man bemerke, es ist einfach aus der Verteilungsfunktion F eines Wahrscheinlichkeitsmasses P auf (R, B(R)) die Wahrscheinlichkeitsdichte ρ von Pac zu bestimmen. In der Tat, es gilt die folgende Tatsache (Beweis kann zB. auf dem Buch “Measure theory” von D.L.Cohn gefunden werden): die Verteilungsfunktion F eines beliebigen Wahrscheinlichkeitsmasses P : B(R) → [0; 1] ist λ-fast überall differenzierbar. Die Funktion 0 F (x) falls F an der Stelle x differenzierbar ist ρ(x) := 0 sonst ist eine Wahrscheinlichkeitsdichte für den absolut stetigen Teil Pac von P. 2.3 Wichtige Beispiele von Wahrscheinlichkeitsmasse In diesem Abschnitt diskutieren wir ein Paar Beispiele von Wahrscheinlichkeitsmasse, die eine wichtige Rolle in der Wahrscheinlichkeitstheorie spielen. Wir beginnen mit ein Paar diskrete Masse. Bernoulli Verteilung. Die Bernoulli Vertilung kommt aus dem Münzwurf. Wir betrachten also ein Ergebniss Raum mit nur zwei Elementen, zB. Ω = {0, 1} (oder auch “Kopf” und “Zahl”). Auf der σ-Algebra P (Ω) = {∅, {0}, {1}, {0, 1}} definieren wir, für p ∈ [0; 1] ein Wahrscheinlichkeitsmass P durch Pp ({0}) = p, Pp ({1}) = 1 − p. Das Wahrscheinlichkeitsmass Pp auf (Ω, P (Ω)) heisst eine Bernoulli Verteilung. Man kann die Bernoulli Verteilung auch als ein Wahrscheinlichkeitsmass auf (R, B(R)), definiert durch Pp = pδ0 + (1 − p)δ1 Pp ist ein diskretes Wahrscheinlichkeitsmass. Binomiale Verteilung. Wir betrachten n Münzwurfe, die, wie bei der Bernoulli Verteilung, mit Wahrscheinlichkeit p das Ergebniss 0 und mit Wahrscheinlichkeit (1−p) das Ergebniss 1 liefern. Wir sind an der Anzahl von Ergebnisse 0 in den n Wurfe interessiert. Der Ergebnisraum ist also Ω = {0, 1, . . . , n}. Man erwartet, dass n k Pn,p ({k}) = p (1 − p)n−k k 23 Diese Formel definiert Pn,p auf der Potenzmenge P (Ω) eindeutig (mit der Bedingung, dass Pn,k additiv ist). Die Tatsache, dass Pn,k richtig normiert ist, folgt aus der Bemerkung, dass n X n k p (1 − p)n−k = (p + 1 − p)n = 1 k k=0 Das Wahrscheinlichkeitsmass Pn,p auf {0, 1, . . . , n} heisst eine binomiale Verteilung. Man kann auch die binomiale Verteilung als ein diskretes Mass auf R, mit Pn,p = n X n k=0 k pk (1 − p)n−k δk interpretieren. Poisson Verteilung. Die Poisson-Verteilung ist ein Wahrscheinlichkeitsmass auf der Menge N (versehen mit der σ-Algebra P (N )). Für ein festgewählte Parameter ρ > 0, die Poisson Verteilung Pρ wird durch Pρ ({n}) = ρn −ρ e n! charakterisiert, für ein Parameter ρ > 0. Man kann die Poisson Verteilung als einen Grenzwert der Binomialverteilung verstehen. Betrachten wir nämlich eine Binomialverteilung auf {0, 1, . . . , n} mit Wahrscheinlichkeit p = ρ/n von der Ordnung 1/n. Dann gilt n! ρ n−k ρk ρk −ρ Pn,ρ/n ({k}) = 1 − → e k!(n − k)! nk n k! als n → ∞, für jede k ∈ N fest. Bemerke, dass die Poisson Verteilung richtig normiert ist, weil X ρn e−ρ = 1 n! n∈N Geometrische Verteilung. Hier werfen wir ein Münz unendlich oft; bei jeder Wurf kann entweder 0 (mit Wahrscheinlichkeit p ∈ [0; 1]) oder 1 (mit Wahrscheinlichkeit q = 1 − p) vorkommen. Wir sind an der Nummer des Münzwurfs interessiert, bei dem erstmalig 0 erscheint (wir beginnen mit dem Null-ten Versuch). Auf dem Ergebnisraum Ω = N, definieren wir also das Ergebnismass Pq ({k}) = q k (1 − q) Pq definiert die geometrische Verteilung auf der Potenzmenge P (N). Die Normierung ist aus ∞ X 1 q k (1 − q) = (1 − q) = 1 1−q k=0 garantiert. Wir betrachten nun ein Paar absolut stetige Wahrscheinlichkeitsmasse auf (R, B(R)). 24 Gleichverteilung. Sei I ⊂ R ein Intervall. Die Gleichverteilung PI auf I wird durch die Wahrscheinlickeitsdichte ρI = |I|−1 1I definiert. D.h. für jede A ∈ B(R), Z |I ∩ A| 1 χI dλ = PI (A) = |I| A |I| Die Verteilungsfunktion von PI ist dann (mit der Notation I = [a; b]) falls t ≤ a 0 t−a falls a≤t≤b F (t) = PI ((−∞, t]) = b−a 1 falls t ≥ b Gaussverteilung. Die wichtigste Verteilung auf (R, B(R)) ist die sogenannte Normalverteilung, oder Gauss-Verteilung. Sie hängt aus zwei Parameter: die Gauss-Verteilung mit Mittelwert m ∈ R und Standardabweichung σ > 0 ist aus der Dichte ρm,σ (x) = √ 1 2πσ 2 e− (x−m)2 2σ 2 Die Normierung der Gaussverteilung ist aus der Berechnung Z ∞ Z ∞ √ (x−m)2 2 − 2 e−x /2 dx = 2πσ 2 e 2σ dx = σ −∞ −∞ garantiert. Wir werden sehen, die Gaussverteilung spielt eine extrem wichtige Rolle in der Bescrheibung der Verteilung von Abweichungen um ein typisches Verhalten (der zentrale Grenzwertsatz wird diese Aussage erklären). Exponentialverteilung. Die Exponentialverteilung spielt eine wichtige Rolle als Verteilung von Wartezeiten. Für ein Parameter a > 0 ist die Dichte der Exponentialverteilung aus ρ(x) = ae−ax 1[0;∞) (x) gegeben. Die Verteilungsfunktion F (t) = P((−∞; t]) ist in diesem Fall aus F (t) = 0 für alle t < 0 und aus Z t F (t) = dxae−ax = 1 − e−at 0 für alle t > 0 gegeben. Die Tatsache, dass F (+∞) = 1 zeigt, dass wir ρ richtig normiert haben. Cauchy-Verteilung. Auch die Cauchy-Verteilung hängt aus einem Parameter a > 0. Die Dichte ist dann a 1 ρ(x) = π a2 + x2 und die Verteilungsfunktion Z Z t 1 t/a 1 1 1 F (t) = dx = + arctan(t/a) ρ(x)dx = 2 π 1 + x 2 π −∞ −∞ Das definiert Wahrscheinlichkeitsmasse Pa auf (R, B(R)) für alle a > 0. Die CauchyVerteilung ist mathematisch sehr interessant, weil sie sehr langsam ins Unendlichen nach Null strebt. Wir werden sehen, dass sie deswegen kein Mittelwert besitzt. 25 2.4 Zufallsvariablen Wir erinnern aus Analysis 3 den Begriff von messbarer Funktion. Sei (Ω, A) ein messbarer Raum. Eine Funktion f : Ω → R heisst messbar, wenn eine (und also alle) der folgende equivalente Bedingungen erfüllt sind: f −1 ((−∞; t]) = {x ∈ Ω : f (x) ≤ t} ∈ A für alle t ∈ R f −1 ((−∞; t)) = {x ∈ Ω : f (x) < t} ∈ A für alle t ∈ R f −1 ((t; ∞)) = {x ∈ Ω : f (x) > t} ∈ A für alle t ∈ R f −1 ([t; ∞)) = {x ∈ Ω : f (x) ≥ t} ∈ A für alle t ∈ R Es ist auch einfach zu sehen (wie in Analysis 3 diskutiert wurde), dass f genau dann messbar ist, wenn f −1 (A) ∈ A für alle A ∈ B(R). Diese letzte Bemerkung erlaubt uns den Begriff von Messbarkeit auf beliebigen Funktionen zwischen zwei messbarer Räume zu verallgemeinern. Seien also (Ω, A) und (Ω0 , A0 ) zwei messbarer Räume. Eine Abbildung f : Ω → Ω0 heisst messbar (bezüglich der σ-Algebren A, A0 ) wenn f −1 (B) ∈ A für alle B ∈ A0 , d.h. wenn das Urbild einer Menge in A0 immer in der σ-Algebra A enthalten ist. Wir werden sehen, dass dieser Begriff von Messbarkeit sehr wichtig in der Wahrscheinlichkeitstheorie ist. Um den Begriff von Zufallsvariablen einzuführen, betrachten wir ein einfaches Beispiel eines Zufallsexperiment, das aus n unabhängige Münzwürfe (mit mögliche Ergebnisse 0 oder 1) besteht. Was der Ergebnisraum dieses Experiment ist hängt davon ab, was wir untersuchen möchten. Das vollständige Ergebnis des Experiment wird durch eine Folge x = (x1 , . . . , xn ) ∈ {0, 1}n . Der entsprechende Ergebnisraum enthält 2n Elementen. Es könnte aber sein, wir möchten nur wissen, wie oft das Ergebnis 0 gefallen ist. In diesem Fall ist der richtige Ergebnisraum Ω0 = {0, 1, . . . , n}, viel kleiner als früher. Ω0 entspricht einer geringerer Beobachtungstiefe. Wie können wir die Beobachtungstiefe eines Zufallsexperiments ändern? Offenbar entspricht jedes Ergebnis in Ω genau einem Ergebnis in Ω0 . Wir können nämlich die Abbildung X : Ω → Ω0 durch X(x) = n X 1(xj = 0) j=0 definieren. Das Bild von x ∈ Ω ist genau die Anzahl Würfe, wo 0 gefallen ist. Wichtig für die Abbildung X : Ω → Ω0 ist die Tatsache, dass für jede A ∈ A0 , X −1 (A) ∈ A gilt, d.h., dass jede messbare Ereignis im neuen Raum Ω0 , zu einem messbarer Ereignis in Ω entspricht (wie können wir nämlich die Wahrscheinlichkeit eines Ereignis in Ω0 messen, wenn wir die Wahrschenilichkeit des entsprechenden Ereignis im ursprünglicher Raum Ω (mit höheren Beobachtungsgrad) nicht bestimmen können). Diese Bedingung ist in unserem Beispiel mit den n Münzwürfe nicht wichtig, weil A = P (Ω); sie spielt aber eine wichtige Rolle für kontinuirlichen Ω, wann A eine echte Teilmenge von P (Ω) ist. Definition 2.10. Seien (Ω, A) und (Ω0 , A0 ) zwei messbaren Räume. Eine Abbildung X : Ω → Ω0 heisst eine Zufallvariable von Ω nach Ω0 , wenn sie messbar ist, d.h. wenn X −1 (B) ∈ A für alle B ∈ A0 . Ist A = P (Ω), so ist jede Abbildung X : Ω → Ω0 eine Zufallvariable (unabhängig aus der Wahl von A0 ). In Allgemein, also wenn A nicht unbedingt die Potenzmenge P (Ω) 26 ist, ist das folgende Lemma nützlich um nachzuprüfen, ob eine Abbildung X : Ω → Ω0 eine Zufallvariable ist. Lemma 2.11. Seien (Ω, A), (Ω0 , A0 ) zwei messbare Räume. Sei G 0 ⊂ P (Ω0 ) mit σ(G 0 ) = A0 . Die Abbildung X : Ω → Ω0 ist genau dann eine Zufallvariable von Ω nach Ω0 , wenn X −1 (B) ∈ A für alle B ∈ G 0 . Beweis. Ist X : Ω → Ω0 messbar, so ist X −1 (B) ∈ A für alle B ∈ A0 , also insbesonde für B ∈ G 0 . Nehmen wir nun an, dass X −1 (B) ∈ A für alle B ∈ G 0 . Dann bemerken wir, dass die Menge F := B ⊂ Ω0 : X −1 (B) ∈ A eine σ-Algebra ist (das würde in Analysis 3 bewiesen). Da nach Annahme G 0 ⊂ F, und da A0 = σ(G 0 ) die kleinste σ-Algebra ist, die G 0 enthält, muss A0 ⊂ F sein. Also X −1 (B) ∈ A für alle B ∈ A0 , und X : Ω → Ω0 ist eine Zufallvariable. Beispiel. Mit Lemma 2.11 finden wir, dass eine Abbildung X : Ω → R eine Zufallvariable, genau dann, wenn zB. X −1 ((−∞; t]) ∈ A für alle t ∈ R. D.h. wir erhalten zurück die ursprüngliche Definition von Messbarkeit einer reelwertige Funktion. Bei der Definition von Zufallvariable spielt das Wahrscheinlichkeitsmass keine Rolle; nur die σ-Algebra ist wichtig. Jetzt betrachten wir ein Wahrscheinlichkeitraum (Ω, A, P), ein messbarer Raum (Ω0 , A0 ) und eine Zufallvariable X : Ω → Ω0 . Im nächsten Satz zeigen wir, dass das Wahrscheinlichkeitsmass P auf (Ω, A) ein Wahrscheinlichkeitsmass auf (Ω0 , A0 ) induziert. Intuitiv, das ist klar: wenn wir die Wahrscheinlichkeit der Ereignissen in Ω kennen, so können wir auch die Wahrscheinlichkeit der Ereignissen in Ω0 berechnen. Satz 2.12. Sei (Ω, A, P) ein Wahrscheinlichkeitraum und (Ω0 , A0 ) ein messbarer Raum. Sei X : Ω → Ω0 eine Zufallvariable. Dann definiert P0 (B) := P(X −1 (B)) für alle B ∈ A0 , ein Wahrscheinlichkeitsmass auf Ω0 . Beweis. Bemerke zunächst, dass P0 wohldefiniert ist, weil X messbar ist. Offenbar ist P0 (∅) = 0 und P0 (Ω0 ) = P(X −1 (Ω0 )) = P(Ω) = 1. Sei nun (Bn )n∈N eine Folge disjunkten Mengen in A0 . Dann ist X −1 (Bn ) eine Folge disjunkter Mengen in A. Da ! [ [ −1 −1 X (Bn ) = X Bn , n∈N n∈N finden wir ! 0 P [ Bn !! =P X −1 n∈N [ Bn n∈N ! =P [ X −1 (Bn ) n∈N = X n∈N 27 P(X −1 (Bn )) = X n∈N P0 (Bn ) Das Wahrscheinlichkeitsmass P0 induziert durch X auf (Ω0 , A0 ) heisst die Verteilung der Zufallvariable X und wird oft mit PX bezeichnet. Zwei Zufallvariaben heissen identisch verteilt, wenn Sie die selbe Verteilung haben. Im Beispiel mit den n Münzwürfe haben wir Ω =P{0, 1}n , Ω0 = {0, 1, . . . , n} und die Zufallvariable X : Ω → Ω0 , definiert durch X(x) = nj=1 1(xj ), die die Anzahl Erfolge (Ergebnis 0) misst. Auf Ω (versehen einfach mit der σ-Algebra P (Ω)) es scheint sinnvoll eine Gleichverteilung zu betrachten; das Warscheinlichkeitmass ist durch P(x) = 2−n für alle x ∈ Ω definiert. Die Zufallvariable X induziert dann auf Ω0 das Wahrscheinlichkeitsmass PX = P ◦ X −1 , das durch |{x ∈ Ω : X(x) = k}| n 1 PX ({k}) = P(X −1 ({k})) = P({x ∈ Ω : X(x) = k}) = = 2n k 2n definiert ist. Hier haben wir die Tatsache benutzt, dass die Anzahl x ∈ Ω mit X(x) = k genau nk ist. Also, die Zufallvariable X hat eine Binomialverteilung, mit Parameter p = 1/2. Im Fall (Ω0 , A0 ) = (R; B(R)), ist die Abbildung X : Ω → R eine Zufallvariable (bezüglich der σ-Algebra A auf Ω) genau dann, wenn eine der folgende equivalente Bedingungen erfüllt ist X −1 ((−∞; t]) = {x ∈ Ω : X(x) ≤ t} ∈ A, für alle t ∈ R X −1 ((−∞; t)) = {x ∈ Ω : X(x) < t} ∈ A, für alle t ∈ R −1 ((t; ∞)) = {x ∈ Ω : X(x) > t} ∈ A, für alle t ∈ R X −1 ([t; ∞)) = {x ∈ Ω : X(x) > t} ∈ A, für alle t ∈ R X Zum Beispiel, wenn Ω ⊂ Rn und A = B(Ω) ist die Borel σ-Algebra auf Ω, dann ist jede stetige Funktion f : Ω → R Borel-messbar (zB. weil das Urbild f −1 ((−∞; t)) sicher offen ist, wenn f stetig ist). Ist nun (Ω, A, P) ein belibiger Wahrscheinlichkeitsraum, und X : Ω → R eine reelwertige Zufallvariable, so können wir wie in Satz 2.12, die Verteilung PX : R → [0; 1] durch PX (B) := P(X −1 (B)) definieren, für alle B ∈ B(R)). Insbesondere, wir können die Verteilungsfunktion FX (t) := PX ((−∞; t]) = P(X −1 ((−∞; t])) = P({x ∈ Ω : X(x) ≤ t}) definieren. Oft schreiben wir einfach FX (t) = P(X ≤ t). FX ist die Verteilungsfunktion des Wahrscheinlichkeitsmasses, das die Zufallvariable X auf (R; B(R)) induziert; sie heisst die Verteilungsfunktion der Zufallvariable X. 2.5 Erwartungswert und Varianz einer Zufallvariable Wir betrachten in diesem Abschnitt Zufallvariablen mit Werten in R, oder in einer Teilmenge von R (möglicherweise auch eine diskrete Teilmenge von R). Wir möchten einfache Grösse einführen, die die wichtigste Eigenschaften diesen Zufallvariablen beschreiben. Die erste solche Grösse ist der Erwartungswert. Definition 2.13. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und X : Ω → R eine reelwertige Zufallvariable. Ist X auf Ω integrierbar, so definieren wir den Erwartungswert von X durch Z E X := XdP Ω 28 Bemerkung. Der Raum von allen Funktionen auf Ω, die bzg. A messbar und bzg. P integrierbar sind, wurde in Analysis 3 mit L1 (Ω, A, P) bezeichnet. Der Erwartungswert ist also für alle Zufallvariablen X ∈ L1 (Ω, A, P) definiert. Wie wir schon in Analysis 3 gemacht haben, kann man Zufallvariablen als Equivalenzklassen von messbaren Funktionen definieren. In diesem Fall wird der Erwartungswert für alle X ∈ L1 (Ω, A, P) definiert. Beispiel. Sei Ω = [−1/2; 1/2] ⊂ R versehen mit der Borel σ-Algebra auf Ω. Sei P die Gleichverteilung auf Ω, d.h. P(A) = λ(A) für alle A ∈ B(Ω) (λ(A) ist hier das Lebesgue Mass von A). Wir betrachten die Zufallvariable X : Ω → R, definiert durch X(x) = x2 . Dann ist X ∈ L1 (Ω, B(Ω), P) und Z 1/2 Z Z 1 2 x2 dx = x dλ(x) = EX = XdP = 12 −1/2 [−1/2;1/2] Man kann der Erwartungswert auch für Zufallvariablen definieren, die Werte auf einer diskrete Teilmenge von R nehmen. Betrachten wir zB. eine Funktion X : Ω → Ω0 , mit |Ω0 | < ∞. In diesem Fall ist der Erwartungswert immer wohldefiniert, und Z X X E X = XdP = λP ({x ∈ Ω : X(x) = λ}) = λP(X = λ) (9) λ∈Ω0 λ∈Ω0 In diesem Fall sieht man sehr klar, dass der Erwartungswert von X die Mittelung über alle mögliche Werte der Zufallvariable X ist, gewogen mit der entsprechende Wahrscheinlichkeit. Die Formel (9) kann auch benutzt werden, wenn |Ω0 | abzählbar ist; in diesem P Fall muss man zunächst aber die Integrierbarkeit von X (d.h. die Endlichkeit von λ |λ|P(X = λ)) überprüfen. Beispiel: betrachten wir wieder das Beispiel mit den n Münzwürfe. Sei Ω = {0, 1}n , und sei X : Ω → {0, 1, . . . , n} die Zufallvariable, die der Anzahl Erfolge (ein Erfolg ist Pn ein Ergebnis 0) misst, d.h. X(x) = j=1 1(xj = 0). Auf Ω definieren wir die Gleichverteilung P(A) = |A|/2n für jede Teilmenge A ⊂ Ω. Wir möchten den Erwartungswert von X berechnen. Wir finden n n X X EX = kP(X = k) = kP ({x ∈ Ω : X(x) = k}) = k=0 n X k=0 k=0 n n 1 n X n−1 n k = n = n k 2 2 k−1 2 k=1 wie wir intutitiv erwarten könnten. Der Erwartungswert einer Zufallvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P) ist also einfach das Integral einer Funktion auf Ω. Alle Eigenschaften vom Integral, die in Analysis 3 besprochen wurden, können also direkt auf dem Erwartungswert angewandt werden. Wir fassen die wichtigste Eigenscahften im nächsten Theorem zusammen. Theorem 2.14. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. X, Y ∈ L1 (Ω, A, P) zwei reelwertige Zufallsvariablen, und α ∈ R. Dann a) Linearität: X + αY ∈ L1 (Ω, A, P) und E(X + αY ) = EX + αEY 29 b) Monotonie: ist X(x) ≤ Y (x) für alle x ∈ Ω, dann gilt EX ≤ EY Ähnlich kann man auch das Theorem der monotone Konvergenz und das Theorem der dominierte Konvergenz benutzen, um Grenzwerte von Erwartungswerte zu berechnen. Bemerke auch, dass den Begriff von Erwartungswert auch auf Zufallvariablen mit Werten in Rn (der Erwartungswert wird dann komponenteweise definiert, wie das Integral) oder in C (man nimmt separat den Erwartungswert von reellen und imaginäre Teil) erweitert werden kann. Wir sparen uns die offenbare Definitionen. Wir haben im letzten Abschnitt gesehen, die Zufallvariabel X : Ω → R, definiert auf einem Wahrscheinlichkeitsraum (Ω, A, P), induziert ein Wahrscheinlichkeitsmass PX = P ◦ X −1 auf (R; B(R)); wir haben PX als die Verteilung der Zufallvariable X bezeichnet. Es ist dann natürlich zu fragen, ob es möglich ist, der Erwartungswert von X direkt mit Hilfe der Verteilung PX zu berechnen, ohne Benutzung des Masses P. Im nächsten Theorem zeigen wir, dass das tatsächlich möglich ist. Eigentlich beweisen wir noch mehr; der Erwartungswert von jeder Funktion von X (gesehen als eine neue Zufallvariabel auf Ω) kann mit Hilfe der Verteilung PX berechnet werden. Satz 2.15. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und X : Ω → R eine reelwertige und bezüglich P integrierbare Zufallvariabel. Sei PX = P ◦ X −1 die Verteilung der Zufallvariable X (PX ist dann ein Wahrscheinlichkeitsmass auf R, versehen mit der Borel σ-Algebra B(R)). Dann gilt Z xdPX (x) E X = EPX 1 = R wobei 1 : R → R die Identität 1(x) = x ist (insbesondere ist die Funktion 1 bezüglich PX integrierbar). Hier ist EPX 1 der Erwartungswert der Zufallvariable 1 bezüglich dem Wahrscheinlichkeitsmass PX . Ferner, für jede messbare Funktion f : R → R, mit f ◦X ∈ L1 (Ω, A, P) gilt f ∈ L1 (R, B(R), PX ) und Z E (f ◦ X) = EPX f = f (x)dPX (x) (10) Beweis. Wir zeigen direkt (10). Sei zunächst f eine charakteristische Funktion, d.h. f = 1A , für ein A ∈ B(R). Dann ist (f ◦ X)(x) = f (X(x)) = 1A (X(x)) = 1X −1 (A) (x) und deswegen Z Z Z −1 E(f ◦ X) = (f ◦ X) dP = 1X −1 (A) dP = P(X (A)) = PX (A) = 1A dPX = EPX f Mit Hilfe der Linearität des Erwartungswertes, folgt die Behauptung für beliebige einfache Funktionen f : R → R. Ist nun f positiv, aber nicht unbedingt einfach, so können wir eine Folge einfache Funktionen fn finden, die monoton gegen f konvergieren. Das Theorem der monotone Konvergenz impliziert dann, dass E(f ◦ X) = lim E(fn ◦ X) = lim EPX fn = EPX f n→∞ n→∞ 30 Für eine beliebige (nicht unbedingt positive) f , schreiben wir f = f+ −f− . Aus Annahme sind f+ ◦ X und f− ◦ X integrierbar und positiv. Es folgt, dass E(f ◦ X) = EPX f , wie behauptet. Es folgt aus dem letzten Satz, dass alle Eigenscahften einer Zufallvariable X werden durch die Verteilung PX bestimmt. Um Erwartungswerten von Funktionen von X zu berechnen brauchen wir gar nicht zu wissen, auf welchem Wahrscheinlichkeitsraum X ursprünglich definiert war. Alles was wir brauchen ist die Verteilungsfunktion PX von X. Oft in der Wahrscheinlichkeitstheorie wird deswegen den abstrakten Wahrscheinlichkeitsraum vergessen, und Zufallvariablen werden nur durch ihrer Verteilungsfunktion PX definiert (die Bedeutung und die Interpretation der Zufallvariable X ist aber nur klar, wenn man weisst, wo X ursprünglich definiert war). Die Notation X ∼ PX bedeutet, dass X eine Zufallvariable ist (auf irgendeinem Wahrscheinlichkeitsraum), mit Verteilung PX . Z.B. wenn N (m, v) eine Normalverteilung mit Erwartungswert m und Varianz v bezeichnet, so bedeutet X ∼ N (m, v), dass X eine Zufallvariable ist, mit Normalverteilung. Anderseits, jedes Wahrscheinlichkeitsmass P auf (R; B(R)) kann als die Verteilung einer Zufallvariable verstanden werden, nämlich von der Variable X = 1, definiert auf R. In diesem Sinn kann man auch der Erwartungswert eines Wahrscheinlichkeitsmass berechnen; was gemeint wird ist immer den Erwartungswert der Zufallvariable mit Verteilung P, also Z EP 1 = x dP(x) R Ist insbesondere ein Wahrscheinlichkeitsmass P auf (R; B(R)) absolut stetig, dann können wir der Erwartungswert von P mit Hilfe seiner Wahrscheinlichkeitsdichte ρ berechnen. Erinnere, dass die Dichte ρ eines absolut stetiges Mass so definiert ist, dass Z P(A) = ρ dλ A für alle A ∈ B(R) (ρ ist die Radon-Nikodym derivative von P bezüglich dem Lebesgue Mass λ). Also Z Z EP 1 = x dP(x) = xρ(x) dλ(x) R Beispiele. i) Betrachten wir eine Zufallvariable X ∼ Exp (a) (Exp (a) bezeichnet die Exponentialverteilung, mit Parameter a, dessen Dichte aus ρ(x) = ae−ax 1(x > 0) gegeben ist). Was ist den Erwartungswert von X? Wir berechnen Z EX = xae−ax 1(x > 0)dλ(x) ZR∞ axe−ax dx = 0 Z ∞ e−ax ∞ 1 −ax ∞ = −xe |0 + e−ax dx = − |0 = a a 0 31 ii) Sei nun X ∼ N (m, v). Der Erwartungswert von X ist dann Z Z (x−m)2 (x−m)2 1 1 − 2 2σ xe =m+ √ (x − m)e− 2σ2 = m EX = √ 2πσ 2 R 2πσ 2 R Neben dem Erwartungswert kann man einer reelwertigen Zufallvariable X auch anderen Grösse zuordnen. Die wichtigste ist die Varianz, die die Breite der Verteilung von X misst. Definition 2.16. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und X : Ω → R eine Zufallvariable. Wir nehmen an, dass X 2 bezüglich P integrierbar ist (also X 2 ∈ L1 (Ω, A, P), oder, wenn wir an equivalenzklassen von Funktionen denken, einfach, dass X ∈ L2 (Ω, A, P)). Dann definieren wir die Varianz von X durch Z 2 Var X = E(X − EX) = (X − EX)2 dP (Da P ein Wahrscheinlichkeitsmass ist, impliziert die Tatsache, dass X 2 integrierbar auch, dass X integrierbar ist; das muss also nicht separat angenommen werden). Von der Definition sieht man klar, dass die Varianz die Fluktuationen einer Zufallvariable um ihr Erwartungswert misst. Die Varianz ist immer positiv. Sie ist gerade dann gleich Null wenn X = EX P-fast überall, also wenn X den Wert EX mit Wahrscheinlichkeit 1 annimmt. Wir bemerke, dass die Varianz von X auch durch Var X = E(X − EX)2 = E(X 2 + 2X(EX) − (EX)2 ) = EX 2 − (EX)2 (11) berechnet werden kann. Es folgt aus Satz 2.15, dass die Varianz auch mit Hilfe der Verteilung PX von X berechnet werden kann. In der Tat 2 Z VarX = E(X − EX) = Z 2 (x − EX) dPX (x) = 2 x dPX (x) − Z 2 xdPX (x) Wenn die Verteilung PX absolut stetig ist, dann können wir die Varianz mit Hilfe ihrer Wahrscheinlichkeitdichte ρ berechnen. Wir finden Z Var X = x2 ρ(x)dλ(x) − Z 2 xρ(x)dλ(x) Beispiele. i) Betrachten wir die diskrete Zufallsvariable X mit Werten in {1, . . . , n} und Verteilung 1 n PX ({k}) = n 2 k Wir haben früher gesehen, dass X die Anzahl Erfolge in n Münzwürfe misst (das ist aber nicht mehr wichtig, zur Berechnung der Varianz; Kenntniss von der Verteilung 32 PX ist genug). Wir haben schon gesehen, dass EX = n/2. Zur Berechnung der Varianz müssen wir noch n n 1 X n! n 1 X 2 n 2 k = n k(k − 1) + EX = n 2 2 k!(n − k)! 2 k k=0 k=0 n n(n − 1) X n − 2 n n(n − 1) n n(n + 1) = + = + = n 2 k−2 2 4 2 4 k=2 Also Var X = n(n + 1) n2 n − = 4 4 4 ii) Sei X ∼ Poi(λ) (Poi(λ) bezeichnet eine Poisson Verteilung, mit Parameter λ). Der Erwartungswert von X ist ∞ ∞ X X λk −λ λk−1 −λ EX = k e =λ e =λ k! (k − 1)! k=0 k=1 Ferner EX 2 = ∞ X k=0 k2 ∞ ∞ k=0 k=2 X λk−2 λk λk −λ X e = k(k − 1) e−λ + λ = λ2 e−λ + λ = λ2 + λ k! k! (k − 1)! Also Var X = λ2 + λ − λ2 = λ D.h. die Poisson-Verteilung mit Parameter λ hat Erwartungswert und Varianz gleich λ. Erwartungswert und Varianz werden mit Hilfe der Verteilung PX der Zufallsvariable X berechnen. Anderseits, Kenntniss von EX und Var X geben wichtige Informationen über die Verteilung von X. ZB. die Chebyshev Ungleichung zeigt, dass 1 1 E(X − EX)2 = 2 Var X (12) 2 t t und erlaubt uns die Fluktuationen um EX zu schätzen. Um (12) zu beweisen, bemerken wir einfach, dass P(|X − EX| ≥ t) ≤ P(|Y | ≥ t) = P(t−1 |Y | ≥ 1) = E1(t−1 |Y | ≥ 1) ≤ Et−2 |Y |2 = t−2 E|Y |2 aus der Monotonie des Erwartungswertes. Manchmal ist es auch nützlich die Erwartungswerte von höheren Potenzen einer Zufallvariabel X zu berechnen. Sei r ∈ N, (Ω, A, P) ein Wahrscheinlichkeitsraum, und X : Ω → R eine Zufallvariabel mit X r ∈ L1 (Ω, A, P). Wir bezeichnen mit PX = P ◦ X −1 die Verteilung der Zufallvariabel X. Wir definieren das p-te Moment von X durch Z Z p r Mp = EX = X dP = xr dPX (x). Ω R Momente sind manchmal wichtig, weil sie oft (aber nicht immer) Wahrscheinlichkeitsverteilungen eindeutig charakterisieren. Ein nützliches Kriterium ist in der folgenden Proposition gegeben (wir werden die Proposition hier nicht beweisen; ein Beweis kann in .. gefunden werden). 33 Proposition 2.17. Sei Mn ∈ R eine Folge mit der Eigenschaft, dass Mp ≥ 0 für alle p gerade und so, dass ein a > 0 existiert, mit ∞ X p=1 M2p a2p <∞ (2p)! Dann existiert hc̈hstens ein Wahrscheinlichkeitsmass P auf (R, B(R)) so, dass Mn = R xdP für alle n ∈ N. R Beispiel: Sei X eine Zufallvariable mit Normalverteilung, mit Erwartungswert 0 und Varianz 1. Die Momente von X sind dann Mp = 0 falls p ungerade und M2p = (2p)! 2p p! Beweis: Übung. Statt alle Momente von X zu berechnen, es ist manchmal nützlich die sogenannte Momenten erzeugende Funktion von X zu berechnen. Sei X eine reelle Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P) so, dass ein a > 0 existiert mit Ee±aX < ∞. Dann können wir die Momenten erzeugende Funktion von X durch ψ(z) := EezX definieren, für z in einer Umgebung von 0. Mit Hilfe von dominierte Konvergenz kann man dann zeigen, dass ψ ist in Null beliebig oft differenzierbar, mit ψ (p) (0) = EX p = Mp für alle p ∈ N. Beispiele: wir berechnen die Momenten erzuegende Funktion von ein Paar Verteilungen. i) Sei X eine Zufallvariable mit Exponentialverteilung, d.h. mit Dichte ρa (x) = ae−ax 1(x ≥ 0). Die Momenten erzeugende Funktion ist dann Z Z ∞ a 1 zX zx ψa (z) = E e = e ρa (x)dλ(x) = e(z−a)x adx = = a−z 1 − z/a R 0 falls z < a. Damit finden wir EX p = ψa(p) (0) = p! ap für alle p ∈ N. ii) Sei nun X eine Zufallvariable mit Poisson-Verteilung mit Parameter λ > 0, d.h. X λk PX = e−λ δk k! k∈N Wir berechnen die Momenten erzeugende Funktion: ∞ ψλ (z) = EezX = X k∈N ezk X (λez )k λk −λ z z e = e−λ = e−λ eλe = e−λ(1−e ) k! k! k=0 für alle z ∈ R. Im Prinzip können wir damit alle Momente von X berechnen indem wir die Ableitungen von ψλ an der Stelle Null bestimmen. 34 2.6 Charakteristische Funktion Eine andere nützliche Funktion, die man einer Zufallvariabel zuordnen kann, ist ihre charakteristische Funktion. Definition 2.18. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und X : Ω → R eine reelwertige Zufallvariabel auf Ω, mit Wahrscheinlichkeitsverteilung PX = P ◦ X −1 . Dann heisst Z Z itX itX φX (t) = E e = e dP = eitx dPX (x) Ω die charakteristische Funktion von X. Ist PX absolut stetig bezüglich dem Lebesgue Mass, und ist ρX : R → [0; ∞) die Wahrscheinlichkeitsdichte von X, so ist Z φ(t) = eitx ρX (x)dλ(x) die Fourier transformierte von ρX . Im nächsten Lemma zeigen wir die Stetigkeit der charakteristische Funktion. Lemma 2.19. Sei X : Ω → R eine reelwertige Zufallvariabel auf einem Wahrscheinlichkeitsraum (Ω, A, P). Dann ist die charakteristische Funktion φ(t) = EeitX gleichmässig stetig auf R. Beweis. Sei PX = P ◦ X −1 die Verteilung von X. Dann Z |φX (t) − φX (s)| = E|eitX − eisX | = |eitx − eisx |dPX (x) R Z i(t−s)x = |1 − e |dPX (x) Z ZR i(t−s)x |1 − e |dPX (x) + |1 − ei(t−s)x |dPX (x) = (13) |x|>N |x|≤N c ≤ N |t − s| + PX ([−N ; N ] ) weil |1 − eix | ≤ |x|. Nun, zu gegebenen ε > 0, finden wir N > 0 gross genug, damit PX ([−N ; N ]c ) ≤ ε/2. Wir setzten dann δ = ε/2N . Dann, für alle t, s ∈ R mit |t − s| < δ, finden wir aus (13), dass |φX (t) − φX (s)| ≤ ε. D.h. φX ist gleichmässig stetig. Wie die Momenten erzeugende Funktion ist auch die charakteristische Funktion einer Zufallvariable mit den Momenten von X verknp̈ft. Lemma 2.20. Sei X eine reelwertige Zufallvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P). Sei n ∈ N mit E|X|n < ∞. Dann ist die charakteristische Funktion φX ∈ C n (R) und (j) φX (0) = ij EX j für alle j = 0, 1, . . . , n. 35 Beweis. Wir betrachten zunächst den Fall n = 1. Dann gilt Z i(t+ε)x Z e − eitx eiεx − 1 φX (t + ε) − φX (t) eitx = dPX (x) = dPX (x) ε ε ε R R Da itx eiεx − 1 e ≤ |x| ε gleichmässig in ε, und da, nach Annahme |x| ∈ L1 (R, B(R), dPX ), es folgt aus dominierten Konvergenz, dass Z φX (t + ε) − φX (t) (1) lim = ixeitx dPX (x) =: φX (t) ε→0 ε R (1) Insbesondere ist φX differenzierbar. Die (gleichmässige) Stetigkeit von φX kann ähnlich wie in Lemma 2.19 bewiesen werden. In der Tat Z Z (1) (1) i(t−s)x 2 |x||1 − e |dPX (x) ≤ N |t − s| + 2 |x|dPX (x) φX (t) − φX (s) ≤ |x|>N R für alle N > 0. Zu gegebenen ε > 0 können wir nun N > 0 finden so, dass Z |x|dPX (x) < ε/2 |x|>N (weil das Integral auf R ist endlich). Dann setzen wir einfach δ = ε/2N 2 , um zu zeigen, (1) (1) dass |t − s| < δ impliziert, |φN (t) − φN (s)| ≤ ε. Das zeigt, dass φX ∈ C 1 (R). Iterativ n kann man zeigen, dass, falls E|X| < ∞, dann ist φX ∈ C n (R), mit Z (j) φX (t) = (ix)j eitx dPX (x) R (j) für alle j = 1, . . . , n. Insbesondere φX (0) = ij EX j . Beispiele. Wir diskutieren ein Paar Beispiele. i) Sei X eine Zufallvariable, mit Cauchy Verteilung, beschrieben aus der Wahrscheinlichkeitdichte ρa (x) = (a/π)(x2 + a2 )−1 . Die charakteristische Funktion von X ist Z Z 1 a ∞ eitx ixt π φX (t) = e dx = dx a x2 + a2 π −∞ (x + ia)(x − ia) R Für t > 0 können wir das Integral im oberen Halbebene schliessen. Aus der Pol an der Stelle x = ia finden wir den Beitrag Z ∞ eitx e−ta dx = − . 4πa −∞ (x + ia)(x − ia) Für t < 0 können wir dagegen das Integral im unteren Halbebene schliessen, und wir kriegen Z ∞ eitx eta dx = − . 4πa −∞ (x + ia)(x − ia) 36 Also, die charakteristische Funktion einer Zufallvariable mit Cauchy Verteilung ist φX (t) = 1 −|t|a e (2π)2 ii) Sei X eine Zufallvariable mit Binomial-Verteilung auf {0, 1, . . . , n}. Die charakteristische Funktion ist dann Z n X itx itk n φX (t) = e dPX (x) = pk (1 − p)n−k = (eit p + (1 − p))n e k R k=0 iii) Sei nun X normalverteilt, mit Erwartungswert m und Varianz v. Die Dichte von X ist 1 2 ρX (x) = √ e−(x−m) /2v 2πv Die charakteristische Funktion ist dann Z Z ∞ 1 eitm 2 2 φX (t) = √ eitx e−(x−m) /2v dλ(x) = √ eitx e−x /2v dx 2πv R 2πv −∞ Z 2 ∞ eitm e−vt /2 2 √ = e−(x−ivt) /2v 2πv −∞ Wenn wir die Integration-variable y = x−ivt zurück auf der reellen Achse schieben, finden wir 2 (14) φX (t) = eitm e−vt /2 . Die charakteristische Funktion spielt oft eine wichtige Rolle, weil sie die Verteilung eindeutig festlegt. Satz 2.21. Sei X eine reelwertige Zufallvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P). Die charakteristische Funktion von X legt die Verteilung von X eindeutig fest. Mit andere Wörter, seien X, Y zwei reelwertige Zufallvariable auf (Ω, A, P) mit φX = φY . Dann muss PX = PY gelten. Um den Satz zu beweisen, brauchen wir das folgende Lemma. Lemma 2.22. Sei (Rn , B(Rn ), P) ein Wahrscheinlichkeitsraum. a) Für jede A ∈ B(Rn ) und ε > 0 gibt es Fε abgeschlossen und Gε offen mit Fε ⊂ A ⊂ Gε und P(Gε \Fε ) < ε. b) Das Wahrscheinlichkeitsmass P wird eindeutig bestimmt durch die Werte der Integrale Z f dP, für alle f ∈ Cb (Rn ) Hier bezeichnet Cb (Rn ) den Raum der stetigen und beschränkten Funktionen auf Rn . 37 Beweis. a) Sei F die Menge aller abgeschlossenen Mengen in Rn und G die Menge aller offenen Mengen. Wir setzen H = {A ∈ B(Rn ) : ∀ ε > 0 ∃ Fε ∈ F und Gε ∈ G mit Fε ⊂ A ⊂ Gε und P(Gε \Fε ) < ε} Es ist leicht zu sehen, dass H eine σ-Algebra ist. Es gilt F ⊂ H. In der Tat, falls A ∈ F, setzen wir Fε = A. Um Gε zu definieren, setzen wir G̃n := {x ∈ Rn : d(x, A) < 1/n} für alle n ∈ N. Es gilt G̃n+1 ⊂ G̃n für alle n. Deswegen ist lim P(G̃n ) = P(∩n∈N G̃n ) = P(A) n→∞ und wir können n ∈ N gross genug finden so, dass P(G̃n ) < P(A) + ε. Dann setzen wir Gε = G̃n . Das zeigt, dass F ⊂ H. Da aber B(Rn ) die kleinste σ-Algebra ist, die F enthält, muss H = B(Rn ). b) Sei A ∈ B(Rn ) beliebig. Für alle n ∈ N finden wir Fn abgeschlossen, mit Fn ⊂ A und P(Fn ) ≤ P(A) ≤ P(Fn ) + 1/n. O.B.d.A. können wir auch annehmen, dass die Folge Fn monoton wachsend ist (sonst ersetzen wir Fn durch die abgeschlossene Menge ˙ n ). Also P(A) = limn→∞ P(Fn ), und P ist eindeutig durch die Werten P(F ) F1 ∪ ∪F bestimmt. Sei nun t≤0 1 1−t 0<t<1 ϕ(t) = 0 t≥1 Für eine abgeschlossene Menge F ⊂ Rn und n ∈ N setzen wir ϕn,F (x) := ϕ(nd(x, F )) für alle x ∈ Rn . Dann ist ϕn,F beschränkt und stetig für alle n ∈ N. Ferner, die Folge ϕn,F ist monoton fallend, mit ϕn,F (x) → 1F (x) für n → ∞. Dominierte Konvergenz impliziert, dass Z Z lim ϕn,F dP = 1F dP = P(F ) n→∞ Also, wie behauptet, das Wahrscheinlichkeitsmass P wird eindeutig durch die Integrale von stetige und beschränkte Funktionen bestimmt. Wir sind nun bereit, um Satz 2.21 zu beweisen. Beweis. Sei X eine Zufallvariable, und PX die entsprechende Verteilung. Wir bezeichnen mit φX die charakteristische Funktion von X. Wir möchten zeigen, dass PX eindeutig durch φX ausgedruckt werden kann. Für v > 0 setzen wir pv (x) = √ 1 2 e−x /2v . 2πv Ferner, definieren wir Z pv (x − y)dPX (y) fv (x) = R 38 Die rechte Seite definiert die Faltung von pv mit dem Mass PX (und wird also oft mit (pv ∗ PX )(x) bezeichnet). Wir bezeichnen mit PX,v das Wahrscheinlichkeitsmass mit Wahrscheinlichkeitsdichte fv , d.h. Z PX,v (A) = fv dλ A für alle A ⊂ R. Wir zeigen, dass fv , und deswegen das Mass PX,v , eindeutig durch φX (t) ausgedrückt werden kann. Dazu bemerken wir, dass Z √ x2 e−itx p1/v (t)dt 2πvpv (x) = e− 2v = R Also, mit Fubini, Z Z Z 1 −it(x−y) pv (x − y)dPX (y) = √ fv (x) = e p1/v (t)dt dPX (y) 2πv R R R Z Z Z 1 1 −itx ity e p1/v (t) e dPX (y) dt = √ e−itx p1/v (t)φX (t)dt =√ 2πv R 2πv R R Das zeigt, dass fv nur mit Hilfe von φX bestimmt werden kann, für alle v > 0. Nun behaupten wir, dass für jede stetige und beschränkte Funktion h : R → R, es gilt Z Z lim hdPX,v = hdPX (15) v→0+ Das bedeute jede Integral wie auf der rechten Seite von (15) wird eindeutig durch φX bestimmt. Aus Lemma 2.22 folgt, dass PX eindeutig durch φX bestimmt wird, wie behauptet. Um (15) zu zeigen, bemerken wir, dass Z Z Z Z hdPX,v = hfv dλ = h(y) pv (y − x)dPX (x) dλ(y) Z Z Z = h(y)pv (x − y)dλ(y) dPX (x) = (h ∗ pv )dPX Wir haben Z (h ∗ pv )(x) − h(x) = pv (x − y)(h(y) − h(x)) Z 1 2 =√ e−(x−y) /2v (h(y) − h(x))dλ(y) 2πvZ 1 2 =√ e−y /2 (h(x + vy) − h(x))dλ(y) 2π Für h beschränkt und stetig, finden wir aus domnierte Konvergenz, dass lim (h ∗ pv )(x) = h(x) v→0 für alle v > 0. Wir wenden noch einmal dominierte Konvergenz, um zu zeigen, dass Z Z lim (h ∗ pv )dPX = hdPX v→0 für alle h : R → R stetig und beschränkt. 39 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit 3.1 Bedingte Wahrscheinlichkeit In diesem Abschnitt führen wir den Begriff von bedingte Wahrscheinlichkeit ein. Wir betrachten dazu ein Wahrscheinlichkeitsraum (Ω, A, P) und wir untersuchen, wie das Eintreten von Ereignisse die Wahrscheinlichkeiten beeinflusst. Sei also B ∈ A ein Ereignis. Durch das Eintreten von B müssen wir die Wahrscheinlichkeiten der anderen Ereignisse revidieren. Das Wahrscheinlichkeitsmass P wird durch ein neues Mass PB . Wir verlangen, dass PB die folgenden Eigenschaften hat: i)PB (B) = 1, ii) ist A ∈ A und A ⊂ B, dann muss PB (A) = cB P(A). (16) Lemma 3.1. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und B ∈ A mit P(B) > 0. Dann gibt es ein eindeutiges Wahrscheinlichkeitsmass PB mit den Eigenscahften (16), gegeben aus P(A ∩ B) PB (A) = (17) P(B) für alle A ∈ A. Beweis. Einerseits ist es klar, dass (17) ein Waahrscheinlichkeitsmass ist, das die Bedingungen (16) erfüllt. In der Tat, P(B ∩B)/P(B) = 1 und, für A ⊂ B, ist P(A∩B)/P(B) = P(A)/P(B) proportional zu P(A). Anderseits, wenn (16) gilt, dann, für ein beliebiges A ∈ A, können wir schreiben PB (A) = PB (A ∩ B) + PB (A\B) = cB P(A ∩ B) weil PB (A\B) = 0 (das folgt aus der Bedingung i). Mit A = B finden wir cB = P(B)−1 und (17). Das Lemma führt uns zur nächste Definition. Definition 3.2. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Seien A, B ∈ A mit P(B) > 0. Dann definieren wir die bedingte Wahrscheinlichkeit von A gegeben B durch P(A|B) = P(A ∩ B) P(B) Es folgt aus Lemma 3.1, dass P(.|B) : A → [0; 1] ein Wahrscheinlichkeitsmass auf (Ω, A) definiert (oder auch auf (B, A ∩ B)). Die Definition von bedingter Wahrscheinlichkeit ist auch sinnvoll, wenn wir an der frequentistischen Interpretation von Wahrscheinlichkeiten denken. In diesem Fall, wenn wir das Zufallsexperiment n Mal wiederholen, das Ereignis B wird nP(B) fallen. Das Ereignis A∩B wird dagegen nP(A∩B) Mal fallen. Also, wenn wir nur die Experimenten betrachten, in welchen B gefallen ist (das ist die Bedeutung von “gegeben B”), die Frequenz vom Ereignis A ist P(A ∩ B)/P(B). Eine wichtige Folgerung aus der Definition ist die sogenannte Fallunterscheidungsformel, um die Wahrscheinlichkeit eines Ereignis A in bedingte Wahrscheinlichkeiten P(A|Bn ) zu zerlegen, wenn (Bn ) eine Partition von Ω ist. Die Fallunterscheidungsformel kann auch benutzt werden, um die Bayes-Formel für a-posteriori Wahrscheinlichkeiten herzuleiten. 40 Lemma 3.3. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, I eine abzählbare Indexmenge und (Bn )n∈I eine Folge disjukten Mengen in A mit ∪n∈I Bn = Ω und P(Bn ) > 0 für alle n ∈ I. a) Fallunterscheidungsformel: für alle A ∈ A gilt X P(A) = P(A|Bn )P(Bn ) n∈N b) Bayes-Formel: für alle A ∈ A mit P(A) > 0 und alle k ∈ N gilt P(Bk )P(A|Bk ) n∈N P(Bi )P(A|Bi ) P(Bk |A) = P Beweis. Wir haben X P(A|Bn )P(Bn ) = n∈N X P(A ∩ Bn ) = P(A) n∈N weil die Mengen A ∩ Bn disjunkt sind (und ∪n (A ∩ Bn ) = A). Das zeigt a). Um b) zu zeigen, bemerken wir, dass P(Bk |A) = P(Bk ) P(Bk ∩ A) = P(A|Bk ) P(A) P(A) Die Behauptung folgt dann aus a). Mit einem Beispiel zeigen wir, wie die Bayes-Formel benutzt werden kann. Eine Krankheit komme bei 2% einer Bevölkerung vor. Ein Testverfahren spreche bei 95% der Kranken und bei 10% der Gesunden an. Mit welcher Wahrscheinlichkeit ist eine zufällige Person krank, wenn der Test anspricht? Mit welche Wahrscheinlichkeit ist eine zufällige Person krank, wenn der Test nicht anspricht? Um die zwei Fragen zu beantworten, wir nennen Ω die endliche Menge der Bevölkerung. Auf Ω betrachten wir die Gleichverteilung P(E) = |E|/|Ω| für alle E ⊂ Ω. Wir bezeichnen mit B1 die Menge der Kranken und mit B2 die Menge der Gesunden. Offenbar gilt B1 ∪B2 = Ω. Ferner wir bezeichnen mit A ⊂ Ω die Menge der Testpositiven. Wir wissen P(B1 ) = 0.02, P(B2 ) = 0.98, P(A|B1 ) = 0.95, P(A|B2 ) = 0.10. Wir berechnen die Warscheinlichkeit, dass jemand wirklich krank ist, wenn der Test anspricht: P(B1 |A) = P(A|B1 )P(B1 ) .95 · .02 = ' 0.16 P(A|B1 )P(B1 ) + P(A|B2 )P(B2 ) .95 · .02 + .10 · .98 Anderseits, die Wahrscheinlichkeit, dass jemand krank ist, wenn der Test nicht anspricht, ist P(Ac |B1 )P(B1 ) .05 · .02 P(B1 |Ac ) = = ' .001 c c P(A |B1 )P(B1 ) + P(A |B2 )P(B2 ) .05 · .02 + .9 · .98 also extrem klein. Wenn der Test negativ ist, kann man also mit grosse Wahrscheinlichkeit erwarten, dass die Person gesund ist. Anderseits, wenn der Test positiv ist, bleibt die Wahrscheinlichkeit, dass die Person wirklich krank ist, ziemlich klein (man braucht dann andere Teste durchzuführen). 41 Oft bestehen Zufallsexperimente aus mehrere nacheinander ausgeführten Schritten und die Wahrscheinlichkeiten am k-ten Schritt hängen von den Ergebnisse in den Schritten 1 bis (k − 1) (man denke zum Beispiel, am Ziehen von r Karten aus einem Stapel von n Karten, ohne Zurückziehen). Um Wahrscheinlichkeiten zu berechnen ist dann oft die Multiplikationsformel P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A2 |A1 )P(A3 |A2 ∩ A1 ) . . . P(An |An−1 ∩ An−2 ∩ · · · ∩ A1 ) sehr nützlich. Beispiel. Wir ziehen 3 Kugel ohne Zurückziehen aus einer Urne mit 5 weisse, 3 rote und 2 schwarze Kugel. Was ist die Wahrscheinlichkeit, dass die erste Kugel weiss ist, die zweite rot und die dritte wieder weiss? Wir bezeichnen mit A1 das Ereignis “erste Kugel ist weiss”, mit A2 das Ereignis “zweite Kugel rot” und mit A3 das Ereignis “dritte Kugel weiss”. Wir wissen P(A1 ) = 1/2, P(A2 |A1 ) = 1/3, P(A3 |A1 ∩ A2 ) = 1/2. Also P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 |A1 )P(A3 |A2 ∩ A1 ) = 1/12 Wir können nun die bedingte Wahrscheinlichkeit benutzen, um den Begriff von unabhängigen Ereignisse zu definieren. Definition 3.4. Sei (Ω, A, P) ein Wahrscheinlickeitsraum. Zwei Ereignisse A, B ∈ A heissen unabhängig, wenn P(A ∩ B) = P(A)P(B). Ist P(A) = 0 oder P(B) = 0, dann sind A und B immer unabhängig. Ist P(A), P(B) > 0, dann sind A und B genau dann unabhängig, wenn P(A|B) = P(A) oder equivalent, wenn P(B|A) = P(B). Allgemeiner, n Ereignisse A1 , . . . , An ∈ A heissen unabhängig, wenn für alle m ≤ n und für alle 1 ≤ i1 < · · · < im ≤ n gilt ! m m Y \ P(Aik ) P Aik = k=1 k=1 Bemerkung: Die Unabhängigkeit von n Ereignisse A1 , . . . , An folgt nicht aus der paarweise Unabhängigkeit. Mit anderen Wörter, die Bedingung P(Ai ∩Aj ) = P(Ai )P(Aj ) für alle i, j ∈ {1, . . . , n} ist notwending aber nicht hinreichend, damit die Ereignisse A1 , . . . , An unabhängig sind). Das können wir zeigen, mit einem Beispiel vom russischen Mathematiker Bernstein (1927). In einer Urn sind 4 Zettel, mit den Zahlen 112, 121, 211, 222. Ein Zettel wird ausgezogen; jede Zettel hat Wahrscheinlichkeit 1/4. Wir betrachten die folgende Ereignisse: A1 = {112, 121} (1 an der erste Stelle), A2 = {112, 211} (1 an der zweite Stelle), A3 = {121, 211} (1 an der dritte Stelle). Es gilt P(A1 ) = P(A2 ) = P(A3 ) = 1/2. Die Ereignisse A1 , A2 , A3 sind paarweise unabhängig, weil P(A1 ∩ A2 ) = P({112}) = 1/4 = P(A1 )P(A2 ) P(A1 ∩ A3 ) = P({121}) = 1/4 = P(A1 )P(A3 ) P(A2 ∩ A3 ) = P({211}) = 1/4 = P(A2 )P(A3 ) Die drei Ereignisse sind aber nicht unabhängig, weil P(A1 ∩ A2 ∩ A3 ) = P(∅) = 0 6= 1/8 = P(A1 )P(A2 )P(A3 ). 42 3.2 Unabhängige Zufallvariablen Um die Unabhängigkeit von Zufallvariablen zu definieren brauchen wir den Begriff der von einer Zufallvariable erzeugten σ-Algebra einzuführen. Definition 3.5. Seien (Ω, A) und (Ω0 , A0 ) messbare Räume und X : Ω → Ω0 eine Zufallvariable. Wir bezeichnen mit σ(X) die kleinste in A enthaltene σ-Algebra auf Ω mit der Eigenschaft, dass X : Ω → Ω0 messbar ist. σ(X) heisst die von X erzeugten σ-Algebra auf Ω. Bemerkung: es gilt σ(X) = X −1 (A0 ) = {X −1 (B) : B ∈ A0 } . In der Tat, einerseits muss σ(X) ⊃ {X −1 (B) : B ∈ A0 } weil sonst X nicht messbar sein kann. Da anderseits {X −1 (B) : B ∈ A0 } eine σ-Algebra ist, muss σ(X) = {X −1 (B) : B ∈ B(R)}). Insbesondere, falls X : Ω → R eine reelwertige Zufallvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P) ist, so ist σ(X) = X −1 (B(R)) das Urbild der Borel σ-Algebra bezüglich X. Aus der Definition ist klar, σ(X) = X −1 (A0 ) aus allen Ereignisse in Ω besteht (alle Teilmengen von Ω), die durch X bestimmt werden können. Wenn wir wissen, dass, nach einem Zufallsexperiment, X ∈ A für ein A ∈ A0 , können wir schliessen, dass in Ω das Ereignis X −1 (A) gefallen ist. Wie wir bei der Einführung von Zufallvariablen diskutiert haben, durch X wird einer geringeren Beobachtungsgrad vom Zufallsexperiment gegeben, verglichen mit der Beschreibung auf dem ursprünglicher Ergebnisraum Ω (ausser wenn σ(X) = A). Das bedeutet, viele Ereignisse in Ω können nicht durch X bestimmt werden. Ferner, die Wahrscheinlichkeit von vielen Ereignissen in Ω wird durch die Messung von der Zufallvariable X gar nicht beeinflusst. Diese Bemerkung führt uns zu der Definition von Unabhängigkeit von Zufallsvariablen. Definition 3.6. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und, für i = 1, 2 sei Xi : Ω → Ω0i eine Zufallvariable mit Werten im messbarer Raum (Ω0i , A0i ). X1 und X2 heissen unabhängig falls für jede Paar von Ereignisse A ∈ σ(X1 ) und B ∈ σ(X2 ) gilt P(A ∩ B) = P(A)P(B). Equivalent: die zwei Variable X1 , X2 sind unabhängig falls, für alle A ∈ σ(X1 ) und B ∈ σ(X2 ) mit P(A), P(B) > 0 gilt P(A|B) = P(A). In diesem Fall sagen wir auch X1 ist unabhängig aus der σ-Algebra σ(X2 ) (oder X2 ist unabhängig aus der σ-Algebra σ(X1 )). Allgemeiner, n Zufallvariablen Xj : Ω → Ω0j mit Werten in einem messbarer Raum (Ω0j , Pj ), j = 1, . . . , n, heissen unabhängig, falls für alle A1 ∈ σ(X1 ), . . . , An ∈ σ(Xn ), die Ereignisse A1 , . . . , An ∈ A unabhängig sind. Bemerkung: da σ(Xj ) = Xj−1 (A0j ) finden wir, dass die Zufallvariablen X1 , . . . , Xn genau dann unabhängig sind, wenn für jede Teilmenge J ⊂ {1, . . . , n}, es gilt \ Y P Xj−1 (Bj ) = P(Xj−1 (Bj )) (18) j∈J j∈J für alle Bj ∈ A0j für alle j ∈ J. Tatsächlich, es genug (18) zu überprüfen für alle Bj in einer Teilmenge Gj0 von A0j , die A0j erzeugt (wenn Gj0 bezüglich Durchschnitt stabil sind). Das zeigen wir im nächsten Lemma. 43 Lemma 3.7. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Für i = 1, . . . , n sei Xj : Ω → Ω0j eine Zufallvariable mit Werten im messbarer Raum (Ω0j , A0j ). Sei Gj0 ⊂ A0j mit σ(Gj0 ) = A0j (d.h. die Gj0 erzeugen A0j ). Dann sind die Variablen X1 , . . . , Xn genau dann unabhängig, wenn für jede Teilmenge J ⊂ {1, . . . , n} es gilt \ Y P Xj−1 (Bj ) = P(Xj−1 (Bj )) (19) j∈J j∈J für alle {Bj ∈ Gj0 : j ∈ J}. Beweis. Wir betrachten den Fall n = 2. Sind X1 , X2 unabhängig, so gilt offenbar (19). Nehmen wir also an, es gilt (19). Wir möchten zeigen, dass X1 und X2 unabhängig sind. Sei A ∈ G10 , mit P(X1−1 (A)) > 0. Dann betrachten wir das Wahrscheinlichekeitsmass P(.|X1−1 (A)) ◦ X2−1 auf (Ω02 , A02 ). Nach Annahme, dies Mass stimmt mit P ◦ X2−1 auf G20 . Nach Carathéodory Erweiterungstheorem, müssen die zwei Masse auf A02 übereinstimmen. Das bedeutet, dass P(X2−1 (B)|X1−1 (A)) = P(X2−1 (B)) und also, dass P(X2−1 (B) ∩ X1−1 (A)) = P(X2−1 (B))P(X1−1 (A)) (20) für alle B ∈ A02 und alle A ∈ G10 . Für ein beliebiges B ∈ A02 mit P(X2−1 (B)) > 0 betrachten wir also das Mass P(.|X2−1 (B)) ◦ X1−1 auf A01 . Es folgt aus (20), dass dies Mass mit P ◦ X1−1 auf G10 übereinstimmt. Mit Carathéodory Erweiterungstheorem schliessen wir wieder, dass P(X1−1 (A)|X2−1 (B)) = P(X1−1 (A)) für alle A ∈ A01 und alle B ∈ A02 . Das zeigt die Unabhängigkeit von X1 , X2 . Der Beweis kann induktiv auf den Fall von n Zufallvariablen erweitert werden. Anwendung. Seien X1 , . . . , Xn : Ω → R reelwertige Zufallvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Jede Zufallvariable hat eine Verteilung PXj : B(R) → [0; 1], gegeben aus PXj = P ◦ Xj−1 . Die Verteilung PXj kann benutzt werden um Wahrscheinlichkeiten in σ(Xj ) zu berechnen; sie kann aber die Beziehungen zwischen den verscheidenen Variablen nicht beschreiben. Wir können auch die gemeinsame Verteilung von X1 , . . . , Xn betrachten, d.h. die Verteilung vom Zufallvektor (X1 , . . . , Xn ) : Ω → Rn ((X1 , . . . , Xn ) ist eine Zufallvariablen mit Werten auf Rn , weil B(Rn ) = B(R)×n ). Sie ist gegeben aus PX1 ,...,Xn = P ◦ (X1 , . . . , Xn )−1 : B(Rn ) → [0; 1] In allgemein enthält PX1 ,...,Xn mehr Informationen als die n Verteilungen PXj , weil σ(X1 , . . . , Xn ), die aus (X1 , . . . , Xn ) erzeugten σ-Algebra nicht nur aus Produktmengen besteht. Wenn wir die gemeinsame Verteilung PX1 ,...,Xn der Zufallvariablen X1 , . . . , Xn kennen, so können wir z.B. die Verteilung von X1 durch PX1 (A) = PX1 ,...,Xn (A × Rn−1 ) für alle A ∈ B(R) berechnen, und analog für die Verteilung. 44 Es folgt aus Carathéodory Erweiterungstheorem, dass die Verteilung PX1 ,...,Xn des Zufallvektors (X1 , . . . , Xn ) durch Angabe der Verteilungsfunktion FX1 ,...,Xn (t1 , . . . , tn ) = PX1 ,...,Xn ((−∞; t1 ] × . . . (−∞; tn ]) = P(X1 ≤ t1 , X2 ≤ t2 , . . . , Xn ≤ tn ) = P n \ Xj−1 ((−∞; tj ]) j=1 vollständig charakterisiert wird (aus der Verteilungsfunktion FX1 ,...,Xn können wir die Verteilungsfunktion von X1 durch FX1 (t) = FX1 ,...,Xn (t, +∞, . . . , +∞) bestimmen). Ist das Mass PX1 ,...,Xn absolut stetig bezüglich das Lebesgue Mass λn auf Rn , so können wir PX1 ,...,Xn auch durch eine integrierbare Wahrscheinlichkeitsdichte ρX1 ,...,Xn : Rn → [0; ∞) beschreiben, mit der Eigenschaft Z ρX1 ,...,Xn (x1 , . . . , xn )dλn (x1 , . . . , xn ) PX1 ,...,Xn (B) = B für alle B ∈ B(Rn ). Dann gilt Z FX1 ,...,Xn (t1 , . . . , tn ) = ρX1 ,...,Xn (x1 , . . . , xn )dλn (x1 , . . . , xn ) . (−∞;t1 ]×···×(−∞;tn ] Man bemerke, dass wenn PX1 ,...,Xn absolut stetig bezüglich das Lebesgue Mass auf Rn ist, so ist PXj absolut stetig bezüglich Lebesgue Mass auf R, für alle j = 1, . . . , n. Die Wahrscheinlichkeitsdichte von PXj ist dann aus Z ρX1 (x) = ρX1 ,...,Xn (x, x2 , . . . , xn )dλn−1 (x2 , . . . , xn ) gegeben (Beweis: Übung). Nach Definition sind die n reelwertige Zufallvariablen X1 , . . . , Xn genau dann unabhängig, wenn für alle m = 1, . . . , n, 1 ≤ i1 < i2 < · · · < im ≤ n, es gilt PXi1 ,...,Xim (A1 × · · · × Am ) = PXi1 (A1 ) . . . PXim (Am ) für alle A1 , . . . , Am ∈ B(R). Aus Lemma 3.7 folgt, dass die n Variablen X1 , . . . , Xn genau dann unabhängig sind, wenn, für alle m ≤ n und alle 1 ≤ i1 < i2 < · · · < im ≤ n, es gilt FXi1 ,Xi2 ,...,Xin (t1 , . . . , tm ) = m Y FXij (tj ) j=1 d.h. wenn die Verteilungsfunktionen faktorisieren. Ist PX1 ,...,Xn absolut stetig bezüglich dem Lebesgue Mass λn , dann sind X1 , . . . , Xn genau dann unabhängig, wenn alle Dichte faktorisieren, d.h. für alle m ≤ n und alle 1 ≤ i1 < i2 < · · · < im ≤ n, es gilt ρXi1 ,Xi2 ,...,Xin (x1 , . . . , xm ) = m Y ρXij (xj ) j=1 Betrachtet man reelwertige Zufallvariablen, so kann man auch die Unabhängigkeit überprüfen, durch Untersuchung von Erwartungswerte. 45 Lemma 3.8. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und seien X1 , X2 : Ω → R zwei unabhängige Zufallsvariablen. Dann gilt, für alle messbare Funktionen g1 , g2 : R → R, mit gi ◦ Xi ∈ L1 (Ω, A, P) für i = 1, 2 (d.h. gi muss integrierbar sein, bezüglich der Verteilung PXi ), Z Z Z g2 (X2 )dP = Eg1 (X1 ) Eg2 (X2 ) g1 (X1 )dP · g1 (X1 )g2 (X2 )dP = Eg1 (X1 )g2 (X2 ) = Ω Ω Ω (21) Um die Behauptung zu zeigen, bemerken wir einfach, dass, für jede messbare g : R2 → R, mit g ◦ (X1 , X2 ) ∈ L1 (Ω, A, P), wir haben Z Z Z gdPX1 ,X2 = gdPX1 × dPX2 g(X1 , X2 )dP = Eg ◦ (X1 , X2 ) = R2 Ω Also, für g = g1 g2 , finden wir Z Z Eg1 (X1 )g2 (X2 ) = g1 (x1 )g2 (x2 )dPX1 ,X2 (x, y) = g1 (x1 )g2 (x2 )dPX1 (x1 )dPX2 (x2 ) Z Z = g1 (x1 )dPX1 (x2 ) g2 (x)2dPX2 (x2 ) = Eg( X1 )Eg2 (X2 ) wie behauptet. Bemerkung: es gilt auch die Umkehrung von Lemma 3.8. D.h. wenn (21) für alle messbare Funktionen g1 , g2 gilt, dann sind X1 und X2 unabhängige Zufallvariable. In der Tat, für beliebige B1 , B2 ∈ B(R) finden wir mit (21), dass P(X1 ∈ B1 ∧ X2 ∈ B2 ) = E1X −1 (B1 )∩X −1 (B2 ) = E1X −1 (B1 ) 1X −1 (B2 ) 1 2 1 2 = E1X −1 (B1 ) E1X −1 (B2 ) = P(X1 ∈ B1 )P(X2 ∈ B2 ) 1 2 Das zeigt die Unabhängigkeit von X1 , X2 . Definition 3.9. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und X1 , X2 : Ω → R zwei Zufallvariable mit X1 , X2 , X1 · X2 ∈ L1 (Ω, A, P) (diese Bedingungen sind insbesondere efüllt, wenn X12 , X22 ∈ L1 (Ω, A, P)). Wir definieren die Kovarianz von X1 und X2 durch Cov(X1 , X2 ) = E(X1 − EX1 )(X2 − EX2 ) = E(X1 X2 ) − (EX1 )(EX2 ) Ist Cov(X1 , X2 ) = 0, so sagen wir, dass die Zufallsvariablen X1 , X2 unkorreliert sind. Sind X1 , X2 integrierbar und unabhängig, dann sind sie wegen Lemma 3.8 unkorreliert. In Allgemein brauchen aber unkorrelierte Zufallvariablen nicht unabhängig zu sein. Seien zum Beispiel X1 , X2 : Ω → R zwei unabhängige Zufallvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P), beide mit einer Bernoulli-Verteilung P(Xi = 1) = P(Xi = −1) = 1/2 für i = 1, 2. Dann sind Z = X1 + X2 und W = X1 − X2 unkorreliert, weil E(ZW ) = EX12 − EX22 = 0 46 aber sicher nicht unabhängig, weil P (W = 0|Z = 2) = 1 6= 1/2 = P(W = 0) Beispiele von unabhängigen Ereignisse und unabhängigen Zufallvariable können sehr einfach auf Produkt Räume konstrtuiert werden. Seien (Ω1 , A1 , P1 ) und (Ω2 , A2 , P2 ) zwei Wahrscheinlichkeitsräume. Auf der Produktmenge Ω1 ×Ω2 können wir dann die Produktσ-Algebra A1 ×A2 definieren, als die kleinste σ-Algebra, die alle Produktmengen A1 ×A2 , mit A1 ∈ A1 und A2 ∈ A2 , enthält. In Analysis 3 wurde gezeigt, dass ein eindeutiges Mass auf (Ω1 × Ω2 , A1 × A2 ) existiert, bezeichnet mit P1 × P2 , mit der Eigenschaft, dass (P1 × P2 )(A1 × A2 ) = P1 (A1 )P2 (A2 ) für alle A1 ∈ A1 , A2 ∈ A2 . In der Tat, das Mass (P1 × P2 ) ist aus Z Z P1 (E y )dP2 (y) P2 (Ex )dP1 (x) = (P1 × P2 )(E) = Ω2 Ω1 wobei Ex = {y ∈ Ω2 : (x, y) ∈ E} und E y = {x ∈ Ω1 : (x, y) ∈ E} die Querschnitte von E sind. Da (P1 × P2 )(Ω1 × Ω2 ) = P1 (Ω1 )P2 (Ω2 ) = 1 es folgt, dass das Mass P1 × P2 ein Wahrscheinlichkeitsmass ist. Damit ist (Ω1 × Ω2 , A1 × A2 , P1 × P2 ) ein neues Wahrscheinlichkeitsraum. Gegeben A1 ∈ A1 und A2 ∈ A2 , können wir die Ereignisse A1 × Ω2 und Ω1 × A2 in A1 × A2 betrachten. Dann gilt (P1 × P2 )((A1 × Ω2 ) ∩ (Ω1 × A2 )) = (P1 × P2 )(A1 × A2 ) = P1 (A1 )P2 (A2 ) = (P1 × P2 )(A1 × Ω2 )(P1 × P2 )(Ω1 × A2 ) D.h. die Ereignisse (A1 × Ω2 ) und (Ω1 × A2 ) sind unabhängig. Analog, wenn fi : Ωi → Ω0i für i = 1, 2 zwei Zufallsvariablen sind mit Werten in messbare Räume (Ω0i , A0i ), und wenn wir Xi : Ω1 × Ω2 → Ω0i durch X1 (x, y) = f1 (x) und X2 (x, y) = f2 (y) definieren, dann sind die zwei Zufallvariablen X1 , X2 unabhängig. In der Tat, für A ∈ Ω01 , gilt X1−1 (A) = f1−1 (A) × Ω2 . Für A ∈ Ω02 finden wir analog X2−1 (A) = Ω1 × f2−1 (A). Deswegen sind X1−1 (A) und X2−1 (B) unabhängig, für alle A, B ∈ B(R). Sind f1 , f2 reelwertig, dann kann man die Unabhängigkeit der Variablen X1 , X2 auch überprüfen, indem man bemerkt, dass für alle messbare Funktionen g1 , g2 : R → R mit gi ◦ Xi ∈ L1 (Ω, A, P), es gilt Z E (g1 ◦ X1 )(g2 ◦ X2 ) = g1 (X1 (x))g2 (X2 (y))d(P1 × P2 )(x, y) Ω1 ×Ω2 Z Z = g1 (X1 (x))dP1 (x) g2 (X2 (y))dP2 (y) Ω1 Ω2 = E(g1 ◦ X1 )E(g2 ◦ X2 ) wo wir Fubini angewandt haben. Der Begriff von Produkt von zwei Wahrscheinlichkeitsräume kann direkt auf dem Produkt von n Wahrscheinlichkeitsräume erweitert werden. Sind nämlich (Ωi , Ai , Pi ) 47 Wahrscheinlichkeitsräume für alle i = 1, . . . , n, so können wir iterativ den Produktraum (Ω1 × · · · × Ωn , A1 × · · · × An , P1 × · · · × Pn ) definieren (es ist leicht zu sehen, dass das Produkt von Wahrscheinlichkeitsräume associativ ist, d.h. (Ω1 × Ω2 ) × Ω3 = Ω1 × (Ω2 × Ω3 ), (A1 × A2 ) × A3 = A1 × (A2 × A3 ) und (P1 × P2 ) × P3 = P1 × (P2 × P3 ); deswegen dürfen wir die Bezeichnungen Ω1 × · · · × Ωn , A1 × · · · × An und P1 × · · · × Pn benutzen). Das Produktmass P1 × Pn ist das eindeutiges Mass, mit der Eigenschaft, dass (P1 × · · · × Pn )(A1 × · · · × An ) = P1 (A1 ) . . . Pn (An ) für alle A1 ∈ A1 , . . . , An ∈ An . Die n Zufallvariablen Xi : Ω1 × · · · × Ωn → Ω0i , mit Xi (x1 , . . . , xn ) = fi (xi ), für messbare Funktionen fi : Ωi → Ω0i mit Werten in einem messbarer Raum (Ω0i , A0i ) sind dann unabhängig. In der Tat Xi−1 (A) = Ω1 × · · · × fi−1 (A) × · · · × Ωn für alle A ∈ A0i . Deswegen für jede J ⊂ {1, . . . , n} und für jede Familie {Ai }i∈J mit Ai ∈ A0i , finden wir (Ai` )) (P1 × · · · × Pn )(Xi−1 (Ai1 ) ∩ · · · ∩ Xi−1 1 ` (Ai` ) × · · · × Ωn ) = (P1 . . . Pn )(Ω1 × · · · × fi−1 (Ai1 ) × · · · × fi−1 1 ` = ` Y j=1 Pij (fi−1 (Aij )) = j ` Y (P1 × · · · × Pn )(Xi−1 (Aij )) j j=1 Beispiel. Betrachte das Werfen von n Münzen. Der Ergebnisraum für die j-te Münz ist Ωj = {0, 1}. Auf Ωj ist das Bernoulli Wahrscheinlichkeitsmass Pj ({0}) = Pj ({1}) = 1/2. Der Ergebnisraum für die n Würfe ist dann Ω = Ω1 × · · · × Ωn = {0, 1}n . Auf Ω ist das Produktmass P = P1 × P2 × . . . timsPn definiert. P ist genau die Gleichverteilung auf Ω (jede Ergebnis x = (x1 , . . . , xn ) ∈ Ω entspricht zum Ereignis {x} und kann als Produktmenge {x} = {x1 } × · · · × {xn } geschrieben werden; deswegen gilt P({x}) = Qn −n ). Auf Ω können wir die Zufallsvariablen X (x , . . . , x ) = x defij 1 n j j=1 Pj ({xj }) = 2 nieren; Xj misst den Ergebnis vom j-ten Wurf. Dann sind die Zufallvariablen X1 , . . . , Xn unabhängig. Ferner, sie haben alle die selbe Bernoulli Verteilung. Beispiel. Auf Ω = Rn ist die Borel σ-Algebra B(Rn ) definiert. Auf B(Rn ) betrachten wir das Gauss’sche Mass P, mit der Dichte − 1 e ρ(x1 , . . . , xn ) = n/2 (2π) x2 j j=1 2σ 2 j Pn Es ist einfach zu sehen, dass die Zufallvariablen X1 , . . . , Xn : Ω → R, definiert durch Xj (x1 , . . . , xn ) = xj für alle j = 1, . . . , n, unabängig sind. Tatsächlich, man kann der Wahrscheinlichkeitsraum Ω als das Produkt von den n Wahrscheinlichkeitsräume (R, B(R), Pj ), wobei Pj das Gauss’sche Wahrscheinlichkeitsmass ist, mit Dichte 2 2 1 ρj (x) = √ e−x /2σj 2π Die Variablen X1 , . . . , Xn sind also unabhängig, weil sie auf verschiedene Komponenten vom Produktraum definiert sind. 3.3 Unendliche Produkte und stochastische Prozesse Oft möchten wir gleichzeitig unendlich viele Zufallexperimenten betrachten. Sei Ωi , i ∈ N, der Ergebnisraum vom i-ten Experiment. Die unendlich Folge von Experimente 48 können auf dem Produktraum Y Ωi = {ω = (ωj )j∈N } i∈N beschrieben werden. Für jede i ∈ N, sei Ai eine Q σ-Algebra auf Ωi . Die Frage ist, welche σ-Algebra sollen wir auf dem Produktraum i∈N Ωi definieren. Schon im einfachen Fall von abzählbar vielenQMünzwürfe, mit Ωi = {0, 1} für alle i ∈ N, und Ai = P (Ωi ),Qkann die σ-Algebra auf i∈N Ωi nicht die ganze Potenzmenge sein. Wir wissen, dass i∈N Ωi , die Menge aller Folge mit Werten 0 und 1, mit dem Intervall [0; 1] ⊂ R identifiziert werden kann. Anderseits wissen wir, dass es schwierig ist auf der Potenzmenge von [0; 1] ein Mass zu definieren (man denke am Beispiel von Vitali). Die selbe Probleme treten auf, wenn wir versuchen, auf dem unendliches Produkt die Potenzmenge als σ-Algebra zu betrachten. Q In der Wahl der σ-Algebra auf der Produkt Menge j∈N Ωj lassen wir uns aus der folgende Überlegung führen. Auch wenn wir unendlich viele Zufallsexperimenten durchführen, sind wir an Ereignisse interessiert, die nur aus endlich viele Ergebnisse abhängen. Q Definition 3.10. Seien (Ωi , Ai , Pi ), i ∈ N, Wahrscheinlichkeitsräume und Ω̂ = i∈N Ωi der unendlich Produktraum. Wir definieren die Produkt σ-Algebra  über Ω̂ als die kleinste σ-Algebra, die alle Teilmenge von Ω̂ der Form Y Y A= Ai × Ωi (22) i6∈J i∈J enthält, wo J = (i1 , . . . , ik ) ⊂ N endlich ist. Mengen dieser Form heissen Zylindermengen. Auf A definieren wir das Produkt-Wahrscheinlichkeitsmass P̂ = ×i∈N Pi , als das einziges Mass mit der Eigenschaft Y P̂(A) = Pi (Ai ) (23) i∈J für alle Zylindermengen (22). Wir bemerken, dass (23) die Wahrscheinlichkeit P̂ eindeutig definiert ist, weil die Menge G ⊂ Â, die aus endlichen Vereinigungen von Zylindermengen besteht eine Algebra ist, die  erzeugt (und deswegen kann Carathéodory Erweiterungstheorem angewandt werden). Die Definition vom Produktmass P̂ auf  entspricht der Idee, dass die verschiedenen Zufallexperimenten unabhängig sind. Damit haben wir ein Wahrscheinlichkeitsraum (Ω̂, Â, P̂) konstruiert, wo die unendlich viele Zufallexperimenten beschrieben werden können. Auf Ω̂ können wir Zufallvariablen definieren. Es ist eigentlich natürlich Folgen von Zufallvariablen zu konstruieren. Das führt zur Sei Ωi = R und Ai = B(R) für alle i ∈ N. Wir bezeichnen Q nächste Definition. Q RN = i∈N Ωi und B(RN ) = i∈N Ai . Definition 3.11. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Dann heisst eine messbare Abbildung f : (Ω, A) → (RN , B(RN )) eine Zufallsfolge, oder ein stochastische Prozess (mit diskreter Zeit). 49 Sei f : (Ω, A) → (RN , B(RN )) eine Zufallfolge. Die Verteilung der Zufallsfolge f ist das Mass Pf = P ◦ f −1 : B(RN ) → [0; 1]. Die j-te Komponenten von f ist dann Q eine −1 reelwertige Zufallvariable fjQ: (Ω, A) → R, mit Verteilung Pfj (A) = P◦f (A× i6=j Ωj ) für alle A ∈ B(R). Ist Pf = j Pfj ein Produktmass, so heisst f eine Folge unabhängiger Zufallvariablen. Sind die Verteilungen der Komponenten von f identisch, so heisst f eine Folge unabhängiger identisch verteilter Zufallvariablen (auf English, “independent identically distributed random variables”). Unendliche Folgen unabhängiger Zufallsvariablen sind die wichtigsten Bausteine der Wahrscheinklichkeitstheorie. Man kann auch umgekehr vorgehen, und zunächst an der Zufallvariablen denken. Für alle i ∈ N sei (Ω Q i , Ai , Pi ) ein Wahrscheinlichkeitsraum. Dann können Q wir auf dem Produktraum Ω̂ = i∈N Ωi , versehen mit der Produkt-σ-Algebra A = j∈N Aj und mit Q dem Produkt Mass P̂ = j∈N Pi eine Folge unabhängige Zufallsvariablen (Xi )i∈N mit den Verteilungen PXi = Pi definieren. Mit anderer Wörter, wir können ein Wahrscheinlichkeitsraum Ω̂ finden, so, dass (Xj )j∈N eine Folge unabhängige Zufallvariablen auf Ω̂ ist, mit der Eigenschaft, dass Xj die Verteilung Pj hat. Der Wahrscheinlichkeitsraum, wo tatsächlich alle Xj definiert werden, spielt dann keine wichtige Rolle. Alles was uns über die Folge Xj interessiert, kann dann durch die Verteilungen Pj berechnet werden (weil die Variablen unabhängig sind). Der Poisson-Prozess. Ein einfaches Beispiel eines stochastischen Prozess ist der sogenannte Poisson-Prozess. Sei α > 0 fest und (Lj )j∈N eine Folge unabhängiger Zufallvariablen mit Verteilung Lj ∼ Exp(α) (d.h. Lj ist eine reelwertige absolut stetige Variable mit Wahrscheinlichkeitsdichte ρ(x) = αe−αx 1[0;∞) (x)). Es ist nicht wichtig auf welchem Raum die Variablen Lj definiert sind; wichtig ist nur, dass ein Wahrscheinlichkeitsraum existiert, wo alle Lj definiert werden können. Wir interpretieren die Zahlen Lj als Lücke zwischen dem P (i − 1)-te und dem i-te Punkt von dem Poisson Prozess. Für k ∈ N setzen wir Tk = kj=1 Lj . Für t > 0 definieren wir weiter Nt = X 1(0;t] (Tk ) k≥1 Offenbar misst die Zufallvariable Nt wieviele Punkte Tk im Intervall (0; t] fallen. Satz 3.12. Für alle 0 = t0 < t1 < · · · < tn sind die n Differenzen Nti+1 − Nti unabhängige Zufallvariablen, mit Poisson Verteilung zum Paramter α(ti+1 − ti ). Bemerkung. Die Familie (Nt )t∈[0;∞) heisst ein Poisson Prozess zur Intensität α > 0. Bemerke, dass in diesem Fall der stochastische Prozess nicht nur eine Folge ist, sondern eine Funktion von einem reellen Variable t. Tatsächlich ist aber die in der Funktion Nt enthaltene Information equivalent zur Information, die aus der Folge (Tk )k∈N gegeben ist. Die (Tk )k∈N heissen die Sprungzeiten vom Poisson Prozess. Beweis. Wir betrachten den Fall n = 2, der allgemein Fall folgt analog. Sei also 0 < s < t. Wir behaupten, dass (αs)k (α(t − s))` P(Ns = k, Nt − Ns = `) = e−αs e−α(t−s) (24) k! `! 50 für alle k, ` ∈ N. Das impliziert, dass Ns und Nt−s Poisson Verteilung haben, mit Parameter αs und, beziehungsweise, α(t − s). Ferner, es impliziert, dass Ns und Nt − Ns unabhängig sind. Um (24) zu zeigen, berechnen wir P(Ns = k, Nt − Ns = `) = P(Tk ≤ s < Tk+1 ≤ Tk+` ≤ t < Tk+`+1 ) Für x = (x1 , . . . xk+`+1 ), setzen wir τj (x) = x1 + · · · + xj . Wir finden (die Integrationvariablen x1 , . . . , xk+`+1 spielen die Rolle der Variablen Lj ) Z ∞ Z ∞ dx1 . . . dxk+`+1 αk+`+1 e−ατk+`+1 (x) ... P(Ns = k, Nt − Ns = `) = 0 0 1(τk (x) ≤ s < τk+1 (x) ≤ τk+` (x) < t ≤ τk+`+1 (x)) Wir berechnen zunächst das Integral über xk+`+1 , bei festgehaltenen x1 , . . . , xk+` . Mit einer Verschiebung von der Integrationsvariable finden wir Z ∞ Z ∞ −ατk+`+1 dzαe−αz = e−αt dxk+`+1 αe 1(t ≤ τk+`+1 ) = t 0 Nun, bei festgehlatene x1 , . . . , xk , wir integrieren über xk+1 , . . . , xk+` indem wir y1 = τk+1 (x) − s und yj = xk+j für j = 2, . . . , ` setzen. Wir finden Z ∞ Z ∞ ... dxk+1 . . . dxk+` 1(s < τk+1 ≤ τk+` < t) 0 0 Z ∞ Z ∞ (t − s)` = ... dy1 . . . dy` 1(y1 + y2 + · · · + y` < t − s) = `! 0 0 Für die restliche Integrale finden wir Z ∞ Z ∞ sk ... dx1 . . . dxk 1x1 +···+xk ≤s = k! 0 0 Insgesamt, P(Ns = k, Nt − Ns = `) = αk+` e−αt (t − s)` sk `! k! und die Behauptung folgt. Irrfahrt. Wir betrachten eine Folge (Xj )j∈N von unabhängige Zufallvariablen, mit Verteilung P(Xj = 1) = p und P(Xj = −1) = 1 − p für ein p ∈ (0; 1) für alle j (also die Xj sind unabhängig und identisch verteilte Zufallvariablen). Wir setzen Sn = n X Xi i=1 Sn ist als eine messbare Funktion von X1 , . . . , Xn definiert, und ist also auch eine Zufallvariable. Also (Sn )n∈N ist eine Zufallfolge, allerdings natürlich keine unabhängigen. Die Irrfahrt (Sn )n∈N beschreibt eine Wanderung auf N, wo man an jedem Schritt mit ein Münzwurf entscheidet, nach rechts oder nach links weiterzugehen. 51 Wir können die Verteilung der Zufallvariable Sn bestimmen. Offenbar, Sn kann die Werten −n, −n + 2, −n + 4, . . . , n − 2, n annehmen. Damit S2n = 2k ist, muss man n + k Mal nach rechts gehen, und nur n − k Mal nach links. Die Wahrscheinlichkeit dafür ist 2n P(S2n = 2k) = pn+k (1 − p)n−k n+k für alle k = −n, −n + 1, . . . , n − 1, n. Das heisst S2n hat eine Binomialverteilung, shifted um −n. Analog können wir die Verteilung von S2n+1 bestimmen, wir finden 2n + 1 P(S2n+1 = 2k + 1) = pn+k+1 (1 − p)n−k n+k+1 für alle k = −n − 1, −n, . . . , n. Mit Hilfe der Formel für die Verteilung von Sn können wir viele Interessante Eigenschaften einer Irrfahrt bestimmen. Der Erwartungswert von S2n ist n X 2n E S2n = 2k pn+k (1 − p)n−k n+k k=−n 2n X 2n m = 2(m − n) p (1 − p)2n−m m m=0 = 4pn − 2n = 2np − 2n(1 − p) Im Fall p = 1/2 ist E S2n = 0. Das bedeutet nicht, dass die Fahrt sich nicht bewegt, sondern nur, dass sie mit der selben Wahrscheinlichkeit positive und negative Werten annimmt. Wenn wir wissen wollen, wie weit die Fahrt kommt, dann sollen wir besser seine Varianz berechnen. Wir finden (im Fall p = 1/2) n 1 X 2n 2 ES2n = n (2k)2 n+k 4 k=−n 2n 1 X 2n = n−1 (m − n)2 4 m m=0 2n 1 X 2n = n−1 (m(m − 1) + m(1 − 2n) + n2 ) 4 m m=0 " # 2n 2n X X 1 (2n)! (2n)! = n−1 4n n2 + (1 − 2n) + 4 (m − 1)!(2n − m)! (m − 2)!(2n − m)! m=1 m=2 1 = n−1 4n n2 + +22n−1 2n(1 − 2n) + 22n−2 2n(2n − 1) = 2n 4 √ Diese Rechnung zeigt, dass Sn typischerweise Werte der Ordnung n annimmt. In der Tat, man kann zeigen, dass r |Sn | 2 lim E √ = n→∞ π n Eine andere Interessante Frage ist die folgende: was ist die Wahrscheinlichkeit, dass eine Irrfahrt die in Null beginnt irgendwann nach Null zurück kommt? Im Gegensatz 52 zu den Fragen über Erwartungswert und Varianz von Sn , um diese neue Frage zu untersuchen müssen wir wirklich das unendlichen Prozess (Sn )n∈N betrachten, weil wir nicht wissen, wann die Fahrt zurück nach Null kommt. Wir betrachten zunc̈hst den symmetrischen Fall p = 1/2. Wir definieren iterativ (1) T0 = inf{m > 0 : Sm = 0} und, für n > 1, (n) T0 (n−1) = inf{m > T0 : Sm = 0} (n) Mit andere Wörter, T0 ist die n-te Zeitpunkt, wann die Fahrt zurück in Null kommt. (1) Wir möchten P(T0 < ∞) berechnen. Dazu berechnen wir zunächst P(Sm = 0). Für m ungerade, P(Sm ) = 0. Für m = 2n, finden wir dagegen 2n 1 P(S2n = 0) = n 22n Mit Hilfe der Stirling Formel √ n! ' nn e−n 2πn wir finden P(S2n √ 1 (2n)2n e−2n 4πn =√ = 0) ' 2n 2n −2n 2 n e (2πn) πn (25) bis auf Fehler die kleiner sind, im Limes n → ∞. Betrachte nun die Zufallvariable N= X 1Sm =0 m∈N die die Anzahl Zeiten misst, in welchen die Fahrt in Null ist. Aus (25) finden wir X EN = P(Sm = 0) = ∞ m∈N Die Zufallvariable N kann auch anderes umgeschrieben werden. N ist die Anzahl von (n) ganze Zahlen n ∈ N, mit T0 < ∞. D.h. X N= 1T (n) <∞ n∈N 0 und EN = X n∈N (n) P(T0 < ∞) = X (1) P(T0 < ∞)n = 1 (1) 1 − P(T0 n∈N (1) < ∞) Die Tatsache, dass E N = ∞ impliziert, dass P(T0 < ∞) = 1, d.h. die Irrfahrt kommt mit Sicherheit irgendwann zurück an der Stelle wo sie angefangen hat. Man sagt deswegen, dass die Irrfahrt auf Z mit p = 1/2 rekurrent ist. Die Situation ist anderes, falls p 6= 1/2. In diesem Fall haben wir 2n n (4p(1 − p))n √ P(S2n = 0) = p (1 − p)n ' n 2πn 53 Da 4p(1 − p) < 1 für p 6= 1/2, finden wir in diesem Fall, dass der Erwartungswert von der Anzahl Zeiten, in welchen die Fahrt in Null ist, X EN = P(Sm = 0) < ∞ m∈N endlich ist. Da aber EN = 1 (1) 1 − P(T0 < ∞) (1) es folgt, dass P(T0 < ∞) < 1. Mit andere Wörter, für p 6= 1/2, es gibt eine nicht verschwindende Wahrscheinlichkeit, dass eine Fahrt, die in Null anfängt, nie wieder im Punkt Null zurückkommt (die Irrfahrt auf Z mit p 6= 1/2 heisst deswegen transient). Man kann die Irrfahrt anders interpretieren, als das Kapital eines Spieler. Wir gehen davon aus, dass ein Spieler ein Anfagnskapital V > 0 besitzt und nur so lange spielt bis er entweder sein Kapital auf G > V vermehrt hat, oder alles verloren hat. Nach jedem Spiel das Kapital kann um einen Beitrag Xi ∈ {±1} wachsen, wobei (Xi )i∈N eine Folge unabhängige Variablen ist, mit Bernoulli Verteilung P(Xi = 1) = p, P(Xi = −1)P= 1−p. Das Kapital des Spielers zum Zeitpunkt n ist dann K(n) = V + Sn , mit Sn = ni=1 Xi . Wir untersuchen nun die Frage: was ist die Wahrscheinlichkeit dafür, dass der Spiel mit dem Ruin des Spielers endet? Um diese Frage zu antworten, brauchen wir wirklich das Problem im unendlichen Produktraum zu stellen. Wir bezeichnen mit An das Ereignis, dass das Spiel mit dem Ruin des Spielers zum Zeitpunkt n endet. Es gilt An = {Sn = −V } ∩ n \ {−V < Sk < G − V } k=1 Das Ereignis “das Spiel endet mit dem Ruin des Spielers” ist dann aus A= ∞ [ An n=1 gegeben. Man kann dasselbe Ereignis auch anders schreiben, als A = {inf {n : Sn = −V } < inf{n : Sn = G − V }} = {inf {n : K(n) = 0} < inf{n : K(n) = G}} Die Frage ist, was ist P(A)? Um diese Frage zu beantworten, definieren wir h(K) = P (inf{n : K(n) = 0} < inf{n : K(n) = G}|K(0) = K) für 0 < K < G. Wir setzen h(0) = 1, h(G) = 0. Es gilt P(A) = h(V ). Wenn wir mit das Spiel mit dem Kapital K(0) = K beginnen, haben wir nach einem Schritt das Kapital K + 1 mit Wahrscheinlichkeit p und das Kapital K − 1 mit Wahrscheinlichkeit 1 − p. Aus diesem Grund, die Funktion h muss die folgende Relation erfüllen h(K) = ph(K + 1) + (1 − p)h(K − 1) 54 (26) mit der Randwerten h(0) = 1 und h(G) = 0. Aus (26) erhalten wir (1 − p)(h(K) − h(K − 1)) = p(h(K + 1) − h(K))) d.h. 1−p (h(K) − h(K − 1)) p Wir iterieren diese Gleichung K Mal. Wir finden 1−p K (h(K + 1) − h(K)) = (h(1) − h(0)) p (h(K + 1) − h(K)) = für alle K = 0, . . . , G − 1. Also 1 = h(G) − h(0) = G−1 X (h(K + 1) − h(K)) = (h(1) − h(0)) K=0 1 = (h(1) − h(0)) G−1 X K=0 1−p p K G − 1−p p 1−p 1− p Das gibt 1 − 1−p p h(1) − h(0) = G 1 − 1−p p und V −1 X 1 − 1−p 1−p K p P(A) = h(V ) = (h(K + 1) − h(K)) = G p K=0 K=0 1 − 1−p p V V 1−p 1 − 1−p 1 − 1 − 1−p p p p = = G G 1−p 1−p 1− p 1 − 1−p 1 − p p V −1 X Im Fall p = 1/2, die Formel wird viel einfacher, und wir finden (mit einer ähnlicher Rechnung) V P(A) = 1 − G Eine andere interessante Frage, bei P der Untersuchung der einfache und symmetrische Irrfahrt (Sn )n∈N definiert durch Sn = ni=1 Xi , wobei (Xi )i∈N eine Folge unabhängiger Bernoulli Variablen, mit P(Xi = 1) = P(Xi = −1) = 1/2 ist die folgende: was ist der Verhältnis der Zeit, die eine solche Fahrt positiv bzw. negativ ist? Wir berechnen zunächst die Wahrscheinlichkeit dafür, dass die erste Rückkehr der Fahrt nach Null zur Zeit 2n stattfindet: f2n = P (inf{i > 0 : Si = 0} = 2n) Mit der Definition g2n = P (Sk > 0 für alle k = 1, . . . , 2n − 1 und S2n = 0) 55 finden wir offenbar f2n = 2g2n . Es gilt 1 g2n = P (Sk > 0 für alle k = 1, . . . , 2n − 2 und S2n−1 = 1) 2 Ferner P Sk > 0 für alle k = 1, . . . , 2n − 2 und S2n−1 = 1 (27) = P(S1 = 1 und S2n−1 ) − P (S1 = 1, S2n−1 = 1 und es existiert k = 1, . . . , 2n − s mit Sk ≤ 0) Es ist einfach zu berechnen P(S1 = 1 und S2n−1 = 1) = P(S1 = 1)P(S2n−1 = 1|S1 = 1) = P(S1 = 1)P(S2n−2 = 0|S0 = 0) 2n − 2 1 2n − 2 1 1 = = 2 22n−2 n − 1 22n−1 n − 1 Um den zweiten Term auf der rechten Seite von (27) zu berechnen, benutzen wir das Reflexionsprinzip. Die Bemerkung hier ist, dass es eine Bijektion existiert, zwischen die Pfade die S1 = 1 mit S2n−1 = 1 verbinden, und die mindensten einmal den Punkt Null berühren und, anderseits, die Pfade die S1 = 1 mit S2n−1 = −1 verbinden. Die Bijektion ist definiert, indem man der Pfad mit S1 = 1 und S2n−1 = 1 nach der ersten Rückkehr bei Null um die Zeit-Achse reflektiert. Es folgt, dass P (S1 = 1, S2n−1 = 1 und es existiert k = 1, . . . , 2n − s mit Sk ≤ 0) = P(S1 = 1 und S2n−1 = −1) = P(S1 = 1) · P(S2n−1 = −1|S1 = 1) 1 2n − 2 = 2n−1 2 n und f2n = P (inf{i > 0 : Si = 0} = 2n) 1 2n − 2 2n − 2 1 2n − 2 − = 2n−1 = 2n−1 2 n−1 n 2 n n−1 (28) Wir bezeichnen die Wahrscheinlichkeit, dass die Fahrt zur Zeit 2n bei Null ist durch 1 2n u2n = 2n 2 n Aus (28) bemerken wir, dass u2n−2 − u2n 2n − 2 1 2n = 2n−2 − 2n 2 n−1 2 n 1 (2n − 2)! 2n(2n − 1) = 2n−2 1− 2 (n − 1)!(n − 1)! 4n2 1 2n − 2 = 2n−1 = f2n n2 n−1 1 56 Mit Hilfe dieser Ausdruck für f2n können wir nun die Wahrscheinlichkeit berechnen, dass die symmetrische Irrfahrt bis zur Zeit 2n, 2k-Mal positiv ist. Wir definieren die Variablen Yi durch 1 falls Si > 0 oder Si+1 > 0 Yi = 0 sonst Dann ist Yi ein Indikator dafür, dass während dem i-te Schritt die Fahrt positiv ist. Wir setzten ! 2n X p2k,2n = P Y` = 2k (29) `=1 Wir möchten zunächst p0,2n = p2n,2n berechenen. Dafür bemerken wir, dass p2n,2n = P(Sk ≥ 0 für alle k = 1, . . . , 2n) = 2P(Sk > 0 für alle k = 1, . . . , 2n) (30) Um (30) zu zeigen, definieren wir eine Bijektion zwischen die nicht-negative Pfade (S1 , . . . , S2n ), die mindestens einmal Null berühren, und die Pfade mit Sk > 0 für alle k = 1, . . . , 2n. Sei nämlich A = (S1 , . . . , S2n ) eine nicht-negative Fahrt, mit mindestens ein Rückkehr nach Null. Sei a ∈ {2, . . . , 2n} die erste Rückkehr nach Null. Dann bilden wir A in der neue Fahrt B = (S1 , . . . , Sa−1 , Sa + 2, Sa+1 + 2, . . . S2n + s) ab. Offenbar ist B eine Fahrt mit Sk > 0 für alle k = 1, . . . , 2n. Die Inverse dieser Abbildung kann wie folgt konstruiert werden: sei B = (S1 , . . . , S2n ) mit Sk > 0 für alle k ∈ {1, . . . , 2n}. Sei ferner b ∈ {1, . . . , 2n} das grösste Index, mit der Eigenschaft, dass Sb = 1. Dann bilden wir B in der Fahrt A = (S1 , . . . , Sb , Sb+1 − 2, Sb+2 − 2, . . . , S2n − 2). Das zeigt, dass es existiert eine Bijektion zwischen die nicht-negative Pfade die mindesten einmal bei Null kommen, und die strikt positive Pfade. Das zeigt (30). Also, p2n,2n = 2P(Sk > 0, für alle k = 1, . . . , 2n) n n X X 1 =2· 1− f2j = 1 − u2j−2 − u2j 2 j=1 (31) j=1 = [1 − u0 + u2n ] = u2n Nun betrachten wir die Wahrscheinlichkeiten p2n,2k , für 0 < k < n. In diesem Fall muss die Fahrt irgendwann durch Null gehen. Sei 2r die Zeit der erste Rückkehr nach Null. Bis zu dieser Zeit ist dann die Fahrt entweder stets positiv oder stets negativ (ausser bei S0 = 0). Beides tritt mit gleicher Wahrscheinlichkeit ein (d.h. die Wahrscheinlichkeit, dass die erste Rückkehr der Fahrt nach 0 zur Zeit 2r stattfindet, und dass zwischen Zeit 0 und 2r die Fahrt immer positiv, bz. negativ ist, ist genau f2r /2). Falls die Fahrt bis zur Zeit 2r positiv war, dann muss r < k sein. Falls die Fahrt bis zur Zeit 2r negativ war, dann muss r < n − k. Nach der ersten Rückkehr nach Null sieht im weiteren alles so aus wie am Anfang, nur dass wir nur noch 2n − 2r Schritte machen müssen. Das impliziert die Relation p2k,2n = k n−k 1X 1X f2r p2k−2r,2n−2r + f2r p2k,2n−2r 2 2 r=1 r=1 57 (32) Mit Hilfe dieser Relation können wir nun p2k,2n = u2k u2n−2k (33) induktiv zeigen. Die Formel gilt für k = 0 und alle n (siehe (31)). Wir nehmen an (33) gilt für p2k,2m für alle m ≤ n − 1 und alle k = 0, . . . , m. Mit (32) finden wir p2k,2n k n−k 1X 1X f2r u2(k−r) u2(n−k) + f2r u2k u2(n−r−k) = 2 2 r=1 1 = u2(n−k) 2 k X r=1 r=1 n−k X 1 f2r u2(k−r) + u2k 2 f2r u2(n−k−r) = u2k u2(n−k) r=1 Wir haben hier die Tatsache benutzt, dass k X f2r u2(k−r) = u2k r=1 (das folgt aus der Interpretation der Wahrscheinlichkeiten f2r und u2(k−r) ). Das zeigt, (33). Damit ist die Wahrscheinlichkeit, dass die Irrfahrt ist 2k Mal positiv bis zur Zeit 2n, aus 2(n − k) 1 2k p2k,2n = n (n − k) k 4 gegeben ist. Insbesondere, können wir die Wahrscheinlichkeit im Limes n → ∞ betrachten. Dazu benutzen wir die Stirling Formel. Wir finden p √ 1 (2k)2k (2(n − k))2(n−k) e−2n 4πk 4π(n − k) p2k,2n ' n 2k −2k 4 k e (2πk)(n − k)2(n−k) e−2(n−k) (2π(n − k)) 1 1 1 p p = p = n π k/n 1 − k/n π k(n − k) Damit ist die Wahrscheinlichkeit, dass k/n (der Bruch von der Zeit, während dem die Fahrt positiv ist) zwischen 1/2 und α liegt, aus Z α X √ 1 1 1 2 1 p p p ' dx = arcsin α − =: F (α) n π k/n 1 − k/n π 2 1/2 π x(1 − x) n/2<k<αn gegeben. Die entsprechende Wahrscheinlichkeitsdichte ist ρ(α) = F 0 (α) = 2 1 p π α(1 − α) Es ist interessant zu bemerken, dass die Dichte ρ für α = 0 und α = 1 maximal ist (in der Tat, sie divergiert an diesen Stellen); das bedeutet, dass die Irrfahrt typischerweise entweder viel öfter positiv oder viel öfter negativ ist. Es passiert dagegen nur selten, dass die Fahrt gleichlang bei den positiven wie bei den negativen Zahlen verbringt. 58 3.4 Asymptotische Ereignisse Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und für alle k ∈ N, sei (Ωk , Ak ) ein messbarer Raum und Xk : Ω → Ωk eine Zufallsvariable. Damit ist (Xk )k∈N eine Zufallsfolge auf Ω. Definition 3.13. Ein Ereignis A ∈ A heisst asymptotisch für die Folge (Xk )k∈N , wenn, Q für alle n ∈ N, ein Bn ∈ k>n Ak existiert mit A = (Xk )−1 k>n (Bn ) = {x ∈ Ω : (Xk (x))k>n ∈ Bn } Mit andere Wörter, für alle n ∈ N, das Ereignis A hängt nur von Xk ab, für alle k > n. Wir bezeichnen mit Aasym (Xk : k ≥ 1) die Teilmenge von A, die aus alle asymptotische Ereignisse für die Folge (Xk )k∈N besteht. Wir bemerken, dass Aasym (Xk : k ≥ 1) eine σ-Algebra ist. Lemma 3.14. Sei (Xk )k∈N eine Zufallsfolge auf (Ω, A, P). Dann ist Aasym (Xk : k ≥ 1) eine σ-Algebra auf Ω. beweis. WirQzeigen zunächst, dass Ω ∈ AQasym (Xk : k ≥ 1). Für alle n ∈ N, setzen wir Bn = k>n Ωk . Dann es gilt Bn ∈ k>n Ak und Ω = (Xk )−1 k>n (Bn ). Damit ist Ω ∈ Aasym (Xk : k ≥ 1). Nun zeigen wir, dass A ∈ Aasym (Xk : k ≥ 1) auch Ac ∈ Aasym (Xk : k ≥ Q 1) impliziert. In der Tat, für A ∈ Aasym (Xk : k ≥ 1) und n ∈ N finden wir ein Bn ∈ k>n Ak mit −1 c c c A = (Xk )−1 k>n (Bn ). Damit gilt auch A = (Xk )k>n (Bn ) und A ∈ Aasym (Xk : k ≥ 1). Schlussendlich beweisen wir, dass Aasym (Xk : k ≥ 1) stabil bezüglich abzählbare Vereinigungen Q ist. Sei nämlich (Aj )j∈N eine Folge in Aasymp . Für alle j, n ∈ N existiert dann Bj,n ∈ k>n Ak mit Aj = (Xk )−1 k>n (Bj,n ). Deswegen [ [ Bj,n Aj = (Xk )−1 k>n j j und ∪j Aj ∈ Aasym (Xk : k ≥ 1). Man erinnere, dass eine Zufallvariable X : Ω → Ω0 auf dem Wahrscheinlichkeitsraum (Ω, A, P) mit Werten in einem messbaren Raum (Ω0 , A0 ) die σ-Algebra σ(X) = X −1 (A0 ) auf Ω induziert. Die σ-Algebra σ(X) enthält alle Ereignissen in A, die durch den Wert von X bestimmt werden können (Kenntniss des Wertes von X lässt uns eindeutig entscheiden, ob Ereignissen in σ(X) erfüllt sind oder nicht). Sind nun Xj : Ω → Ωj Zufallvariablen auf Ω, mit Werten auf messbaren Räume (Ωj , Aj ), für alle j = 1, . . . , n, so können wir die σ-Algebra σ(X1 , . . . , Xn ) auf Ω definieren, die aus alle Mengen der Form Xj−1 (Aj ) erzeugt wird. Mit andere Wörter, σ(X1 , . . . , Xn ) ist die σ-Algebra des Zufallsvektors (X1 , . . . , Xn ) : (Ω, A) → (Ω1 × · · · × Ωn , A1 × · · · × An ), d.h. σ(X1 , . . . , Xn ) = (X1 , . . . , Xn )−1 (A1 × · · · × An ) Um so mehr Zufallvariablen man hat, desto grösser wird die σ-Algebra σ(X1 , . . . , Xn ). Man kann analog auch die σ-Algebra einer Zufallsfolge definieren. Für k ∈ N, sei Xk eine Zufallvariable auf (Ω, A, P) mit Werten in einem messbaren Raum (Ωk , Ak ). Wir 59 betrachten dann die Zufallsfolge (Xk )k∈N auf (Ω, A, P). Die σ-Algebra der Folge (Xk )k∈N ist dann durch Y σ((Xk )k≥1 ) = (Xk )−1 Ak k≥1 k≥1 definiert. D.h. σ((Xk )k≥1 ) enthält alle Mengen der Form {x ∈ Ω : (Xk (x))k≥1 ∈ B} für ein B ∈ Q k≥1 Ak . Q Für alle n ∈ N, ist nun (Xk )k>n eine Zufallfolge auf Ω, mit Werten in k>n Ωk . Die σ-Algebra der asymptotischen Ereignissen für die Folge (Xk )k∈N ist dann durch \ σ((Xk )k>n ) Aasym (Xk : k ≥ 1) = n≥1 gegeben. Die σ-Algebra Aasym (Xk : k ≥ 1) enthält alle Ereignisse, die nur aus dem asymptotischen Verhalten der Folge (Xk )k∈N abhängen. Beispiele: wir betrachten ein Paar einfache Beispiele von asymptotischen Ereignissen. • Für k ∈ N, sei Xk : Ω → Ωk eine Zufallvariable mit Werten im messbaren Raum (Ωk , Ak ). Sei Ak ∈ Ak für alle k ∈ N. Wir betrachten dann das Ereignis \ [ A = {x ∈ Ω : Xk (x) ∈ Ak für ∞-viele k ∈ N} = Xk−1 (Ak ) m≥1 k≥m Wir behaupten, dass A ∈ Aasym (Xk : k ≥ 1) ein asymptotisches Ereignis für die Folge Xk ist. In der Tat, für alle n ∈ N wir haben \ [ A= Xk−1 (Ak ) = (Xk )−1 k>n (Bn ) m>n k≥m mit Bn ∈ Q k>n Ak definiert durch Bn = \ [ Ak × m>n k≥m Y Ωj j>n,j6=k • Für k ∈ N, sei Xk : (Ω, A) → (R, B(R)) eine Zufallvariable. Wir definieren ) ( N 1 X Xk (x) existiert und ist in [a; b] enthalten A = x ∈ Ω : lim N →∞ N k=1 Wir behaupten, dass A ∈ Aasym (Xk : k ≥ 1). In der Tat, für alle n ∈ N, wir haben N 1 X Xk+n (x) existiert und liegt in [a; b] x ∈ Ω : lim N →∞ N ( A= k=1 60 ) = (Xk )−1 k>n (Bn ) mit Bn ⊂ Q k>n R definiert durch ( Bn = (xn+1 , xn+2 , . . . ) ∈ Y k>n ) N 1 X R : lim xk+n existiert und liegt in [a; b] N →∞ N k=1 Q Q Man bemerke hier, dass Bn ∈ k>n B(R), weil die Projektionen Pj : k>n R → R, definiert durch Pj (xn+1 , xn+2 , . . . ) = xj offenbar messbar sind, für alle j >Pn (erinnere die DefinitionQ3.10 der σ-Algebra Q B(R)). Dann ist auch N −1 N j>n R messbar. Es k>n k=1 Pn+k , definiert auf folgt, dass die Teilmenge von Ω, die aus alle Punkte besteht, wo der Limes N 1 X lim Pn+k N →∞ N (34) k=1 existiert, messbar ist und, dass die Funktion (34), definiert auf dieser Teilmenge, messbar ist (und deswegen eine Zufallvariable). Also N 1 X Pk+n Bn = lim N →∞ N " #−1 ([a; b]) ∈ k=1 Y B(R) k>n für alle n ∈ N. Diese zwei Beispiele zeigen, dass die σ-Algebra Aasym (Xk : k ≥ 1) nicht trivial ist. Das Wahrscheinlichkeitsmass, eingeschränkt auf dieser σ-Algebra, ist dagegen immer trivial, falls die Folge aus unabhängige Variablen besteht. Das ist der Inhalt von dem nächsten wichtigen Theorem. Theorem 3.15 (Null-Eins Gesetz von Kolmogorov). Sei (Xk )k∈N eine unabhängige Zufallfolge auf einem Wahrscheinlichkeitsraum (Ω, A, P). Die Zufallvariable Xk nimmt hier Werten in einem messbarer Raum (Ωk , Ak ). Sei A ∈ Aasym (Xk : k ≥ 1). Dann gilt P(A) = 0 oder P(A) = 1. Beweis. Sei A ∈ Aasym (Xk : k ≥ 1) beliebig. Sei ! σ((Xk )k∈N ) = (Xk )−1 k∈N Y Ak k∈N die σ-Algebra, die aus der Folge (Xk )k≥1 erzeugt Q wird. Wir bezeichnen mit G die Teilmenge von k≥1 Ak , die aus allen Zylindermengen der Form Y C1 × · · · × Cn × Ωk k>n für ein n ∈ N und für C1 ∈ A1 , . . . , CQ n ∈ An besteht. Es gilt: G ist stabil bezüglich Q endlichen Durchschnitten und G erzeugt A (d.h. die kleinste σ-Algebra auf k k≥1 k≥1 Ωj , Q die G enthält, ist genau k≥1 Ak ). 61 −1 Q Das impliziert auch, dass (Xn )−1 n∈N (G), als Teilmenge von (Xn )n∈N ( k≥1 Ak ), stabil bezüglich endlichen Durchschnitte ist, und, dass (Xn )−1 n∈N (G) die σ-Algebra σ((Xk )k∈N ) erzeugt. Um diese letzte Behauptung zu zeigen, man definiert die Menge Y −1 B= B∈ Ak : (Xk )−1 (B) ∈ σ((X ) (G)) k k∈N k≥1 k≥1 und man beweist, dass B eine σ-Algebra ist, die G enthält. Das impliziert, dass B = Q k≥1 Ak , und deswegen, dass −1 σ((Xk )−1 k∈N (G)) = (Xk )k≥1 ( Y Ak ) k≥1 Nun, für alle C ∈ G ist (Xn )−1 n∈N (C) ∈ A unabhängig aus A. In der Tat, da C ∈ G, es existiert n < ∞, und C1 ∈ A1 , . . . , Cn ∈ An mit Y C = C1 × · · · × Cn × Ωk k>n Dann ist (Xn )−1 n∈N (C) = {x ∈ Ω : Xj (x) ∈ Cj , für alle j = 1, . . . , n} = n \ Xj−1 (Cj ) j=1 Anderseits, es existiert Bn ∈ Q k>n Ak mit A = (Xk )−1 k>n (Bn ) = {x ∈ Ω : (Xk (x))k>n ∈ Bn } Da die Folge Xk unabhängig ist, ist A unabhängig aus (Xn )−1 n≥1 (C), wie behauptet. Lemma 3.7 impliziert, dass A aus der ganze σ-Algebra σ((Xk )k∈N ) unabhängig ist. Streng genommen, Lemma 3.7 gibt ein Kriterium für die Unabhängigkeit von Zufallvariablen; es ist aber sehr einfach die analoge Aussage für Ereignissen mit den selben Ideen zu zeigen. Man nimmt nämlich an, dass P(A) > 0 (sonst es gibt nichts zu zeigen), und man betrachtet auf σ((Xk )k≥1 ) das Wahrscheinlichkeitsmass P(.|A). Man bemerkt, −1 dass für alle Mengen der Form (Xk )−1 k≥1 (C) für ein C ∈ G es gilt P((Xk )k∈N (C)|A) = −1 P((Xk )−1 k≥1 (C)) (weil A und (Xk )k≥1 (C) unabhängig sind, für alle C ∈ G). Das Erweiterungstheorem von Carathéodory impliziert dann, dass P(B|A) = P(B) für alle B ∈ σ((Xk )k≥1 ). Es folgt, dass A aus der ganze σ-Algebra σ((Xk )k≥1 ) unabhängig ist. Insbesondere muss A aus A selber unabhängig sein. Also P(A) = P(A ∩ A) = P(A)2 Das zeigt, dass P(A) = 0 oder P(A) = 1. Eine erste Anwendung der 0 − 1 Gesetz von Kolmogorov ist das folgende Korollar. 62 Korollar 3.16. Sei (Xk )k∈N eine unabhängige Zufallsfolge auf eine Wahrscheinlichkeitsraum (Ω, A, P). Sei X : Ω → R eine reelwertige Zufallvariable auf Ω, die messbar ist, bezüglich der σ-Algebra Aasym (Xk : k ≥ 1). D.h. es gelte X −1 (A) ∈ Aasym (Xk : k ≥ 1) für alle A ∈ B(R). Dann es existiert eine Konstante c ∈ R so, dass P(X = c) = P({x ∈ Ω : X(x) = c}) = 1. Beweis. Theorem 3.15 impliziert, dass die Verteilungsfunktion FX (x) = P(X ≤ x) = P(X −1 ((−∞; x])) nur die Werten 0 oder 1 annehmen darf, für alle x ∈ R. Da F monoton und rechtsstetig ist, es muss ein c ∈ R existieren, mit F (x) = 0 für alle x < c und F (x) = 1 für alle x ≥ c. Das impliziert, dass P(X = c) = 1. Hat das asymptotisches Ereignis A, wie im ersten Beispiel oben, die Form A = {x ∈ Ω : Xk (x) ∈ Ak für unendlich viele k ∈ N} wobei Ak ∈ Ak für alle k ∈ N, dann kann man oft das Lemma von Borel-Contelli benutzen, um zu entscheiden, ob P(A) = 0 oder P(A) = 1. Lemma 3.17 (Borel-Cantelli). Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und (Ak )k∈N eine Folge von Ereignisse in A. Sei \ [ A = {x ∈ Ω : x ∈ Ak für unendlich viele k ∈ N} = Ak n≥1 k≥n Dann gilt: P a) Ist j≥1 P(Aj ) < ∞, so ist P(A) = 0. P b) Ist j≥1 P(Aj ) = ∞ und sind (Aj )j∈N unabhängig, so ist P(A) = 1. Bemerke, dass die Aussage a) keine Unabhängigkeit der Ereignisse Aj braucht. S Beweis. Wir beginnen mit a). Es gilt A ⊂ k≥n Ak für alle n ∈ N. Deswegen muss X P(A) ≤ P(Ak ) (35) k≥n P für alle n ∈ N. Ist nun j≥1 P(Aj ) < ∞, so muss die rechte Seite von (35) gegen Null streben, für n → ∞. Also P(A) = 0, wie behauptet. Nun zeigen wir b). Wir bemerken, dass [ \ Ac = Ack n≥1 k≥n Deswegen P(Ac ) ≤ X n≥1 = X n≥1 P \ Ack = k≥n lim m→∞ m Y k=n X n≥1 lim P m→∞ (1 − P(Ak )) ≤ X n≥1 m \ ! Ack m→∞ 63 X n≥1 k=n lim = m Y k=n lim m→∞ e−P(Ak ) = m Y P(Ack ) k=n X n≥1 lim e− m→∞ Pm k=n P(Ak ) =0 Beispiel. Eine Münze wird unendlich oft geworfen. Wir untersuchen die Wahrscheinlichkeit des Ereignis A = {es wird unendlich oft zwei Mal hintereinander Kopf geworfen} Besser gesagt, mit An = {beim n-te und beim (n + 1)-te Wurf wird Kopft geworfen} wir untersuchen P(A) = P \ [ An m≥1 n≥m Um P(A) zu bestimmen, betrachten wir die Folge (A2n )n≥1 die aus unabhängige Ereignisse besteht. Es gilt P(A2n ) = 1/4 für alle n ∈ N. Deswegen X P(A2n ) = ∞ n und P(∩m≥1 ∪n≥m A2n ) = 1. Deswegen gilt auch P(A) = 1. 4 Konvergenzbegriffe In diesem Abschnitt möchten wir einige Konvergenzbegriffe für Folge von Wahrscheinlichkeitsmasse und für Folge von Zufallvariablen diskutieren. Die Begriffe und einige Zusammenhänge zwischen den verschiedenen Begriffe sind aus der Vorlesung Analysis 3 schon bekannt. Die Wahrscheinlichkeitstheoretische Interpretation spielt aber manchmal eine wichtige neue Rolle. 4.1 Konvergenz von Wahrscheinlichkeitsmasse Wir führen zunächst den Begriff von schwache Konvergenz von Wahrscheinlichkeitsmasse. Definition 4.1. Sei Pk , k ∈ N eine Folge von Wahrscheinlichkeitsmasse auf (Rn , B(Rn )) (für ein n ∈ N). Wir sagen, dass Pn schwach gegen ein Wahrscheinlichkeitsmass P auf (Rn , B(Rn )) konvergiert, wenn Z Z EPn g = gdPn → gdP = EP g (36) Rn Rn für alle beschränkte und stetige Funktionen g auf Rn . Die Bedingung (36) ist hinreichend, um das Limes P eindeutig zu charakterisieren. e so muss Konvergiert nämlich die Folge Pk schwach gegen P und auch gegen P, Z Z e gdP = gdP Rn Rn 64 e Das ist einfür alle g stetig und beschränkt. Lemma 2.22 impliziert dann, dass P = P. gentlich der Grund warum mann Konvergenz für alle stetige und beschränkte Funktionen fördert. Ist n = 1, d.h. ist Pk eine Folge von Wahrscheinlichkeitsmasse auf (R, B(R)), dann können wir jedes Wahrscheinlichkeitsmass durch die entsprechende Verteilungsfunktion beschreiben. Wir haben nämlich in Satz 2.2 gezeigt, dass eine Bijektion zwischen Wahrscheinlickeitsmasse auf (R, B(R)) und monoton wachsende rechtsstetige Funktionen F : R → R mit F (−∞) = 0 und F (∞) = 1 existiert. Wir können also versuchen, die schwache Konvergenz einer Folge von Wahrscheinlichkeitsmasse durch eine geeignete Konvergenz von Verteilungsfunktionen zu überprüfen. Dafür brauchen wir die nächste Definition. Definition 4.2. Sei Fn , n ∈ N eine Folge von Verteilungsfunktionen. Wir sagen, dass Fn schwach gegen eine Verteilungsfunktion F konvergiert, falls Fn (x) → F (x), für alle x ∈ R, für welche F stetig ist. Mit dieser Definition finden wir den folgenden Satz. Satz 4.3. Sei Pn , n ∈ N eine Folge von Wahrscheinlichkeitsmasse auf (R, B(R)) und Fn die zugehörige Verteilungsfunktionen. Dann konvergiert Pn schwach gegen ein Wahrscheinlichkeitsmass P mit Verteilungsfunktion F genau dann, wenn die Folge Fn schwach gegen F konvergiert. Beweis. Wir nehmen zunächst an, dass Pn schwach gegen P konvergiert. Wir behaupten dann, dass Fn (c) → F (c) für alle c ∈ R, wo F stetig ist. Um die Behauptung zu zeigen, wählen wir ε > 0 fest. Dann finden wir eine stetige Funktion gε mit 1(x ≤ c) ≤ gε (x) ≤ 1(x ≤ c + ε). Dann gilt Z Z Z Z Fn (c) = 1(x ≤ c)dPn (x) ≤ gε dPn → gε dP ≤ 1(x ≤ c + ε)dP = F (c + ε) R für alle n ∈ N. Insbesondere lim sup Fn (c) ≤ F (c + ε) n→∞ Da ε > 0 beliebig ist, und da F stetig an der Stelle c ist, es folgt, dass (an dieser Stelle braucht man eigentlich nur die Rechtsstetigkeit, die immer gilt) lim sup Fn (c) ≤ F (c) n→∞ Analog kann man zeigen, dass lim inf Fn (c) ≥ F (c − ε) n→∞ für alle ε > 0 gilt. Das impliziert, aus der Stetigkeit von F an der Stelle c, dass (hier braucht man tatsächlich die Linksstetigkeit, die nur aus Annahme gilt) lim inf Fn (c) ≥ F (c) n→∞ 65 Es folgt, dass lim Fn (c) = F (c) n→∞ wie behauptet. Nun nehmen wir an, dass Fn schwach gegen F konvergiert. Sei g ∈ Cb (R) stetig und beschränkt; wir bezeichnen M = supx∈R |g(x)|. Wir zeigen, dass Z Z gdP gdPn → R R für n → ∞. Wir wählen dazu ε > 0 fest und wir finden −∞ < a < b < ∞ so, dass F stetig an der Stelle a und b ist, und F (a) < ε/2M und F (b) > 1 − ε/2M . Dann gilt, für alle n ∈ N gross genug, Fn (a) ≤ ε/M und Fn (b) ≥ 1 − ε/M . Deswegen Z Z g dP ≤ ε und gdPn ≤ 2ε R\[a;b] R\[a;b] Das zeigt, dass Z Z Z gdPn − gdP ≤ 3ε + gdPn − g dP [a;b] [a;b] Z (37) Da g stetig ist, ist g auf [a; b] gleichmässig stetig. Insbesondere, es existiert N = N (ε) Punkten a = a1 < a2 < · · · < aN = b wo F stetig ist, mit |g(x) − g(ak )| < ε sup x∈[ak ;ak+1 ] für alle k = 1, . . . , N . Wir setzen dann h(x) = N X 1(ak ,ak+1 ] (x)g(ak ) k=1 und wir bemerken, dass sup |h(x) − g(x)| < ε x∈[a;b] h ist eine messbare einfache Funktion, mit Z hdPn = R N X g(ak )(Fn (ak+1 ) − Fn (ak )) k=1 Da Fn schwach gegen F konvergiert, wir finden, dass Z Z hdPn → hdP R R für n → ∞. Deswegen, es existiert n0 ∈ N mit Z Z hdPn − hdP ≤ ε 66 für alle n > n0 . Also Z Z Z Z gdPn − gdP ≤ |g − h|dPn + |g − h|dP + ε ≤ 3ε [a;b] [a;b] [a;b] [a;b] Mit (37), wir finden Z Z gdPn − gdP ≤ 6ε Da ε > 0 beliebig ist, wir erhalten Z Z gdPn → 4.2 gdP Konvergenz von Zufallvariablen Wir diskutieren nun drei verschiedene Begriffe von Konvergenz von Zufallvariablen. Konvergenz in Verteilung. Sei (Xn )n∈N eine Folge von reelwertigen Zufallvariablen mit Wahrscheinlichkeitsverteilung Pn und Verteilungsfunktion Fn . Sei X eine Zufallsvariable mit Wahrscheinlichkeitsverteilung P und Verteilungsfunktion F . Wir sagen, dass Xn in Verteilung gegen eine Zufallsvariable X konvergiert, und wir schreiben Xn →D X, falls Pn schwach gegen P, oder equivalent, falls Fn schwach gegen F konvergiert. Analog kann man Konvergenz in Verteilung für eine Folge von Zufallvariablen mit Werten in Rn , für n > 1, definieren (in diesem Fall kann man aber nicht die Verteilungsfunktionen betrachten). Bemerkung. Es ist nicht wichtig, auf welchem Wahrscheinlichkeitsraum die Variablen Xn definiert sind. Sie können auch auf verschiedenen Räume definiert sein. Ein wichtiges Beispiel einer Folge von Zufallvariablen, die in Verteilung konvergieren, ist eine reskalierte Irrfahrt. Der nächste Satz ist ein erstes Beispiel eines zentralen Grenzwerttheorems. Satz 4.4 (Moivre-Laplace). Sei Xj eine Folge unabhängigen Bernoullivariablen mit P(Xj = 1) = p und P(Xj = 0) = 1 − p für ein p ∈ (0; 1). Dann konvergiert die Folge n 1 X (Xi − p) Zn = √ n i=1 in Verteilung gegen eine Gauss’sche Zufallvariable N (0, p(1 − p)) mit Erwartungswert Null und mit Varianz p(1 − p). Beweis. Sei I = [a; b]. Die Behauptung folgt, wenn wir zeigen können, dass lim P(Zn ∈ I) = p n→∞ 1 2πp(1 − p) 67 Z b 2 x − 2p(1−p) e a dx P für alle −∞ < a < b < ∞. Wir setzen Sn = nj=1 Xj . Die Variable Sn kann die Werten 0, 1, 2, . . . , n mit Wahrscheinlichkeit n k P(Sn = k) = p (1 − p)n−k k √ √ annehmen. Wir sind am Ereignis interessiert, dass a/ n ≤ (Sn /n − p) ≤ b/ n. D.h. wir √ √ sind an der Wahrscheinlichkeit, dass Sn = k interessiert, für p+a/ n ≤ k/n ≤ p+b/ n. Ist n ∈ N gross genug, so muss insbesondere c1 ≤ k/n ≤ c2 , für zwei positive Konstante c1 < c2 . Für solche Werte von k, können wir approximieren √ n nn 2πn p √ = 1 + O(n−1 ) (n−k) k k k (n − k) 2πk 2π(n − k) n s 1 1 1 1 + O(n−1 ) =√ k/n 1−k/n k/n(1 − k/n) 2πn (k/n) (1 − k/n) √ √ Also, für alle a/ n ≤ k/n − p ≤ b/ n, wir bekommen s " #n pk/n (1 − p)1−k/n 1 1 P(Sn = k) = √ (1 + O(n−1 )) 1−k/n k/n k/n(1 − k/n) (1 − k/n) (k/n) 2πn s 1 1 =√ exp(−nI(p, k/n))(1 + O(n−1 )) 2πn k/n(1 − k/n) mit I(p, x) = log((x/p)x ((1 − x)/(1 − p))1−x ) = x log(x/p) + (1 − x) log((1 − x)/(1 − p)) Wir bemerken: i) I(p, p) = 0, ii) I(p, x) ist konvex als Funktion von x ∈ (0; 1) und nimmt ihr einziges Minimum an der Stelle x = p an, iii) es gilt ∂x2 I(p, x) = 1/x + 1/(1 − x) = 1/x(1 − x) ≥ 4, iv) I(p, x) ist unendlich oft differenzierbar in x ∈ (0; 1). Um diese Behauptungen zu zeigen, muss man einfach berechnen, dass x(1 − p) ∂x I(p, x) = log p(1 − x) und ∂x2 I(x, p) = 1/x + 1/(x − 1) = 1/(x(1 − x)). Die einzige Nullstelle von ∂x I(p, x) ist an der Stelle x = p, wo I(p, p) = 0. Für |x − p| ≤ cn−1/2 können wir dann Taylor entwickeln. Wir finden ∂x2 I(p, p) ∂ 3 I(ξ, p) (x − p)2 + x (x − p)3 2 6 1 ∂ 3 I(ξ, p) = (x − p)2 + x (x − p)3 2p(1 − p) 6 √ √ für ein geeignete |ξ − p| ≤ cn−1/2 . Deswegen, für k ∈ N mit a/ n ≤ k/n − p ≤ b/ n, finden wir 2 (k/n − p) I(p, k/n) − ≤ Cn−3/2 2p(1 − p) I(p, x) = I(p, p) + ∂x I(p, p)(x − p) + 68 Analog, wenn wir die Funktion Taylor Entwicklung (dies Mal nur zur erster Ordnung) √ √ von (x(1 − x))−1/2 in der Nähe von x = p gibt, für a/ n ≤ k/n − p ≤ b/ n, s s 1 1 − ≤ Cn−1/2 (1 − k/n)k/n p(1 − p) Damit erhalten wir P(Zn ∈ I) = X P(Sn = k) √a ≤k/n−p≤ √b n n = X √ a≤ n(k/n−p)≤b 1 √ 2πn s 1 (k/n − p)2 exp −n (1 + O(n−1/2 )) p(1 − p) 2p(1 − p) Wir erkennen die rechte Seite ist ein Riemann’sches Integral. Das gibt Z 2 1 − x e 2p(1−p) dx lim P(Zn ∈ I) = p n→∞ 2πp(1 − p) I Konvergenz in Wahrscheinlichkeit. Sei (Xn )n∈N eine Folge von reelwertigen Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Sei X : Ω → R eine weitere Zufallvariable. Wir sagen, dass (Xn )n∈N in Wahrscheinlichkeit gegen X konvergiert, falls für alle ε > 0, lim P(|Xn − X| > ε) = 0 n→∞ Der Begriff von Konvergenz in Wahrscheinlichkeit ist mit der Konvergenz im Mass, die in der Vorlesung Analysis 3 eingeführt wurde, äquivalent. Konvergenz in Wahrscheinlichkeit ist in allgemein stärker als Konvergenz in Verteilung. Ist aber der Grenzwert X deterministisch (d.h. es existiert c ∈ R mit P(X = c) = 1), so ist Konvergenz in Wahrscheinlichkeit äquivalent mit Konvergenz in Verteilung. Das zeigen wir im nächsten Lemma. Lemma 4.5. Sei (Xn )n∈N eine Folge von reelwertigen Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P), und X : Ω → R eine weitere Zufallsvariable. a) Konvergiert Xn → X in Wahrscheinlichkeit, so konvergiert Xn gegen X in Verteilung. b) Existiert c ∈ R mit P(X = c) = 1 (d.h. ist die Variable X deterministisch) und es gilt Xn →D X in Verteilung, dann gilt auch Xn → X in Wahrscheinlichkeit. Beweis. a) Seien Fn (t) = P(Xn ≤ t) und F (t) = P(X ≤ t) die Verteilungsfunktionen von Xn und X. Sei c ∈ R so, dass F stetig an der Stelle c ist. Wir nehmen an, dass Xn → X in Wahrscheinlichkeit, und wir möchten zeigen, dass Fn (c) → F (c). Dazu bemerken wir, dass Fn (c) = P(Xn ≤ c) ≤ P(X ≤ c + ε) + P(|X − Xn | ≥ ε) = F (c + ε) + P(|X − Xn | ≥ ε) 69 Das impliziert, dass lim sup Fn (c) ≤ F (c + ε) n→∞ und, da ε > 0 beliebig ist und F an der Stelle c stetig ist, dass lim sup Fn (c) ≤ F (c) n→∞ Analog, wir finden F (c − ε) = P(X ≤ c − ε) ≤ P(Xn ≤ c) + P(|X − Xn | ≥ ε) und also, im Limes n → ∞, lim inf Fn (c) ≥ F (c − ε) n→∞ Da ε > 0 beliebig ist, und F an der Stelle c stetig ist, erhalten wir lim inf Fn (c) ≥ F (c) n→∞ Das zeigt, dass lim Fn (c) = F (c) n→∞ b) Sei X : Ω → R mit P(X = c) = 1 für ein c ∈ R und es gelte Xn → X in Verteilung. Wir zeigen, dass Xn → X in Wahrscheinlichkeit. Sei ε > 0 festgewählt. Dann P(|Xn −X| > ε) = P(|Xn −c| > ε) = P(Xn < c−ε)+P(Xn > c+ε) ≤ Fn (d1 )+(1−Fn (d2 )) mit d1 , d2 ∈ R so, dass c − ε < d1 < c − ε/2 und c + ε/2 < d2 < c + ε und, dass F stetig an der Stelle d1 , d2 ist. Dann gilt lim P(|Xn − X| > ε) ≤ F (d1 ) + (1 − F (d2 )) = 0 n→∞ weil F (x) = 0 für x < c und F (x) = 1 für alle x ≥ c. Fast sichere Konvergenz. Sei (Xn )n∈N eine Folge von reelwertige Zufallsvariablen auf eine Wahrscheinlichkeitsraum (Ω, A, P) und X : Ω → R eine weitere Zufallsvariable. Wir sagen, dass Xn fast sicher gegen X konvergiert, geschrieben Xn → X f.s., falls P( lim Xn = X) = P ({x ∈ Ω : Xn (x) → X(x)}) = 1 n→∞ Bemerkung: die Definition ist sinnvoll, weil die Menge {x ∈ Ω : Xn (x) → X(x)} in der σ-Algebra A enthalten ist. In der Tat, Xn − X ist messbar für alle n ∈ N. Das impliziert, dass lim supn→∞ (Xn −X) und auch lim inf n→∞ (Xn −X) messbare Funktionen sind. Das bedeutet, die Menge {x ∈ Ω : lim Xn (x) = X(x)} n→∞ = {x ∈ Ω : lim sup(Xn − X)(x) = 0} ∩ {x ∈ Ω : lim inf (Xn − X)(x) = 0} n→∞ n→∞ sicher in A enthalten ist. 70 Der Begriff von fast sichere Konvergenz ist schon aus Analysis 3 bekannt. Dort sprach man von punktweise fast überall Konvergenz. Wir erinneren aus Analysis 3, dass auf endliche Massräume (also immer auf Wahrscheinlichkeitsräume), punktweise fast überall Konvergenz immer Konvergenz in Mass impliziert. Mit andere Wörter, wenn die Folge von Zufallsvariablen (Xn )n∈N fast sicher gegen die Zufallsvariable X konvergiert, dann konvergiert Xn immer gegen X in Wahrscheinlichkeit. Die Umkehrung gilt nicht; es existieren Folge von Zufallsvariablen die in Wahrscheinlichkeit aber nicht fast sicher konvergieren. Um die Beziehung zwischen Konvergenz in Wahrscheinlichkeit und fast sichere Konvergenz besser zu verstehen, es lohnt sich das Ereignis {x ∈ Ω : limn→∞ Xn (x) = X(x)} anders darzustellen, nämlich als \ [ \ {x ∈ Ω : |Xn (x) − X(x)| ≤ 1/k} (38) {x ∈ Ω : lim Xn (x) = X(x)} = n→∞ k≥1 n0 ≥1 n≥n0 Diese Darstellung (die sofort impliziert, dass {x ∈ Ω : limn→∞ Xn (x) = X(x)} ∈ A) erlaubt uns das nächste Lemma zu zeigen. Lemma 4.6. Sei (Xn )n∈N eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Sei X : Ω → R eine weitere Zufallsvariable. Dann gilt Xn → X f.s. genau dann, wenn für alle k ∈ N, P({|Xn − X| > 1/k, u.o. ) = 0 Bemerkung: wir haben hier die Notation {An , u.o.} = {An unendlich oft} = {An für unendlich viele n ∈ N} = ∩n0 ∈N ∪n>n0 {An } eingeführt, für beliebige Aussage An mit der Eigenschaft, dass {An } = {x ∈ Ω : An (x)} ∈ A für alle n ∈ N. Beweis. Aus (38) erhalten wir P( lim Xn = X) = 1 − P (∪k≥1 {|Xn − X| > 1/k für unendlich viele n ∈ N}) n→∞ Damit gilt P(limn→∞ Xn = X) = 1 genau dann, wenn P (∪k {|Xn − X| > 1/k, u.o.}) = 0 Da X P({|Xn − X| > 1/k, u.o.}) ≥ P(∪k {|Xn − X| > 1/k, u.o.}) k∈N ≥ max P({|Xn − X| > 1/k, u.o.}) k∈N wir erhalten, dass Xn → X fast sicher genau dann, wenn P({|Xn − X| > 1/k, u.o.}) = 0 für alle k ∈ N. 71 Zur Berechnung der Wahrscheinlichekeit P({|Xn − X| > 1/k, u.o.}) können wir das Borel-Cantelli Lemma anwenden. Wir erhalten den folgenden Satz. Satz 4.7. Sei (Xn )n∈N eine Folge von reelwertigen Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P) und X : Ω → R eine weitere Zufallsvariable. Für alle ε > 0 es gelte ∞ X P(|Xn − X| > ε) < ∞ (39) n=1 Dann konvergiert Xn gegen X fast sicher. Ist ferner die Folge Xn − X unabhängig, so ist die Bedingung (39) nicht nur hinreichend sondern auch notwending, um fast sicher Konvergenz von Xn gegen X zu schliessen. Beweis. Für n ∈ N, sei An = {x ∈ Ω : |Xn (x) − X(x)| > ε}. Nach Annahme gilt X P(An ) < ∞ n∈N Wir betrachten das Ereignis A = {x ∈ Ω : |Xn (x) − X(x)| > ε für unendlich viele n ∈ N} = {x ∈ Ω : |Xn (x) − X(x)| > ε u.o.} \ [ = {x ∈ Ω : |Xn (x) − X(x)| > ε} m≥1 n>m Lemma 3.17, Teil a), zeigt, dass P(A) = 0. Da ε > 0 beliebig ist, es folgt aus Lemma 4.6, dass Xn → X fast sicher. Sei nun zusätzlich (Xn − X)n∈N eine Folge unabhängige Zufallsvariablen. Dann definiert An = {x ∈ Ω : |(Xn − X)(x)| > ε} = (Xn − X)−1 ((−ε; ε)) eine Folge unabhängiger Ereignisse. Wenn wir annehmen, dass es ε > 0 existiert, mit ∞ X P(|Xn − X| > ε) = n=1 ∞ X P(An ) = ∞ n=1 dann folgt aus Lemma 3.17, Teil b), dass P({|Xn − X| > ε, u.o.) = 1 Das widerspricht fast sichere Konvergenz der Folge Xn − X gegen Null. Satz 4.7 erklärt das Zusammenhang zwischen fast sichere Konvergenz und Konvergenz in Wahrscheinlichkeit. Fast sichere Konvergenz ist die stärkere Konvergenz und impliziert immer Konvergenz in Wahrscheinlichkeit. Anderseits, eine Folge Xn die in Wahrscheinlichkeit gegen X konvergiert, konvergiert auch fast sicher gegen X, falls die Wahrscheinlichkeiten P(|Xn − X| > ε) genügend schnell gegen Null konvergieren (so schnell, dass die Reihe summierbar ist). Ist die Folge Xn − X unabhängig dann ist fast sichere Konvergenz mit dieser Bedingung sogar äquivalent. Sei zB. (Xn ) eine Folge unabhängige Zufallsvariablen mit P(Xn = 0) = 1 − n−α und P(Xn = 1) = n−α . Dann konvergiert Xn → 0 in Wahrscheinlichkeit, für alle α > 0. Dagegen, Xn → 0 fast sicher nur dann wenn α > 1. 72 5 5.1 Das Gesetz der grossen Zahlen Schwaches Gesetz der grossen Zahlen Wir betrachten eine Folge von N unabhängige und identisch verteilte reelwertige Zufallsvariablen X1 , . . . , XN , mit EXj = µ. Die arithmetische Mittelung der Variablen X1 , . . . , XN , gegeben aus 1 1 SN = (X1 + · · · + XN ) , N N ist eine neue Zufallvariable. Der Erwartungswert von SN /N ist ESN /N = µ. Das Gesetz der grossen Zahlen besagt, dass, als N → ∞, die arithmetische Mittelung SN /N gegen die Konstante µ konvergiert. Man unterscheidet zwischen schwaches Gesetz der grossen Zahlen (Konvergenz in Wahrscheinlichkeit) und starkes Gesetz der grossen Zahlen (Konvergenz fast sicher). Satz 5.1 (Schwaches Gesetz der grossen Zahlen). Seien Xj , j ∈ N, identisch verteilte und paarweise unkorrelierte Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P) mit endliche Varianz EX12 − (EX1 )2 = σ 2 . Dann gilt n 1X Xj → EX1 n j=1 in Wahrscheinlichkeit. Beweis. Wir haben n n X 1 X 1 P Xj − EX1 > ε = P (Xj − EXj ) ≥ 1 n nε j=1 j=1 Deswegen 2 n n X 1 X 1 Xj − EX1 > ε ≤ 2 2 E (Xj − EXj ) P ε n n j=1 j=1 = = n 1 X E (Xj − EXj )(Xi − EXi ) ε2 n 2 1 2 ε n2 i,j=1 n X E(Xj − EXj )2 = j=1 (40) σ2 →0 nε2 für n → ∞. 5.2 Starkes Gesetz der grossen Zahlen Um fast sichere Konvergenz zu beweisen, brauchen wir zu zeigen, dass die Wahrscheinlichkeiten X 1 n P Xj − EX1 > ε n j=1 73 genügend schnell in n abfällt (so schnell, dass die Wahrscheinlichkeiten aufsummiert werden können, gemäss Satz 4.7). Es ist einfach zu sehen, dass die Wahrscheinlichkeiten diese Bedingung erfüllen, wenn Xj ein endliches vierte Moment hat. Proposition 5.2 (Starkes Gesetz der grossen Zahlen mit Momentenbedingung). Sei (Xj )j∈N eine Folge unabhängige, identische verteilte Zufallsvariablen mit EX14 < ∞. Dann gilt n 1X Xj → EX1 n j=1 fast sicher. Beweis. O.B.d.A. können wir annehmen, dass EX1 = 0. Für ε > 0 haben wir X X n n n X 1 1 1 P Xj > ε = P E Xj1 Xj2 Xj3 Xj4 Xj > 1 ≤ 4 4 εn ε n n j=1 j1 ,j2 ,j3 ,j4 =1 j=1 Der Erwartungswert auf der rechten Seite ist Null, ausser wenn je zwei der Indizes gleich sind. Wir finden n X Xj1 . . . Xj4 = (3n2 − n)(EX12 )2 + nEX14 j1 ,...,j4 =1 Also, n 1 X (3n2 − n)(EX12 )2 + nEX14 P Xj > ε ≤ ≤ Cn−2 4 n4 n ε j=1 Das impliziert, dass n 1 X P Xj > ε < ∞ n n=1 j=1 ∞ X und deswegen, dass n 1X Xj → 0 n j=1 fast sicher. Wir möchten noch das starke Gesetz der grossen Zahlen, ohne Annahme auf dem vierten Moment von Xj . Dazu brauchen wir die Kolmogorov Ungleichung. Lemma 5.3 (Ungleichung von Kolmogorov). Seien (Xj )j∈N unabhängige reelwertige Pn Zufallsvariablen mit Mittelwerten EXj = µj und Varianzen σj2 . Sei Sn = k=1 Xk , Pn P mn = k=1 µk und s2n = nk=1 σk2 (bemerke, dass µn und s2n Mittelwert und Varianz von Sn sind). Dann gilt, für alle t > 0, P (∃ k ≤ n : |Sk − mk | ≥ tsn ) ≤ t−2 74 Bemerkung: die Tatsache, dass P(|Sn − mn | ≥ sn t) ≤ t−2 ist äquivalent zu P( n1 |Sn − mn | ≥ ε) ≤ 1/(nε2 ) und folgt also schon aus der Chebyshev Ungleichung (40). Der Vorteil der Kolmogorov’sche Ungleichung, ist, dass sie die Wahrscheinlichkeit abschätzt, dass das Maximum von |Sk − mk | über alle k = 1, . . . , n gross wird (was natürlich grösser ist, als die Wahrscheinlichkeit, dass |Sn − mn | gross ist. Beweis. O.B.d.A. nehmen wir an, dass µk = 0 für alle k ≥ 1; sonst ersetzen wir Xj mit der neuen Variablen Xj − mj . Dann ist auch mk = 0 für alle k ≥ 1. Für k = 1, . . . , n, führen wir die Variablen Y Yk = 1(|Sk | ≥ tsn ) 1(|S` | < tsn ) `<k ein. Bemerke, dass Yk = 1(min{` : S` ≥ tsn } = k) das Ereignis ist, dass k das kleinste ganze Zahl ist, mit |Sk | > tsn . Es existiert Pnhöchstens ein k ∈ {1, . . . , n} mit Yk = 1. Deswegen kann die Zufallsvariable Zn = k=1 Yk nur die Werten 0 und 1 annehmen. Zn ist genau dann 1, wenn es existiert k ≤ n mit |Sk | ≥ tsn . Also P (∃ k ≤ n : |Sk | > tsn ) = P(Zn = 1) = EZn Wir betrachten nun das Produkt Zn Sn2 . Einerseits, da Zn ≤ 1, wir finden n X EYk Sn2 = EZn Sn2 ≤ ESn2 = s2n . (41) k=1 Anderseits, wir schreiben Uk = Sn − Sk = Sk und von Yk unabhängig ist. Damit Pn j=k+1 Xj und wir bemerken, dass Uk von EYk Sn2 = EYk (Uk + Sk )2 = EYk Sk2 + 2EUk Yk Sk + EUk2 Yk ≥ EYk Sk2 weil EUk Yk Sk = EYk Sk EUk = 0 und EUk2 Yk ≥ 0. Da aber Sk2 ≥ t2 s2n falls Yk 6= 0, wir schliessen, dass EYk Sn2 ≥ EYk Sk2 ≥ s2n t2 EYk Aus (41), wir erhalten, dass s2n ≥ n X EYk Sn2 ≥ s2n t2 k=1 n X EYk = s2n t2 EZn k=1 Das gibt P (∃ k ≤ n : |Sk | > tsn ) = P(Zn = 1) = EZn ≤ t−2 wie behauptet. Mit Hilfe vom Satz von Kolmogorov zeigen wir nun ein starkes Gesetz der grossen Zahlen für eine Folge unabhängiger (aber nicht unbedingt identisch verteilte) Zufallsvariablen, mit endlichen Varianz (so, dass die Varianzen nicht zu stark wachsen). 75 Proposition 5.4. Seien Xk , k ∈ N unabhängige Zufallsvariablen mit Mittelwerten EXk = µk und Varianzen σk2 . Es gelte ∞ X σ2 k k=1 Dann k2 <∞ n 1X (Xk − µk ) → 0 n k=1 fast sicher. Beweis. Sei n X Sn = (Xk − µk ) k=1 Für ein ε > 0 setzen wir [ Ap = {|Sn | ≥ εn} 2p−1 <n≤2p Wir werden zeigen, dass ∞ X P(Ap ) < ∞ (42) p=1 Aus dem Lemma von Borel-Cantelli folgt, dass \ [ P Ap = 0 n≥1 p≥n Das bedeutet, dass, mit Wahrscheinlichkeit 1, nur endlich viele p ∈ N existieren so, dass Ap eintritt. D.h., mit Wahrscheinlichkeit 1 gibt es n0 ∈ N so, dass |Sn | ≤ εn für alle n > n0 und deswegen P lim n−1 Sn = 0 = 1 n→∞ wie behauptet. Wir müssen also (42) beweisen. Dazu bemerken wir, dass P(Ap ) ≤ P ∃ 2p−1 < k ≤ 2p : |Sk | ≥ ε2p−1 s22p p ≤ P ∃ k ≤ 2p : |Sk | ≥ ε2p−1 s−1 s ≤ p 2 2 4p−1 ε2 wo wir die Kolmogorov Ungleichung angewandt haben. Damit erhalten wir ∞ X p=1 p ∞ ∞ 2 4 X s22p 4 X 1 X 2 P(Ap ) ≤ 2 = σk ε 4p ε2 4p = 4 ε2 p=1 ∞ X k=1 p=1 σk2 k=1 ∞ X X 1 16 ≤ 2 p 4 3ε p p:2 ≥k Das zeigt (42). 76 k=1 σk2 <∞ k2 Schlussendlich möchten wir noch das starke Gesetz der grossen Zahlen zeigen, ohne anzunehmen, dass die Variablen Xj eine endliche Varianz haben. Satz 5.5 (Starkes Gesetz der grossen Zahlen). Seien (Xj )j∈N unabhängige, identisch verteilte, integrierbare Zufallsvariablen mit Mittelwert µ = EXj . Dann ist lim n→∞ 1 (X1 + · · · + Xn ) = µ n fast sicher. Bemerkung: auch hier, wie in Proposition 5.4, hätten wir eine Folge unabhängiger Zufallsvariablen betrachten können, die nicht identisch verteilt sind. Mit µi = EXj hätten wir dann gehabt n 1X (Xj − µj ) = 0 lim n→∞ n j=1 fast sicher. Beweis. Um Proposition 5.4 anzuwenden, brauchen wir zunächst eine Trunkation der Variablen Xj . Wir setzen Uk = Xk 1(|Xk | < k) und Vk = Xk 1(|Xk | ≥ k). Dann gilt Xk = Uk + Vk und die Varianz von Uk ist endlich. In der Tat, wenn wir die Varianz von Uk mit σk2 bezeichnen, finden wir σk2 ≤ EUk2 ≤ k X EXk2 1(j − 1 ≤ |Xk | ≤ j) ≤ j=1 k X jE|Xk |1(j − 1 ≤ |Xk | ≤ j) = j=1 k X jaj j=1 mit aj = E|Xk |1j − 1 ≤ |Xk | ≤ j). Bemerke, dass aj nicht von k abhängt, weil die Variablen Xk identisch verteilt sind. Wir erhalten, ∞ X σ2 k=1 k k2 ∞ k ∞ ∞ ∞ X X X X 1 X 1 ≤ `a` = `a` ≤2 a` k2 k2 k=1 ∞ X =2 `=1 `=1 k=` `=1 E|Xk |1(` − 1 ≤ |Xk | ≤ `) = 2E|Xk | < ∞ `=1 wo wir benutzt haben, dass ∞ X 1 1 ≤ k2 `−1 k=` für alle ` > 1. Proposition 5.4 impliziert also, dass n 1X (Uk − EUk ) → 0 n k=1 fast sicher. Nun aber EUk = µ − EXk 1(|Xk | ≥ k) wobei |EXk 1(|Xk | ≥ k)| ≤ E|Xk |1(|Xk | ≥ k) = E|X1 |1(|X1 | ≥ k) 77 weil alle Xk identisch verteilt sind. Da E|X1 | < ∞, es folgt, dass |EXk 1(|Xk | ≥ k)| → 0 für k → ∞. Also EUk → µ für k → ∞, und deswegen n 1X EUk → µ n k=1 für n → ∞. Das zeigt, dass n 1X Uk → µ n (43) k=1 fast sicher, für n → ∞. Wir müssen noch zeigen, dass die Vk vernachlässigt werden können. Dazu bemerken wir, dass ∞ X a`+1 P(Vn 6= 0) = P(|Xn | ≥ n) = E1(|Xn | ≥ n) ≤ ` `=n wobei wir erinnern, dass a` = E|Xk |1(` − 1 ≤ |Xk | ≤ `). Damit ist ∞ X n=1 P(Vn 6= 0) ≤ ∞ X ∞ X a`+1 n=1 `=n ` = ∞ ` X a`+1 X `=1 ` n=1 1= ∞ X a`+1 < ∞ `=1 Das zeigt, mit Borel-Cantelli, P(Vn 6= 0für unendlich viele n ∈ N) = 0 Mit anderen Wörter, mit Wahrscheinlichkeit 1, es existieren nur endlich viele n ∈ N so, dass Vn 6= 0. Da zeigt, dass n 1X Vk → 0 n k=1 fast sicher, und also, mit (43), dass n 1X Xk → µ n k=1 fast sicher. 5.3 Anwendungen in der Statistik Das Gesetz der grossen Zahlen hat Anwendungen in der Statistik. Die Aufgabe der Statistik ist die Beschreibung von Messungen, oder Beobachtungen, die als Realisierung von Zufallsvariablen X1 , . . . , Xn auf einem Wahrscheinlichkeitsraum interpretiert werden. Die Verteilung der Zufallsvariablen ist a-priori nicht bekannt. Die Statistik versucht diese Verteilung durch die Beobachtungen zu bestimmen, oder, besser gesagt, zu schätzen. Normalerweise ist es nicht möglich die Verteilung der Zufallsvariablen genau zu 78 bestimmen. Deswegen macht man Modellannahmen und man charakterisiert die gesuchte Verteilung durch (wenige) Parameter, die durch die Messungen abgeschätzt werden sollten. Um die unbekannte Parameter abzuschätzen, konstruiert der Statistiker oder die Statistikerin Schätzer, d.h. Funktionen der Variablen X1 , . . . , Xn , die die Parameter annähern. Ein konsistenter Schätzer für ein Parameter a ∈ Rk ist eine Folge von messbaren Funktionen an : Rn → Rk , mit der Eigenschaft, dass an (X1 , . . . , Xn ) → a fast sicher, für n → ∞. Die Beobachtungen können zum Beispiel die Ausgänge einer Folge von identischen und sich nicht beeinflussenden Zufallsexperimenten. Dann macht es Sinn anzunehmen, dass die Zufallsvariablen X1 , . . . , Xn eine Folge unabhängiger und identisch verteilte Zufallsvariablen mit Verteilung ν ist. Hier sind die Unabhängigkeit und die Tatsache, dass die Xj identisch verteilt sind, Modellannahmen. Die Verteilung ν ist, zunächst unbekanntes, Modellparameter. Wie kann man ν bestimmen? ν ist ein Wahrscheinlichkeitsmass auf R, definiert durch ν(A) = P(X1 ∈ A). Um ν zu bestimmen, schätzen wir ν(A), für eine beliebige Borel Menge A ⊂ R. Als Schätzer für das Parameter ν(A) benutzen wir die Frequenz der Ausgänge Xi ∈ A, definiert als n 1X νn (A) = 1A (Xi ) n i=1 Bemerke, dass νn (A) ist eine messbare Funktion der Zufallsvariable X1 , . . . , Xn und definiert deswegen wieder eine Zufallsvariable auf dem selben abstrakten Wahrscheinlichkeitsraum, wo die Variablen Xi definiert sind (der Wahrscheinlichkeitsraum spielt hier keine wichtige Rolle). Das Gesetz der grossen Zahlen zeigt, dass νn ein konsistenter Schätzer für νn (A) ist. Lemma 5.6. Sei (Xi )i∈N eine Folge unabhängiger, identisch verteilter, reelwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Sei ν : B(R) → [0; 1] die Wahrscheinlichkeitsverteilung von X1 (und deswegen von Xj , für alle j ∈ N), d.h. ν(A) = P(X1 ∈ A). Dann gilt, für alle A ∈ B(R), νn (A) → ν(A) fast sicher (hier wird νn (A) als eine Folge Zufallsvariablen interpretiert, ν(A) ist eine Zahl, d.h. eine konstante Zufallsvariable). Beweis. Sei Yj = 1A (Xj ) ist eine Folge unabhängiger Zufallsvariablen, mit EYj = P(Xj ∈ A) = ν(A). Das Gesetz der grossen Zahlen impliziert, dass n 1X νn (A) = Yj → EY1 = ν(A) n j=1 fast sicher, für n → ∞. Statt eine Borel Menge A ⊂ R festzuwählen, und νn (A) als eine Folge von reelwertige Zufallsvariablen auf (Ω, A, P) zu betrachten, kann man auch νn als eine Folge von masswertiges Zufallsvariablen, d.h. eine Folge von Funktionen auf Ω, mit Werten in den 79 Borel Massen auf R. Um die Abhängigkeit von νn von x ∈ Ω zu unterstriechen, schreiben wir νnx . Für alle x ∈ Ω ist dann νnx ein Wahrscheinlichkeitsmass auf B(R). Da jede Borel Mass auf R durch eine Verteilungsfunktion beschrieben werden kann, können wir νnx eine Folge Verteilungsfunktionen Fnx zuordnen, die durch n Fnx (t) = νnx ((−∞; t]) = 1X 1(Xi (x) ≤ t) n j=1 definiert sind, für alle x ∈ Ω (man kann also die Abbildung x → Fnx als eine Folge von Zufallsvariablen betrachten, mit Werten in den Verteilungsfunktionen über R). Aus Lemma 5.6 folgt, dass, für alle feste t ∈ R, Fnx (t) = νnx ((−∞; t]) → ν((−∞; t]) =: F (t) für fast alle x ∈ Ω. Im nächsten Satz zeigen wir sogar, dass, für fast alle x ∈ Ω, Fnx → F in Verteilung. Satz 5.7. Sei (Xn )n∈N eine Folge reelwertiger, unabhängiger identisch verteilter Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Sei ν : B(R) → [0; 1] die Wahrscheinlichkeitsverteilung von X1 , und F die entsprechende Verteilungsfunktion (d.h. F (x) = ν((−∞; x]) = P(X1 ≤ x)). Für x ∈ Ω, sei νnx : B(R) → [0; 1] das Borel Mass, definiert durch n 1X νnx (A) = 1A (Xi (x)) n j=1 P Sei Fnx die Verteilungsfunktion von νnx , d.h. Fnx (t) = νn ((−∞; t]) = n1 nj=1 1(Xi (x) ≤ t). e ∈ A mit P(Ω) e = 1 so, dass für alle x ∈ Ω, e F x → F in Dann es existiert eine Menge Ω n Verteilung. Beweis. Es folgt aus Lemma 5.6, dass für alle t ∈ R, Fnx (t) → F (t) fast sicher. D.h. für alle t ∈ R, es existiert eine Menge Ωt ∈ A mit P(Ωt ) = 1 und so, dass Fnx (t) → F (t) für alle x ∈ Ωt . e = ∩q∈Q Ωq . Dann gilt P(Ω) e = 1, weil Wir setzen nun Ω X e c ) = P(∪q∈Q Ωc ) ≤ P(Ω P(Ωcq ) = 0 q q∈Q e es gilt F x (t) → F (t) für alle t ∈ Q. Ferner, für alle x ∈ Ω n Sei nun c ∈ R so, dass F stetig an der Stelle c ist, und ε > 0. Da F stetig an der Stelle c ist, finden wir δ > 0 so, dass |F (t) − F (s)| < ε für alle s ∈ [c − δ; c + δ]. Wir e wählen dann d1 ∈ [c − δ, c] ∩ Q und d2 ∈ [c; c + δ] ∩ Q. Dann gilt, für alle x ∈ Ω, lim sup Fnx (c) ≤ lim sup Fnx (d2 ) = F (d2 ) ≤ F (c) + ε n→∞ n→∞ und lim inf Fnx (c) ≥ lim inf Fnx (d1 ) = F (d1 ) ≥ F (c) − ε n→∞ n→∞ wo wir die Monotonie der Verteilungsfunktionen Fnx benutzt haben zusammen mit der e Fnx (t) → F (t) für alle t ∈ Q. Tatsache, dass, für x ∈ Ω, 80 Lemma 5.6 und Satz 5.7 zeigen, dass die Frequenzen νn konsistenten Schätzer sind, für die Wahrscheinlichkeiten ν(A) und allgemeiner für die Verteilung ν der Variablen X1 , . . . , Xn . In der Anwendungen ist es auch wichtig Schranke für die Differenz zwischen die gesuchte Wahrscheinlichkeiten ν(A) und die geschätzte Werte νn (A) zu bestimmen, damit man weisst, wie gross n sein muss, um eine gute Approximation von ν(A) zu haben. Solche Schranke (in der Statistik man spricht von Qualitätsabschätzungen) kann man leicht mit Hilfe von der Chebyshev Ungleichung zeigen. Lemma 5.8. Sei (Xj )j∈N eine Folge reelwertiger unabhängiger identisch verteilter Zufallsvariablen auf eine Wahrscheinlichkeitsraum (Ω, A, P). Sei F die Verteilungsfunktion von X1 . Dann gilt, für alle A ∈ cB(R), 1 P (|νn (A) − ν(A)| > cν(A)) ≤ (44) nc2 ν(A) Beweis. Wir setzten Yj = 1(Xj ∈ A). Der Erwartungswert von Yj ist EYj = P(Xj ∈ A) = ν(A). Da Yj2 = Yj , die Varianz von Yj ist E|Yj − EYj |2 = ν(A)(1 − ν(A)) ≤ ν(A) Da n νn (A) − ν(A) = 1X (Yj − EYj ) n j=1 kriegen wir P (|νn (A) − ν(A)| > cν(A) = P ≤ 1 | ncν(A) E|Y1 − EY1 nc2 ν 2 (A) n X (Yj − EYj )| > 1 j=1 |2 ≤ 1 c2 nν(A) Die Schranke (44) kann als P (|νn (A) − ν(A)| > c) ≤ ν(A) nc2 umgeschrieben werden. Normalerweise möchtet man aber, dass der relative Fehler, also |νn (A) − ν(A)|/ν(A) klein ist. Deswegen ist die Formel (44) so geschrieben. In der Anwendungen wählt man zunächst wie gross der Fehler c sein kann (z.B. kann man wählen, dass der Fehler höchstens 10 Prozent vom Wert ν(A) sein sollte; dann setzt man c = 0.1). Dann man wählt wie gross soll die Wahrscheinlichkeit p sein, dass der Fehler c tatsächlich kleiner als die gewählte Schranke ist (z.B. man wählt, dass der Fehler kleiner als 10 Prozent sein sollte, mindestens mit Wahrscheinlichkeit 90 Prozent). Die Schranke (44) gibt dann die Bedingung 1 nc2 ν(A) ≤ (1 − p) 81 damit der Fehler kleiner als c ist mit Wahrscheinlichkeit grösser als p. Das gibt eine untere Schranke n ≥ ((1 − p)c2 ν(A))−1 an der Anzahl notwendinger Messungen (man bemerke, dass die Anzahl notwendiger Messungen ist grösser, falls ν(A) klein ist; das war zu erwarten, weil wenn ν(A) klein ist muss man lang warten, damit das Ergebnis A überhaupt einmal fällt. Statt an den Wahrscheinlichkeiten ν(A) kann man auch an anderen Eigenschaften der Verteilung ν interessiert sein. Dann braucht man andere Schätzer. Z.B. kann man versuchen der Erwartungswert oder die Varianz von ν zu schätzen. Das Gesetz der grossen Zahlen gibt uns auch in diesem Fall konsistenten Schätzer. Wir betrachten wie oben eine Folge unabhängiger und identisch verteilter reelwertiger Zufallsvariablen (Xn )n∈N , mit Erwartungswert EX1 = µ. Das Gesetz der grossen Zahlen impliziert, dass n 1X Xj → EX1 n j=1 fast sicher. Das bedeutet, in der Sprache der Statistik, dass die Zufallsvariablen n mn = 1X Xj n j=1 ein Schätzer für den Erwartungswert µ = EX1 sind. Nimmt man an, dass X1 eine endliche Varianz hat, so kann man auch hier eine Qualitätsabschätzung herleiten. Lemma 5.9. Sei (Xj )j∈N eine Folge unabhängiger identisch verteilter Zufallsvariablen mit EX1 = µ und E|X1 − EX1 |2 = σ 2 < ∞. Dann ist n mn = 1X Xj n j=1 ein konsistenter Schätzer für µ und es gilt P (|mn − µ| > cµ) ≤ σ2 nµ2 c2 (45) Beweis. Die Chebyshev Ungleichung zeigt, dass X 2 n 1 (Xj − µ) > 1 ≤ σ P (|mn − µ| > cµ) = P cµn c2 µ2 n j=1 In der Praxis ist die Schranke (45) nicht so nützlich, weil wir, auf der rechten Seite, der Erwartungswert µ und die Varianz σ 2 nicht kennen (wir versuchen eben durch Beobachtungen die Eigenschaften der Verteilung ν zu bestimmen). Mindestens für µ haben wir aber eine Schätzung, gegeben aus mn . Um die Formel (45) zu benutzen, brauchen wir also auch eine Schätzung für die Varianz σ 2 . Dazu definieren wir die empirische Varianz n 1X Vn = (Xj − mn )2 n j=1 82 Mit dieser Definition ist Vn eine Zufallsvariable auf dem selben Wahrscheinlichkeitsraum, wo die Variablen Xj definiert sind. Im nächsten Lemma zeigen wir, dass Vn fast sicher gegen der Varianz σ 2 konvergiert, unter der Annahme, dass σ 2 < ∞. Lemma 5.10. Sei (Xn )n∈N eine Folge unabhängiger und identisch verteilter Zufallsvariablen mit EX1 = µ und E(X1 − EX1 )2 = σ 2 < ∞. Dann konvergiert Vn → σ 2 fast sicher. Beweis. Mit der Definition n 1X mn = Xj n j=1 können wir schreiben Vn = n n j=1 j=1 1X 1X 2 (Xj − mn )2 = Xj − m2n n n Da (Xj2 )j∈N eine Folge unabhängiger und identisch veteilter Zufallsvariablen mit endlichen Erwartungswert ist, folgt aus dem Gesetz der grossen Zahlen, dass n 1X 2 Xj → EX12 lim n→∞ n j=1 fast sicher. Anderseits, da mn → µ fast sicher, bekommen wir auch, dass m2n → µ2 fast sicher. Daraus folgt, dass n 1X 2 Xj − m2n → EX12 − (EX1 )2 = σ 2 n j=1 fast sicher. Also, mit der Messungen von X1 , . . . , Xn kann man Abschätzungen mn und Vn für die Varianz der Verteilung ν von X1 . Mit Hilfe dieser Abschätzungen, kann man dann versuchen mit (45) zu bestimmen, wie gross der Fehler ist. 6 Der zentrale Grenzwertsatz Sei (Xn )n∈N eine Folge unabhängiger identisch verteilter reelwertiger integrierbarer Zufallsvariablen mit EX1 = µ. Das Gesetz der grossen Zahlen impliziert, dass n 1X (Xj − µ) → 0 n (46) j=1 fast sicher, als n → ∞. Man könnte sich aber vorstellen, dass wenn wir mit einer geeignete Potenz von n multiplizieren, die linke Seite von (46) einen nicht trivialen Grenzwert hat. Mit andere Wörter, das Gesetz der grossen Zahlen impliziert, dass n X Xj ' nµ j=1 83 (47) Mit dem zentralen Grenzwertsatz untersuchen wir dann den Term nächster Ordnung in dieser Entwicklung, die Fluktuationen um nµ. Bemerke, dass die Summe auf der linke Seite von (47) eine Zufallsvariable ist. Obwohl der Hauptterm nµ auf der rechten Seite eine Konstante ist, können wir uns also vorstellen, dass die Korrekturen Zufallsvariablen sind, mit einer bestimmten Verteilung. Es gibt deswegen viele natürlichen Fragen, die wir uns stellen können: wie gross ist der Term nächster Ordnung? Was ist die Verteilung der Fluktuationen? Wovon hängt sie ab? Um die erste Frage zu beantworten, nehmen wir an, dass EX12 < ∞, d.h., dass X1 eine endliche Varianz hat. Um die Grösse der Fluktuationen zu bestimmen, subtrahieren wir den Hauptterm µn von der linken Seite von (47), und wir multiplizieren mit n−γ für ein geeignete γ > 0. Wir berechnen dann die Varianz der resultierende Zufallsvariable: 2 n n X X −γ −2γ E n (Xj − µ) = n E(Xi − µ)(Xj − µ) j=1 i,j=1 = n−2γ n X E(Xj − EXj )2 = n1−2γ E(X1 − EX1 )2 j=1 Pn −γ Also die Variable n j=1 (Xj − µ) kann nur dann eine Zufallsvariable der Ordnung 1 sein, falls γ = 1/2. Diese Berechnung zeigt, dass, wenn X1 eine endliche Varianz hat, dann muss der nächsten Term in der Entwicklung (47) ein Term der Ordnung n1/2 sein. Die nächste Frage ist: was ist die Verteilung der Fluktuationen. D.h. was ist der Limes der Folge n 1 X √ (Xj − µ) (48) n j=1 für n → ∞? Wir bemerken, dass wir diese Frage schon einmal geantwortet haben, für den Fall, dass die Folge (Xj )j∈N aus unabhängiger und identisch verteilter Bernoulli Variablen besteht, mit P(X1 = 0) = p und P(X1 = 0) = 1 − p für ein p ∈ (0; 1/2). In diesem Fall, der Satz von Moivre-Laplace (Satz 4.4) zeigt, dass, (48) in Verteilung gegen einer Gauss’sche Zufallsvariable mit Erwartung 0 und mit Varianz p(1 − p) konvergiert. Man könnte sich vorstellen, dass das Auftauchen einer Gauss’sche Verteilung von der Wahl der Bernoulli Variablen Xj abhängt, und, dass für andere Wahlen von Xj , die Fluktuationen durch andere Verteilungen beschrieben werden. Das ist aber nicht der Fall. Der zentrale Grenzwertsatz besagt, dass, falls EX12 < ∞, die Zufallsvariable (48) in Verteilung gegen eine Gauss’sche Variable konvergiert, unabhängig aus der Verteilung von X1 . Satz 6.1 (Zentrale Grenzwertsatz). Sei (Xn )n∈N eine Folge unabhängiger identisch verteilter reelwertige Zufallsvariablen mit EX1 = µ und E(X1 − EX1 )2 = σ 2 < ∞. Dann konvergiert die Folge n 1 X √ Zn = (Xj − µ) n j=1 in Verteilung gegen eine Gauss’sche Zufallsvarible N (0, σ 2 ) mit Mittelwert µ und Varianz σ 2 . 84 Um den zentrale Grenzwertsatz zu zeigen, vergleichen wir die charakteristische Funktion von Zn mit der charakteristische Funktion einer Gauss’sche Variable N (0, σ 2 ). Wir haben schon in Sektion 2.6 gezeigt, dass charakteristische Funktionen Zufallsvariablen vollständig charakterisieren (siehe Satz 2.21). Wir brauchen noch zu zeigen, dass punktweise Konvergenz von charakteristische Funktionen Konvergenz in Verteilung impliziert. Satz 6.2. Sei (Xn )n∈N eine Folge von Zufallsvariablen, mit charakteristische Funktionen φn . Sei X eine weitere Zufallsvariable, mit charakteristische Funktion φ. Konvergiert φn (t) → φ(t) für alle t ∈ R, dann konvergiert Xn in Verteilung gegen X. Beweis. Seien Pn , P die Wahrscheinlichkeitsverteilungen von Xn und X. Wir müssen zeigen, dass Z Z f dPn → f dP (49) für n → ∞ und für alle f stetig und beschränkt. Wir zeigen zunächst, dass (49) für alle f stetig und mit kompaktem Träger gilt. Dazu setzen wir, für σ > 0, Z 1 1 2 2 pσ (x) = √ e−itx p1/σ (t)dt e−x /2σ = √ 2 2 2πσ 2πσ Für alle σ > 0, wir behaupten, dass Z Z pσ ∗ f dPn → pσ ∗ f dP (50) für alle f stetig mit kompakten Träger. In der Tat, Z Z Z pσ ∗ f dPn = pσ (y − x)f (x)dPn (y) dx Z Z 1 itx =√ f (x) p1/σ (t)φn (t)e dt dx 2πσ 2 Nach Annahme gilt φn (t) → φ(t) für alle t ∈ R. Da anderseits p1/σ (t)φn (t)e−itx ≤ p1/σ (t) und da die rechte Seite integrierbar ist, dominierte Konvergenz impliziert, dass Z Z 1 1 √ e−ixt p1/σ (t)φn (t)dt → √ e−ixt p1/σ (t)φ(t)dt 2 2 2πσ 2πσ für alle x ∈ R. Da Z Z 1 1 −ixt √ e p1/σ (t)φn (t)dt ≤ √ p1/σ (t)dt < ∞ 2πσ 2 2πσ 2 und da f stetig und kompakten Träger hat, können wir noch einmal dominierte Konvergenz auf dem x-Integral anwenden. Wir erhalten (50), für alle f stetig und mit kompakten Träger. Nun benutzen wir (50), um (49) zu bewiesen, für alle f stetig und mit 85 kompakten Träger. Dazu bemerken wir, dass, da f stetig ist und kompakten Träger hat, ist f gleichmässig stetig. Das impliziert, dass sup |pσ ∗ f (x) − f (x)| → 0 x für σ → 0. Für jedes σ > 0, abschätzen wir dann Z Z Z Z f dPn − f dP ≤ |f − p ∗ f |dP + |f − pσ ∗ f |dP σ n Z Z + pσ ∗ f dPn − pσ ∗ f dP Zu gegebenen ε > 0 können wir dann σ > 0 so klein wählen, dass sup |pσ ∗ f (x) − f (x)| ≤ ε/3 x Dann wählen wir n ∈ N so gross, dass Z Z pσ ∗ f dPn − pσ ∗ f dP ≤ ε/3 (möglich wegen (50)). Wir schliessen, dass Z Z f dPn − f dP ≤ ε Da ε > 0 beliebig ist, finden wir (49), für alle stetige Funktionen mit kompakten Träger. Wir müssen noch zeigen, dass (49) eigentlich für alle f stetig und beschränkt gilt. Sei hk eine Folge von stetigen Funktionen mit kompaktem Träger und mit 0 ≤ hk (x) ≤ 1 für alle x ∈ R, so, dass hk (x) → 1 für alle x ∈ R. Dann ist f hk ebenfalls stetig mit kompaktem Träger, und also Z Z hk f dPn → hk f dP für n → ∞. Ferner, es gilt Z Z Z Z f dPn − f hk dPn ≤ |f ||1 − hk |dPn ≤ sup |f (x)| 1 − hk dPn x und analog Z Z Z f dP − f hk dP ≤ sup |f (x)| 1 − hk dP x Also, mit M = sup |f (x)|, erhalten wir Z Z Z Z f dPn − f dP ≤ M 1 − hk dPn + M 1 − hk dP Z Z + f hk dPn − f hk dP 86 Wir haben Z Z f hk dPn → f hk dP für n → ∞ und, da hk (x) → 1 für k → ∞, und |hk (x)| ≤ 1, Z hk dP → 1 für k → ∞. Das impliziert, dass für ein beliebiges ε > 0, wir finden zunächst ein k ∈ N so, dass Z 1 − hk dP ≤ ε/4M Mit festem k ∈ N, wir wählen nun n ∈ N so, dass Z Z M hk dPn − hk dP ≤ ε/4 und Z Z f hk dPn − f hk dP ≤ ε/4 Dann gilt Z Z f dPn − f dP ≤ ε für alle n ∈ N gross genug. Um die Konvergenz von n 1 X Zn = √ (Xj − µ) n j=1 gegen eine Gauss’sche Variable zu zeigen, brauchen wir also wegen Satz 6.2 zu zeigen, dass die charakteristische Funktion φZn gegen die charakteristische Funktion der Gauss’sche Variable konvergiert. Ohne Beschränkung der Allgemeinheit können wir hier annehmen, dass µ = 0 (sonst definieren wir die neue Folge Yj = Xj −µ). Sei φ(t) = EeitX1 die charakteristische Funktion von X1 (und also auch von Xn , für alle n ∈ N). Die charakteristische Funktion von Zn ist dann Ee it √1n Pn j=1 Xj =E n Y j=1 √ i(t/ n)Xj e = n Y Ee √ i(t/ n)Xj j=1 = n Y √ √ φ(t/ n) = φn (t/ n) (51) j=1 Die rechte Seite der letzte Gleichung muss also mit der charakteristische Funktion einer Gauss’sche Variable mit Verteilung N (0, σ 2 ) verglichen werden. Aus (14) wissen wir, dass die charakteristische Funktion einer Gauss’sche Variable mit Mittelwert 0 und Varianz 2 2 σ 2 aus φN (0,σ2 ) (t) = e−σ t /2 gegeben ist. Wir müssen also zeigen, dass, falls φ die charakteristische Funktion der Variable X1 ist, dann gilt √ 2 2 φn (t/ n) → e−σ t /2 (52) √ für n → ∞. Um das asymptotischen Verhalten von von φn (t/ n) zu bestimmen, brauchen wir das folgende Lemma. 87 Lemma 6.3. Sei an eine Folge reellen Zahlen mit limn→∞ an = a. Dann gilt an n = ea lim 1 + n→∞ n Beweis. Wir bemerken, dass |ex − 1 − x| ≤ Cx2 für alle |x| ≤ 1. Da an → a, für n → ∞, we folgt, dass |an |/n ≤ 1 für n gross genug. Damit gilt ean /n 1 − Ce−an /n n−2 ≤ 1 + an /n ≤ ean /n 1 + Ce−an /n n−2 und n n ean 1 − Ce−an /n n−2 ≤ (1 + an /n)n ≤ ean 1 + Ce−an /n n−2 Für n → ∞, ean → ea , e−an /n → 1, (1 − Ce−an /n n−2 )n → 1. Also, lim (1 + an /n)n = ea n→∞ Mit Hilfe des letztes Lemma können wir nun das asymptotischen Verhalten von √ φn (t/ n) untersuchen und den zentrale Grenzwertsatz beweisen. Beweis von Satz 6.1. O.B.d.A. können wir annehmen, dass µ = 0 (sonst ersetzen wir Xj durch die zentrierte Variablen Yj = Xj − µ). Dann ist die Varianz von X1 einfach σ 2 = EX12 . Sei φ(t) = EeitX1 die charakteristische Funktion von X1 . Aus Lemma 2.20 wissen wir, dass φ ∈ C 2 (R), mit φ(0) = 1, φ0 (0) = iEX1 = 0 und φ00 (0) = −EX12 = −σ 2 . Gemäss (52), Satz 6.1 folgt, wenn wir zeigen, dass, für alle t ∈ R, √ 2 2 lim φn (t/ n) = e−σ t /2 n→∞ gilt. Um (53) zu beweisen, setzen wir R2 (s) = φ(s) − 1 − s2 00 φ (0) 2 Da φ ∈ C 2 (R), mit φ(0) = 1 und φ0 (0) = 0, finden wir, dass lim s−2 R2 (s) = 0 s→0 Also, für alle t ∈ R, √ n R2 (t/ n) = 0 2 n→∞ t lim Nun n √ n √ t2 00 φ(t/ n) = 1 + φ (0) + R2 (t/ n) 2n Wir setzen an = √ t2 00 φ (0) + nR2 (t/ n) 2 88 (53) Dann gilt σ 2 t2 t2 00 φ (0) = − 2 2 für n → ∞. Lemma 6.3 impliziert also, dass an → √ σ 2 t2 lim φn (t/ n) = e− 2 n→∞ Sei (Xn )n∈N eine Folge unabhängiger und identisch verteilter Zufallsvariablen, mit EX1 = µ und E(X1 − EX1 )2 = σ 2 . Der zentrale Grenzwertsatz zeigt, dass n X Xj ' nµ + √ √ nZ + o( n) (54) j=1 wobei Z eine Gauss’sche Zufallsvariable ist, mit Mittelwert 0 und Varianz σ 2 . Es ist hier wichtig zu bemerken, dass (54) unabhängig von der Verteilung von X1 gilt. Bis auf P Fehler kleiner als n1/2 , die Verteilung von nj=1 Xj ist völlig aus Mittelwert und Varianz von X1 bestimmt. Schlussendlich können wir uns fragen, was passiert, wenn X1 keine endliche Varianz hat? Dann sind die Fluktuationen grösser und man muss mit einer kleineren Potenz von n multiplizieren, um ein nicht triviales Limes zu finden. Man kann in der Tat zeigen, dass für integriebare Variablen mit unendlichen Varianz eine Verallgemeinerung vom zentral Grenzwertsatz gilt: in Abhängigkeit vom Zerfall von X1 ins Unendlichen, es existiert 0 < γ ≤ 1/2 so, dass die Variable n 1 X (Xj − EXj ) nγ j=1 in Verteilung gegen eine sogenannte α-stabile Verteilung konvergiert (die α-stabile Verteilung hängt von γ ab). 7 Markovketten Der Begriff von stochastische Prozesse wurde in Definition 3.11 eingeführt; ein stochastische Prozess oder eine Zufallsfolge auf dem Wahrscheinlichkeitsraum (Ω, A, P) ist eine messbare Abbildung X : (Ω, A) → (RN , B(R)N ). Für alle x ∈ Ω ist also X(x) = (Xn (x))n∈N eine Folge in R. Das Index n ∈ N wird normalerweise als Zeit interpretiert. Hier bezeichnet B(R)N die σ-Algebra auf RN , die aus alle Zylindermengen erzeugt wird. Statt Zufallsfolgen in R, kann man allgemeiner Zufallsfolgen betrachten, mit Werten in einer Menge S, versehen mit eine σ-Algebra AS . Typischerweise ist S eine Teilmenge von R oder von Rd . Eine messbare Abbildung X : (Ω, A) → (S N , AN S ) heisst ein stochastische Prozess mit Zustandsraum S (und Indexmenge N). In diesem Kapitel werden wir insbesondere Stochastische Prozess mit endlichem Zustandsraum betrachten. In diesem Fall ist normalerweise AS = P(S) einfach die Potenzmenge von S (bemerke, dass AN S 89 trotzdem kleiner ist, als die Potenzmenge von S N ). Eine wichtige Klasse von stochastische Prozess mit endlichen Zustandsraum sind die Markovketten. Diese Systeme sind eine Verallgemeinerung der Begriffen von unabhängige Folgen und von Summen unabhängiger Folgen von Zufallsvariablen, die wir in den letzten Kapitel betrachtet haben. Sie spielen eine extrem wichtige Rolle in der Modellierung des dynamischen Verhaltens von vielen Systemen. Definition 7.1. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und S eine endliche Menge (man kann eigentlich die selbe Definition auch für abzählbare Zustandsräume anwenden). Ein stochastisches Prozess X : (Ω, A) → (S N , AN S ) heisst eine Markovkette, falls, für alle n ∈ N und i1 , i2 , . . . , in ∈ N mit i1 < i2 < · · · < in und für alle x1 , . . . , xn ∈ S mit P Xin−1 = xn−1 , Xin−2 = xn−2 , . . . , Xi1 = x1 > 0 es gilt P Xin = xn |Xin−1 = xn−1 , . . . , Xi1 = x1 = P(Xin = xn |Xin−1 = xn−1 ) Ist X = (Xn )n∈N eine Folge unabhängiger Zufallsvariablen mit Werten auf einem endlichen Zustandsraum S, so ist X offenbar eine Markovkette, weil P Xin = xn |Xin−1 = xn−1 , . . . , Xi1 = x1 = P(Xin = xn |Xin−1 = xn−1 ) = P(Xin = xn ) Ist die endliche Menge S ⊂ R, so können wir auch die Folge Sn = X1 + · · · + Xn betrachten. Die Folge Sn ist dann nicht unabhängig, aber trotzdem eine Markovkette, weil, wenn wir wissen, dass Xin−1 = xn−1 ist, dann spielt der Wert von Xk für Zeit k < in−1 keine Rolle mehr, um Xin zu bestimmen. Bei einer Markovkette dürfen die zukünftige Wahrscheinlichkeiten von den gegenwärtige abhängen, aber nicht von der vergangenen. Insbesondere, es folgt aus der Definition mit der Wahl i1 = 1, i2 = 2, . . . , in = n, dass, falls X : Ω → S N eine Markovkette ist, dann muss P (Xn = xn |Xn−1 = xn−1 , Xn−2 = xn−2 , . . . , X1 = x1 ) = P (Xn = xn |Xn−1 = xn−1 ) (55) Sei π0 : S → [0; 1] die Wahrscheinlichkeitsverteilung von X0 , d.h. P(X0 = x) = π0 (x) für alle x ∈ S. Dann können wir die Wahrscheinlichkeitsverteilung von Xn , für alle n ∈ N mit Hilfe von π0 und von den Übergangswahrscheinlichkeiten pn (x, y) = P(Xn = y|Xn−1 = x) für alle x, y ∈ S und n ∈ N berechnen. In der Tat X P(Xn = xn ) = P(Xn = xn |Xn−1 = xn−1 )P(Xn−1 = xn−1 ) xn−1 ∈S = X pn (xn−1 , xn )P(Xn−1 = xn−1 ) xn−1 ∈S 90 Iteration dieser Identität führt uns zu X P(Xn = xn ) = pn (xn−1 , xn )pn−1 (xn−2 , xn−1 ) . . . p1 (x0 , x1 )P(X0 = x0 ) xn−1 ,...,x0 ∈S = X pn (xn−1 , xn )p(xn−2 , xn−1 ) . . . p(x0 , x1 )π0 (x0 ) xn−1 ,...,x0 ∈S Sei also πn : S → [0; 1], definiert durch πn (x) = P(Xn = x), die Verteilung von Xn . Dann haben wir πn = π0 P1 · P2 · · · · · Pn , (56) wobei Pj die |S| × |S| Matrix ist, mit Einträge pj (x, y). Auf der rechten Seite von (56), P1 ·P2 bezeichnet das Produkt von Matrizen. Ferner, π0 P1 ·· · ··Pn bezeichnet das Produkt von links vom Vektor π0 mit der P Matrix P = P1 · · · · · Pn ; d.h. die x-te Komponente von π0 P ist gegeben aus (π0 P )(x) = y∈S π0 (y)P (y, x). Die Matrix Pn , mit den Einträge pn (x, y) heisst die n-te Übergangsmatrix von der Markovkette. Die Einträge einer Übergangsmatrix sind immer so, dass 0 ≤ pn (x, y) ≤ 1 für alle x, y ∈ S und X X pn (x, y) = P(Xn = y|Xn−1 = x) = 1 (57) y∈S y∈S für alle x ∈ S (das heisst, die Summe der Einträge auf jeder Zeile ist 1). Eine Matrix mit Einträge zwischen 0 und 1 und mit der Eigenschaft (57) heisst eine stochastische Matrix. Umgekehrt: für jedes Wahrscheinlichkeitsmass π0 auf (S, AS ) und für jede Folge von |S| × |S| stochastische Matrizen (Pj )j∈N gibt es eine Markovkette mit Übergangswahrscheinlichkeiten pj (x, y) gegeben aus der Einträge von Pj . Das folgt aus der Diskussion in Sektion 3.3. In der Tat, mit Hilfe von den Übergagsmatrizen Pj und von der Anfangsverteilung π0 können wir die Wahrscheinlichkeiten P(Xin = xn , . . . , Xi1 = x1 ) = P(Xin = xn |Xin−1 = xn−1 ) . . . P(Xi2 = x2 |Xi1 = x1 )P(Xi1 = x1 ) i1 i2 in Y X Y Y = π0 (x0 ) Pj (x0 , x1 ) Pj (x1 , x2 ) . . . Pj (xn−1 , xn ) x0 ∈S j=1 j=i1 +1 j=in−1 +1 (58) bestimmen, für alle 1 ≤ i1 < i2 < · · · < in und alle x1 , . . . , xn ∈ S. Das bedeutet, wir können P auf alle Zylindermengen in AN S definieren. Es ist dann einfach zu überprüfen, dass P, definiert auf der Algebra von allen endlichen Vereinigungen von Zylindermengen, ein Wahrscheinlichkeitsmass ist. Das Erweiterungstheorem von Carathéodory impliziert dann, dass es genau ein Wahrscheinlichkeitsmass P auf (S N , AN S ) existiert, so, dass (58) für alle n ∈ N, 1 ≤ i1 < i2 < · · · < in , x1 , . . . , xn ∈ S gilt. Mit andere Wörter, es gibt eine Bijektion zwischen Markovketten auf einem endlichen Zustandsraum S und die Folge von |S| × |S| Übergangsmatrizen (Pj )j∈N mit einer Anfangsverteilung π0 . 91 7.1 Markovketten mit stationären Übergangswahrscheinlichkeiten Im folgendes betrachten wir Markovketten auf einem endlichen Zustandsraum mit der Eigenschaft, dass die Übergangswahrscheinlichkeiten pn (x, y) nicht von n abhängen. In diesem Fall spricht man von zeitlich homogene Markovketten oder Markovketten mit stationären Übergangswahrscheinlichkeiten. Diese Markovketten werden durch eine einzige |S| × |S| Übergangsmatrix P beschrieben. Ist π0 : S → [0; 1] die Verteilung von X0 , dann ist πn = π0 P n die Verteilung von Xn . Wir diskutieren nun ein Paar Beispiele von Markovketten mit stationäre Übergangswahrscheinlichkeiten. • Unabhängige Folgen: Sei (Xn )n∈N eine Folge unabhängiger und identisch verteilter Zufallsvariablen, mit Verteilung π0 : S → [0; 1] so, dass π0 (x) = P(X0 = x). Die Übergangswahrscheinlichkeiten sind, in diesem Fall pn (x, y) = P(Xn = y|Xn−1 = x) = P(Xn = y) = P(X0 = y) = π0 (y) D.h. die Übergangsmatrix Pn mi Einträge pn (x, y) ist unabhängig von n und jede seiner Zeile ist aus der Anfangsverteilung π0 gegeben. Die Markovkette hat also in diesem Fall stationäre Übergangswahrscheinlichkeiten. Besteht die Folge (Xn )n∈N aus unabhängigen aber nicht identisch verteilter Zufallsvariablen, so ist pn (x, y) = P(Xn = y) = πn (y) D.h. die Zeilen von Pn sind alle gleich und eine Kopie von πn . Im Gegensatz zu dem Fall von identisch verteilter Zufallsvariablne, hat hier die Markovkette keine stationäre Übergangswahrscheinlichkeiten. • Irrfahrt mit Rand: Summe von unabhängige Variablen sind auch Markovketten. Sei z.B. (Xj )j∈N eine Folge unabhängiger und identisch verteilter Bernoulli Variablen, mit P(Xj = 1) = p und P(XP j = −1) = 1 − p, für ein p ∈ [0; 1]. Wir betrachten das stochastische Prozess Sn = nj=1 Xj . Sn ist dann eine Markovkette mit stationäre Übergangswahrscheinlichkeiten, gegeben aus falls j = i + 1 p 1−p falls j = i − 1 P(Sn = j|Sn−1 = i) = (59) 0 sonst Diese Markovkette passt aber nicht in unsere Definition, weil der entsprechende Zustandsraum S = Z unendlich ist. Die Übergangsmatrix P wäre in diesem Fall eine unendliche Matrix (ein lineares Operator auf dem Folgenraum `1 (Z) = P {(zj )j∈Z : j∈Z |zj | < ∞}). Um wieder eine Markovkette mit endlichen Zustandsraum zu kreigen, können wir ein Rand einführen, und postulieren, dass die Irrfahrt anhält, wenn sie den Rand trifft. Mit andere Wörter, wir wählen L ∈ N, und wir betrachten der endlichen Zustandsraum S = {−L, −L + 1, . . . , L − 1, L}. Die Irrfahrt mit Rand an der Stellen ±L ist dann als die Markovkette definiert, mit der Übergangswahrscheinlichkeiten (59) für alle i ∈ {−L + 1, −L + 2, . . . , L − 2, L − 1}, und mit 1 falls j = ±L P(Sn = j|Sn−1 = ±L) = 0 sonst 92 Die Übergangsmatrix P ist dann eine endliche (2L + 1) × (2L + 1) Matrix, mit der Form 1 0 0 ··· ··· ··· 0 1−p 0 p 0 ··· ··· 0 0 1−p 0 p 0 ··· 0 P = (60) ··· ··· ··· ··· ··· 0 ··· ··· 0 1−p 0 p 0 ··· ··· ··· 0 0 1 Wir hätten hier auch andere Randbedingungen definieren können. Z.B. periodische Randbedingungen hätten uns zu der Übergangsmatrix 0 p 0 ··· ··· ··· (1 − p) 1−p 0 p 0 ··· ··· 0 0 1−p 0 p 0 ··· 0 (61) Pper = ··· ··· ··· ··· ··· 0 ··· ··· 0 1−p 0 p p ··· ··· ··· 0 (1 − p) 0 geführt (wenn die Fahrt an der Stelle x = L sitzt und nach rechts gehen will, dann kommt sie wieder an der Stelle x = −L im Zustandsraum herein). Einfaches Wettermodell: Wir beschreiben das Wetter am Tag n durch eine Zufallsvariable Xn , die nur zwei Werten annehmen kann, Xn = 0 bedeutet Regen, Xn = 1 Sonne. Nimmt man an, (Xn ) ist eine Folge von unabhängige Zufallsvariablen, so kriegt man nicht so eine gute Beschreibeung des Wetters (wenn heute sonnig ist, kann man sich vorstellen, dass es eine höhere Wahrscheinlichkeit gibt, dass auch morgen sonnig ist). Eine bessere Beschreibung finden wir, wenn wir die allgemeinere Annahme machen, dass (Xn )n∈N eine Markovkette ist. Nehmen wir zusätzlich an, die Markovkette habe stationären Übergangswahrscheinlichkeiten, so können wir das Modell durch eine 2 × 2 Übergangsmatrix beschreiben, mit Einträge p(0, 0) = Wahrscheinlichkeit, dass morgen regnet, wenn heute regnet p(1, 1) = Wahrscheinlichkeit, dass morgen sonnig ist, wenn heute sonnig ist p(0, 1) = Wahrscheinlichkeit, dass morgen regnet, wenn heute sonnig ist p(1, 0) = Wahrscheinlichkeit, dass morgen sonnig ist, wenn heute regnet Wenn wir p0,1 ≡ p(0, 1) und p1,0 ≡ p(0, 1) setzen, dann muss p(0, 0) = 1 − p0,1 und p(1, 1) = 1 − p1,0 . Die Übergangsmatrix ist also 1 − p0,1 p0,1 P = (62) p1,0 1 − p1,0 Zusammen mit der Anfangsverteilung π0 (0) = p0 und π0 (1) = 1 − p0 legt P die Markovkette eindeutig fest. Es gibt also 3 Parameter, p0 , p0,1 , p1,0 die gewählt werden können, um das Modell am besten am Wetter anzupassen. 93 7.2 Invariante Verteilungen Eine wichtige Rolle in der Untersuchung von Markovketten mit stationären Übergangswahrscheinlichkeiten wird von invarianten Verteilungen gespielt. Sei (Xn )n∈N eine Markovkette mit endlichen Zustandsraum S und mit stationäre Übergangsmatrix P . Ein Wahrscheinlichkeitsmass π auf S heisst eine invariante Verteilung, falls π = πP , d.h. falls π ein links-Eigenvektor von P ist, mit Eigenwert 1. Bemerke, ein links-Eigenvektor π von P zum Eigenwert 1 ist nur dann eine invariante P Verteilung, falls π(j) ≥ 0 für alle j ∈ S, und, falls j∈S π(j) = 1. Sei π eine Invariante Verteilung. Wenn wir die Anfangsverteilung π0 = π wählen, dann ist πn = π für alle n ∈ N (das erklärt warum π als invariante Verteilung bezeichnet wird). Mit andere Wörter, wenn X0 die Verteilung π hat, so hat Xn die selbe Verteilung für alle n ∈ N. Wir betrachten ein Paar Beispiele. • Ist (Xn ) eine Folge unabhängiger und identisch verteilter Zufallsvariablen mit Verteilung π : S → [0; 1], so ist die Übergangsmatrix P eine |S| × |S| Matrix, wo jede Reihe aus dem Vektor π gegeben ist. Dann ist offenbar πP = π; d.h. π ist eine invariante Verteilung. • Für die Irrfahrt mit absorbierenden Rand, mit dem Zustandsraum {−L, −L + 1, . . . , L − 1, L} durch die Übergangsmatrix (60), ist auch einfach invariante Verteilungen zu finden. In der Tat, die Verteilung πr , definiert durch πr (L) = 1 und πr (j) = 0 für alle j 6= L, ist offenbar invariant (wenn wir schon am rechten Rand sind, dann bleiben wir dort). Analog ist auch die Verteilung πl , definiert durch πl (−L) = 1 und πl (j) = 0 für alle j 6= −L, invariant. Für die Irrfahrt mit periodische Randbedingungen, definiert durch die Übergangsmatrix (61), ist die gleichmässige Verteilung π(j) = 1/(2L + 1) für alle j ∈ {−L, −L + 1, . . . , L} invariant (weil in diesem Fall, nicht nur die Summe der Einträge auf jeder Reihe Eins ist, sondern auch die Summe der Einträge auf jeder Kolumne). Die Fragen die wir nun betrachten möchten sind: unter welchen Bedingungen existiert eine invariante Verteilung einer Markovkette mit endlichen Zustandsraum und unter welche Bedingungen ist sie eindeutig. Wie wir sehen werden, die Existenz einer eindeutige invariante Verteilung ist sehr wichtig, weil dann jede die Entwicklung πn = π0 P n jeder Anfangsverteilung π0 auf S konvergiert gegen die invariante Verteilung für n → ∞. Um die Fragen zur Existenz und Eindeutigkeit der invariante Verteilung zu beantworten, brauchen wir ein wichtiges Theorem aus der linearen Algebra, nämlich das Theorem von Perron-Frobenius. Theorem 7.2 (Perron-Frobenius). Das Theorem besteht aus zwei Teilen: i) Sei A eine d × d Matrix mit strikt positiven Einträge. Dann existiert ein Eigenvektor v mit strikt positiven Komponenten. Der entsprechende Eigenwert λ0 ist einfach, positiv und es gilt |λj | < λ0 für alle andere Eigenwerte λj von A. ii) Sei A 6= 0 eine d × d Matrix mit nicht-negativen Einträgen. Sei λ0 das Supremum über alle P λ ∈ R, für die ein Vektor v mit nicht-negativen reellen Einträge existiert so, dass di=1 xi = 1 und (Ax)i ≥ λxi für alle i = 1, . . . , d. Dann: a) λ0 ist ein 94 Eigenwert von A. Der ensprechende Eigenvektor hat nicht-negative Einträge, b) es gilt |λ| ≤ λ0 für alle λ Eigenwerte von A. Beweis. i) Wir definieren die Menge d X Λ = λ ∈ R : ∃ v ∈ Rd : vj = 1, vj ≥ 0 und (Av)j ≥ λvj für alle j = 1, . . . , d (63) j=1 und wir setzen λ0 = sup{λ : λ ∈ Λ}. Offenbar gilt λ0 > 0. Weiter, aus Definition vom Supremum, finden wir eine Folge γj ∈ R mit γj → λ0 und, für alle j ∈ N, einen Vektor P (j) (j) (j) v (j) ∈ Rd mit di=1 vi = 1, vi ≥ 0 und (Av (j) )i ≥ γj vi . Da die Menge K = {x ∈ Rd : d X xj = 1, xj ≥ 0} j=1 kompakt ist, finden wir eine Teilfolge j` und ein v ∈ K so, dass v (j` ) → v für ` → ∞. P (∞) (∞) = 1 und Da v (∞) ∈ K sind insbesondere seine Komponenten vj so, dass dj=1 vj (∞) vj ≥ 0 für alle j = 1, . . . , d. Ferner, (Av (∞) )i = d X (∞) Aim vm = lim m=1 `→∞ d X (j` ) (j` ) Aim vm ≥ lim γj` vi `→∞ m=1 (∞) = λ 0 vi Pd (∞) (∞) = 1, vi ≥ 0 und mit Zusammenfassend, v (∞) ∈ Rd ist ein Vektor mit i=1 vi (∞) (∞) (Av )i ≥ λ0 vi für alle i = 1, . . . , d. Nehmen wir an, es existiert, i ∈ {1, . . . , d} so, dass (∞) (Av (∞) )i > λ0 vi Dann setzen wir w = Av (∞) . Die Komponenten von w sind alle strikt positiv (da w` = P (∞) m A`m vm ). Ferner, es gilt, dass (Aw)j = d X m=1 Ajm wm = d X Ajm (Av m=1 (∞) )m > λ0 d X (∞) Ajm vm = λ 0 wj m=1 für alle j = 1, . . . , d. Nach geeignete Normierung vom Vektor w finden wir ein w e∈Λ mit (Aw) e j > λ0 wj . Das gibt ein Wiederspruch zur Definition von λ0 und impliziert also, dass Av (∞) = λ0 v (∞) . Das zeigt, dass λ0 ein Eigenwert von A ist. Dann muss aber Aw = λ0 w gelten: d.h. der Vektor w, mit strikt positiven Einträge ist ein Eigenvektor von A zum Eigenwert λ0 . Als nächstes zeigen wir, dass für jede Eigenwert λ 6= λ0 , es muss |λ| < λ0 gelten. Sei nämlich λ 6= λ0 ein Eigenwert von A mit Eigenvektor z. Aus Az = λz finden wir X X d d Aij zj ≤ Aij |zj | |λ||zi | = j=1 j=1 P P Mit xj = |zj |/ dj=1 |zj | finden wir ein x = (x1 , . . . , xd ) ∈ Rd mit dj=1 xj = 1, xj ≥ 0 für alle j = 1, . . . , d, und (Ax)i ≥ |λ||zi |. Das zeigt, dass |λ| ∈ Λ, also |λ| ≤ λ0 . Nun 95 zeigen wir, dass |λ| < λ0 für alle Eigenwerten λ 6= λ0 . Dazu bemerken wir, dass für δ > 0 klein genug, die Matrix Aδ = A − δ noch immer strikt positive Einträge hat. Der grösste Eigenwert von A − δ ist aber λ0 − δ. Alle andere Eigenwerte von A − δ haben die Form λ − δ, wobei λ ein Eigenwert von A ist. Das zeigt, dass |λ − δ| ≤ λ0 − δ. Damit |λ| ≤ |λ − δ| + δ ≤ λ0 Die Gleichheit |λ| = λ0 kann deswegen nur gelten, wenn |λ| = |λ − δ| + δ. Das ist aber möglich (da δ > 0 ist), falls λ reel und positiv ist. Dann wäre aber λ = λ0 , was wir ausgeschlossen haben. Das zeigt, dass |λ| < λ0 für alle Eigenwerte λ 6= λ0 . Schliesslich zeigen wir, dass λ0 ein einfaches Eigenwert ist. Nehmen wir an, es existieren zwei linear unabhängige Vektoren x, y ∈ Rd mit Ax = λ0 x und Ay = λ0 y. Dann ist auch z = x − cy, für ein beliebiges c ∈ R ein Eigenvektor von A zum Eigenwert λ0 . Durch geeignete Wahl von c ∈ R, können wir sicher machen, dass z sowohl positive wie auch negative Komponenten hat. Dann gilt X X d d λ0 |zi | = Aij zj < Aij |zj | j=1 j=1 für alle i = 1, . . . , d. Damit finden wir auch ein δ > 0 so, dass (λ0 + δ)|zi | < d X Aij |zj | j=1 Nach geeignete Normierung von dem Vektor mit Komponenten |z1 |, . . . , |zd |, finden wir damit ein Wiederspruch zur Maximalität von λ0 . Damit ist Teil i) vom Theorem von Perron-Frobenius gezeigt. Nun zeigen wir Teil ii). Hier nehmen wir nur an, dass A nicht negative Einträge hat (und, dass A 6= 0 ist). Wir definieren die Menge Λ wie in (63) und wir setzen wieder λ0 = sup Λ. Wir möchten zeigen, dass λ0 ein Eigenwert von A ist, mit einem Eigenvektor v mit nicht-negativen Einträge, und, dass |λ| ≤ λ0 für alle λ Eigenwerten von A. Sei E die d×d Matrix mit Einträge Eij = 1 für alle i, j = 1, . . . , d. Die Matrix A+δE hat, für alle δ > 0 strikt positiven Einträge. Für alle δ > 0 können wir die Menge d X d Λ(δ) = λ ∈ R : ∃ v ∈ R : vj = 1, vj ≥ 0 und ((A + δE)v)j ≥ λvj für alle j j=1 und λ0 (δ) = sup Λ(δ) definieren. Seien 0 < δ1 < δ2 ; dann gilt offenbar Λ ⊂ Λ(δ1 ) ⊂ Λ(δ2 ) und deswegen λ ≤ λ0 (δ1 ) ≤ λ0 (δ2 ). Von Teil i) wissen wir, dass λ0 (δ) der grösste Eigenwert von A + δE ist, und, dass es genau ein normierten Eigenvektor v(δ) von A + δE zum Eigenwert λ0 (δ) existiert, mit strikt positiven Einträge. Wegen Kompaktheit der Folge v(δ), existiert eine monotone Folge δj mit δj → 0 für j → ∞ und ein v0 ∈ Rd , mit v(δj ) → v0 . Die Einträge von v0 sind hier nicht-negativ (als Limes einer Folge strikt positiven Zahlen). Wegen Monotonie, die Folge λ0 (δj ) hat 96 e bezeichnen. Aus λ0 (δ) ≥ λ0 für alle δ > 0 finden wir einen Grenzwert, den wir mit λ e ≥ λ0 . Ferner, aus (A + δj E)v(δj ) = λ0 (δj )v(δj ) folgt, im Limes j → ∞, dass auch λ e 0 Av0 = λv e ≤ λ0 . Damit muss λ e = λ0 und λ0 ist eine Eigenwert von A mit dem Insbesondere, λ Eigenvektor v0 , der nur nicht-negativen Einträgen hat. Es bleibt noch zu zeigen, dass |λ| ≤ λ0 für alle Eigenwerte λ von A. Das kann aber wie im Teil i) gezeigt werden. Ist nämlich λ ein Eigenwert von A mit Eigenvektor v, so gilt λv = Av und deswegen |λ||vj | ≤ d X Aji |vi | = (A|v|)j i=1 Nach geeignete Normierung von |v| folgt es, dass |λ| ∈ Λ, und deswegen, dass |λ| ≤ λ0 . Wir wenden zunächst Teil ii) vom Theorem von Perron-Frobenius um die Existenz einer invariante Verteilung zu zeigen. Hier brauchen wir keine zusätzliche Bedingungen. Satz 7.3. Jede stationäre Markovkette mit endlichem Zustandsraum besitzt mindestens eine invariante Verteilung. Beweis. Die Übergangsmatrix P ist eine d × d Matrix (mit d = |S|), mit nicht-negativen Einträgen. Sie erfüllt also die Annahme vom Theorem von Perron Frobenius. Aus Theorem 7.2 finden wir insbesondere, dass P ein maximaler positiver Eigenwert λ0 besitzt, mit einem Pd links-Eigenvektor v, der nicht-negative Einträgen hat, und der die Normierung j=1 vj = 1 erfüllt (am besten wendet man den Satz auf die transponierte Matrix P T ; ein “normaler” rechts-Eigenvektor von P T ist dann ein links-Eingevektor von P ). Wir behaupten nun, dass λ0 = 1. In der Tat, die Identität (vP )i = d X vj pji = λ0 vi j=1 für alle i = 1, . . . , d impliziert, dass λ0 d X i=1 vi = d X d X vj pji = i=1 j=1 d X j=1 vj d X i=1 pji = d X vj j=1 weil P eine stochastische Matrix ist (d.h. die Summe der Einträge auf jeder Reihe ist Eins). Das zeigt, dass v eine invariante Verteilung ist. Die nächste Frage, die wir untersuchen möchten ist, ob die invariante Verteilung einer Markovkette eindeutig ist. Aus dem Beispiel einer Irrfahrt mit absorbierenden Rand wissen wir, dass nicht jede Markovkette eine eindeutige invariante Verteilung hat. Wir werden deswegen geeignete Bedingungen brauchen, um die Eindeutigkeit der invariante Verteilung zu zeigen. Es ist nützlich für jede Übergangsmatrix einen gerichteten Graphen einzuführen. Sei P die Übergangsmatrix einer Markovketten mit stationären Übergangswahrscheinlichkeiten auf der endlichen Menge S. Der entsprechende Graphen hat Knotenmengen S. 97 Die Kantenmenge E ist wie folgt definiert: für i, j ∈ S, wir haben (i, j) ∈ E genau dann, wenn pij > 0, d.h. wenn ein Durchgang von i nach j möglich ist. Man sollte bemerken, dass der Graphen hat eine Richtung: die Kanten (i, j) und (j, i) sind verschieden. Ein Pfad γ auf dem Graphen (S, E) ist eine Folge von Kanten γ = (e1 , . . . , en ), mit e` ∈ E und so, dass der Anfagnspunkt von e`+1 mit dem Endpunkt von e` übereinstimmt. Wir sagen, dass zwei Knoten i, j ∈ S kommunizieren, wenn ein Pfad existiert, der i mit j verbinden und ein Pfad existiert, der j mit i verbindet. Wir sagen immer, dass jeder Zustand in S mit sich selber kommunizieren. Die Relation i ∼ j, falls i mit j kommuniziert, ist dann eine Äquivalenzrelation (d.h. sie ist reflexiv, symmetrisch und transitiv). Wir können also S in Äquivalenzklassen der Form [j] = {i ∈ S : ikommuniziert mit j} teilen. Definition 7.4. Wir sagen, dass eine Markovkette mit stationäre Übergangswahrscheinlichkeiten irreduzibel ist, falls der Quotientenraum S/ ∼ aus einer einzige Äquivalenzklasse besteht. Ist der Graph einer Übergangsmatrix nicht zusammenhängend, so ist die Markovkette sicher nicht irreduzibel. Die Umkehrung dieser Aussage gilt nicht: es existieren Markovketten mit stationäre Übergangswahrscheinlichkeiten die einen zusammenhängenden Graphen haben, aber nicht irreduzibel sind. Ein Beispiel davon ist die Irrfahrt mit absorbierenden Rand (sie besitzt drei Äquivalenzklassen). Eine nützliche Charakterizierung von Irreduzibilität ist aus dem folgenden Lemma gegeben. Lemma 7.5. Eine Markovkette ist genau dann irreduzibel, wenn für alle (i, j) ∈ S × S ein k ∈ N existiert, mit (P k )ij > 0. Beweis. Wir haben (P k )ij = X pi,i1 pi1 ,i2 . . . pik−1 j = i1 ,...,ik−1 X pe1 . . . pek γ:i→j,|γ|=k Die rechte Seite ist genau dann positiv für ein k ∈ N, wenn ein Pfad der Länge k mit Anfangspunkt i und Endpunkt j existiert. Der Begriff von Periodizität einer Markovkette spielt auch eine wichtige Rolle. Definition 7.6. Wir betrachten weiter eine Markovkette auf einem endlichen Zustandsraum S mit stationären Übergangsmatrix P . Ein Zustand j ∈ S hat Periode d(j), falls d(j) der grösste gemeinsamer Teiler aller Zahlen n ∈ N ist, für die (P n )jj > 0 ist. Ein Zustand mit Periode 1 heisst aperiodisch. Es ist leicht zu zeigen, dass die Periode von kommunizierenden Zuständen übereinstimmen müssen. Lemma 7.7. Wenn i, j ∈ S kommunizieren, dann ist d(i) = d(j). Beweis. Da i und j kommunizieren, wissen wir, dass es n, m ∈ N existieren so, dass (P n )ji > 0 und (P m )ij > 0. Sei nun ` ∈ N, mit (P ` )ii > 0. Dann gilt auch (P n+`+m )jj ≥ (P n )ji (P ` )ii (P m )ij > 0 98 Da auch Pii2` > 0, muss (P n+m+2` )jj > 0. d(j) muss also sowohl n + m + ` wie auch n+m+2` teilen. Damit muss d(j) auch die Differenz (n+m+2`)−(n+m+`) = ` teilen. Wir haben also gezeigt, dass d(j) teilt ` für alle ` ∈ N mit (P ` )ii > 0. Das bedeutet, dass d(j) ≤ d(i) (da d(i) der grösste gemeinsamer Teiler ist). Aus der Symmetrie dieser Argument folgt, dass d(j) = d(i). Insbesondere, in einer irreduzibel Markovkette haben alle Zustände die selbe Periode. Eine irreduzibel Markovkette heisst aperiodisch, falls alle Zustände Periode 1 haben. Wir möchten nun zeigen, dass eine Markovkette genau dann irreduzibel und aperiodisch ist, falls ein k ∈ N existiert, so, dass P k strikt positiven Einträge hat. Bemerke hier den Unterschied zu einfachen Irreduzibilität; gemäss Lemma 7.5, Irreduzibilität bedeutet, dass für alle i, j ∈ S ein k ∈ N existiert, mit (P k )ij > 0. Wir werden dagegen zeigen, dass Irreduzibilität und Aperiodizität implizieren, dass ein k ∈ N existiert so, dass die Bedingungen (P k )ij > 0 gleichzeitig für alle i, j ∈ S erfüllt sind. Um diese Tatsache zu beweisen, brauchen wir das folgende Lemma. Lemma 7.8. Hat i ∈ S die Periode d(i), so gibt es N ∈ N so, dass (P nd(i) )ii > 0 für alle n ≥ N . Um das Lemma zu zeigen, brauchen wir die folgende Tatsache aus der Zahlentheorie. Proposition 7.9. Seien n1 , . . . , nk ∈ N mit grösstem gemeinsamen Teiler d. Dann existiert M ∈ N mit der folgenden Eigenschaft: für alle m > M existieren c1 , . . . , ck ∈ N mit k X dm = cj nj j=1 Beweis. Ohne Beschränkung der Allgemeinheit können wir annehmen, dass d = 1 (sonst dividieren wir alle nj durch d). Sei k X A={ cj nj : c1 , . . . , ck ∈ N} j=1 die Menge aller Zahlen die als lineare Kombinationen der nj geschrieben werden können, mit Koeffizienten in N. Ferner, sei B =A−A={ k X pj nj : p1 , . . . , pk ∈ Z} j=1 die Menge der ganzzahlige lineare Kombinationen von Zahlen in A. Sei nun d0 der kleinste positive Zahl in B. Nach Definition ist d0 ≥ 1. Wir behaupten, dass d0 jeder Zahl in A teilt. Gäbe es nämlich eine Zahl N ∈ A, die nicht durch d0 geteilt wird, dann wären d0 −N und N −`d0 für alle ` ∈ N in B und ungleich Null. Es ist dann aber einfach zu sehen, dass eine von diesen Zahlen strikt positiv und kleiner als d0 sein wird, in Widerspruch zur Definition von d0 . Das zeigt, dass d0 jede Element von A teilt. Insbesondere teilt d0 die Zahlen n1 , . . . , nk . Da wir aber angenommen haben, dass der grösste gemeinsame Teiler von n1 , . . . , nk gerade 1 ist, muss d0 = 1 sein. Es folgt, dass es existieren N1 , N2 ∈ A mit 99 N1 − N2 = 1. Sei nun m > N22 eine ganze Zahl. Dann können wir schreiben m = N22 + `, für ein ` ∈ N, das als ` = bN2 + j geschrieben werden kann, für ein b ∈ N und ein 0 ≤ j < N2 . Dann haben wir m = N22 + bN2 + j = N22 + bN2 + j(N1 − N2 ) = (N2 − j)N2 + bN2 + jN1 (64) Da die Koeffizienten (N2 −j), b, j nicht negativ sind, gibt (64) die gewünschte Darstellung von m. Mit Hilfe dieser Propositioin aus der Zahlentheorie können wir nun das Lemma zeigen. Beweis von Lemma 7.8. Der Zustand i hat Periode d(i). Das heisst, d(i) ist der grösste gemeinsame Teiler von alle n ∈ N mit der Eigenschaft, dass (P n )ii > 0. Das bedeutet, es existieren n1 , . . . , nk ∈ N mit grösster gemeinsamer Teiler d(i) und so, dass (P nj )ii > 0 für alle j = 1, . . . , k. Aus Proposition 7.9 folgt, dass N ∈ N existiert mit der Eigenschaft, dass, für alle n > N , Zahlen c1 , . . . , ck ∈ N existieren, mit d(i)n = k X cj nj j=1 Dann ist aber P d(i)n = k Y (P nj )cj j=1 Bemerke, dass für beliebige d × d Matrizen A, B mit nicht negative Einträge und mit Aii , Bii > 0 es gilt d X (AB)ii = Aij Bji ≥ Aii Bii > 0 j=1 Nach Annahme ist (P nj )ii > 0 für alle j = 1, . . . , k. Das impliziert also, dass ((P nj )cj )ii > 0 für alle j = 1, . . . , k. Deswegen ist auch k Y (P d(i)n )ii = (P nj )cj > 0 j=1 ii Mit Lemma 7.8 können wir nun zeigen, dass für jede irreduzibel und aperiodische Markovkette ein k ∈ N existiert so, dass P k strikt positive Einträge hat (erinnere, dass eine irreduzibel Markovkette heisst aperiodisch, falls ein und deswegen alle seiner Zustände aperiodisch sind). Lemma 7.10. Sei P die Übergangsmatrix einer irreduziblen und aperiodischen Markovketten mit stationären Übergangswahrscheinlichkeiten auf einem endlichen Zustandsraum S. Dann existiert k ∈ N so, dass (P k )ij > 0 für alle i, j ∈ S. 100 Beweis. Sei j ∈ S fest. Aus Lemma 7.8 finden wir Mj ∈ N, so, dass (P m )jj > 0 für alle m > Mj . Da S endlich ist, finden wir auch M ∈ N so, dass (P m )jj > 0 für alle m > M und alle j ∈ S. Aus der Irreduzibilität der Markovkette wissen wir auch, dass für alle (i, j) ∈ S × S ein nij ∈ N existiert, mit (P nij )ij > 0. Für m ≥ M gilt aber (P m )jj > 0. Das impliziert, dass (P nij +m )ij > 0 für alle m > M . Wählen wir k ≥ maxij nij + M , so muss (P k )ij > 0 für alle i, j ∈ S. Umgekehrt es gilt: Sei P die Übergangsmatrix einer Markovkette mit stationäre Übergangswahrscheinlichkeiten. Existiert ein k ∈ N so, dass P k strikt positive Einträge hat, dann ist die Markovkette irreduzibel und aperiodisch. Die Irreduzibilität folgt durch Lemma 7.5. Um die Aperiodizität zu zeigen, bemerken wir, dass, wenn P k strikt positiven Einträge hat, dann hat auch P k+1 = P k ·P strikt positiven Einträge, und iterativ P n hat strikt positiven Einträge für alle n ≥ k. Das bedeutet, insbesondere, dass (P n )ii > 0 für alle n ≥ k. Das bedeutet, dass der grösste gemeinsamer Teiler aller n ∈ N mit (P n )ii > 0 ist d = 1. Zusammenfassend, wir haben gezeigt, dass eine Markovkette mit Übergangsmatrix P genau dann irreduzibel und aperiodisch ist, falls ein k ∈ N existiert so, dass P k strikt positiven Einträgen hat. Mit Hilfe dieser Charakterizierung zeigen wir im nächsten Satz, dass jede irreduzibel und aperiodische Markovkette genau eine invariante Verteilung besitzt. Eigentlich zeigen wir noch mehr, nämlich, dass für eine beliebige Anfangsverteilung π0 , die evolvierte Verteilung πn = π0 P n , für n → ∞, gegen die eindeutige invariante Verteilung µ konvergiert. Markovkette mit dieser Eigenscahft nennt man ergodisch. Der nächsten Satz bedeutet also, dass jede irreduzibel und aperiodische Markovkette mit endlichen Zustandsraum ergodisch ist. Satz 7.11. Sei P die Übergangsmatrix einer irreduzibel und aperiodische Markovkette mit endlichem Zustandsraum S und mit stationäre Übergangswahrscheinlichkeiten (wir bezeichnen d = |S|). Dann es existiert eine eideutige invariante Verteilung µ mit µP = µ. Ferner, es gilt lim P n = Π0 n→∞ wobei Π0 die rank 1 Matrix µ1 µ 2 µ1 µ 2 Π0 = ... µ1 µ 2 ... ... ... ... µd µd µd (65) ist. Das impliziert, dass für alle Anfangsverteilungen π0 : S → [0; 1] es gilt πn = π0 P n → µ für n → ∞. Für den Beweis des Satzes brauchen wir das folgende Lemma. Lemma 7.12. Sei B eine d × d Matrix und r = max{|λ| : λ ist Eigenwert von B}. Dann gilt r = lim sup kB n k1/n n→∞ 101 Beweis. Es existiert eine invertierbare Matrix diagonal ist, mit Blöcken der Form λi 1 0 0 λi 1 ... ... 0 ... 0 U so, dass U −1 BU = J, wobei J block... ... ... 0 0 0 λi wo λi ein Eigenwert von B ist. Insbesondere J = D+N , wobei D diagonal ist, [D, N ] = 0 und es existiert d ∈ N so, dass N d = 0. Für n ≥ d gilt also d−1 X n J = Dn−k N k k n k=0 und deswegen kJ n k ≤ d−1 X nk kDkn−k kN kk ≤ rn k=0 d−1 X nk r−k kN kk k=0 Wir erhalten n 1/n lim sup kJ k = r lim n→∞ n→∞ Da U und U −1 d−1 X !1/n r −k k k kN k n =r k=0 beschränkt sind, erhalten wir auch, dass lim sup kB n k1/n ≤ lim kJ n k1/n kU k1/n kU −1 k1/n ≤ r n→∞ n→∞ Anderseits, nach Definition von r, es existiert ein Eigenwert λ von B mit |λ| = r. Dann existiert ein Vektor v mit Bv = λv und also B n v = λn v. Deswegen muss kB n k ≥ rn , und lim sup kB n k1/n ≥ r n→∞ Das zeigt, dass lim sup kB n k1/n = r n→∞ wie behauptet. Wir sind nun bereit, Satz 7.11 zu zeigen. Beweis von Satz 7.11. Nach Lemma 7.10, es existiert k ∈ N so, dass P k strikt positiven Einträge hat. Aus Theorem 7.2, es existiert ein eindeutiges Links-Eigenvektor µ von P k mit strikt positiven Einträge. Der entsprechende Eigenwert muss 1 sein, einfach weil µP k = λµ impliziert, dass λ d X i=1 µi = d X d X µj (P k )ji = i=1 j=1 d X j=1 µj d X i=1 (P k )ji = d X µj j=1 und also, dass λ = 1 (hier haben wir die Tatsache benutzt, dass P k eine stochastische Matrix ist, und also die Summe der Einträge auf jeder Reihe 1 ist). Es folgt auch aus 102 dem Theorem von Perron-Frobenius, dass 1 ein einfaches Eigenwert ist, und, dass |λ| < 1 für alle andere Eigenwerte von P k . Wir wissen schon, dass P den Eigenwert 1 besitzt. Sei ν den entsprechenden Eigenvektor. Dann gilt νP = ν und deswegen auch νP k = ν. Das impliziert, dass ν proportional zu µ sein muss. Sei nun λ ein Eigenwert von P , mit Eigenvektor v nicht proportional zu µ. Dann ist λk ein Eigenwert von P k mit Eigenvektor v, nicht proportional zu µ. Da 1 ein einfacher Eigenwert von P k ist, muss λk 6= 1 gelten, und also |λk | = |λ|k < 1. Das zeigt, dass |λ| < 1. Damit haben wir gezeigt, dass 1 ein einfacher Eigenwert von P ist, mit strikt positiven Eigenvektor µ, und, dass alle andere Eigenwerten von P sind in Betrag strikt kleiner als 1. Sei nun Π0 die in (65) definierte Rank-1 Matrik. Π0 ist eine Projektion auf µ und deswegen Π20 = Π0 . Da µ ein Eigenvektor von P mit Eigenwert 1 ist, finden wir ferner Π0 P = Π0 = P Π0 Also, mit Q = P − Π0 haben wir (weil Π20 = Π0 ), dass Π0 Q = QΠ0 = 0 Wir behaupten nun, dass alle Eigenwerten von Q in Betrag strikt kleiner als 1 sind. Gilt nämlich vQ = λv, dann muss λvΠ0 = vQΠ0 = 0 Ist λ 6= 0, dann muss vΠ0 = 0 und also vP = v(Π0 + Q) = vQ = λv. D.h. λ ist auch Eigenwert von P . Da aber vΠ0 = 0, kann v nicht proportional zu µ sein; wir schliessen, dass |λ| < 1. Aus Lemma 7.12 folgt, dass lim sup kQn k1/n < 1 n→∞ und deswegen, dass kQn k → 0 für n → ∞. Da aber P n = (Π0 + Q)n = Πn0 + Qn = Π0 + Qn erhalten wir, dass kP n − Π0 k = kQn k → 0, für N → ∞. Insbesondere, für eine beliebige Anfangsverteilung π0 , lim π0 P n = π0 Π0 = µ n→∞ Bemerkung: aus dem Beweis folgt auch eine Abschätzung für die Konvergenzgeschwindigkeit kπ0 P n − µk = kπ0 Qn k ≤ C|λ1 |n wobei λ1 der Eigenwert von Q ist, mit dem grössten Betrag (d.h. λ1 ist der Eigenwert von P mit dem zweit-grössten Betrag, nach dem Eigenwert 1). Es ist einfach Beispiele von nicht-aperiodische Markovkette zu finden, die nicht ergodisch sind. Sei nämlich 0 1 P = 1 0 103 Dann hat die entsprechende Markovkette die eindeutige invariante Verteilung µ = (1/2, 1/2). Die Kette ist aber nicht ergodisch, weil 0 1 n P = 1 0 für alle n ungerade, und n P = 1 0 0 1 für alle n gerade (hier sieht man, dass die Periode von beiden Zustände 2 ist). Das zeigt, dass P n für n → ∞ nicht konvergieren kann (und also, dass die Kette nicht ergodisch ist). Das letzte Beispiel zeigt, dass wir, ohne Aperiodizität, keine Ergodizität erwartet können. Für die Eindeutigkeit der invarianten Verteilung braucht man dagegen keine Aperiodizität, Irreduzibilität ist genug. Satz 7.13. Sei P die Übergangsmatrix einer irreduzibel Markovkette mit endlichen Zustandsraum. Dann besitzt P genau eine invariante Verteilung µ mit strikt positiven Komponenten. Beweis. Sei ε > 0. Wir definieren Pε = ε1 + (1 − ε)P . Dann gilt: • Pε ist eine stochastische Matrix, d.h. die Einträge sind alle nicht-negativ und die Summe der Einträge auf jeder Reihe ist 1. • Pε erzeugt eine irreduzibel und aperiodische Markovkette. In der Tat, Pεn n X n n−` = ε (1 − ε)` P ` ` (66) `=0 Nun, da P irreduzibel ist, finden wir für alle i, j ∈ S ein kij ∈ N mit (P kij )ij > 0. Sei also k = maxij kij . Aus (66) finden wir, dass Pεn hat strikt positiven Einträge, für alle n ≥ k. • P und Pε haben die selbe Links-Eigenvektoren. In der Tat, νP = λν impliziert, dass νPε = εν + (1 − ε)λν = (ε + (1 − ε)λ)ν, d.h. dass ν auch Eigenvektor von Pε ist. Analog zeigt, man, dass jeder Eigenvektor von Pε auch Eigenvektor von P ist. • µ ist eine invariante Verteilung von P genau dann wenn µ ist eine invariante Verteilung von Pε . In der Tat, µP = µ genau dann, wenn µPε = µ. Da Pε irreduzibel und aperiodisch ist, es folgt aus Satz 7.11, dass Pε eine eindeutige invariante Verteilung µ besitzt. Dann ist µ auch eine invariante Verteilung von P . Ferner, es gibt keine andere invariante Verteilung (sonst hätte auch Pε eine zweite invariante Verteilung, und wir wissen das kann nicht sein). Man kann sich noch fragen, was passiert im Fall, dass eine Markovkette nicht irreduzibel ist. Man findet, dass, auch für nicht irreduzibel Ketten, die invariante Verteilungen klassifiziert werden können. Das wird im nächsten Satz besser erklärt. 104 Sei S der endliche Zustandsraum. Ist die Markovkette nicht irreduzibel, dann existieren Zustände i, j ∈ S die nicht kommunizieren. Mit anderen Wörter, es existieren mehrere Äquivalenzklassen. Wir unterscheiden in diesem Fall zwei Gruppe von Äquivalenzklassen. Äquivalenzklassen aus denen man in eine andere Klasse austreten kann heissen unwesentliche Klassen. Äquivalenzklassen aus denen man nicht mehr austreten kann (wo man aber möglicherweise aus einer anderen Klasse eintreten kann) heissen wesentliche Klasse. Satz 7.14. Sei X eine Markovkette mit endlichen Zustandsraum S. Sei S die Vereinigung der wesentlichen Klassen C1 , . . . , C` und der unwesentlichen Klassen D1 , . . . , Dk . Dann gibt es ` invariante Verteilungen µ1 , . . . , µ` mit Träger auf den wesentlichen Klasse C1 , . . . , C`−1 , C` . Ferner, jede invariante Verteilung µ auf S hat die Form µ= ` X αi µi (67) i=1 mit αi ≥ 0 so, dass Verteilung). P` i=1 αi = 1 (offenbar ist jede µ der Form (67) eine invariante Beweis. Sei C eine wesentliche Klasse. Die Einschränkung von P auf C definiert die Übergangsmatrix einer irreduzibel Markovkette mit Zustandsraum C (aus Definition von wesentlichen Klassen). Satz 7.13 impliziert, dass es eine eindeutige invariante Verteilung vC auf C existiert. Der Vektor µC (j) = v(j), falls j ∈ C und µC (j) = 0 für j 6∈ C definiert dann eine invariante Verteilung auf S. Das gilt für alle wesentliche Klassen C in S. P Sei nun µ eine beliebige invariante Verteilung auf S. Wir behaupten, dass µ(D) = j∈D µ(j) = 0 für alle unwesentliche Klassen D. Um diese Behauptung zu zeigen, bemerken wir zunächst, dass es mindestens eine unwesentliche Klasse D1 existiert, die man aus keiner andere Klasse eintreten kann (sonst müssten zwei unwesentlichen Klassen e existieren, so, dass man von D nach D e und auch von D e nach D springen kann; D und D e kommunizieren, das würde aber bedeuten, dass Elementen in D mit Elementen in D e und also, dass D = D). Wir zeigen, dass µ(D1 ) = 0. In der Tat, da µ invariant ist, muss (µP )(D) = µ(D). Hier ist X XX XX (µP )(D) = (µP )(j) = µ(i)pij = µ(i)pij j∈D j∈D i∈S j∈D i∈D weil, nach Annahme, pij = 0 falls j ∈ D und i 6∈ D. Deswegen X X X X X (µP )(D) = µ(i) pij = µ(i) − µ(i) pij ≤ µ(D) i∈D j∈D i∈D i∈D j6∈D Gleichheit kann hier nur erfüllt sein, falls µ(i) = 0 für alle i ∈ D gilt, für die ein j 6∈ D existiert, mit pij > 0. Da D eine unwesentliche Klasse ist, es existiert mindestens ein i0 ∈ D mit dieser Eigenschaft. Dann muss µ(i0 ) = 0 gelten. Alle andere j ∈ D müssen nun mit i0 kommunizieren. D.h. für alle j ∈ D finden wir k ∈ N mit (P k )ji0 > 0. Aus µ = P k µ folgt X 0 = µ(i0 ) = µ(`)(P k )`i0 ≥ µ(j)(P k )ji0 `∈S 105 und deswegen muss µ(j) = 0 für alle j ∈ D. Damit haben wir gezeigt, dass µ(D) = 0 für eine unwesentliche Klasse D, in die man nicht von einer andere Klasse eintreten kann. Wir können also die Markovkette auf den verbliebenden Zustandsraum S\D einschränken (die Kette wird S\D nie verlassen, weil wir angenommen haben, sie kann nicht in D von einer andere Klasse eintreten). Wenn die reduzierte Markovkette noch e geben, in unwesentliche Klassen besitzt, muss mindestens eine unwesentliche Klasse D die man nicht mehr von den anderen verbliebenden Klassen eintreten kann. Deswegen e = 0. Durch iteration können wir das Argument wiederholen, um zu zeigen, dass µ(D) folgt, dass µ auf alle unwesentliche Klassen verschwindet. Nach Elimination von alle unwesentliche Klassen, die Gleichung µ = P µ reduziert zu einem entkoppelten System für die wesentlichen Klassen (es gibt keine Kopplung zwischen den wesentliche Systeme, weil die Kette kann eine wesentliche Klasse nicht verlassen). In jeder wesentliche Klasse Ci existiert aber eine eindeutige invariante Verteilung µi . Also, die Einschränkung von µ auf der wesentliche Klasse Ci muss µ(j) = αi µi (j) erfüllen, für alle j ∈ Ci und für eine geeignete Konstante αi ≥ 0. Damit haben wir gezeigt, dass X µ= αi µi i=1 Beispiele: • Irrfahrt mit absorbierenden Rand. Wir betrachten die Markovkette mit Zustandsraum {−L, −L + 1, . . . , L − 1, L} und mit Übergangswahrscheinlichkeiten (60). Es gibt in diesem Fall drei Äquivalnezklassen, {−L}, {L} und {−L + 1, . . . , L − 1}. Die zwei Klasse C1 = {−L} und C2 = {L} sind wesentlich und die Klasse D = {−L + 1, . . . , L − 1} ist unwesentlich. Die wesentliche Klasse C1 hat die invariante Verteilung (1, 0, . . . , 0). Die wesentliche Klasse C2 hat die invariante Verteilung (0, . . . , 0, 1). Die allgemeinste invariante Verteilung hat also die Form µ = (α1 , 0, . . . , 0, α2 ) für α1 , α2 ≥ 0 mit α1 + α2 = 1. • Einfaches Wettermodell: wie in (62) betrachten wir eine Markovkette mit Zustandsraum {0, 1} (0 bedeutet Regen, 1 Sonne) und mit Übergangsmatrix 1 − p0,1 p0,1 P = p1,0 1 − p1,0 Die Kette ist irreduzible, falls p0,1 , p1,0 > 0. In diesem Fall existiert eine eindeutige invariante Verteilung µ = (µ1 , µ2 ). Die Gleichung µ = µP führt uns zum System µ1 (1 − p0,1 ) + µ2 p1,0 = µ1 µ1 p0,1 + µ2 (1 − p1,0 ) = µ2 und damit zu µ1 p0,1 = µ2 p1,0 . Nach geeignete Normierung finden wir die eindeutige invariante Verteilung p1,0 p0,1 µ=( , ) p1,0 + p0,1 p1,0 + p0,1 106 Ist nun p0,1 = 0 und p1,0 > 0, dann gibt es zwei Klassen, C = {0} ist eine wesentliche und D = {1} eine unwesentliche Klasse. Auch in diesem Fall gibt es eine eindeutige invariante Verteilung, nämlich µ = (1, 0) (das ist die invariante Verteilung von der wesentliche Klasse C. Analog, falls p1,0 > 0 und p0,1 = 0, dann sind C = {1} ein wesentliche und D = {0} eine unwesentliche Klasse. In diesem Fall ist die eindeutige invariante Verteilung µ = (0, 1). Schlussendlich, falls p0,1 = p1,0 = 0 dann gibt es zwei wesentliche Klassen C1 = {0} und C2 = {1}. Jede Verteilung µ = alpha1 (1, 0) + α2 (0, 1) = (α1 , α2 ) mit α1 , α2 ≥ 0 und α1 + α2 = 1 ist in diesem Fall eine invariante Verteilung. 7.3 Stoppzeiten und der starke Ergodensatz Wir betrachten wieder eine Markovkette mit endlichem Zustandsraum S, d.h. eine messbare Abbildung X : Ω → S N definiert auf einem Wahrscheinlichkeitsraum (Ω, A, P). Das Wahrscheinlichkeitsmass P auf Ω induziert ein Wahrscheinlichkeitsmass PX auf (S N , P (S)N ), gegeben aus PX (B) = P(X −1 (B)) für alle B ∈ P (S)N (P (S)N , das Produkt von abzählbar viele Kopien der Potenzmenge P (S) von S, wird von allen Zylindermengen erzeugt). Es lohnt sich manchmal (Ω, A, P) mit (S N , P (S)N , PX ) zu identifizieren (auf dem neuen Wahrscheinlichkeitsraum ist X(x) = x, für alle Folgen x = (xn )n∈N mit xn ∈ S für alle n ∈ N). Wir bezeichnen mit Fn = σ(X0 , X1 , . . . , Xn ) die σ-Algebra auf Ω die aus den Zufallsvariablen X0 , . . . , Xn erzeugt wird. Mit anderen Wörter, Fn ist die kleinste σ-Algebra auf Ω, die aus Mengen der Form (X0 , . . . , Xn )−1 (B), mit B ⊂ S n besteht. Es ist einfach zu sehen, dass Fn aus Mengen der Form X0−1 (B1 ) ∩ · · · ∩ Xn−1 (Bn ) mit B1 , . . . , Bn ⊂ S erzeugt wird. Identifizieren wir (Ω, A, P) mit (S N , P(S)N , PX ), dann ist Fn eine σ-Algebra auf S N . Fn ist nämlich die σ-Algebra auf S N die aus Mengen der Form B1 ×· · ·×Bn ×S ×S ×. . . für B1 , . . . , Bn ⊂ S beliebig erzeugt wird. Definition 7.15. Eine Abbildung T : Ω → N heisst eine Stoppzeit, wenn für alle n ∈ N das Ereignis {x ∈ Ω : T (x) = n} ∈ Fn . Mit andere Wörter, eine N-wertige Zufallsvariable T ist eine Stoppzeit für die Markovkette X falls, für alle n ∈ N, die Kenntniss der Vergangenheit von Xn uns bestimmen lässt, ob T = n erfüllt ist. Das standard Beispiel von Stoppzeiten sind Eintrittszeiten. Sei nämlich D ⊂ S. Dann ist τD = inf{n > 0 : Xn ∈ D} (68) eine Stoppzeit, weil {x ∈ Ω : τD (x) = n} = \ Xk−1 (Dc ) ∩ Xn−1 (D) 1≤k<n offenbar in Fn ist, für alle n ∈ N (man könnte auch τD anders definieren, mit dem Infimum über alle n ≥ 0; für uns wird aber später die Definition (68) nützlicher sein). 107 Bemerke, dass im Gegensatz zu ersten Eintrittszeiten sind letzten Austrittzeiten, definiert durch σD = sup{n ≥ 0 : Xn ∈ D}, keine Stoppzeiten. Wir betrachten eine Markovkette mit endlichem Zustasndsraum S, definiert auf dem Wahrscheinlichkeitsraum (Ω, A, P). Die Kette hat dann Werte auf S N , versehen mit der σ-Algebra P (S)N . Das Mass P induziert ein Mass PX auf (S N , P (S)N ), definiert durch PX (B) = P(X = B) = P(X −1 (B)) für alle B ⊂ P (S)N . Für ein beliebiges x ∈ S können wir nun ein neues Wahrscheinlichkeitsmass auf P (S)N definieren, indem wir die Bedingung X0 = x annehmen. Wir definieren also Px : P (S)N → [0; 1] durch Px (B) = P(X = B|X0 = x) = P(X −1 (B)|X0−1 (x)) = P(X −1 (B) ∩ X0−1 (x)) P(X0−1 (x)) Wir bezeichnen mit Ex den Erwartungswert bezüglich Px . Mit anderen Wörter, für eine Funktion Y : S N → R, messbar bezüglich P (S)N und integrierbar bezüglich Px , haben wir E1(X0 = x)Y Ex Y = E [Y |X0 = x] = P(X0 = x) Bedingte Erwartungen von Stoppzeiten können benutzt werden um invariante Verteilungen zu bestimmen. Proposition 7.16. Sei X eine irreduzible Markovkette mit endlichem Zustandsraum S. Sei µ die eindeutige invariante Verteilung von X. Für ` ∈ S, sei τ` = inf{n > 0 : Xn = `} die erste positive Eintrittszeit im Zustand `. Dann gilt, für alle j, ` ∈ S, P` 1(Xt = j)] E` [ τt=1 µ(j) = E` τ` Bemerkung: Der Nenner E` τ` ist der Erwartungswert für die erste Rückkehrzeit im Zustand P ` `, unter der Annahme, dass die Kette im Zustand ` beginnt. Der Numerator 1(Xt = j) ist dagegen der Erwartungswert von der Anzahl Besuchen im ZuE` τt=1 stand j vor dem ersten Rückkehrzeit im Zustand `, unter Annahme, dass die Kette im Zustand ` beginnt. Beweis. Wir beginnen zu zeigen, dass E` τ` < ∞. Wir nehmen zunächst an, dass die Kette aperiodisch ist. Dann existiert k ∈ N mit (P k )ij > 0 für alle i, j ∈ S. Sei c = 108 mini,j∈S (P k )ij > 0. Dann gilt P` (τ` > t) = P(τ` > t|X0 = `) ≤ P(Xkn 6= ` für alle n ∈ N\{0} mit kn ≤ t|X0 = `) Y = P(Xkn 6= `|Xk(n−1) 6= `) · P(Xk 6= `|X0 = `) n≥2 :kn≤t = Y 1 − P(Xkn = `|Xk(n−1) (69) 6= `) · (1 − P(Xk = `|X0 = `)) n≥2:kn≤t ≤ Y (1 − min(P k )i` ) i∈S n:nk≤t ≤ (1 − c)t/k Hier haben wir benutzt, dass P(Xkn = `|Xk(n−1) 6= `) = P(Xkn = ` ∩ Xk(n−1) 6= `) X P(Xkn = ` ∩ Xk(n−1) = j) = P(Xk(n−1) 6= ` P(Xk(n−1) 6= ` j6=` = X P(Xkn = `|Xk(n−1) = j) j6=` P(Xk(n−1) = j) ≥ min(P k )j` j∈S P(Xk(n−1) 6= ` Aus (69) finden wir E` τ` = X P` (τ` > t) ≤ t≥0 X (1 − c)t/k < ∞ t≥0 Sei nun die Kette irreduzible aber nicht notwendigerweise aperiodisch. Dann existiert für alle j ∈ S ein kj ∈ N mit (P kj )j` > 0. Sei c = minj∈S (P kj )j` > 0. Mit k ∗ = maxj∈S kj gilt dann offenbar Pj (Xt 6= ` für alle t ≤ k ∗ ) ≤ Pj (Xkj 6= `) = 1 − P(Xkj = `|X0 = j) = 1 − (P kj )j` ≤ 1 − c für alle j ∈ S. Sei t = k ∗ n für ein n ∈ N. Dann ist P` (τ` > t) = n Y P(Xm 6= ` für alle k ∗ (j − 1) < m ≤ k ∗ j|Xk∗ (j−1) 6= `) j=2 × P(Xm 6= ` für alle 0 < m ≤ k ∗ |X0 = `) ≤ (1 − c)n = (1 − c)t/k ∗ Das zeigt, dass auch in diesem Fall, E` τ` < ∞. Man bemerke, dass das Argument auch die Endlichkeit von Ej τ` zeigt, für alle j ∈ S. Insbesondere, wir erhalten, dass Eτ` < ∞ und deswegen, dass τ` < ∞ fast sicher (diese Tatsache wird in diesem Beweis nicht explizit benutzt; sie wird aber in Satz 7.19 eine wichtige Rolle spielen). Sei nun τ X̀ ν` (j) = E` 1(Xt = j) t=1 109 der Erwartungswert von der Anzahl Besuchen im Punkt j ∈ S bis zum ersten Rückkehr zu `, unter der Annahme, dass die Kette im Punkt ` anfängt. Wir möchten zeigen, dass ν` die Gleichung ν` = ν` P erfüllt. Wir schreiben "∞ # X ν` (j) = E` 1(Xt = j)1(t ≤ τ` ) t=1 = ∞ X P` (Xt = j, t ≤ τ` ) t=1 ∞ XX = P` (Xt−1 = m, Xt = j, t ≤ τ` ) m∈S t=1 Das Ereignis {t ≤ τ` } = {τ` ≤ t − 1}c ∈ Ft−1 . Deswegen ist auch {Xt−1 = m} ∩ {t ≤ τ` } ∈ Ft−1 . Aus der Markov-Eigenschaft P` (Xt−1 = m, Xt = j, t ≤ τ` ) = P` (Xt = j|Xt−1 = m, t ≤ τ` )P` (Xt−1 = m, t ≤ τ` ) = P(Xt = j|Xt−1 = m)P(Xt−1 = m, t ≤ τ` ) = pmj P(Xt−1 = m, t ≤ τ` ) Also " ν` (j) = X m∈S E` ∞ X " # 1(Xt−1 = m)1(t ≤ τ` ) pmj = t=1 X E` m∈S Wir haben τ X̀ 1(Xt−1 = m) = t=1 τ X̀ τ X̀ # 1(Xt−1 = m) pmj t=1 1(Xt = m) t=1 weil, unter der Bedingung, dass X0 = `, X0 = Xτ` . Wir erhalten "τ # X X̀ X ν` (j) = E` 1(Xt = m) pmj = ν` (m)pmj m∈S t=1 m∈S Das zeigt, dass ν` = ν` P . Mit µ(j) = ν` (j) E` τ` gilt dann auch µ = µP . Da aber "τ # τ X X X X̀ X̀ ν` (j) = E` 1(Xt = j) = E` 1(Xt = j) = E` τ` j∈S j∈S t=1 t=1 j∈S ist µ eine invariante Verteilung, wie behauptet. Wir erhalten sofort das folgende Korollar. 110 Korollar 7.17. Sei X eine irreduzible Markovkette mit endlichem Zustandsraum. Dann ist die eindeutige invariante Verteilung durch 1 µ(j) = Ej τj gegeben. Beweis. Es gilt ν(j) = E` Pτ` t=1 1(Xt = j) E` τ` für alle ` ∈ S. Mit der Wahl ` = j haben wir Ej τj X 1(Xt = j) = 1 t=1 (der Summand ist 1 für t = τj und Null für alle t < τj ). Wir schliessen, dass ν(j) = 1 Ej νj Eine wichtige Eigenschaft von Stoppzeiten ist die starke Markov-Eigenschaft. Sie besagt, dass Erwartungswerten von Produkten an Stoppzeiten faktorisiert werden können. Sei T eine Stoppzeit für eine Markovkette X mit endlichem Zustandsraum S. Wir definieren die σ-Algebra FT ⊂ A auf Ω, als die Menge alle Ereignisse die nur von Xn abhängen, für alle n ≤ T . Wir nennen FT die σ-Algebra der τ -Vergangenheit. Formal ist FT = {A ∈ A : A ∩ {x : T (x) ≤ n} ∈ Fn für alle n ∈ N} Beispiel: Sei X = (Xn )n∈N eine Markovkette mit endlichem Zustandsraum S = {x1 < x2 < · · · < XN } mit xj ∈ R. Sei τ = inf{n > 0 : Xn ≥ x10 } die erste Eintrittszeit in der Menge {x10 , x11 , . . . , xN } ⊂ S. Wir betrachten nun die Ereignisse A = {supn∈N Xn ≥ x6 } und B = {supn∈N Xn ≥ x12 }. Wir bemerken, dass {x ∈ Ω : τ (x) ≤ n} ⊂ A und also A ∩ {τ ≤ n} = {τ ≤ n} ∈ Fn . Deswegen ist A ∈ Fτ . Anderseits, die Tatsache, dass τ ≤ n impliziert nicht, dass B erfüllt ist, und also B ∩ {τ ≤ n} ist nicht in Fn enthalten. Das bedeutet, dass B 6∈ Fτ nicht in der τ -Vergangenheit gehört. Für eine allgemeine Stoppzeit T , ein Beispiel einer Zufallsvariable die bezüglich FT messbar ist, ist die Funktion XT , definiert durch XT (x) = XT (x) (x). In der Tat, für n ∈ N und D ⊂ S, (XT )−1 (D) = {x ∈ Ω : XT (x) (x) ∈ D}. Damit (XT )−1 (D) ∩ {T ≤ n} = {x ∈ Ω : XT (x) (x) ∈ D} ∩ {x ∈ Ω : T (x) ≤ n} n [ = {x ∈ Ω : XT (x) (x) ∈ D} ∩ {x ∈ Ω : T (x) = j} = = j=0 n [ {x ∈ Ω : Xj (x) ∈ D} ∩ {x ∈ Ω : T (x) = j} j=0 n [ Xj−1 (D) ∩ {x ∈ Ω : T (x) = j} ∈ Fn j=0 111 Ähnlichkerweise sind auch die Variablen XT −1 oder XT /2 bezüglich FT messbar. Es lohnt sich hier den abstrakten Raum (Ω, A, P) mit (S N , P (S)N , PX ) zu identifizieren. Dann ist FT ⊂ P (S)N . Sei nun F : S N → R messbar bezüglich FT . Ferner, für eine Funktion G : S N → R (messbar bezüglich P (S)N ), und m ∈ N, definieren wir die Zeitverschiebung G ◦ θm (x1 , x2 , . . . ) = G(xm , xm+1 , . . . ) Insbesondere können wir die Zeitverschiebung G ◦ θT betrachten, unter der Annahme, dass T < ∞. Die Variable G ◦ θT gehört dann zum Zukunft von der Stoppzeit T . Durch Angabe von XT wird also G ◦ θT unabhängig von F (weil F gehört zur Vergangenheit von T ). Dann faktorisiert den Erwartungswert vom Produkt F (G ◦ θT ). Das ist der Inhalt vom nächsten wichtigen Satz. Satz 7.18 (Starke Markov-Eigenschaft). Sei X eine stationäre Markovkette mit endlichem Zustandsraum. Sei T eine Stoppzeit und F, G reelwertige Funktionen auf S N , messbar bezüglich P (S)N . Wir nehmen an, F ist bezüglich FT messbar. Dann gilt, für alle x ∈ S, dass Ex [1T <∞ F (G ◦ θT )] = Ex [1T <∞ F EXT [G]] Mit anderen Wörter Ex 1T (X0 ,X1 ,... )<∞ F (X0 , X1 , . . . )G(XT , XT +1 , . . . ) = E 1T (X0 ,X1 ,... )<∞ F (X0 , X1 , . . . )E[G(X00 , X10 , . . . )|X00 = XT ]|X0 = x wobei X 0 eine unabhängige Kopie von X ist. Beweis. Es genugt offenbar den Fall F = 1A und G = 1B zu betrachten, für ein A ∈ FT und ein B ∈ P (S)N beliebig. Dann gilt Ex 1T (X)<∞ 1A (X)1B (θT (X)) 1 = P (X0 = x, T (X) < ∞, X ∈ A, θT (X) ∈ B) P(X0 = x) X 1 = P (X0 = x, T (X) = n, X ∈ A, θn (X) ∈ B) P(X0 = x) n∈N XX 1 = P (X0 = x, T (X) = n, Xn = j, X ∈ A, θn (X) ∈ B) P(X0 = x) n∈N j∈S = 1 XX P(X0 = x) n∈N j∈S P (θn (X) ∈ B|X0 = x, T (X) = n, Xn = j, X ∈ A) × P (X0 = x, T (X) = n, Xn = j, X ∈ A) Nun, da die Ereignisse {X0 = x}, {Xn = j} und A ∩ {T = n} in der σ-Algebra Fn enthalten sind (weil A ∈ FT ), die Markov-Eigenschaft impliziert, dass P (θn (X) ∈ B|X0 = x, T (X) = n, Xn = j, X ∈ A) = P ((Xn , Xn+1 , . . . ) ∈ B|X0 = x, T (X) = n, Xn = j, X ∈ A) = P ((Xn , Xn+1 , . . . ) ∈ B|Xn = j) = P ((X0 , X1 , . . . ) ∈ B|X0 = j) = Pj (X ∈ B) = Ej 1B (X) 112 Wir erhalten, dass Ex 1T (X)<∞ 1A (X)1B (θT (X)) XX 1 Ej [1B (X)] P (X0 = x, T (X) = n, Xn = j, X ∈ A) = P(X0 = x) n∈N j∈S = = 1 XX P(X0 = x) n∈N j∈S 1 XX P(X0 = x) n∈N j∈S Ej [1B (X)] E [1(X0 = x)1(T (X) = n)1(Xn = j)1A (X)] E [1(X0 = x)1(T (X) = n)1(Xn = j)1A (X) EXn [1B (X)]] = Ex [1(T (X) < ∞)1A (X)EXT [1B (X)]] Als Anwendung der starke Markoveigenschaft zeigen wir nun den starken Ergodensatz für irreduzible Markovketten. Satz 7.19 (Starker Ergodensatz). Sei X eine irreduzible Markovkette mit endlichem Zustandsraum S und invarianter Verteilung µ. Sei f : S → R eine beschränkte messbare Funktion (da S endlich ist, sind diese Annahme immer erfüllt). Dann gilt n 1X lim f (Xk ) = n→∞ n k=1 Z f dµ S fast sicher. Beweis. Es genügt offenbar den Satz für f = 1i , für i ∈ S zu beweisen. Für ein festgewähltes i ∈ S definieren wir die Folge von Stoppzeiten t0 = inf{k ≥ 0 : Xk = i} t` = inf{k ≥ t`−1 : Xk = i} Mit f = 1i finden wir n X k=1 f (Xk ) = n X 1(Xk = i) = max{` ∈ N : t` ≤ n} . k=1 Sei nun σ` = t` − t`−1 . Für ` ≥ 1 sind die σ` unabhängige und identisch verteilte Zufallsvariablen. Das folgt aus der starken Markoveigenschaft. Sei zB. ` < j. Wie im Beweis von Proposition 7.16 kann man zeigen, dass die Stoppzeit t`−1 < ∞ fast sicher. Anwendung vom starken Markoveigenschaft zur Stoppzeit t`−1 gibt also Ex [g(σ` )h(σj )] = Ex [1(t`−1 < ∞)g(σ` )h(σj )] = Ex 1(t`−1 < ∞) EXt` −1 [g(τi )h(σj−`+1 )] = Ex Ei [g(τi )h(σj−`+1 )] = Ei [g(τi )h(σj−`+1 )] weil, nach Definition, Xt`−1 = i mit Wahrscheinlichkeit 1. Hier haben wir die Stoppzeit τi = inf{n > 0 : Xn = i} eingeführt. Nun aber, da τi ∈ Ftj−` in der Vergangenheit von 113 der Stoppzeit tj−` ist, Anwendung von der starken Markov-Eigenschaft zur Zeit tj−` gibt Ei [g(τi )h(σj−`+1 )] = Ei [1(tj−`+1 < ∞)g(τi )h(σj−`+1 )] i h = Ei 1(tj−`+1 < ∞)g(τi )EXtj−` h(τi0 ) wobei τi0 eine unabhängige Kopie von τi ist. Wir erhalten Ex [g(σ` )h(σj )] = [Ei g(τi )] [Ei h(τi )] für alle x ∈ S. Also E [g(σ` )h(σj )] = [Ei g(τi )] [Ei h(τi )] für alle ` 6= j. Insbesondere, mit g = 1 finden wir E h(σj ) = Ei h(τi ) für alle j ∈ N. Das zeigt, dass die Variablen σj sind unabhängig und identisch verteilt. Die Verteilung jeder σj ist also identisch zur Verteilung von τi , bezüglich dem Mass Pi (bedingt auf X0 = i). Wir haben schon im Beweis von Proposition 7.16 gezeigt, dass Eσ` = Ei τi < ∞. Das Gesetz der grossen Zahlen impliziert also, dass n 1X tn = lim σj = E σ1 = Ei τi lim n→∞ n n→∞ n j=1 e ⊂ Ω mit P(Ω) e = 1 und so, dass, für alle x ∈ Ω, e fast sicher. D.h. es gibt eine Teilmenge Ω lim n→∞ tn (x) = Ei τi n e und für ein beliebiges ε > 0 können wir also n0 ∈ N finden, mit Für ein x ∈ Ω t` (x) ≤ε − E τ i i ` für alle n > n0 . Das bedeutet, dass `Ei τi − `ε ≤ t` (x) ≤ `Ei τi + `ε für alle ` > n0 und deswegen, dass n n ≤ max{` ≥ n0 : t` (x) ≤ n} ≤ Ei τi + ε Ei τi − ε Wir bemerken, dass max{` ≥ n0 : t` (x) ≤ n} = max{` ≥ 0 : t` (x) ≤ n} e ⊂ Ω, mit falls tn0 (x) ≤ n. Da tn0 < ∞ fast sicher, finden wir eine Teilmenge Ω0 ⊂ Ω 0 P(Ω ) = 1 so, dass max{` ≥ n0 : t` (x) ≤ n} = max{` ≥ 0 : t` (x) ≤ n} 114 für alle x ∈ Ω0 . Das iimpliziert, dass 1 1 1 ≤ max{` ≥ 0 : t` (x) ≤ n} ≤ Ei τi + ε n Ei τi − ε für alle x ∈ Ω0 . Das gibt 1 1 1 ≤ lim max{` ≥ 0 : t` (x) ≤ n} ≤ n→∞ Ei τi + ε n Ei τi − ε für alle x ∈ Ω0 . Da ε > 0 beliebig ist, muss n 1 1X = lim f (Xk (x)) Ei τi n→∞ n k=1 für alle x ∈ Ω0 . Das zeigt die Behauptung. Bemerkungen: i) Der starken Ergodensatz ist die Verallgemeinerung des Gesetzes der grossen Zahlen für Markovketten. Besteht die Markovkette (Xj )j∈N aus einer Folge unabhängige und identisch verteilter Zufallsvariablen, mit Verteilung π, so ist π die eindeutige invariante Verteilung, und die Aussage, dass n 1X f (Xk ) → n k=1 Z f dµ = Ef (X1 ) S fast sicher ist einfach die Aussage des starken Gesetz der grossen Zahlen. ii) Im starken Ergodensatz wird, im Gegensatz zum Satz 7.11, keine Aperiodizität von der Markovkette angenommen. Mit der Wahl f = 1i für ein i ∈ S, erhalten wir also, dass n 1X (π0 P j )(i) = µ(i) n j=1 für jede irreduzible stationäre Markovkette, aperiodisch oder nicht. Wir haben dagegen gesehen, dass ohne Aperiodizität die (stärkere) Konvergenz (π0 P n )(i) → µ(i) nicht erwartet werden kann. 115