WS 2014/15 Einführung in die Wahrscheinlichkeitstheorie Prof. Dr. Nina Gantert 7. Februar 2015 Inhaltsverzeichnis 0 Einleitung 3 1 Diskrete Wahrscheinlichkeitsräume 4 1.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 Urnenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3 Weitere Beispiele von Verteilungen . . . . . . . . . . . . . . . . . . . . . . 10 2 Bedingte Wahrscheinlichkeit und Unabhängigkeit 2.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Produkträume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 16 19 3 Zufallsvariablen, Erwartungswerte und Varianzen 3.1 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 3.2 Unabhängigkeit von Zufallsvariablen . . . . . . . . . 3.3 Erwartungswerte . . . . . . . . . . . . . . . . . . . . 3.4 Varianzen . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Kovarianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 22 23 25 30 33 4 Summen unabhängiger Zufallsvariablen 4.1 Faltungen . . . . . . . . . . . . . . . . . 4.2 Erzeugende Funktion . . . . . . . . . . . 4.3 Verzweigungsprozesse . . . . . . . . . . 4.4 Die eindimensionale Irrfahrt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 38 41 41 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Wahrscheinlichkeit mit Dichten 46 5.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.2 Übertragung der bisherigen Ergebnisse . . . . . . . . . . . . . . . . . . . . 47 5.3 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 6 Grenzwertsätze 55 6.1 Das Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 55 6.2 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . 57 6.3 Das Lemma von Borel-Cantelli und das starke Gesetz der großen Zahlen . 62 0 Einleitung Stochastik ist die Lehre von den Gesetzmäßigkeiten des Zufalls. Es geht um die Modellierung und Berechnung zufälliger Vorgänge. »Zufall« kann dabei auch »subjektive Ungewissheit« sein. Anwendungen • Historisch: Glücksspiel • Finanzmathematik (z. B. Beschreibungen von Aktienkursen) • Medizin, Biologie (Datenanalyse, Ausbreitung von Epidemien) • Versicherungsmathematik • Meinungsforschung Beziehungen zu anderen Gebieten der Mathematik • Mathematische Physik (statistische Mechanik, interagierende Teilchensysteme) • Analysis (z. B. probabilistische Lösung partieller Differentialgleichungen) • Graphentheorie und Kombinatorik Literatur H.-O. Georgii, Stochastik. de Gruyter, 4. Auflage. 1 Diskrete Wahrscheinlichkeitsräume In diesem Kapitel führen wir Wahrscheinlichkeiten auf endlichen oder abzählbar unendlichen Mengen ein. 1.1 Grundbegriffe Wir beginnen mit einem Beispiel. Beispiel 1.1.1. Wir würfeln mit zwei fairen Würfeln (»fairer Würfel« heißt, dass die Zahlen 1, . . . , 6 alle mit Wahrscheinlichkeit 16 gewürfelt werden). Wie groß ist die Wahrscheinlichkeit, dass die Augensumme mindestens 10 ist? Lösung 1. Ω = {1, . . . , 6}2 = Menge aller Paare von Zahlen aus {1, . . . , 6}. Interpretation: ω = (ω1 , ω2 ) ∈ Ω, wobei • ω1 = Ergebnis des 1. Würfels, • ω2 = Ergebnis des 2. Würfels. 1 . Wir zählen die »günstigen Jedes ω ∈ Ω hat dieselbe Wahrscheinlichkeit, nämlich 36 Elementarereignisse«, d. h. diejenigen Paare, bei denen die Augensumme mindestens 10 ist: (4, 6), (5, 5), (5, 6), (6, 4), (6, 5), (6, 6). Es gibt 6 solcher Paare. Also: gesuchte Wahrscheinlichkeit ist 6 36 = 16 . Lösung 2. Ω = {2, 3, 4, . . . , 11, 12} ist die Menge der möglichen Augensummen. Diese elf Elementarereignisse haben nicht dieselbe Wahrscheinlichkeit, z. B. hat 2 die 1 1 Wahrscheinlichkeit 36 und 3 hat die Wahrscheinlichkeit 18 ((1, 2), (2, 1)). Nun addiert man die Wahrscheinlichkeiten von 10, 11 und 12: • 10 hat Wahrscheinlichkeit • 11 hat Wahrscheinlichkeit • 12 hat Wahrscheinlichkeit 3 36 2 36 1 36 (3 Möglichkeiten), (2 Möglichkeiten), (1 Möglichkeit). Also: gesuchte Wahrscheinlichkeit ist 3 36 + 2 36 + 1 36 = 1 6 wie oben. Wir sehen: • Es empfiehlt sich, eine Grundmenge von Elementarereignissen zu definieren, deren Wahrscheinlichkeiten einzeln bestimmt werden können (besonders einfach ist der Fall, wo alle dieselbe Wahrscheinlichkeit haben). 1.1 Grundbegriffe 5 • Das Ereignis, dessen Wahrscheinlichkeit gesucht ist, identifiziert man mit einer Teilmenge der Grundmenge. • Im Allgemeinen gibt es mehrere Möglichkeiten für die Wahl der Grundmenge. Im Folgenden sei P(Ω) die Potenzmenge von Ω, d. h. die Menge aller Teilmengen von Ω. Definition 1.1.2. Ein diskreter Wahrscheinlichkeitsraum ist ein Tupel (Ω, p), bestehend aus einer höchstens abzählbar unendlichen Menge Ω und einer Abbildung p : Ω → [0, 1] P mit der Eigenschaft ω∈Ω p(ω) = 1. Wir nennen Ω den Grundraum, die Elemente von Ω Elementarereignisse, die Teilmengen von Ω Ereignisse und die p(ω) Gewichte oder Einzelwahrscheinlichkeiten. Die Abbildung X p(ω), P : P(Ω) → [0, 1], A 7→ ω∈A heißt das von den Einzelwahrscheinlichkeiten induzierte Wahrscheinlichkeitsmaß. Da alle P Gewichte nicht-negativ sind, spielt die Reihenfolge der Summanden in ω∈A p(ω) keine Rolle. 1 In Beispiel 1.1.1 war bei der ersten Lösung Ω = {1, . . . , 6}2 , p(ω) = 36 für alle ω ∈ Ω, bei der zweiten Lösung Ω = {2, 3, . . . , 12}. Definition 1.1.2 ist Spezialfall eines allgemeineren Konzeptes. Definition 1.1.3. Sei Ω nicht-leere Menge, F ⊆ P(Ω) und P : F → [0, 1]. (Ω, F, P) heißt Wahrscheinlichkeitsraum, falls F eine σ-Algebra ist, d. h. (i) Ω ∈ F, (ii) A ∈ F ⇒ Ac ∈ F, (iii) A1 , A2 , . . . ∈ F ⇒ S i∈N Ai ∈ F, und P Wahrscheinlichkeitsmaß, d. h. (i) P[Ω] = 1 (Normierung), (ii) Für alle Folgen (Ai )i∈N von paarweise disjunkten Ereignissen gilt: P [ Ai = i∈N X P[Ai ]. i∈N (σ-Additivität). Jeder diskrete Wahrscheinlichkeitsraum (Ω, p) ist ein Wahrscheinlichkeitsraum (Ω, F, P) im Sinne von Definition 1.1.3 mit F = P(Ω) und P : F → [0, 1], A 7→ X p(ω). ω∈A Klar, dass P(Ω) eine σ-Algebra ist und das Wahrscheinlichkeitsmaß P folgendes erfüllt. 1.1 Grundbegriffe 6 Definition 1.1.4 (Kolmogorov-Axiome). (i) P[Ω] = 1, (ii) Für alle Folgen (Ai )i∈N von paarweise disjunkten Ereignissen gilt: P [ Ai = X P[Ai ]. i∈N i∈N Das heißt, (Ω, P(Ω), P) genügt Definition 1.1.3. Teilmengen von Ω werden als Ereignisse interpretiert. Wir listen einige Entsprechungen auf: Mengenschreibweise A, B, C ⊆ Ω A∩B A∪B Ac A∩B =∅ A⊆B Sprache der Ereignisse A, B, C sind Ereignisse A und B A oder B nicht A A und B schließen sich aus A impliziert B Wahrscheinlichkeiten genügen einigen einfachen Rechenregeln. Lemma 1.1.5. Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum. Dann hat das zugehörige Wahrscheinlichkeitsmaß P die folgenden Eigenschaften: (a) P[∅] = 0, (b) A ⊆ B ⇒ P[A] ≤ P[B] für alle Ereignisse A, B, (c) P[A ∪ B] = P[A] + P[B] − P[A ∩ B] für alle Ereignisse A, B, (d) P[ S i∈N Ai ] ≤ P i∈N P[Ai ] für jede Folge (Ai )i∈N von Ereignissen, (e) Falls für eine Folge (Ai )i∈N und ein Ereignis A gilt: Ai & A :⇔ Ai+1 ⊆ Ai für alle i ∈ N und \ =A i∈N oder Ai % A :⇔ Ai ⊆ Ai+1 für alle i ∈ N und [ = A, i∈N so gilt: P[A] = lim P[Ai ]. i→∞ Beweis. (a) bis (d) folgen direkt aus der Definition P[A] = P ω∈A p(ω). (e) Falls Ai % A, setzen Bi = Ai \ Ai−1 , A0 = ∅, dann sind B1 , B2 , . . . paarweise disjunkt. Wegen der σ-Additivität in 1.1.4 gilt also: P[A] = P [ Bi = i∈N Der Fall Ai & A geht analog. X i∈N P[Bi ] = lim n→∞ n X i=1 P[Bi ] = lim P[An ]. n→∞ 1.1 Grundbegriffe 7 Bemerkung zu (c). Für drei Ereignisse A, B, C gilt: P[A ∪ B ∪ C] = P[A] + P[B] + P[C] − P[A ∩ B] − P[B ∩ C] − P[A ∩ C] + P[A ∩ B ∩ C]. Beispiel 1.1.6. Wir betrachten ein Kartenspiel mit 2n Karten, darunter 2 Joker (wobei n ≥ 2.) Wir bilden zwei gleich große Stapel. Wie groß ist die Wahrscheinlichkeit, dass beide Joker im selben Stapel liegen? Wir wählen (Ω, p) mit Ω = {(i, j) ∈ {1, 2, . . . , 2n}2 | i 6= j} und p ((i, j)) = 1 1 = . |Ω| 2n(2n − 1) Interpretation: i und j sind die Plätze der beiden Joker im Kartenspiel. A = {(i, j) ∈ Ω | i, j ≤ n} ∪ {(i, j) ∈ Ω | i, j ≥ n + 1} (die Plätze 1, . . . , n gehören zum ersten Stapel, die Plätze n + 1, . . . , 2n zum zweiten). A hat 2n(n − 1) Elemente. Also gilt: P[A] = n−1 . 2n − 1 Beispiel 1.1.7 (Teilungsproblem von Luca de Pacioli, 1494). Spieler a und Spieler b werfen wiederholt eine Münze: in jeder Runde gewinnt a bei Zahl, b andernfalls. Derjenige Spieler bekommt den Gesamteinsatz, der als erster insgesamt 6 Runden gewonnen hat. Nach 8 Runden hat a 5-mal und b 3-mal gewonnen hat, und das Spiel muss abgebrochen werden. Wie ist der Gesamtgewinn gerecht aufzuteilen? 1. Lösung. Spätestens nach drei weiteren Runden wäre alles entschieden. Ω = Menge der Resultate in den nächsten drei Runden = {(a, a, a), (a, a, b), . . . , (b, b, b)}, 1 p(ω) = für alle ω ∈ Ω. 8 b gewinnt nur falls ω = (b, b, b). Also: a bekommt 78 , b bekommt 18 . 2. Lösung. Ω = Menge der Resultate der weiteren Runden bis zur Entscheidung = {a, ba, bba, bbb}, 1 1 p(a) = , p(ba) = , 2 4 1 p(bba) = p(bbb) = . 8 Also: a bekommt 87 , b bekommt 18 . 1.2 Urnenmodelle 8 1.2 Urnenmodelle Eine der einfachsten Verteilungen ist die Gleichverteilung (auch Laplace-Verteilung) auf 1 einer endlichen Menge Ω, definiert durch p(ω) = |Ω| für alle ω ∈ Ω. Wir geben nun eine Liste von wichtigen Beispielen, die von Urnenmodellen kommen. Beispiel 1.2.1. In einer Urne liegen N Kugeln mit den Nummern 1, 2, . . . , N . Wir ziehen n Kugeln aus der Urne. Ein Ergebnis ist ein Tupel (k1 , . . . , kn ) ∈ {1, . . . , N }n , wobei ki heißt, dass in der i-ten Ziehung die Kugel mit der Nummer ki gezogen wird. Frage: wie viele Ergebnisse können auftreten? Sei M = {1, . . . , N }. 1. Mit Zurücklegen, mit Reihenfolge. Wir legen also nach jeder Ziehung die Kugel in die Urne zurück, und wir betrachten Tupel, die sich nur in Reihenfolge unterscheiden, als verschieden. Ω1 = M n = {(k1 , . . . , kn ) | k1 , . . . , kn ∈ M }. Ω1 ist die Menge aller n-Tupel mit Koeffizienten aus M . Es gilt: |Ω1 | = N n . 2. Ohne Zurücklegen, mit Reihenfolge. Wir legen keine gezogene Kugel zurück, und setzen insbesondere n ≤ N voraus. Ω2 = {(k1 , . . . , kn ) | k1 , . . . , kn ∈ M, k1 , . . . , kn paarweise verschieden}. Es gilt: |Ω2 | = N (N − 1)(N − 2) · · · (N − n + 1) = N! , (N − n)! dabei ist N ! = N (N − 1) · · · 2 · 1. 3. Ohne Zurücklegen, ohne Reihenfolge. Wir legen keine Kugel zurück und sehen zwei Tupel, die sich nur in der Reihenfolge unterscheiden, als gleich an. Ω3 = {A ⊆ M | |A| = n} = Menge der n-elementigen Teilmengen von M. Ω2 listet jedes Tupel in Ω3 genau n!-mal auf, nämlich in allen möglichen Reihenfolgen. Also gilt: ! |Ω2 | N! N |Ω3 | = = = . n! n!(N − n)! n 4. Mit Zurücklegen, ohne Reihenfolge. Ω4 = {(k1 , . . . , kn ) ∈ M n | k1 ≤ k2 ≤ · · · ≤ kn }. Ω4 ist die Menge der n-Tupel in nicht-absteigender Reihenfolge (da wir die Reihenfolge nicht berücksichtigen, können wir die Tupel ordnen). Es gilt: |Ω4 | = N +n−1 . n 1.2 Urnenmodelle 9 Denn: betrachten Abbildung (k1 , . . . , kn ) 7→ (k1 , . . . , kn ) mit ki = ki + i − 1. Beispiel mit n = 8: (1, 1, 2, 2, 2, 2, 3, 4) 7→ (1, 2, 4, 5, 6, 7, 9, 11). Diese Abbildung ist eine Bijektion zwischen Ω4 und n Ω = {(k1 , . . . , kn ) ∈ M | k1 , . . . , kn paarweise verschieden}, wobei M = {1, 2, . . . , N + n − 1}. Also: |Ω4 | = Ω3 , d. h. Ω3 wird nicht mit M , sondern mit M gebildet. Also wir N durch N + n − 1 in der obigen Formel ersetzen N +n−1 . für Ω3 und erhalten |Ω4 | = Ω3 = n Beispiel 1.2.2. Wir würfeln mit 4 Würfeln. Wie groß ist die Wahrscheinlichkeit, 4 verschiedene Augenzahlen zu erhalten? (siehe Übungen) Beispiel 1.2.3. Wie groß ist die Wahrscheinlichkeit pn , dass unter n Personen keine zwei am selben Tag Geburtstag haben? Setzen voraus, dass das Jahr 365 Tage hat, dass n ≤ 365 und dass alle Geburtstage dieselbe Wahrscheinlichkeit haben. Menge aller Geburtstagstupel von n Personen ist Ω1 mit N = 365 aus Beispiel 1.2.1. Die Menge von Tupeln, die das gesuchte Ereignis realisieren, ist Ω2 (mit N = 365). Also: |Ω2 | N (N − 1) · · · (N − n + 1) = |Ω1 | Nn 1 2 n−1 =1· 1− 1− ··· 1 − N N N pn = n−1 X i = exp log 1 − N i=1 ! Für N = 365 und n = 25 ist dies ungefähr 0.432. Bemerkung. Für allgemeines n und N können wir approximieren, falls n sehr klein im Verhältnis zu N ist, in dem wir die Näherung P log(1 + x) ≈ x (für |x| klein) benutzen, n(n−1) n−1 i und wir erhalten pn ≈ exp . i=1 − N = exp − 2N Beispiel 1.2.4. Wie viele Möglichkeiten gibt es, n nicht unterscheidbare Murmeln auf N Zellen zu verteilen? 1. Lösung. Dies ist die Frage nach |Ω4 | aus Beispiel 1.2.1 (wir ziehen Zellen für die Murmeln!), also N +n−1 Möglichkeiten. n 2. Lösung. n Murmeln in einer Reihe. Die Einteilung in N Zellen entspricht dem Setzen von N − 1 Trennwänden. Damit haben wir eine Reihe von N + n − 1 Objekten, nämlich n Murmeln und N − 1 Trennwänden. Jede der N +n−1 Anordnungen n (hier benutzen wir die Formel für Ω2 aus Beispiel 1.2.1) entspricht genau einer N +n−1 Möglichkeit, die n Murmeln in N Zellen einzuteilen. Damit: Möglichkeiten. n 1.3 Weitere Beispiele von Verteilungen 10 1.3 Weitere Beispiele von Verteilungen Beispiel 1.3.1. In einem Teich befinden sich N Fische, von denen K markiert sind. Dem Teich werden n Fische (ohne Zurücklegen) entnommen. Wie groß ist die Wahrscheinlichkeit, dass k markierte Fische entnommen wurden? (k ≤ n ≤ K ≤ N ) p(k) = HypN,K,n (k) = K k · N −K n−k N n (1.3.1) Das von diesen Gewichten induzierte Wahrscheinlichkeitsmaß auf {0, 1, . . . , n} heißt hypergeometrische Verteilung auf den Parametern N, K, n. (1.3.1) ergibt sich aus der ForN mel für Ω2 in Beispiel 1.2.1: Im Nenner steht n für die Anzahl aller Möglichkeiten, n Fische aus N auszuwählen. Im Zähler steht die Anzahl der günstigen Fälle, bei denen jeweils k Fische aus den K markierten und n − k Fische aus den N − K unmarkierten ausgewählt werden. Mit Ω = {0, . . . , n} ist (Ω, HypN,K,n ) ein diskreter Wahrscheinlichkeitsraum. Insbesondere gilt: n X K N −K n X k · n−k HypN,K,n = =1 N k=0 k=0 n und damit gilt (Vandermondsche Identität): n X k=0 K k ! N −K n−k ! ! N . n = Beispiel 1.3.2. Sei p ∈ [0, 1]. Wir spielen n-mal dasselbe Spiel, in dem wir mit Wahrscheinlichkeit p Erfolg haben und mit Wahrscheinlichkeit 1 − p keinen Erfolg haben. Die verschiedenen Spielausgänge beeinflussen sich nicht. Ω = {0, 1}n sei die Menge der möglichen Spielverläufe. ω = (ω1 , . . . , ωn ) ∈ Ω hat das Gewicht Pn q(ω) = p i=1 ωi Pn (1 − p)n− i=1 ωi . (1.3.3) (Ω, q) ist ein diskreter Wahrscheinlichkeitsraum und das von q induzierte Wahrscheinlichkeitsmaß heißt Bernoulli-Verteilung der Länge n mit dem Parameter p. Insbesondere gilt: Pn X Pn p i=1 ωi (1 − p)n− i=1 ωi = 1 ω∈Ω Bemerkung. Falls p = 12 gilt, so ist die Bernoulli-Verteilung zum Parameter p die Gleichverteilung auf Ω mit q(ω) = Pn ωi n−Pn ωi i=1 i=1 1 1 2 2 = n 1 2 1.3 Weitere Beispiele von Verteilungen 11 Beispiel 1.3.3. Sei p ∈ [0, 1]. Wie in Beispiel 1.3.2 führen wir ein Bernoulli-Experiment der Länge n zum Parameter p durch. Wie groß ist die Wahrscheinlichkeit, dass wir insgesamt k Erfolge haben? (k ∈ {0, . . . , n}). In der Situation von Beispiel 1.3.2 fragen wir also nach der Wahrscheinlichkeit des Ereignisses ( ω∈Ω| Ak = n X ) ωi = k i=1 Es gilt P[Ak ] = nk pk (1 − p)n−k . Dabei ist nk die Anzahl der Elemente in der Menge Ak und jedes Element ω ∈ Ak hat unter P dasselbe Gewicht q(ω) = p Pn i=1 ωi · (1 − p)n− Pn i=1 ωi = pk (1 − p)n−k Also definieren wir ! n k p (1 − p)n−k k p̃(k) = Binn,p (k) = für alle k ∈ {0, . . . , n}. (1.3.4) Das von diesen Gewichten induzierte Wahrscheinlichkeitsmaß auf Ω̃ = {0, . . . , n} heißt Binomialverteilung mit den Parametern n und p. Insbesondere gilt: n X k=0 ! n k p (1 − p)n−k = 1. k Das folgt bereits aus dem binomischen Lehrsatz: n (x + y) = n X k=0 ! n k n−k x y k für alle x, y ∈ R. In den beiden folgenden Beispielen führen wir Verteilungen auf abzählbar unendlichen Grundräumen ein. Beispiel 1.3.4. Wir spielen dasselbe Spiel wie in Beispiel 1.3.2, allerdings solange, bis wir zum ersten Mal Erfolg haben. Mit welcher Wahrscheinlichkeit passiert das beim k-ten Spiel? (k ∈ N). p̃(k) = Geop k = p(1 − p)k−1 (1.3.5) p̃(k) ist die Wahrscheinlichkeit k − 1 Misserfolge gefolgt von einem Erfolg zu haben. Das von diesen Gewichten induzierte Wahrscheinlichkeitsmaß auf Ω = N heißt geometrische Verteilung mit Parameter p. (Ω, p̃) modelliert die Wartezeit auf den ersten Erfolg, die prinzipiell nach oben unbeschränkt ist. Insbesondere gilt: ∞ X k=1 p(1 − p)k−1 = 1. 1.3 Weitere Beispiele von Verteilungen 12 Beispiel 1.3.5. Seien λ > 0 und Ω = N0 . Die Gewichte p(k) seien gegeben durch p(k) = Poiλ (k) = e−λ λk k! Das von diesen Gewichten induzierte Wahrscheinlichkeitsmaß auf Ω heißt Poisson-Verteilung mit Parameter λ. Die Poisson-Verteilung ist immer dann eine gute Näherung, wenn ein Bernoulli-Experiment sehr oft und mit sehr kleiner Erfolgswahrscheinlichkeit durchgeführt wird. Das lässt sich übertragen auf eine Beobachtungsphase, während der fast immer nichts passiert und hin und wieder etwas passiert. Werden zum Beispiel die Anzahl der Anrufe in einer Telefonzentrale im Zeitraum [0, T ] untersucht, so lässt sich das Intervall in n Teilintervalle der Länge Tn aufteilen. Unter der Annahme, dass in jedem Teilintervall höchstens eine Person anruft, sei die Wahrscheinlichkeit dafür, dass dies passiert, mit pn bezeichnet. Dabei soll n · pn ∼ λ gelten. Die Anzahl der Anrufe im Intervall [0, T ] ist damit ein Bernoulli-Experiment der Länge n mit Erfolgsparameter pn . Der folgende Satz fasst die obige Interpretation in einen formalen Kontext. Satz 1.3.6. Für die Folge (pn )n∈N gelte pn ∈ [0, 1] für alle n ∈ N und lim n · pn = λ > 0. n→∞ Dann gilt: lim Binn,pn (k) = Poiλ (k) n→∞ Beweis. Siehe Übungen. für alle k ∈ N0 . (1.3.7) 2 Bedingte Wahrscheinlichkeit und Unabhängigkeit In vielen Situationen liegt schon Information vor, wenn man die Wahrscheinlichkeit eines Ereignisses bestimmen möchte. Beispiel. Beim Kartenspielen kennt man die eigenen Karten, beim Abschluss einer Lebensversicherung schon das Alter des Antragstellers, etc. Das heißt, man ist über das Eintreten eines Ereignisses B schon informiert, wenn man die Wahrscheinlichkeit eines Ereignisses A bestimmen will. 2.1 Bedingte Wahrscheinlichkeiten Einführendes Beispiel. Beispiel 2.1.1. In einer Umfrage soll der Anteil der Raucher an der Bevölkerung ermittelt werden. Gesucht ist also die Wahrscheinlichkeit A, dass eine zufällige gewählte Person Raucherin ist. Man unterscheidet mehrere Bevölkerungsgruppen. Sei B das Ereignis, dass eine zufällig gewählte Person eine Frau zwischen 20 und 30 ist. Was ist die bedingte Wahrscheinlichkeit von A, gegeben B? Dazu wird man die Anzahl der rauchenden 20-30 jährigen Frauen durch die Anzahl der 20-30 jährigen Frauen teilen, d. h. den Anteil der Raucherinnen unter den 20-30 jährigen Frauen bestimmen. Also P[Raucherin | 20-30 jährige Frau] = = |{20-30 jährigen Raucherinnen}| |{20-30 jährigen Frauen}| |{20-30 jährigen Raucherinnen}| |{Gesamtbevölkerung}| |{20-30 jährigen Frauen}| |{Gesamtbevölkerung}| Definition 2.1.2. Seien A und B Ereignisse und P[B] > 0. Dann ist P[A | B] = P[A ∩ B] P[B] die bedingte Wahrscheinlichkeit von A, gegeben B. = P[A ∩ B] . P[B] 2.1 Bedingte Wahrscheinlichkeiten 14 Beispiel 2.1.3. (i) Beim Würfeln zweier Würfel beträgt die Augensumme 10. Wie groß ist die bedingte Wahrscheinlichkeit, dass der erste Würfel 6 zeigt? o n Ω = (ω1 , ω2 ) ∈ {1, . . . , 6}2 , A = {(ω1 , ω2 ) ∈ Ω | ω1 = 6} , B = {(ω1 , ω2 ) ∈ Ω | ω1 + ω2 = 10} = {(6, 4), (5, 5), (4, 6)}, A ∩ B = {(6, 4)}, P[A | B] = P[A ∩ B] = P[B] 1 36 3 36 1 = . 3 (ii) Wir betrachten die Anzahl der Erfolge in einem Bernoulli-Experiment der Länge n mit Erfolgsparameter p. Wie groß ist die bedingte Wahrscheinlichkeit, dass der erste Versuch ein Erfolg war, gegeben, dass wir insgesamt k Erfolge haben? Ω = {(ω1 , . . . , ωn ) ∈ {0, 1}n } , A = {(ω1 , . . . , ωn ) ∈ Ω | ω1 = 1} , ( B= (ω1 , . . . , ωn ) ∈ Ω | n X ) ωi = k , i=1 ( A∩B = (ω1 , . . . , ωn ) | ω1 = 1 und n X ) ωi = k − 1 , i=2 ! P[B] = n k p (1 − p)n−k , k ! P[A ∩ B] = n−1 k p (1 − p)n−k , k−1 n−1 k−1 n k P[A ∩ B] = P[A | B] = P[B] = k . n Für bedingte Wahrscheinlichkeiten gelten folgende Rechenregeln. Lemma 2.1.4. Sei B ein Ereignis mit P[B] > 0. Dann gilt: (i) P [ · | B] erfüllt Kolmogorov-Axiome aus Definition 1.1.4, d. h. es gilt P[Ω | B] = 1, und für alle Folgen von paarweise disjunkten Ereignissen (Ai )i∈N gilt: P [ Ai | B = i∈N X P[Ai | B]. i∈N (ii) Für jedes Ereignis A und jede Folge (Bi )i∈N von paarweise disjunkten Ereignissen S mit B = · i∈N Bi und P[Bi ] > 0 für alle i ∈ N gilt: P[A ∩ B] = X P[A | Bi ]P[Bi ]. i∈N (Formel von der totalen Wahrscheinlichkeit) 2.1 Bedingte Wahrscheinlichkeiten 15 (iii) Für jedes Ereignis A mit P[A] > 0 und jede Folge (Bi )i∈N von paarweise disjunkten S Ereignissen mit Ω = · i∈N Bi und P[Bi ] > 0 für alle i ∈ N gilt: P[Bi | A] = P P[A | Bi ]P[Bi ] . j∈N P[A|Bj ]P[Bj ] (Bayes-Formel) Beweis. Nachrechnen mit der Definition der bedingten Wahrscheinlichkeit. 1 Beispiel. Sei Ω endlich und P die Gleichverteilung auf Ω, d. h. p(ω) = |Ω| für alle ω ∈ Ω. Sei B ⊆ Ω, B 6= ∅. Dann ist P[ · | B] die Gleichverteilung auf B, d. h. P[ · | B] hat Gewichte 1 , falls ω ∈ B, pB (ω) = |B| 0, falls ω ∈ / B. Denn: für ω ∈ B gilt P[{ω}] P[{ω} | B] = = P[B] 1 |Ω| |B| |Ω| = 1 , |B| für ω ∈ / B gilt P[{ω} ∩ B] = 0. Beispiel 2.1.3 war von dieser Form. Beispiel 2.1.5. Eine seltene Krankheit liegt bei 0.5% der Bevölkerung vor. Es gibt einen Test, der bei 99% der Kranken anschlägt, aber auch bei 2% der Gesunden. Mit welcher bedingten Wahrscheinlichkeit ist eine getestete Person krank, gegeben, dass der Test anschlägt? Ω = {alle getesteten Personen}, B1 = {alle kranken getesteten Personen}, B2 = {alle gesunden getesteten Personen}, A = {alle getesteten Personen, bei denen der Test anspricht}. Gesucht ist P[B1 | A]. Bekannt sind P[B1 ] = 0.005, P[A | B1 ] = 0.99, P[A | B2 ] = 0.02. . und damit auch P[B2 ] = 0.995 (Ω = B1 ∪ B2 ). Nun benutzen wir die Bayes-Formel: P[A | B1 ]P[B1 ] P[A | B1 ]P[B1 ] + P[A | B2 ]P[B2 ] 0.99 · 0.005 495 = = 0.99 · 0.005 + 0.02 · 0.995 2485 P[B1 | A] = ∼ = 0.2 Also: »erstmal kein Grund zur Panik«. Lemma 2.1.6. Für jedes n ∈ N und alle A1 , . . . , An ⊆ Ω mit P[A1 ∩ · · · ∩ An−1 ] 6= 0 gilt: P[A1 ∩ · · · ∩ An ] = P[A1 ] · P[A2 | A1 ] · P[A3 | A1 ∩ A2 ] · · · P[An | A1 ∩ · · · ∩ An−1 ]. 2.2 Unabhängigkeit von Ereignissen 16 Beweis. Einfach. Beispiel 2.1.7. Mit welcher Wahrscheinlichkeit hat jeder Spieler beim Skat genau ein Ass? Verteilen von 32 Karten mit 4 Assen, je zehn an drei Spieler. Ai = {Spieler i hat genau ein Ass}, P[A1 ∩ A2 ∩ A3 ] = P[A1 ] · P[A2 | A1 ] · P[A3 | A1 ∩ A2 ] | {z } | 4 1 3 1 28 9 32 10 {z } | 19 9 22 10 2 1 {z 10 9 12 10 ( )( ) ( )( ) ( )( ) ( ) ( ) ( ) 2 · 4!28! ≈ 0.0556. = 103 · 32! } 2.2 Unabhängigkeit von Ereignissen Definition 2.2.1. (i) Zwei Ereignisse A und B heißen unabhängig, falls gilt: P[A ∩ B] = P[A] · P[B]. (ii) Eine Familie (Ai )i∈I von Ereignissen mit Indexmenge I heißt unabhängig, falls für jede endliche Teilmenge J ⊆ I gilt: " P # \ Ai = i∈J Y P[Ai ] (2.2.1) i∈J Bemerkung. (a) Beachte: Unabhängigkeit ist keine Eigenschaft der Ereignisse per se, sondern es kommt auf das Wahrscheinlichkeitsmaß P an! (b) Falls A und B unabhängige Ereignisse sind und P[B] > 0, so gilt: P[A | B] = P[A] · P[B] P[A ∩ B] = = P[A]. P[B] P[B] Beispiel 2.2.2. Wir werfen einen Würfel n mal. Ω = {1, . . . , 6}n , Ai = »i-ter Würfel zeigt xi «. P Gleichverteilung, Dann sind (für jede Wahl von xi ) die Ereignisse (Ai )i∈{1,...,n} unabhängig, denn für J ⊆ {1, . . . , n} gilt: " P # \ i∈J Ai 6n−|J| = = 6n |J| 1 6 = Y P[Ai ]. i∈J Beispiel 2.2.3. Bernoulli Experiment (Beispiel 1.3.2). Ω = {0, 1}n , Dann sind A1 , . . . , An unabhängig. Ai = {ω ∈ Ω | ωi = 1}. 2.2 Unabhängigkeit von Ereignissen 17 Beispiel 2.2.4. In einer Urne sind s schwarze und w weiße Kugeln. Man zieht zweimal eine Kugel. Die Ereignisse A = »1. Kugel ist weiß« und B = »2. Kugel ist weiß« sind unabhängig, falls wir mit Zurücklegen ziehen, aber nicht unabhängig, falls nicht. Beweis. Für den zweiten Fall: w w−1 P[A ∩ B] = · 6= s+w s+w−1 2 w s+w = P[A] · P[B]. Bemerkung 2.2.5. (a) Jede Teilfamilie einer Familie unabhängiger Ereignisse ist wieder unabhängig. (b) Es ist wichtig, dass (2.2.1) für jedes J ⊆ I gilt. Falls (2.2.1) nur für J mit |J| = 2 gilt, so heißen die (Ai )i∈I paarweise unabhängig. Dies ist schwächer als die Unabhängigkeit. Beispiel. 1 p : Ω → [0, 1], p(ω) = , ∀ω 4 Ω = {1, 2, 3, 4}, Die Mengen A1 = {1, 2}, A2 = {2, 3}, A3 = {1, 3} sind paarweise unabhängig, aber nicht unabhängig. (c) Falls A unabhängig von sich selbst ist, d. h. A, A unabhängige Ereignisse, so gilt P[A] ∈ {0, 1}. Beweis. P[A] = P[A ∩ A] = P[A]2 ⇒ P[A] ∈ {0, 1}. (d) Beim Werfen zweier Würfel sind die Ereignisse A = »Augensumme ist 7« und B = »1. Würfel zeigt 6« unabhängig, denn P[A ∩ B] = P [(6, 1)] = 1 1 1 = · = P[A] · P[B]. 36 6 6 Es stimmt also nicht, dass unabhängige Ereignisse »nichts miteinander zu tun haben«. Lemma 2.2.6. Ereignisse A1 , . . . , An sind genau dann unabhängig, wenn für alle k1 , . . . , kn ∈ {1, c} gilt: " # P n \ i=1 Aki i = n Y i=1 h i P Aki i . (2.2.2) 2.2 Unabhängigkeit von Ereignissen 18 Beweis. »⇒« Seien A1 , . . . , An unabhängig, wir zeigen (2.2.2) mit Induktion über n. n = 2. P[A1 ∩ A2 ] = P[A1 ] · P[A2 ] P [A1 ∩ Ac2 ] = P[A1 ] − P[A1 ∩ A2 ] = P[A1 ] (1 − P[A2 ]) = P[A1 ] · P [Ac2 ] P [Ac1 ∩ Ac2 ] = 1 − (P[A1 ] + P[A2 ] − P[A1 ∩ A2 ]) = 1 − P[A1 ] − P[A2 ] + P[A1 ] · P[A2 ] = (1 − P[A1 ]) (1 − P[A2 ]) = P [Ac1 ] · P [Ac2 ] . n 7→ n + 1. Induktion über die Anzahl m der »c« unter k1 , . . . , kn . m = 0. Folgt aus der Unabhängigkeit m 7→ m + 1. Wir können annehmen, dass kn+1 = c. P "n+1 \ # Aki i =P i=1 =P " n \ i=1 " n \ # Aki i ∩ Acn+1 # Aki i − P " n \ P " n \ Aki i ∩ An+1 . i=1 i=1 Es ist # # Aki i = i=1 n Y h P Aki i i i=1 nach Induktionsvoraussetzung (über n) und P " n \ n Y # Aki i ∩ An+1 = i=1 h P Aki i ! i · P [An+1 ] i=1 nach Induktionsvoraussetzung (über m). Also: P "n+1 \ # Aki i = (1 − P [An+1 ]) · | i=1 {z P[Acn+1 ] } n Y h P Aki i ! i . i=1 »⇐« Es gelte (2.2.2) für alle k1 , . . . , kn ∈ {1, c}. Wir zeigen die Unabhängigkeit. Sei {i1 , . . . , ik } ⊆ {1, . . . , n} und sei {j1 , . . . , jm } das Komplement von {i1 , . . . , ik } in T {1, . . . , n}. Dann lässt sich k`=1 Ai` als disjunkte Vereinigung schreiben: k \ `=1 Ai` = [ k \ k1 ,...,km ∈{1,c} `=1 · Ai` ∩ m \ s=1 ! Akjss 2.3 Produkträume 19 Die Wahrscheinlichkeit der rechten Seite ist nach Voraussetzung und wegen der Additivität von P X k Y P [Ai` ] m Y h i P Akjss = s=1 k1 ,...,km ∈{1,c} `=1 k Y P [Ai` ] `=1 m Y h i P Akjss = X s=1 k1 ,...,km ∈{1,c} | {z 1 k Y P [Ai` ] `=1 } Bemerkung. Es reicht nicht den Fall {i1 , . . . , ik } = {1, . . . , n} bzw. {k1 , . . . , kn } = {1} zu betrachten. Beispiel. Seien A1 , A2 , A3 Ereignisse mit A1 = ∅, A2 = A3 , P[A2 ] = 12 , dann gilt P[A1 ∩ A2 ∩ A3 ] = 0 = P[A1 ] · P[A2 ] · P[A3 ], aber P[A2 ∩ A3 ] = P[A2 ] = 1 1 6= = P[A2 ] · P[A3 ], 2 4 d. h. A1 , A2 , A3 sind nicht unabhängig. Korollar 2.2.7. Ereignisse A1 , . . . , An sind genau dann unabhängig, wenn ihre Komplemente Ac1 , . . . , Acn unabhängig sind. 2.3 Produkträume Wir betrachten n nacheinander und unabhängig voneinander ausgeführte Zufallsexperimente. Dann wird die Gesamtmenge der Experimente durch einen Produktraum beschrieben. Definition 2.3.1. Es seien (Ω1 , p1 ), . . . , (Ωn , pn ) diskrete Wahrscheinlichkeitsräume. Auf der Produktmenge Ω = Ω1 × · · · × Ωn = {(ω1 , . . . , ωn ) | ωi ∈ Ωi } definieren wir Gewichte p : Ω → [0, 1], (ω1 , . . . , ωn ) 7→ n Y pi (ωi ). i=1 Dann ist (Ω, p) ein diskreter Wahrscheinlichkeitsraum und heißt Produktraum der Räume N (Ω1 , p1 ), . . . , (Ωn , pn ). Wir schreiben auch (Ω1 , p1 )⊗· · ·⊗(Ωn , pn ) oder ni=1 (Ωi , pi ). Falls (Ω1 , p1 ) = · · · = (Ωn , pn ), so schreiben wir auch (Ω, p) = (Ω1 , p1 )⊗n . Satz 2.3.2. Seien (Ω1 , p1 ), . . . , (Ωn , pn ) diskrete Wahrscheinlichkeitsräume und seien A1 ⊆ Ω1 , . . . , An ⊆ Ωn Ereignisse in den jeweiligen Räumen. Dann sind die Ereignisse (1) (n) A1 , . . . , An , definiert durch (i) Ai = {(ω1 , . . . , ωn ) | ωi ∈ Ai }, unabhängig im Produktraum (Ω, p) = Nn i=1 (Ωi , pi ). 2.3 Produkträume 20 Beispiel. Seien (Ω1 , p1 ) = . . . = (Ωn , pn ), wobei Ω1 = {1, . . . , 6} und pi (ωi ) = 1 für alle i ∈ {1, . . . , n} und alle ωi ∈ {1, . . . 6}. 6 Dann beschreibt (Ω, p) n Würfe eines fairen Würfels. (1) A1 = {2, 6} ⊆ Ω1 , A1 = {ω ∈ Ω | w1 ∈ {2, 6}} , (2) A2 = {3} ⊆ Ω2 , A2 = {ω ∈ Ω | ω2 = 3}. (1) (2) Dann sind A1 , A2 unabhängig bezüglich P, wobei P das von den Gewichten p(ω) = 1 6n für ω ∈ Ω induzierte Wahrscheinlichkeitsmaß ist. Beweis. Sei P das von den Gewichten p induzierte Wahrscheinlichkeitsmaß auf Ω. Zu zeigen ist, dass für alle J = {j1 , . . . , jk } ⊆ {1, . . . , n} gilt: P \ (j) Aj = Y j∈J h (j) P Aj i j∈J Wir definieren: ( Bi := i∈J sonst Ai Ω Dann gilt: P \ (j) Aj = P [{ω ∈ Ω|ωj ∈ Aj für alle j ∈ J}] j∈J X = p(ω) ω:ωj ∈Aj für alle j∈J X = p1 (ω1 ) · · · pn (ωn ) ω1 ,...,ωn :ωj ∈Aj für alle j∈J = X p1 (ω1 ) · · · ω1 ∈B1 = j∈J ωj ∈Aj pj (ωj ) = {z =1 falls Bi =Ωi Y pi (ωi ) · · · ωi ∈Bi | Y X X X pn (ωn ) ωn ∈B1 } Pj [Aj ] j∈J wobei Pj die von den Gewichten pj induzierten Wahrscheinlichkeitsmaße auf Ωj sind. Beachte, dass gilt: (j) Aj = Ω1 × · · · × Ωj−1 × Aj × Ωj+1 × · · · × Ωn 2.3 Produkträume 21 also h (j) Pj [Aj ] = P Aj Damit P i . \ j∈J (j) Aj = Y j∈J Pj [Aj ] = Y j∈J h (j) P Aj i . 3 Zufallsvariablen, Erwartungswerte und Varianzen In diesem Kapitel erklären wir, was eine Zufallsvariable (Zufallsgröße) ist, definieren Erwartungswert und Varianz und erläutern, was Unabhängigkeit von Zufallsvariablen ist. Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum. 3.1 Zufallsvariablen Definition 3.1.1. Eine Abbildung X : Ω → R heißt (reellwertige) Zufallsvariable (Zufallsgröße). Beispiel 3.1.2. Die Augensumme bei n Würfen eines fairen Würfels ist die auf Ω = {1, 2, . . . , 6}n definierte Zufallsvariable X : Ω → R, (ω1 , . . . ωn ) 7→ ω1 + . . . ωn . Beispiel 3.1.3. Die Anzahl der Erfolge in einem Bernoulli-Experiment der Länge n: Ω = {0, 1}n , X(ω) = |{i ∈ {1, . . . , n} | ωi = 1}| = n X ωi i=1 Definition 3.1.4. Sei X eine Zufallsvariable. Wir schreiben X(Ω) für die (höchstens abzählbare) Menge {X(ω) | ω ∈ Ω}. Das Paar (X(Ω), µX ) mit µX (y) = P[X = y] ist ein diskreter Wahrscheinlichkeitsraum. Das induzierte Wahrscheinlichkeitsmaß P ◦ X −1 , definiert durch: P ◦ X −1 [A] = X µX (y) y∈A erfüllt P ◦ X −1 [A] = P[X ∈ A] für alle A ⊆ X(Ω) und heißt Verteilung von X. Wir können P ◦ X −1 [A] = P[X ∈ A] für jede Teilmenge von R betrachten und meinen damit P ◦ X −1 [A ∩ X(Ω)]. Falls P ◦ X −1 die Binomialverteilung ist, sagen wir »X ist binomialverteilt«, falls P ◦ X −1 die geometrische Verteiliung ist, sagen wir »X ist geometrisch verteilt«, etc. 3.2 Unabhängigkeit von Zufallsvariablen 23 Insbesondere ist also die Anzahl der Erfolge in einem Bernoulli-Experiment binomialverteilt, und die Wartezeit auf den ersten Erfolg in einem Bernoulli-Experiment ist geometrisch verteilt, d. h. P[T = k] = p(1 − p)k−1 . »X ist Poisson-verteilt mit Parameter λ« heißt also P[X = k] = e−λ λk k! für alle k ∈ N0 , vergleiche Beispiel 1.3.5. Beispiel 3.1.5. Für ein Ereignis A ⊆ Ω sei IA die durch ( IA (ω) = 1, 0, falls ω ∈ A, falls ω ∈ / A. definierte Indikatorvariable (oder Indikatorfunktion) von A. Es ist IA Zufallsvariable mit Werten in {0, 1} und P[IA = 1] = P[A]. Beispiel 3.1.6. Ω = {0, 1}n , ω = (ω1 , . . . , ωn ), Xi (ω) = ωi für alle i ∈ {1, . . . , n}. Also gilt Xi (ωi ) = IAi , Ai = {ωi = 1}, d. h. X1 , . . . , Xn sind Indikatorvariablen von unabhängigen Ereignissen. 3.2 Unabhängigkeit von Zufallsvariablen Definition 3.2.1. Sei (Xi )i∈I eine Familie von Zufallsvariablen, wobei I beliebige Indexmenge ist. Wir sagen, die Familie (Xi )i∈I ist unabhängig, falls für jede Familie (Bi )i∈I von reellen Mengen (Bi ⊆ R für alle i ∈ I) die Familie ({Xi ∈ Bi })i∈I unabhängig ist. Lemma 3.2.2. Zufallsvariablen X1 , . . . , Xn sind genau dann unabhängig, wenn für alle x1 ∈ X1 (Ω), . . . , xn ∈ Xn (Ω) gilt P[X1 = x1 , . . . , Xn = xn ] = n Y P[Xi = xi ]. i=1 Beweis. »⇒« folgt aus Definition 3.2.1 Bi = {xi }. »⇐« Seien B1 , . . . , Bn ⊆ R, J = {1, . . . , n}, J 6= ∅. Wir zeigen (2.2.1) für die Ereignisse {Xi ∈ Bi }, i ∈ J. Nehmen an Bi ∈ Xi (Ω). Sei ( Ci = Bi , falls i ∈ J, Xi (Ω), falls i ∈ / J. 3.2 Unabhängigkeit von Zufallsvariablen 24 Also " P # \ " # \ {Xi ∈ Bi } = P i∈J {Xi ∈ Ci } i∈J [ \ = P xi ∈Ci , i∈J i∈J {Xi = xi } " = X # \ P xi ∈Ci , i∈J {Xi = xi } i∈J Korollar. Ereignisse A1 , . . . , An sind genau dann unabhängig, wenn ihre Indikatorvariablen IA1 , . . . , IAn unabhängig sind. Wir sehen nun, dass die Bernoulli-Zufallsvariablen in Beispiel 3.1.6 unabhängig sind. Für unabhängige Zufallsvariablen lassen sich viele Wahrscheinlichkeiten explizit ausrechnen. Beispiel 3.2.3. X und Y seien unabhängig und beide geometrisch verteilt mit Parameter p, d.h. wir haben P[X = k] = P[Y = k] = p(1 − p)k−1 , für alle k ∈ N. und P[X = k, Y = `] = P[X = k]P[Y = `], k, ` ∈ N. Wir wollen P[X > Y ] berechnen. {X > Y } ist die disjunkte Vereinigung der Ereignisse {Y = k, X > k} mit k ∈ N. Also gilt wegen Unabhängigkeit: P[X > Y ] = X k∈N = X k∈N = P[Y = k, X > k] = X P[Y = k]P[X > k] k∈N p(1 − p)k−1 (1 − p)k = k p X (1 − p)2 1 − p k∈N p (1 − p)2 p(1 − p) 1−p · = = 2 2 1 − p 1 − (1 − p) 2p − p 2−p Entsprechend gilt P[X = Y ] = 1 − 2P[X > Y ] = p . 2−p (3.1) Wie bei Unabhängigkeit von Ereignissen gibt einen Zusammenhang zwischen Unabhängigkeit von Zufallsvariablen und Produkträumen. Die Unabhängigkeit von Zufallsvariablen lässt sich mit der gemeinsamen Verteilung charakterisieren. 3.3 Erwartungswerte 25 Definition 3.2.4. X1 , . . . , Xn seien Zufallsvariablen. Die gemeinsame Verteilung ist die Verteilung des Zufallsvektors X = (X1 , . . . , Xn ). Diese ist, analog zu Definition 3.1.4, das Wahrscheinlichkeitsmaß P ◦ X −1 , das durch die Gewichte µX induziert wird, wobei µX auf der Bildmenge X(Ω) = {(X1 (ω), . . . , Xn (ω)) | ω ∈ Ω} definiert durch µX (x1 , . . . , xn ) = P[X = (x1 , . . . , xn )] = P[X1 = x1 , . . . , Xn = xn ]. Die Verteilung der einzelnen Zufallsvariablen Xi erhält man, indem man die i-te Randverteilung (oder Marginalverteilung) von µX bildet, die gegeben ist durch X µXi (xi ) = P[Xi = xi ] = µX (x1 , . . . , xn ) x1 ,...,xi−1 , xi+1 ,...,xn Lemma 3.2.5. Seien X1 , . . . , Xn Zufallsvariablen. Dann sind X1 , . . . , Xn genau dann unabhängig, wenn die Verteilung von X gleich dem Produkt der Verteilungen von X1 , . . . , Xn ist, d. h. (Ω, µX ) = n O (Ωi , µXi ) i=1 Beweis. Folgt aus Lemma 3.2.2. In der Situation von Lemma 3.2.5 sagt man auch, der Zufallsvektor X hat unabhängige Komponenten X1 , . . . , Xn . Beispiel 3.2.6. Polyas Urne In einer Urne liegen zunächst eine weisse und eine schwarze Kugel. Bei jedem Zug wird eine Kugel zufällig gezogen und zwei Kugeln der gezogenene Farbe werden in die Urne zurückgelegt. Ai = {i − te gezogene Kugel ist weiss}, Xi = IAi , i = 1, 2, . . . n. Dann gilt P[Xi = 1] = P[Xi = 0] = 21 , ∀i, wegen Symmetrie. X1 , . . . , Xn sind jedoch nicht unabhängig, denn n Y 123 n 1 P[Xi = 1] = P[X1 = 1, X2 = 1, . . . , Xn = 1] = ··· = 6 = 234 n+1 n + 1 i=1 n 1 2 . (3.2) Es gilt P[X1 = x1 , . . . , Xn = xn ] = sn !(n − sn )! (n + 1)! (3.3) wobei sn = ni=1 xi . Die Wahrscheinlichkeit des Tupels (x1 , . . . , xn ) hängt also nur von der Summe sn ab! Man beweist (3.3) mit Induktion über n. P 3.3 Erwartungswerte Eine zentrale Kenngröße von Zufallsvariablen ist der Erwartungswert. 3.3 Erwartungswerte 26 Definition 3.3.1. Eine Zufallsvariable X:Ω→R besitzt einen endlichen Erwartungswert, falls X |X(ω)| p(ω) < ∞ ω∈Ω gilt. In diesem Fall schreiben wir X ∈ L1 (P) (oder kurz X ∈ L1 ) und definieren den Erwartungswert von X als die reelle Zahl X E[X] := X(ω)p(ω) ω∈Ω Falls X ≥ 0 gilt (oder, allgemeiner, X nach unten beschränkt ist) so können wir E[X] in jedem Fall definieren durch (P E[X] := ω∈Ω X(ω)p(ω), +∞, falls diese Summe endlich ist, sonst. P Die Forderung der absoluten Konvergenz der Reihe ω∈Ω X(ω)p(ω) sichert, dass der Wert dieser Reihe nicht von der Summationsreihenfolge abhängt. Lemma 3.3.2. a) Für eine Zufallsvariable X gilt X ∈ L1 genau dann, wenn X |x| P[X = x] < ∞. x∈X(Ω) In diesem Fall gilt: E[X] = X x · P[X = x] x∈X(Ω) b) Für zwei Zufallsvariablen X, Y ∈ L1 mit X ≤ Y gilt: E[X] ≤ E[Y ] (Monotonie des Erwartungswertes). c) Für zwei Zufallsvariablen X, Y ∈ L1 und a, b ∈ R gilt auch aX + bY ∈ L1 und ferner E[aX + bY ] = aE[X] + bE[Y ] (Linearität des Erwartungswertes). 3.3 Erwartungswerte 27 d) Für zwei unabhängige Zufallsvariablen X, Y ∈ L1 gilt auch X · Y ∈ L1 und ferner E[X · Y ] = E[X] · E[Y ] (Produktregel bei Unabhängigkeit). Beweis. a) Es gilt: X X |x| P[X = x] = x∈X(Ω) X |x| x∈X(Ω) X = p(ω) ω∈{ω∈Ω|X(ω)=x} X p(ω) |X(ω)| x∈X(Ω) ω∈{ω∈Ω|X(ω)=x} = X p(ω) |X(ω)| . ω∈Ω Ebenso gilt: X x · P[X = x] = X p(ω)X(ω) = E[X]. ω∈Ω x∈X(Ω) b) und c) folgen unmittelbar aus der Definition des Erwartungswertes. d) Wir zerlegen gemäß den Werten von X: X |z| · P[X · Y = z] = z∈X·Y (Ω) z6=0 X X |z| P[X · Y = z, X = x] z∈X·Y (Ω) x∈X(Ω) z6=0 z = |z| P X = x, Y = |{z} x z∈X·Y (Ω),z6=0 X x∈X(Ω),x6=0 = X :=x·y |x| · |y| P[X = x, Y = y] | x∈X(Ω) y∈Y (Ω) X,Y unabh. = X {z =P[X=x]·P[Y =y] |x| P[X = x] · x∈X(Ω) } X |y| P[Y = y]. y∈Y (Ω) Damit folgt, dass X ·Y ∈ L1 genau dann, wenn X ∈ L1 , Y ∈ L1 gilt und die Gleichung E[X · Y ] = E[X] · E[Y ] folgt aus derselben Rechnung ohne Betragsstriche. Beispiel 3.3.3. Die Zufallsvariable X habe Werte in Z \ {0} mit P[X = k] = k14 , k ∈ Z \ {0}. Dann gilt E[X] = 0 wegen Symmetrie. Die Zufallsvariable Y habe Werte in N mit P[X = k] = k12 , k ∈ N. Dann gilt E[Y ] = +∞. 3.3 Erwartungswerte 28 Zur Berechnung des Erwartungswertes ist folgendes Lemma sehr nützlich. Lemma 3.3.4. Seien X1 , . . . , Xn Zufallsvariablen und sei g : X1 (Ω) × · · · × Xn (Ω) → R eine Abbildung. Dann ist die Zufallsvariable Y := g(X1 , . . . , Xn ) = g ◦ (X1 , . . . , Xn ) in L1 genau dann, wenn X X ··· x1 ∈X1 (Ω) |g(x1 , . . . , xn )| P[X1 = x1 , . . . , Xn = xn ] < ∞ xn ∈Xn (Ω) und in diesem Fall gilt: E[Y ] = X X ··· x1 ∈X1 (Ω) g(x1 , . . . , xn ) · P[X1 = x1 , . . . , Xn = xn ]. xn ∈Xn (Ω) Beweis. Wir betrachten den diskreten Wahrscheinlichkeitsraum (Ω0 , p0 ) mit Ω0 := X1 (Ω) × · · · × Xn (Ω) und p(x1 , . . . , xn ) := P[X1 = x1 , . . . , Xn = xn ] Dann ist die Verteilung der Zufallsvariablen g : Ω0 → R identisch mit der Verteilung der Zufallsvariablen Y : Ω → R. Also folgt die Aussage aus Lemma 3.3.2 a). Beispiel 3.3.5. Sei A ein Ereignis. Dann gilt E[IA ] = P[A] denn per Definition gilt: E[IA ] = X X p(ω)IA (ω) = p(ω) = P[A] ω∈A ω∈Ω Beispiel 3.3.6. Sei X binomialverteilt mit Parametern n und p, d. h. ! n k p (1 − p)n−k k P[X = k] = für alle k ∈ {0, . . . , n}. Dann gilt: n X n X ! n k E[X] = k · P[X = k] = k p (1 − p)n−k . k k=0 k=0 Für eine einfachere Berechnung definieren wir Ω := {0, 1}n , P := Bernoulli-Verteilung der Länge n mit Parameter p. Xk := IAk mit Ak := {ω ∈ Ω | ωk = 1}, k ∈ {1, . . . , n}. 3.3 Erwartungswerte Dann ist X = Pn 29 k=1 Xk binomialverteilt mit Parametern n und p. Wir haben für alle k ∈ {1, . . . , n}. E[Xk ] = P[Ak ] = p Mit der Linearität des Erwartungswertes folgt dann E[X] = E " n X # Xk = k=1 Beispielsweise gilt E[X] = n 2 n X E[Xk ] = np. k=1 für p = 12 . Beispiel 3.3.7. X sei hypergeometrisch verteilt mit Parametern N, K, n, d.h. X ist die Anzahl der markierten Fische in der Stichprobe, wenn man aus N Fischen, von denen K markiert sind, n ohne Zurücklegen zieht (wir nehmen n ≤ K ≤ N an). Dann gilt E[X] = E n X I{j−ter Fisch ist markiert} = j=1 n X P[j−ter Fisch ist markiert] = j=1 n X K N j=1 =n K . N Beispiel 3.3.8. X sei geometrisch verteilt mit Parameter p ∈ (0, 1), d. h. P[X = k] = p(1 − p)k−1 für alle k ∈ N. Dann gilt E[X] = ∞ X k · P[X = k] = k=1 ∞ X =p ∞ X kp(1 − p)k−1 k=1 − k=1 ∂ h ∂p i (∗) (1 − p)k = −p ∞ ∂ X (1 − p)k ∂p k=1 ∂ 1 1 = −p − 1 = (−p) · − 2 ∂p p p = 1 , p wobei (*) gilt, da sich Potenzreihen im Inneren des Konvergenzbereichs gliedweise differenzieren lassen. Beispiel 3.3.9. X sei Poisson-verteilt mit Parameter λ > 0, d. h. P[X = k] = e−λ Dann gilt: E[X] = ∞ X k=0 ke−λ λk k! für alle k ∈ N0 . ∞ X λk−1 λk = λe−λ = λ. k! (k − 1)! k=1 | {z eλ } 3.4 Varianzen 30 Beispiel 3.3.10. Petersburger Paradoxon (Daniel Bernoulli 1738) Zu einem festem Eintrittspreis c wird eine faire Münze solange geworfen, bis zum ersten Mal Zahl kommt. Danach wird ein Gewinn von G := 2T −1 ausgezahlt, wobei T die Wartezeit auf die erste Zahl ist. Welchen Geldbetrag würde man für die Teilnahme bezahlen wollen? T ist geometrisch verteilt mit Parameter 12 , d. h. P[T = k] = Es gilt also: E[G] = ∞ X 2k−1 k 1 k k=1 1 2 . 2 = ∞ X 1 k=1 2 = ∞. Dies widerspricht der Anschauung. Dieser Widerspruch lässt sich auflösen, wenn man von einem Maximalgewinn ausgeht. Wir betrachten also GK := min{G, K} Das führt auf eine maximale Spiellänge von N = 1 + blog2 (K)c Damit gilt E[GK ] = N X 2 k−1 k 1 k=1 2 +K k ∞ X 1 k=N +1 2 1 = N + K · 2−N 2 Das liefert folgende Tabelle: K 100 ¤ 100 Millionen ¤ 54 Billionen ¤ N 7 27 46 E[GK ] ≈ 4.28 ¤ ≈ 14.25 ¤ ≈ 23.76 ¤ Lemma 3.3.11. Sei X eine Zufallsvariable mit Werten in N0 . Dann gilt: E[X] = ∞ X P[X > k] = k=0 ∞ X P[X ≥ k]. k=1 Beweis. siehe Übungen 3.4 Varianzen Eine weiter Kenngröße der Verteilung einer Zufallsvariablen ist die Varianz. Sie gibt an, wie stark die Zufallsvariable im Mittel von ihrem Erwartungswert abweicht. Definition 3.4.1. Sei X eine Zufallsvariable und E[X] existiere. Dann ist die Varianz von X definiert durch h i Var(X) := E (X − E[X])2 ∈ [0, ∞]. 3.4 Varianzen 31 Wir sagen, X hat endliche Varianz, falls Var(X) < ∞. Aus Lemma 3.3.4 folgt: Var(X) = X (x − E[X])2 P[X = x]. (3.4.1) x Beispiel 3.4.2. Sei X gleichverteilt auf {x1 , . . . , xn }, d. h. P[X = xi ] = Dann gilt: E[X] = n 1X xi = x n i=1 1 n für alle i ∈ {1, . . . , n}. und Var(X) = n 1X (xi − x)2 , n i=1 d. h. E[X] = x ist das arithmetische Mittel und Var(X) ist die mittlere quadratische Abweichung davon. Beispiel 3.4.3. Sei A ein Ereignis und p = P[A]. Dann ist X = IA eine BernoulliVariable mit Parameter p, d. h. P[X = 1] = p = 1 − P[X = 0]. Also ist E[X] = p und Var[X] = (0 − p)2 P[X = 0] + (1 − p)2 P[X = 1] = (0 − p)2 (1 − p) + (1 − p)2 p = p(1 − p). Lemma 3.4.4. Seien X, Y ∈ L1 Zufallsvariablen. a) Die Varianz von X ist endlich genau wenn E[X 2 ] < ∞. In diesem Fall schreiben wir X ∈ L2 und es gilt: Var(X) = E[X 2 ] − E[X]2 . b) Seien a, b ∈ R. Falls die Varianz von X endlich ist, dann ist die Varianz von aX + b endlich, und es gilt: Var(aX + b) = a2 Var(X). c) Falls X und Y unabhängig sind mit endlichen Varianzen, so hat auch X +Y endliche Varianz, und es gilt: Var(X + Y ) = Var(X) + Var(Y ). d) Falls Var(X) = 0, so gibt es ein c ∈ R mit P[X = c] = 1. Beweis. a) Die erste Aussage folgt wegen (x − E[X])2 P[X = x] = x2 P[X = x] − 2xE[X]P[X = x] + E[X]2 P[X = x] (denn wir haben vorausgesetzt, dass X x P x xP[X (x − E[X])2 P[X = x] < ∞ = x] absolut konvergiert), also ⇔ X x x2 P[X = x] < ∞. 3.4 Varianzen 32 Falls E[X 2 ] < ∞, gilt: i h h Var(X) = E (X − E[X])2 = E X 2 − 2XE[X] + E[X]2 i = E[X 2 ] − 2E[X]2 + E[X 2 ] = E[X 2 ] − E[X]2 . Insbesondere gilt E[X 2 ] ≥ E[X]2 . b) Es gilt: i h Var(aX + b) = E (aX + b)2 − E[aX + b]2 | {z } (aE[X]+b)2 h i = E a2 X 2 + 2abX + b2 − a2 E[X]2 − 2abE[X] − b2 = a2 Var(X) c) Es gilt: h i Var(X + Y ) = E (X + Y )2 − E[X + Y ]2 h i = E X 2 + 2XY + Y 2 − (E[X] + E[Y ])2 = E[X 2 ] + 2 +E[Y 2 ] − E[X]2 − 2E[X]E[Y ] − E[Y ]2 E[XY ] | {z } =E[X]E[Y ] Lemma 3.3.2 = Var(X) + Var(Y ). d) Folgt aus (3.4.1): Var(X) = X (x − E[X])2 P[X = x]. x Falls Var(X) = 0, so gilt für jedes x ∈ R entweder x = E[X] = c oder P[X = x] = 0, also P[X = c] = 1 mit c = E[X]. Beispiel 3.4.5. Sei T geometrisch verteilt mit p. Dann gilt E[T ] = p1 , siehe früher. E[T (T − 1)] = ∞ X k(k − 1) p(1 − p)k−1 | k=1 = p(1 − p) ∞ X {z P [T =k] } k(k − 1)(1 − p)k−2 = k=1 | {z ∂2 1 = 23 ∂p2 p p } 2(1 − p) . p2 3.5 Kovarianzen 33 Also E[T 2 ] = E[T (T − 1)] + E[T ] = 2(1 − p) 1 2−p + .= . p2 p p2 Damit Var(T ) = E[T 2 ] − E[T ]2 = 1−p . p2 Lemma 3.4.6. Für jede Zufallsvariable X ∈ L2 gilt die Abschätzung h i E (X − a)2 ≥ Var(X) für alle a ∈ R, wobei Gleichheit genau dann vorliegt, wenn a = E[X]. Beweis. Übung. Definition 3.4.7. Sei X Zufallsvariable mit endlicher Varianz. Die Standardabweichung σ(X) ist definiert als q σ(x) = Var(X). Bemerkung. Sei X Zufallsvariable mit endlicher Varianz und X ∗ := X − E[X] . σ(x) Dann gilt E[X ∗ ] = 0, Var(X ∗ ) = 1. Beweis. Einfach. 3.5 Kovarianzen Die Kovarianz ist eine Kenngröße der gemeinsamen Verteilung zweier Zufallsvariablen. Definition 3.5.1. Seien X, Y Zufallsvariablen mit endlichen Varianzen. Die Kovarianz von X und Y ist die Zahl Cov(X, Y ) = E[XY ] − E[X]E[Y ]. X und Y heißen unkorreliert, falls Cov(X, Y ) = 0. Die Kovarianz ist wohldefiniert, denn der Erwartungswert von XY existiert wegen 2 |XY | ≤ X 2 + Y 2 und Lemma 3.4.4 a). Lemma 3.5.2. a) Seien X, Y Zufallsvariablen mit endlichen Varianzen. Dann gelten die folgenden Beziehungen: (i) Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])], (ii) Cov(X, X) = Var(X), (iii) Cov(X, Y ) = Cov(Y, X), 3.5 Kovarianzen 34 (iv) Cov(aX, bY ) = ab Cov(X, Y ) für alle a, b ∈ R, (v) Cov(X + c, Y ) = Cov(X, Y ) für alle c ∈ R. b) Für n Zufallsvariablen X1 , . . . , Xn gilt: Var n X ! Xi = i=1 n X Var(Xi ) + i=1 n X Cov(Xi , Xj ) i,j=1 i6=j c) Falls X, Y unabhängig mit endlichen Varianzen, so sind X und Y unkorreliert. Beweis. a) Nachrechnen. b) Es gilt: Var(X1 + X2 ) = E[(X1 + X2 )2 ] − E[X1 + X2 ]2 = E[X12 ] + 2E[X1 X2 ] + E[X22 ] − E[X12 ] − 2E[X1 ]E[X2 ] − E[X2 ]2 = Var(X1 ) + Var(X2 ) + 2 Cov(X1 , X2 ). Dann: Induktion über n. c) folgt aus Lemma 3.3.2 (d) (E[XY ] = E[X]E[Y ], falls X, Y ∈ L2 , X, Y unabhängig.) Bemerkung. Die Umkehrung von c) gilt im Allgemeinen nicht, unkorrelierte Zufallsvariablen sind nicht immer unabhängig. Beispiel. Sei X gleichverteilt auf {−1, 0, 1}, d. h. 1 P[X = −1] = P[X = 0] = P[X = 1] = , 3 Y = |X|. Dann sind X und Y unkorreliert: E[XY ] = E[X |X|] = 1 1 1 · (−1) + · 0 + · 1 = 0. 3 3 3 Aber: P[X = −1, Y = 0] = 0 6= 1 = P[X = −1]P[Y = 0], 9 d. h. X und Y sind nicht unabhängig. Korollar 3.5.3. Seien X1 , . . . , Xn ∈ L2 paarweise unkorreliert (d. h. Cov(Xi , Xj ) = 0 für i 6= j). Dann gilt: ! n n Var X i=1 Xi = X Var(Xi ). i=1 Beweis. Folgt direkt aus Lemma 3.5.2 b) wegen Cov(Xi , Xj ) = 0 für unkorrelierte Xi , Xj . 3.5 Kovarianzen 35 Beispiel 3.5.4. X sei binomialverteilt mit Parametern n, p. Dann gilt X= n X X1 , . . . , Xn unabhängig mit P[Xi = 0] = 1 − p = 1 − P[Xi = 1], Xi , wobei i=1 also Var(X) = n X Var(Xi ) = np(1 − p). i=1 Damit folgt: E[X 2 ] = Var(X) + E[X]2 = np(1 − p) + n2 p2 = np + n(n − 1)p2 . Beispiel 3.5.5. X sei hypergeometrisch verteilt mit Parametern N, K, n, X= n X I{i-ter Fisch ist markiert} = i=1 {z | } Ai n X Xi , Xi = IAi . i=1 Also Var(X) = n X Var(Xi ) + 2 i=1 = n X X Cov(Xi , Xj ) i,j=1 i6=j P[Ai ](1 − P[Ai ]) + 2 X P[Ai ∩ Aj ] − P[Ai ]P[Aj ], i,j=1 i6=j i=1 aber P[Ai ] = K , N P[Ai ∩ Aj ] = K(K − 1) N (N − 1) (überprüfen!). Also K N −K K K −1 Var(X) = n + n(n − 1) − N N N N −1 K K n−1 = ··· = n 1− 1− . N N N −1 K N 2 ! Die folgende Minimaleigenschaft der Kovarianz wird benutzt, wenn man eine (schwer zugängliche) Zufallsvariable mithilfe einer linearen Funktion einer (einfacher zugänglichen) Zufallsvariablen annähern möchte. Lemma 3.5.6. Seien X, Y ∈ L2 mit Var(X) = 1. Dann wird die quadratische Abweichung E[(Y − a − bX)2 ] zwischen Y und der linearen Funktion a + bX minimiert für b = Cov(X, Y ) und a = E[Y − bX]. Falls insbesondere X und Y unkorreliert sind, so hängt die Lösung b = 0 und a = E[Y ] nicht von X ab. 3.5 Kovarianzen 36 Beweis. Wir setzen g(a, b) = E[(Y − a − bX)2 ] = E[Y 2 ] + a2 + b2 E[X 2 ] − 2aE[Y ] − 2bE[XY ] + 2abE[X]. Dann ist g Polynom zweiter Ordnung in a, b und g(a, b) → ∞, also nimmt g sein Minimum an der Nullstelle seines Gradienten an, was auf obige Gleichungen führt. Satz 3.5.7 (Cauchy-Schwarz-Ungleichung). Seien X, Y ∈ L2 Zufallsvariablen. Dann gilt: q E[XY ] ≤ E[X 2 ]E[Y 2 ]. Dabei gilt Gleichheit genau dann, wenn es a, b ∈ R gibt mit (a, b) 6= (0, 0), sodass P [aX + bY = 0] = 1, d. h. wenn X und Y konstante Vielfache voneinander sind. Beweis. Wir setzen α = E[Y 2 ] und β = E[XY ]. Können α > 0 annehmen, denn sonst wäre P [Y = 0] = 1, also E[XY ] = 0 und die Ungleichung stimmt. Dann gilt 0 ≤ E[(αX − βY )2 ] = α2 E[X 2 ] − 2αβE[XY ] + β 2 E[Y 2 ] = α(E[X 2 ]E[Y 2 ] − E[XY ]2 ). Da α > 0, folgt die behauptete Ungleichung. Falls Gleichheit gilt, so ist E[(αX − βY )2 ] = 0, also folgt P [αX − βY = 0] = 1. Falls α > 0, so können wir a = α und b = β wählen. Falls α = 0, so können wir a = 0 und b = 1 nehmen. Definition 3.5.8. X und Y heißen positiv korreliert, falls Cov(X, Y ) > 0 und negativ korreliert, falls Cov(X, Y ) < 0. 4 Summen unabhängiger Zufallsvariablen Wir untersuchen die Verteilung von Summen unabhängiger Zufallsvariablen. Ein wichtiges Hilfsmittel sind erzeugende Funktionen. Außerdem stellen wir eines der grundlegenden Modelle der Stochastik vor, die sogenannte eindimensionale Irrfahrt. 4.1 Faltungen Wenn X und Y unabhängige Zufallsvariablen sind, was ist dann die Verteilung der Summe X + Y ? In diesem Abschnitt betrachten wir nur Zufallsvariablen mit Werten in Z. Definition 4.1.1. Die Faltung zweier absolut summierbarer Folgen a = (ax )x∈Z und b = (by )y∈Z ist die Folge c = (cz )z∈Z , die gegeben ist durch cz = X ax bz−x . x∈Z Wir schreiben c = a ∗ b. Man sieht leicht, dass a ∗ b = b ∗ a und dass (a ∗ b)z∈Z eine absolut summierbare Folge ist, falls a und b dies sind. Satz 4.1.2. Seien X und Y unabhängige Zufallsvariablen mit Verteilungen gegeben durch die Gewichte pX und pY , d. h. pX (x) = P[X = x] und pY (x) = P[Y = x] für alle x, y ∈ Z Dann ist die Verteilung von X + Y gegeben durch die Gewichte pX ∗ pY , d. h. P[X + Y = z] = (pX ∗ pY )(z) für alle z ∈ Z Beweis. Siehe Übungen. Beispiel 4.1.3. Sei X binomialverteilt mit Parametern n1 und p und sei Y binomialverteilt mit Parametern n2 und p, X und Y unabhängig. Dann ist X +Y binomialverteilt mit Parametern n1 + n2 und p. Man sagt auch, für festes p bilden die Binomialverteilungen mit Parametern n und p, n ∈ N eine Faltungshalbgruppe d. h. Binn1 ,p ∗ Binn2 ,p = Binn1 +n2 ,p . 4.2 Erzeugende Funktion 38 Beweis. Wir definieren Binn,p (z) = 0 für z ∈ / {0, 1, . . . , n}. Sei ` ∈ {0, 1, . . . , n1 + n2 }, dann gilt: (Binn1 ,p ∗ Binn2 ,p )(`) = X Binn1 ,p (k) · Binn2 ,p (` − k) k∈Z min{n1 ,`} = ! ! n1 k n2 p (1 − p)n1 −k p`−k (1 − p)n2 −`+k k `−k X k=max{0,`−n2 } min{n1 ,`} = n1 n2 k `−k Binn1 +n2 ,p (`) n1 +n2 ` k=max{0,`−n2 } X | {z =1 (Übung) . } Beispiel 4.1.4. Die Poisson-Verteilungen bilden ebenfalls deine Faltungshalbgruppe: Poiλ1 ∗ Poiλ2 = Poiλ1 +λ2 . Beweis. Siehe Übungen. 4.2 Erzeugende Funktion Definition 4.2.1. Sei X eine Zufallsvariable mit Werten in N0 . Dann heißt die durch ϕX (t) = ∞ X P[X = k]tk k=0 definierte Potenzreihe die erzeugende Funktion von X. Bemerkung 4.2.2. (a) Allgemein heißt für eine Folge (ak )k∈N0 die Potenzreihe ϕ(t) = ∞ X ak tk k=0 die erzeugende Funktion von a. In unserem Fall, mit ak = P[X = k] ist wegen P ϕX (1) = ∞ k=0 ak = 1 gesichert, dass der Konvergenzradius von ϕX nicht verschwindet. (b) Die erzeugende Funktion ϕX hängt nur von der Verteilung von X ab und legt diese eindeutig fest: ϕX (0) = P[X = 0] ∂` ∞ X ϕX (t) = k · (k − 1) · . . . · (k − ` + 1) · P[X = k] · tk−` ∂t` t=0 t=0 k=` = `! · P[X = `] für alle ` ∈ N, 4.2 Erzeugende Funktion 39 d. h. man kann die Verteilung von X aus ϕX rekonstruieren. Insbesondere µX = µY ⇔ ϕX = ϕY für N0 -wertige Zufallsvariablen X und Y . (c) ϕX (t) = E[tX ] für |t| ≤ 1. Beispiel 4.2.3. Sei X binomialverteilt mit Parametern n und p. Dann ist ϕX (t) = n X ! k=0 | n k p (1 − p)n−k tk = (1 − p + pt)n k {z } P[X=k] Beispiel 4.2.4. Sei X Poisson-verteilt mit Parameter λ. Dann gilt: ϕX (t) = ∞ X e−λ k=0 λk k t = e−λ eλt = eλ(t−1) k! Satz 4.2.5. Seien X und Y unabhängige Zufallsvariablen mit Werten in N0 . Dann gilt ϕX+Y (t) = ϕX (t) · ϕY (t) für |t| ≤ 1. Beweis. Sei t mit |t| < 1. Dann gilt: ϕX+Y (t) = E[tX+Y ] tX ,tY unabh. = E[tX ]E[tY ] = ϕX (t) · ϕY (t). Bemerkung. Satz 4.2.5 folgt auch aus dem Faltungssatz, da ϕX (t) · ϕY (t) wieder eine Potenzreihen ist, deren Koeffizientenfolge die Faltung der Koeffizienten von ϕX (t) und ϕY (t) ist. Genauer: ϕX (t)ϕY (t) = = = ∞ X pX (k) · tk · k=0 ∞ X ∞ X pY (k) · tk k=0 (pX + pY )(k) · tk k=0 ∞ X pX+Y (k)tk = ϕX+Y (t) k=0 Beispiel 4.2.6 (vergleiche Beispiel 4.1.3). Seien X und Y unabhängig, sei X binomialverteilt mit n1 , p und sei Y binomialverteilt mit n2 , p. Dann gilt: ϕX+Y (t) = (1 − p + pt)n1 · (1 − p + pt)n2 = (1 − p + pt)n1 +n2 . Also ist X + Y binomialverteilt mit Parametern n1 + n2 , p. 4.2 Erzeugende Funktion 40 Da die erzeugende Funktion die Verteilung festlegt, ist es klar, dass beispielsweise Erwartungswert und Varianz mit der erzeugenden Funktion ausgedrückt werden können. Satz 4.2.7. Sei X Zufallsvariable mit Werten in N0 und erzeugender Funktion ϕ(t). Dann sind äquivalent: (i) E[X(X − 1) · . . . · (X − m + 1)] existiert und ist endlich. ∂m m ϕ(t) t%1 ∂t (ii) ϕ(m) (1− ) := lim existiert und ist endlich. In diesem Fall gilt: E[X(X − 1) · . . . · (X − m + 1)] = ϕ(m) (1− ). | {z m-tes faktorielles Moment } Insbesondere E[X] = ϕ0X (1− ). Beweis. Es gilt: (i) ∞ X ⇔ ⇔ k(k − 1) . . . (k − m + 1)P[X = k] < ∞ k=0 ∞ X ∂m ϕ(t) = k(k − 1) . . . (k − m + 1)P[X = k]tk−m ∂tm k=0 konvergiert im Randpunkt t = 1 ⇔ (ii) nach Satz von Abel. Mit Satz 4.2.7 können wir aus der erzeugenden Funktion von X die Momente von X berechnen: E[X] = ϕ0 (1− ), E[X 2 ] = E[X(X − 1)] + E[X] = ϕ00 (1− ) + ϕ0 (1− ), usw. Insbesondere Var(X) = ϕ00 (1− ) + ϕ0 (1− ) − ϕ0 (1− )2 . Beispiel 4.2.8. Eine randomisierte Summe ist eine Summe von Zufallsvariablen mit einer zufälligen Anzahl von Summanden. Die Zufallsvariablen N, X1 , X2 , . . . seien unabhängig mit Werte in N0 . Seien X1 , X2 , . . . unabhängig und identisch verteilt mit erzeugender Funktion ϕ(t) = E[tX1 ] (|t| ≤ 1). Die erzeugende Funktion von N sei g(t) = E[tN ] (|t| ≤ 1). Wir setzen S0 := 0, Sk := k X Xj j=1 und die randomisierte Summe SN ist gegeben durch N (ω) SN (ω) = X j=1 Xj (ω) für alle ω ∈ Ω. 4.3 Verzweigungsprozesse 41 Es gilt: P[SN = m] = ∞ X P[N = k, Sk = m] N,X1 ,X2 ,...unabh. = k=0 ∞ X P[N = k]P[Sk = m]. k=0 Satz 4.2.9. In dieser Situation gilt: ϕSN (t) = g(ϕ(t)). Insbesondere gilt E[SN ] = E[X1 ]E[N ]. Beweis. Siehe Übungen. Beispiel 4.2.10. Die Wahrscheinlichkeit, dass ein ankommendes radioaktives Teilchen von einem Messgerät erfasst wird, sei gleich p. Eine Quelle sendet Teilchen aus, die Anzahl der im Zeitraum [0, T ] emittierten Teilchen sei Poisson-verteilt mit Parameter λ. ( 1, falls das j-te Teilchen gemessen wird, 0, sonst. Xj = Falls N, X1 , X2 , . . . unabhängig sind, so gilt für SN = ϕSN (t) Satz 4.2.3 = PN j=1 Xj . eλ(ϕ(t)−1) = eλ(1−p+pt−1) = eλp(t−1) . Also ist SN Poisson-verteilt mit Parameter λ · p. 4.3 Verzweigungsprozesse Siehe handschriftliche Notizen. 4.4 Die eindimensionale Irrfahrt Wir betrachten ein Teilchen, das sich auf dem eindimensionalem Gitter Z bewegt. Zum Zeitpunkt 0 startet das Teilchen im Ursprung, zu den Zeitpunkten 1, 2, 3 . . . springt das Teilchen jeweils zu einem der beiden Nachbarn x−1,x+1 des aktuellen Aufenthaltsortes x. Die Entscheidungen, ob man zu x + 1 oder x − 1 geht, werden unabhängig voneinander mit den Würfen einer fairen Münze getroffen. Definition 4.4.1. Seien X1 , X2 , . . . XN unabhängig und identisch verteilt mit P [X1 = 1] = P [X1 = −1] = 12 . Wir setzen S0 := 0, Sn := X1 + X2 + · · · + Xn . (S0 , S1 , . . . , Sn ) heißt Pfad der eindimensionalen symmetrischen Irrfahrt. Wir setzen Ωn := {(s0 , . . . , sn ) ∈ Zn+1 | s0 = 0, |si−1 − si | = 1 für alle 1 ≤ i ≤ n} Sei Pn die Gleichverteilung auf Ωn , d. h. jeder Pfad (s0 , . . . , sn ) ∈ Ωn hat Gewicht 1 2n . 4.4 Die eindimensionale Irrfahrt 42 Interpretation: 1. Sn ist die Position des Teilchens zur Zeit k. 2. Eine faire Münze wird n-mal geworfen. Bei jedem Wurf gilt: falls Zahl kommt, muss Spieler A einen Euro an Spieler B zahlen, andernfalls zahlt Spieler B einen Euro an Spieler A. Dann ist Sk die Bilanz von Spieler A zur Zeit k. Uns interessieren die folgenden Fragen: (i) Mit welcher Wahrscheinlichkeit ist das Teilchen zur Zeit n im Ursprung? (ii) Mit welcher Wahrscheinlichkeit hat das Teilchen bis zum Zeitpunkt n ein bestimmtes Maximum erreicht? (iii) Mit welcher Wahrscheinlichkeit war das Teilchen nie in −N bis zum Zeitpunkt n? (iv) Mit welcher Wahrscheinlichkeit verbringt das Teilchen einen bestimmten Anteil der Zeit in N? (i) wird beantwortet im folgendem Lemma. Lemma 4.4.2. Für alle n ∈ N und i ∈ Z gilt: Pn [Sn = i] = 0, 1n 2 n n+i 2 , Insbesondere gilt u2n = P2n [S2n = 0] = falls |i| > n oder n + i ungerade, sonst. 1 2n 22n n Beweis. Es ist klar, dass das Ereignis {Si = i} nicht eintreten kann, falls |i| > n. Weiter Pn [Sn = i] = 0, falls n + i ungerade. Falls n + i gerade, so muss das Teilchen, um zum n+i Zeitpunkt n in i zu sein, genau n+i 2 »aufwärts« springen (d. h. 2 der Zufallsvariablen n n−i X1 , . . . , Xn müssen den Wert 1 haben) und 2 »abwärts«. Es gibt genau n+1 Pfade, 2 die dies tun. Das asymptotische Verhalten von u2n = P[S2n = 0] ist gegeben durch folgendes Korollar. Korollar 4.4.3. Es gilt: u2n = 2−2n (dabei an ∼ bn falls an bn → 1). 2n n ! 1 ∼√ πn für n → ∞. 4.4 Die eindimensionale Irrfahrt 43 Beweis. Folgt aus Lemma 4.4.2 mit der Stirlingformel √ n! ∼ 2πnnn e−n . Damit gilt: 2n n ! √ 22n 2n! 2π2n22n n2n e−2n = ∼ √ 2 = √ . n!n! πn 2πnnn e−n Insbesondere also 1 2n 22n n ! 1 ∼√ . πn Frage (ii) ist die Frage nach der Verteilung des Maximums des Pfades, d. h. der Zufallsvariable Mn := max(S0 , . . . , Sn ). Eines der wichtigsten Hilfsmittel dazu ist das Spiegelungsprinzip. Wir bestimmen die Wahrscheinlichkeit der Menge der Pfade, die den Ort j ∈ N0 erreichen und nach insgesamt n Schritten in i ≤ j enden. Lemma 4.4.4. Für alle n ∈ N0 und i, j ∈ Z mit j ≥ 0 und i ≤ j gilt: Pn [Mn ≥ j, Sn = i] = Pn [Sn = 2j − i]. Beweis. Wir können annehmen, dass n + i gerade ist. Für einen Pfad (s0 , . . . , sn ) ∈ {M ≥ j, Sn = i} betrachten wir das kleinste k ∈ {0, . . . , n} mit sk = j, also den ersten Zeitpunkt, an dem das Teilchen den Ort j erreicht. Nun »spiegeln« wir das Pfadstück (sk , . . . , sn ) und erhalten einen Pfad s̃ = (s̃0 , . . . , s̃n ) ∈ Ωn mit s˜n = j + (j − i) = 2j − i. Dieser Pfad liegt also in {Sn = 2j − i}. Spiegeln heißt formal X̃1 = X1 , . . . , X̃k = Xk , X̃k+1 = −Xk+1 , X̃k+2 = −Xk+2 , . . . X̃n = −Xn . Das Spiegeln ab dem Zeitpunkt k, (s0 , . . . , sn ) 7→ (s̃0 , . . . s̃n ) ist eine bijektive Abbildung zwischen den Mengen {Mn ≥ j, Sn = i} und {Sn = 2j − i}. Die Umkehrabbildung erhält man, indem man einen Pfad aus der Menge {Sn = 2j − i} ab dem ersten Zeitpunkt, an dem j erreicht wird, spiegelt. Dieser Zeitpunkt ist ≤ n, da 2j − i ≥ j ≥ i ≥ 0. Also enthalten die Mengen {Mn ≥ j, Sn = i} und {Sn = 2j − i} dieselbe Anzahl an Pfaden. Satz 4.4.5. Für alle n ∈ N und alle i, j ∈ Z mit j ≥ 0 und i ≤ j gelten: (a) Pn [Mn = j, Sn = i] = Pn [Sn = 2j − i] − Pn [Sn = 2j − i + 2], (b) Pn [Mn = j] = Pn [Sn ∈ {j, j + 1}]. 4.4 Die eindimensionale Irrfahrt 44 Beweis. (a) Pn [Mn = j, Sn = i] = Pn [Mn ≥ j, Sn = i] − Pn [Mn ≥ j + 1, Sn = i] = Pn [Sn = 2j − i] − Pn [Sn = 2j + 2 − i] nach Lemma 4.3.4 (b) Pn [Mn = j] = j X Pn [Mn = j, Sn = i] i=2j−n a = = j X Pn [Sn = 2j − i] − P _n[Sn = 2j + 2 − i] i=2j−n n X Pn [Sn = k] − Pn [Sn = k + 2] k=j = Pn [Sn ∈ {j, j + 1}] Nun betrachten wir die folgenden Ereignisse: A2n = {S1 6= 0, . . . , Sn−1 6= 0, S2n = 0}, B2n = {Si 6= 0 | i ∈ {1, 2, . . . , 2n}}, C2n = {Si ≥ 0 | i ∈ {1, 2, . . . , 2n}}. Mit u2n = P2n [S2n = 0] wie früher, haben wir also P2n [A2n ] ≤ u2n . Falls A2n oder B2n eintritt, kann sich das Teilchen im Zeitintervall {1, . . . , 2n − 1} entweder in N oder in −N aufhalten. Lemma 4.4.6. Für jedes n ∈ N gelten die Beziehungen: 1 u2n−2 = u2n−2 − u2n , 2n P2n [B2n ] = u2n , P2n [A2n ] = P2n [C2n ] = u2n . (4.3.1) (4.3.2) (4.3.3) Beweis. (4.3.1) Wir zählen die Anzahl der Pfade, die in der negativen Halbachse bleiben, und multiplizieren die Anzahl mit 2. Ein solcher Pfad ist zu den Zeitpunkten 1 und 2n − 1 in −1 und geht zwischendurch nie nach 0. Also P2n [A2n ] = 2P2n [S1 < 0, . . . , S2n−1 < 0, S2n = 0] 1 = 2 · 2n (|{S2n−2 = 0}| − |{S2n−2 = 0, M2n−2 ≥ 1}|) | {z } 2 =|{S2n−2 =2}| 4.4 Die eindimensionale Irrfahrt 45 Also ! !! 2n − 2 2n − 2 − n−1 n P2n [A2n ] = 2−(2n+1) = ... ! 1 1 2n − 2 −2n+2 u2n−2 , 2 = = 2n n − 1 2n dies zeigt die erste Gleichung in (4.3.1), die zweite rechnet man leicht nach. (4.3.2) Das Komplement von B2n ist das Ereignis, dass das Teilchen zu einem der Zeitpunkte 2j mit j ∈ {1, 2, . . . , n} zum ersten Mal zurück nach 0 kommt, also c B2n = n [ {S1 6= 0, . . . , S2j−1 6= 0, S2j = 0} j=0 (wobei die Vereinigung disjunkt ist). Also c P2n [B2n ]= n X (4.3.1) P2j [A2j ] = j=1 n X u2(j−1) − u2j = 1 − u2n , j=1 folglich P2n [B2n ] = u2n . (4.3.3) Übung. Bemerkung 4.4.7. Später: X1 , X2 , . . . unabhängig und identisch verteilt, definieren (Sn )n∈N0 , d. h. setzen Pn fort zu P auf Ω := {(s0 , s1 , . . . ) ∈ ZN | s0 = 0, |si−1 − si | = 1 für alle i ≥ 1} . Dann ist T := inf{k ∈ N | Sk = 0} ∈ N0 ∪ {∞} der Zeitpunkt der ersten Rückkehr zum Ursprung. Es gilt P[T > 2n] = P2n [B2n ], also P[T > 2n] → 0. Daraus schließt man P[T = ∞] = 0, d. h. das Teilchen kehrt n→∞ (mit Wahrscheinlichkeit 1) irgendwann zum Ursprung zurück. Andererseits gilt E[T ] = P∞ k=1 kP[T = k], aber {T = 2n} = A2n , also E[T ] = ∞ X n=1 2nP2n [A2n ] = ∞ X n=1 2n ∞ X 1 u2n−2 = u2n−2 2n n=1 und wegen Korollar 4.3.3 divergiert diese Reihe, also E[T ] = ∞, d. h. das Teilchen kehrt mit Wahrscheinlichkeit 1 zum Ursprung zurück, braucht aber – im Durchschnitt – unendlich viel Zeit dafür! 5 Wahrscheinlichkeit mit Dichten Wir werden zum Beispiel Zufallsvariablen betrachten, die gleichverteilt auf [0, 1] sind, also überabzählbar viele Werte annehmen können. 5.1 Grundbegriffe R Definition 5.1.1. (a) Eine Abbildung f : R → [0, ∞) für die f (x)dx existiert und den Wert 1 besitzt, heißt Wahrscheinlichkeitsdichte oder auch Dichte. (b) Eine Abbildung F : R → [0, 1] heißt Verteilungsfunktion, falls die folgenden Bedingungen gelten: (i) F ist monoton wachsend, (ii) limt→∞ F (t) = 1 und limt→−∞ F (t) = 0, (iii) F ist rechtsseitig stetig (d. h. lims&t F (s) = F (t) für alle t ∈ R) Bemerkung 5.1.2. (a) Falls f eine Dichte ist, so gibt es eine zugehörige VerteilungsRt funktion F , definiert durch F (t) = −∞ f (x)dx (t ∈ R) und F ist stetig, f heißt Dichte von F . Nicht jede stetige Verteilungsfunktion F hat eine Dichte. (b) Falls eine Dichte f in endlich vielen Punkten abgeändert wird,R so erhält man eine R neue Dichte f˜. Für jedes Intervall I ⊆ R gilt dann I f (x)dx = I f˜(x)dx. (c) Falls F die Dichte f hat und f stetig in a ist, so gilt F 0 (a) = f (a). Definition 5.1.3. Für eine reellwertige Zufallsvariable X heißt die Abbildung FX : R → [0, 1], t 7→ P[X ≤ t] die Verteilungsfunktion von X. Wir sagen, X hat eine Dichte, falls FX eine Dichte hat. Definition 5.1.4. Sei (Ω, F, P) Wahrscheinlichkeitsraum (vergleiche Def 1.1.3) Die Abbildung X : Ω → R heißt Zufallsvariable, falls {X ≤ c} = {ω ∈ Ω | X(ω) ≤ c} ∈ F für alle c ∈ R. Bemerkung 5.1.5. (a) Falls X eine diskrete Zufallsvariable ist (d. h. X nimmt nur abzählbar viele Werte an), so ist FX die rechtsseitige Treppenfunktion, die jeweils an den Orten x mit P[X = x] > 0 einen Sprung der Höhe P[X = x] macht. Insbesondere hat X keine Dichte. 5.2 Übertragung der bisherigen Ergebnisse 47 Beispiel. 1 P[X = 0] = P[X = 1] = . 2 (b) Falls eine Zufallsvariable X eine Dichte f hat, so gilt P[X ∈ A] = Z f (x)dx (5.1.1) A für alle A, für die die Abbildung f · IA integrierbar ist (z. B. für alle endlichen Vereinigungen A von Intervallen). Insbesondere gilt P[X = x] = 0 für alle x ∈ R, R n→∞ denn 0 ≤ P[X = x] ≤ P[x ≤ X ≤ x + 1/n] = xx+1/n f (y)dy −−−→ 0 Beispiel 5.1.6. Sei f definiert durch ( f (x) = 1, 0, falls 0 ≤ x ≤ 1, sonst. f ist Dichte zu F , definiert durch F (t) = 0, falls t < 0, t, falls 0 ≤ t ≤ 1, 1, falls t ≥ 1. Eine Zufallsvariable X mit Verteilungsfunktion F heißt gleichverteilt auf [0, 1]. Wir sagen: ein Wahrscheinlichkeitsmaß µ auf Ω = R hat eine Dichte f , falls die Zufallsvariable X(ω) = ω eine Dichte f hat. In diesem Fall gilt Z µ(A) = f (x)dx, A falls A ⊆ R, f · IA integrierbar, also insbesondere falls A endliche Vereinigung von Intervallen. 5.2 Übertragung der bisherigen Ergebnisse Erwartungswerte, Varianzen und Kovarianzen werden analog zu den jeweiligen Größen für diskrete Zufallsvariablen definiert. Definition 5.2.1. Sei X eine Zufallsvariable mit Dichte f . Der Erwartungswert von X existiert und ist endlich genau dann, wenn Z |x| f (x)dx < ∞. In diesem Fall sagen wir X ∈ L1 , und der Erwartungswert ist gegeben durch Z xf (x)dx E[X] = R (vergleiche Def 3.3.1). 5.2 Übertragung der bisherigen Ergebnisse 48 Monotonie, Linearität gelten auch für diese Definition des Erwartungswertes, vergleiche Lemma 3.3.2. Falls X nach unten beschränkt ist, können wir E[X] definieren durch E[X] = R xf (x)dx, falls R R xf (x) < ∞, R +∞, sonst, und falls X nach oben beschränkt ist, können wir E[X] definieren durch E[X] = R xf (x)dx, falls R R xf (x) > −∞, R −∞, sonst. Definition 5.2.2. Sei X eine Zufallsvariable mit Dichte f und E[X] existiere. Die Varianz von X ist definiert durch Var(X) = E[(X − E[X])2 ] ∈ [0, ∞] und es gilt (analog zu (3.4.1)): Z Var(X) = (x − E[X]2 )f (x)dx. Die Standardabweichung σ(X) ist definiert durch σ(X) = q Var(X). ( Beispiel 5.2.3. Sei X gleichverteilt auf [0, 1], d. h. X hat Dichte f , f (x) = 1, 0 ≤ x ≤ 1 0, sonst. Dann gilt Z 1 Z xdx = xf (x)dx = E[X] = 0 R und Z 1 1 2 1 12 R 0 Definition 5.2.4. Seien X und Y Zufallsvariablen. Wir nehmen an, dass X, Y und X ·Y eine Dichte haben, und dass X und Y endliche Varianzen haben. Die Kovarianz von X und Y ist dann definiert durch Z Var(X) = (x − 1/2)2 f (x)dx = (x − 1/2)2 dx = · · · = Cov(X, Y ) = E[XY ] − E[X]E[Y ]. X und Y heißen unkorreliert, falls Cov(X, Y ) = 0. Lemma 3.5.2, Korollar 3.5.3 und Satz 3.5.7 gelten weiterhin. Definition 5.2.5. Wir sagen X1 , . . . , Xn haben die gemeinsame Dichte f : Rn → [0, ∞), falls mit X := (X1 , . . . , Xn ) gilt: P [X ∈ A] = Z f (x1 , . . . , xn )dx1 . . . dxn A für alle A ⊆ Rn , für die f · IA integrierbar ist. 5.2 Übertragung der bisherigen Ergebnisse 49 Bemerkung. Falls X1 , . . . , Xn eine gemeinsame Dichte f haben, so gilt: Z P [X1 ≤ t1 , . . . , Xn ≤ tn ] = Qn f (x1 , . . . , xn )dx1 . . . dxn i=1 (−∞,ti ) Z tn Z t1 ... = −∞ −∞ f (x1 , . . . , xn )dx1 . . . dxn . Insbesondere besitzen dann die einzelnen Zufallsvariablen X1 , . . . , Xn jeweils eine Dichte. Man erhält die Dichte fi von Xi , indem man f über alle Werte, die die anderen Zufallsvariablen annehmen können, integriert: P [Xi ≤ ti ] = Z f (x1 , . . . , xn )dx1 . . . dxn R×···×R×(−∞,ti ]×R×···×R Z ti Z = −∞ Rn−1 f (x1 , . . . , xn )dx1 . . . dxi−1 dxi+1 . . . dxn dxi (fi (xi ) ist die i-te Randdichte von f ). Beispiel 5.2.6. Sei (X1 , X2 ) gleichverteilt auf A = {(x1 , x2 ) | 0 ≤ x2 ≤ x1 ≤ 1}, d. h. die gemeinsame Dichte f sei gegeben durch ( f (x1 , x2 ) = 2, falls (x1 , x2 ) ∈ A, 0, sonst. Dann hat X1 die Dichte f1 , Z ∞ f1 (x1 ) = −∞ f (x1 , x2 )dx2 Z x1 = 2dx2 = 2x1 (0 ≤ x1 ≤ 1) 0 Also hat X1 die Verteilungsfunktion FX1 , FX1 (t) = 2 t , 0, 1, falls 0 ≤ t ≤ 1, falls t < 0, falls t > 1. Beachte: X1 ist nicht gleichverteilt auf [0,1]. Unabhängigkeit Definition 5.2.7. Seien X1 , . . . , Xn Zufallsvariablen. X1 , . . . , Xn heißen unabhängig, falls für alle t1 , . . . , tn ∈ R gilt: P[X1 ≤ t1 , . . . , Xn ≤ tn ] = n Y i=1 P[Xi ≤ ti ]. 5.2 Übertragung der bisherigen Ergebnisse 50 Bemerkung. Für diskrete Zufallsvariablen ist Definition 5.2.7 äquivalent zu Definition 3.2.1 bzw. Lemma 3.2.2. Beweis. Übung. Lemma 5.2.8. Seien X1 , . . . , Xn Zufallsvariablen mit Dichten f1 , . . . , fn : R → [0, ∞). X1 , . . . , Xn sind genau dann unabhängig, falls eine gemeinsame Dichte f (x1 , . . . , xn ) existiert und gegeben ist durch f (x1 , . . . , xn ) = n Y für alle x1 , . . . , xn ∈ R. fi (xi ) i=1 Beweis. Übung. Beispiel 5.2.9. Sei X1 gleichverteilt auf [0, 1] und X2 = X1 . Dann sind X1 , X2 nicht unabhängig, denn für 0 < t < 1 gilt: P[X1 ≤ t, X2 ≤ t] = P[X1 ≤ t] 6= P[X1 ≤ t]2 . (X1 , X2 ) hat keine gemeinsame Dichte, d. h. es gibt keine Funktion f , sodass P[(X1 , X2 ) ∈ A] = Z f (x1 , x2 )dx1 dx2 . A Transformation von Zufallsvariablen Lemma 5.2.10. Seien U, V ⊆ R und sei X Zufallsvariable mit Dichte f , f (x) = 0 für alle x ∈ / U . Sei g : U → V bijektiv,differenzierbar und g −1 monoton wachsend. Dann ist Y = g(x) eine Zufallsvariable mit Dichte fY (y) = f (g −1 (y)) . g 0 (g −1 (y)) Insbesondere gilt: falls E[Y ] existiert, so ist f (g −1 (y)) E[Y ] = y 0 −1 dy R g (g (y)) Z z=g −1 (y) Z g(z)f (z)dz. = (5.2.1) R Beweis. Es gilt: P[Y ≤ t] = P[g(x) ≤ t] = P[X ≤ g −1 (t)] = F (g −1 )(t), also FY (t) = F (g −1 (t)). Da F differenzierbar, ist auch FY differenzierbar und es gilt: fY (y) = f (g −1 (y)) , g 0 (g −1 (y)) y ∈V. 5.2 Übertragung der bisherigen Ergebnisse 51 Bemerkung. (a) (5.2.1) gilt auch allgemeiner, falls g nur stetig ist. (b) Allgemein gilt, falls Y = g(X), X = (X1 , . . . , Xn ) mit Dichte f (x1 , . . . , xn ), g stetig: Z g(x1 , . . . , xn )f (x1 , . . . , xn )dx1 . . . dxn . E[g(X)] = R Beispiel 5.2.11. Sei X gleichverteilt auf [0, 1], Y = cX, d. h. g(x) = cx, g −1 (x) = 1c x. Also hat Y die Dichte f fY (x) = 1 cy ( = c 1 c 0 falls 0 ≤ y ≤ c, sonst. Wir sagen: Y ist gleichverteilt auf [0, c]. Faltung Die Faltung zweier integrierbarer Funktionen f, g : R → R ist definiert als die Funktion (f ∗ g)(y) = Z f (x)g(y − x)dx, y ∈ R. R In Analogie zum Faltungssatz 4.1.2 gilt folgender Satz. Satz 5.2.12. Seien X, Y unabhängige Zufallsvariablen mit Dichten f, g . Dann hat die Zufallsvariable X + Y die Dichte f ∗ g. Beweis. Nach Lemma 5.2.9 hat (X, Y ) die Dichte (x, y) 7→ f (x)g(y). Es sei z ∈ R und Az = {(x, y) ∈ R2 | x + y ≤ z}. Dann gilt: P[X + Y ≤ z] = P[(X, Y ) ∈ Az ] Z f (x)g(y)dxdy = Az Z ∞ Z z−x f (x) = −∞ −∞ Z ∞ Z z −∞ −∞ Z ∞ Z = −∞ Z z = −∞ g(y − x)dy dx f (x) = g(y)dy dx f (x)g(y − x)dx dy R (f ∗ g)(y)dy. 5.3 Beispiele 52 5.3 Beispiele Beispiel 5.3.1. Seien a, b ∈ R mit a < b. Die Dichte f sei gegeben durch: ( f (x) = 1 b−a , falls a ≤ x ≤ b, sonst. 0, Die zugehörige Verteilungsfunktion F ist gegeben durch F (x) = 0, falls x < a, falls a ≤ x ≤ b, falls b ≤ x. x−a , b−a 1, Eine Zufallsvariable X mit dieser Verteilungsfunktion F heißt gleichverteilt auf [a, b]. Beispiel 5.3.2. Sei α ∈ (0, ∞) ein reeller Parameter. Die Dichte ( f (t) = αe−αt , 0, falls t ≥ 0, falls t < 0 heißt Dichte der Exponentialverteilung. Die zugehörige Verteilungsfunktion ist gegeben durch ( 1 − e−αt , falls t ≥ 0, F (t) = 0, falls t < 0. Sei X exponentialverteilt mit Parameter α. Dann gilt: Z ∞ Z xf (x)dx = E[X] = xαe−αx dx = · · · = 0 R 1 . α Ebenso berechnet man die Varianz 1 x− α Z Var(X) = R 2 f (x)dx = · · · = 1 . α2 Beweis. Übung. Die Exponentialverteilung ist das stetige Gegenstück zur geometrischen Verteilung. Sie hat die Eigenschaft der Gedächtnislosigkeit Lemma 5.3.3. Sei X exponentialverteilt mit Parameter α. Dann gilt für alle s, t > 0: P[X > t + s | X > s] = P[X > t]. Beweis. siehe Übungen. 5.3 Beispiele 53 Beispiel 5.3.4. Die Dichte der Normalverteilung mit Parameter µ ∈ R und σ ∈ (0, ∞) ist gegeben durch: (t−µ)2 1 e− 2σ2 ϕµ,σ (t) = √ für alle t ∈ R. 2πσ 2 ϕµ,σ (·) ist eine Dichte. Dafür genügt es zu zeigen: Z ∞ √ t2 e− 2 dt = 2π. −∞ Es gilt: Z ∞ 2 2 − t2 e dt Z ∞ e = Z ∞ 2 − x2 dx −∞ Z 2π Z ∞ −∞ = e− y2 2 dy −∞ r2 re− 2 dr dϕ = 2π. 0 0 Die zugehörige Verteilungsfunktion ist Z x Φµ,σ (x) = √ −∞ 1 2πσ 2 e− (t−µ)2 2σ 2 dt (siehe Tabellen). Sei X Zufallsvariable mit Dichte ϕµ,σ . Dann gilt: E[X] = µ Var(X) = σ 2 . und Denn: Z tϕµ,σ (t)dt E[X] = R Z ∞ √ = −∞ =µ+ √ 1 e− 2πσ 2 Z 1 2πσ 2 (t−µ)2 2σ 2 ∞ dt t2 e− 2σ2 dt = µ −∞ und Var(X) = √ 1 Z ∞ (t − µ)2 e− (t−µ)2 2σ 2 dt 2πσ 2 −∞ Z ∞ s= t−µ s2 σ2 σ = √ s2 e− 2 ds 2π −∞ Z ∞ 2 s2 σ2 − s2 =√ −se− 2 |∞ + e ds = σ2. −∞ 2π −∞ Man bezeichnet die Normalverteilung mit Erwartungswert µ und Varianz σ 2 als N (µ, σ 2 ). Im Fall λ = 0 und σ 2 = 1 spricht man von der Standardnormalverteilung N (0, 1). Falls X die Verteilung N (µ, σ 2 ) hat, so gilt X = σ X̃ + µ und X̃ hat Verteilung N (0, 1). (5.3.2) 5.3 Beispiele 54 Beweis. Mit Lemma 5.2.11. Lemma 5.3.5. Für alle µ1 , µ2 ∈ R und σ1 , σ2 ∈ (0, ∞) gilt: ϕµ1 ,σ1 ∗ ϕµ2 ,σ2 = ϕµ1 +µ2 ,σ , wobei σ = q σ12 + σ22 . Beweis. Übung. Beispiel 5.3.6. Die Dichte der Cauchy-Verteilung mit Parameter c ∈ (0, ∞) ist gegeben durch c 1 f (x) = für alle x ∈ R. 2 π x + c2 Die zugehörige Verteilungsfunktion ist Z t −∞ 1 t arctan π c f (x)dx = F (t) = 1 + . 2 Der Erwartungswert der Cauchy-Verteilung existiert nicht, da x 7→ bar ist. x x2 +c2 nicht integrier- 6 Grenzwertsätze In diesem Kapitel betrachten wir das Gesetz der großen Zahlen und den zentralen Grenzwertsatz. Beide Sätze machen Aussagen über das asymptotische Verhalten (für n → ∞) von n unabhängig und identisch verteilten Zufallsexperimenten. 6.1 Das Gesetz der großen Zahlen Wir beginnen mit einer wichtigen Ungleichung für die Wahrscheinlichkeit einer Abweichung einer Zufallsvariable von ihrem Erwartungswert. Satz 6.1.1 (Markov-Ungleichung). Sei X eine Zufallsvariable und ϕ : (0, ∞) → (0, ∞) eine monoton wachsende Funktion. Dann gilt für jedes c>0: P[|X| ≥ c] ≤ E[ϕ(|X|)] ϕ(c) (6.1.1) Beweis. Auf der Menge {|X| ≥ c} = {ω ∈ Ω : |X(ω)| ≥ c} gilt, wegen der Monotonie von ϕ : ϕ(c) ≤ ϕ(|X(ω)|). Also gilt: I{|X|≥c} ≤ ϕ(|X|) ϕ(c) . Wir nehmen auf beiden Seiten den Erwartungswert und erhalten (6.1.1). Korollar 6.1.2 (Chebyshev-Ungleichung). Sei X ∈ L2 und c > 0. Dann gilt P[|X − E[X]| ≥ c] ≤ Var(X) c2 (6.1.2) Beweis. Wir setzen in Satz 6.1.1 ϕ(x) = x2 und ersetzen X durch X − E[X]. Bemerkung. Man kann “=” in haben, z. B. für X= c 1 2c2 0 1− −c 1 2c2 (diese Schreibweise bedeutet: P[X = c] = 1 2c2 P[|X − 0| ≥ c] = 1 c2 usw.) Dann ist E[X] = 0, Var(X) = 1 und 1 Var(X) = . c2 c2 6.1 Das Gesetz der großen Zahlen 56 Wir betrachten nun n unabhängige Zufallsexperimente mit Resultaten X1 , . . . , Xn , d. h. X1 , . . . , Xn seien unabhängige Zufallsvariablen. Wir nehmen an, dass X1 , . . . , Xn ∈ L1 und m = E[X1 ] = · · · = E[Xn ]. Wie verhält sich n1 Sn = n1 (X1 +· · ·+Xn ) für n → ∞?! Definition 6.1.3. Eine Folge (Yn )n∈N von Zufallsverteilungen konvergiert in Wahrscheinlichkeit (oder: konvergiert stochastisch) gegen eine Zufallsverteilung Y , falls für jedes ε > 0 gilt: P[|Yn − Y | ≥ ε] → 0. n→∞ p p In diesem Fall schreiben wir Yn → Y . Es ist klar, dass Yn → Y genau dann, wenn p |Yn − Y | → 0. Zur Erinnerung: X und Y heißen unkorreliert, falls Cov(X, Y ) = 0, also falls E[XY ] = E[X]E[Y ]. Satz 6.1.4. Für jedes n ∈ N seien paarweise unkorrelierte Zufallsvariablen X1 , . . . , Xn gegeben, die alle denselben Erwartungswert m ∈ R und dieselbe Varianz V ∈ R haben. Dann gilt: Sn P − m ≥ ε → 0, n d. h. Sn n konvergiert stochastisch gegen m. Beweis. Wir haben E[ Snn ] = m und, da X1 , . . . , Xn paarweise unkorreliert sind, Var Sn n = 1 1 1 Var(X1 + · · · + Xn ) = 2 (Var(X1 ) + . . . + Var(Xn )) = V. n2 n n Also gibt die Chebyshev-Ungleichung Var( Snn ) Sn V P | − m| ≥ ε ≤ = 2 → 0. n ε2 nε n→∞ Korollar 6.1.5. Für jedes n ∈ N seien X1 , . . . , Xn unabhängig und identisch verteilt p mit Var(X1 ) = V < ∞. Dann gilt Snn → m = E[X1 ] (Sn = X1 + . . . + Xn ). Beispiel 6.1.6. Anwendung des schwachen Gesetz der großen Zahlen auf BernsteinPolynome. Sei f ∈ C([0, 1]). Dann heißt Bn (x) = n X k=0 das n-te Bernstein-Polynom. k n f ! n k x (1 − x)n−k k (0 ≤ x ≤ 1) 6.2 Der zentrale Grenzwertsatz 57 Interpretation: Sn = Anzahl der Erfolge bei n unabhängigen Münzwürfen mit Parameter x. Dann ist Sn Bn (x) = E f n (X1 , . . . , Xn unabhängig und identisch verteilt mit P[Xi = 0] = 1 − x = 1 − P [Xi = 1]). p Da Snn → x und f stetig, erwarten wir Bn → f . Genauer: sup |Bn (x) − f (x)| → 0, n→∞ x∈[0,1] d. h. die Bernstein-Polynome konvergieren gleichmäßig gegen f . Beweis. Sn Sn |Bn (x) − f (x)| = E f − f (x) ≤ E f − f (x) n n Sn Sn ≤ 2 sup |f (y)| P − x ≥ δ + sup |f (y) − f (z)|P − x < δ , n n y y,z:|y−z|<δ denn: sei A = {| Snn − x| ≥ δ}, dann gilt: Sn E f n Sn − f (x) = E f n ≤ 2 sup |f (y)|P [A] + y ≤ 2 sup |f (y)| y Sn − f (x) IA + E f sup − f (x) IAC n |f (y) − f (z)|P[AC ] y,z:|y−z|<δ x(1 − x) + sup |f (y) − f (z)|. nδ 2 y,z:|y−z|≤δ Sei ε > 0. Wähle δ ≤ δ0 (ε), dann gilt ε |f (y) − f (z)| ≤ , 2 y,z:|y−z|<δ sup (f gleichmäßig stetig auf [0, 1]!) und n ≥ n0 (δ, ε), dann gilt sup |f (y)| y ε x(1 − x) ≤ , 2 nδ 2 also supx |Bn (x) − f (x)| ≤ ε. Da ε > 0 beliebig war, folgt die Behauptung. 6.2 Der zentrale Grenzwertsatz Haben gesehen: falls X1 , . . . , Xn unabhängig und identisch verteilt mit Var(X1 ) < ∞, p so gilt ( Snn − m) → 0, wobei m = E[X1 ]. Frage: Von welcher Größenordnung ist ( Snn − m)? 6.2 Der zentrale Grenzwertsatz 58 Sei α > 0. Dann 1 P n − m ≥ ε ≤ 2 n2α n ε α Sn Var Sn −m n {z | 1 n2 = 1 2α−1 n Var(X1 ). ε2 } 1 Var(X1 ) Var(Sn )= n p Also nα | Snn − m| → 0, falls α < 12 . Antwort: ( Snn − m) ist von der Größenordnung in Verteilung konvergiert. √1 : n wir werden sehen, dass √ n( Snn − m) Definition 6.2.1. Die Zufallsvariablen X1 , X2 , . . . haben die Verteilungsfunktionen F1 , F2 , . . . und die Zufallsvariable X habe die Verteilungsfunktion F . Wir sagen: Xn konvergiert in Verteilung gegen X, falls für alle t ∈ R, für die F in t stetig ist, gilt: lim Fn (t) = F (t). n→∞ d In diesem Fall schreiben wir Xn → X. Wir formulieren nun den zentralen Grenzwertsatz. Satz 6.2.2. Für jedes n seien X1 , . . . , Xn unabhängig und identisch verteilt mit Erwartungswert E[X1 ] = m und Varianz Var(X1 ) = V < ∞. Sei Sn = X1 + · · · + Xn . Dann gilt für jedes t ∈ R: P Sn − nm √ ≤t =P nV Das heißt, Sn √−nm nV r n V 1 Sn − m ≤ t n 1 → Φ(t) = √ n→∞ 2π Z t z2 e− 2 dz. (6.1) −∞ konvergiert in Verteilung gegen Y , wobei Y Verteilung N (0, 1) hat. Bemerkung. Wir können Satz 6.2.2. in einem Spezialfall sofort verifizieren, nämlich in dem Fall X1 , . . . , Xn unabhängig und identisch verteilt mit Verteilung N (m, σ 2 ). Dann Sn hat Sn die Verteilung N (0, n), also hat Sn√−nm =√ die Verteilung N (0, 1), und es gilt n nV P Sn − 0 √ ≤ t = Φ(t) für alle t ∈ R, n ∈ N. n1 Sei µ die Verteilung von X1 − m. Wir ordnen µ die Verteilung von 1 Sn − 2m = √ ((X1 − m) + (X2 − m)) 2V 2V zu. Dann ist N (0, 1) ein Fixpunkt unter dieser Abbildung. In diesem Sinne lässt sich der zentrale Grenzwertsatz als Fixpunktsatz interpretieren: µ 7→ g(µ). Die Abbildung g hat den Fixpunkt N (0, 1). Es gilt: g n (µ) → N (0, 1), wobei g n die n-fache Hintereinanderausführung von g bezeichnet. 6.2 Der zentrale Grenzwertsatz 59 Bemerkung. (6.1) impliziert, dass auch Sn − nm √ <t P nV → Φ(t) . (6.2) n→∞ Denn, für alle k ∈ N, P hence Sn − nm Sn − nm 1 √ √ <t ≥P ≤t− k nV nV Sn − nm 1 √ lim inf P <t ≥Φ t− n→∞ k nV → Φ(t) . k→∞ Beweisskizze für Satz 6.2.2. Wir geben eine Beweiskizze unter der stärkeren Voraussetzung E[eλX1 ] < ∞ für alle λ ∈ R. Lemma 6.2.3. Seien Z, Z1 , Z2 , . . . Zufallsvariablen mit E[eλZi ] < ∞ für alle λ ∈ R,i ∈ N, E[eλZ ] < ∞ für alle λ ∈ R, und es gelte E[eλZn ] → E[eλZ ] für alle λ ∈ R. Dann gilt d Zn → Z. Beweis. Siehe später, d.h. Vorlesung “Probability Theory”. d → Y , wobei Y Verteilung N (0, 1) hat. Sei Xi∗ = Zu zeigen: Sn√−nm nV E[Xi∗ ] = 0, Var(Xi∗ ) = 1. Nach Lemma 6.2.3 genügt es zu zeigen, dass " E e λ ∗ +···+X ∗ X1 n √ n # 1 → e2λ 2 Übung n→∞ = X√ i −m . V Dann E[eλY ]. Aber, da X1∗ , . . . , Xn∗ unabhängig und identisch verteilt: " λ E e ∗ +···+X ∗ X1 n √ n # " X∗ λ √1n =E e # X∗ λ √n n ...E e " =E e " X∗ λ √1n #n !#n X∗ λ 2 1 (X ∗ )2 √ = E 1 + λ √ 1 + λ2 1 + o n 2 n n n 1 2 1 1 1 → e2λ . = 1 + 0 + λ2 + o n→∞ 2 n n Typische Anwendungen des zentralen Grenzwertsatzes sind die folgenden: Beispiel 6.2.4 (Irrfahrt). Sei Sn der Endpunkt der Irrfahrt mit n Schritten aus Kapitel 4, d. h. Sn = X1 + · · · + Xn , wobei X1 , X2 , . . . , Xn unabhängig und identisch verteilt mit 1 P[Xi = +1] = P[Xi = −1] = . 2 6.2 Der zentrale Grenzwertsatz 60 Mit dem zentralen Grenzwertsatz gilt Sn P √ ≤t n → Φ(t). n→∞ Insbesondere gilt für jedes c ∈ R P [Sn ∈ [−c, c]] → 0. n→∞ Beweis. Sei ε > 0. Wähle δ > 0 so, dass 2Φ(δ) − 1 ≤ ε. Für n ≥ n0 (δ) gilt Sn c c P [Sn ∈ [−c, c]] = P √ ∈ − √ , √ n n n Sn Sn Sn ≤ P √ ∈ [−δ, δ] = P √ ≤ δ] − P √ < −δ n n n → Φ(δ) − Φ(−δ) = 2Φ(δ) − 1 ≤ ε. n→∞ (6.1),(6.2) Beispiel 6.2.5 (Normalapproximation). Ein Würfel wird 1200 Mal geworfen. Wie groß ist die Wahrscheinlichkeit, dass dabei die Anzahl der geworfenen Sechsen zwischen 190 und 200 liegt? Sei Xi = I{der i-te Wurf zeigt 6} . Dann sind X1 , X2 , . . . , X1200 unabhängig und identisch verteilt mit 1 P[Xi = 1] = = 1 − P[Xi = 0]. 6 S1200 = X1 + · · · + X1200 . Also sind wir in der Situation von Satz 6.2.2 mit n = 1200. Damit gilt " 190 − np Sn − np 200 − np P[190 ≤ Sn ≤ 200] = P p ≤p ≤p np(1 − p) np(1 − p) np(1 − p) " # # 10 Sn − np = P −p ≤p ≤0 np(1 − p) np(1 − p) n=1200 " # √ 500 √ np(1−p)= 10 Sn − np 3 ≈13 ≈ P − ≤p ≤0 13 np(1 − p) 10 ZGS ≈ Φ(0) − Φ − | {z } 13 np=200 1 2 | {z ≈0.2206 } Also gilt P[190 ≤ Sn ≤ 200] ≈ 0.5 − 0.2206 = 0.2794. Beispiel 6.2.6. Wievielmal muss man einen Würfel werfen, damit die Wahrscheinlichkeit, mindestens 10 Sechsen zu haben, mindestens 0.9 beträgt? Xi = I{i-ter Wurf zeigt 6} , Sn = n X i=1 Xi , ! P[Sn ≥ 10] ≥ 0.9. 6.2 Der zentrale Grenzwertsatz 61 Mit zentralem Grenzwertsatz (p = 61 ): " # 10 − np Sn − np 10 − np ≥p P p ≈1−Φ p np(1 − p) np(1 − p) np(1 − p) ! ! ≥ 0.9 Tabelle: Φ(−1.28) ≈ 0.1. Also: wähle n so groß, dass 10 − np ≤ −1.28 np(1 − p) p q ⇔ 10 − np ≤ −1.28 np(1 − p) √ 5 n √ 10 ≤ − n 1.28 6 6 ⇔ n = 87 genügt (n = 86 genügt nicht). Beispiel 6.2.7 (Wahlprognose). Bei einer Wahl erhält Kandidat A einen unbekannten Anteil p ∈ (0, 1) der Stimmen (Annahmen: die Entscheidungen der Wähler sind unabhängig und identisch verteilt). Um p abzuschätzen, befragen wir n Wähler. Wie groß sollte n sein, damit die Wahrscheinlichkeit eines Irrtums von mehr als einem Prozent nicht größer als 0.05 ist? Xi = I{i-te Person wählt A} , Sn = n X Xi . i=1 Sn ist binomialverteilt mit Parametern n und p. Wir wollen n so groß wählen, dass Sn P − p > 0.01 ≤ 0.05. n Aber, für alle Werte von p: " 0.01n Sn − np 0.01n P −p ≤p ≤p np(1 − p) np(1 − p) np(1 − p) 1 ≈ Φ 0.01n p np(1 − p) ! n = 2Φ 0.01 p np(1 − p) ! # 1 − Φ −0.01n p np(1 − p) ! − 1. Also: finde das kleinste n so, dass n 2Φ 0.01 p np(1 − p) ⇔ ! − 1 ≥ 0.95 n Φ 0.01 p np(1 − p) ! ≥ 0.975. 6.3 Das Lemma von Borel-Cantelli und das starke Gesetz der großen Zahlen 62 Aus der Tabelle: Φ(1.96) ≈ 0.975, also (0.01)2 ⇔ n ≥ (1.96)2 p(1 − p) n ≥ (1.96)2 p(1 − p) · 104 . Da wir p nicht kennen, nehmen wir den größtmöglichen Wert von p(1 − p), nämlich und verlangen 1 4 1 n ≥ (1.96)2 104 = 9604. 4 Also: n ≥ 9604 ist okay. 6.3 Das Lemma von Borel-Cantelli und das starke Gesetz der großen Zahlen Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und (Ak )k∈N eine Folge von Ereignissen. T S∞ Dann ist A := ∞ m=1 k=m Ak das Ereignis, das unendlich viele der Ak eintreten, d. h. A = {ω ∈ Ω | ω ∈ Ak für unendlich viele k}. Man schreibt auch A = lim supk→∞ Ak . Beachte: IA = lim supk→∞ IAk . Lemma 6.3.1 (Lemma von Borel-Cantelli). Sei A = gilt (i) Falls P∞ k=1 P[Ak ] (i) A = m=1 S∞ k=m Ak T∞ m=1 ⊆ S∞ P[A] ≤ X S∞ k=m Ak k=m Ak P∞ k=1 P[Ak ] = ∞, so gilt P[A] = 1. für alle m ∈ N, also P[Ak ] für alle m ∈ N. k≥m Aber → k≥m P[Ak ] m→∞ P (ii) Haben Ac = S∞ wie oben. Dann < ∞, so ist P[A] = 0. (ii) Falls (Ak )k∈N unabhängige Ereignisse sind und Beweis. T∞ m=1 T c k≥m Ak , c P∞ 0, da P[A ] ≤ k=1 P[Ak ] also ∞ X P " ∞ \ m=1 unabh. < ∞. # Ack m=1 k=m ∞ X = ∞ X lim P n→∞ k=m n Y lim (1 − P[Ak ]) n→∞ m=1 k=m ∞ Pn 1−x≤e−x X ≤ lim e− k=m P[Ak ] n→∞ {z } m=1 | 0 für alle m ∈ N = " n \ = 0. # Ack 6.3 Das Lemma von Borel-Cantelli und das starke Gesetz der großen Zahlen 63 Satz 6.3.2 (Starkes Gesetz der großen Zahlen). Seien X1 , X2 , . . . unabhängig und idenP tisch verteilt und Xi ∈ L1 , d. h. E[|Xi |] < ∞, Sn = ni=1 Sn . Dann gilt: Sn → E[X1 ] = 1 P n n→∞ (P[. . . ] = P[{ω | limn→∞ Sn (ω) n = E[X1 ]}]). Beweis. Unter der stärkeren Voraussetzung E[X14 ] < ∞. 1. E[X14 ] Übung (*) ≥ E[|X1 |4 ], d. h. E[X14 ] < ∞ ⇒ X1 ∈ L1 . 2. O. B. d. A: E[X1 ] = 0 (andernfalls X̃i = Xi − E[Xi ]). " # Markov-Ungleichung mit ϕ(x) = x4 Sn 1 Sn 4 1 1 ≤ E = 4 4 E[(X1 + · · · + Xn )4 ] P ≥ ε n ε4 n ε n = 1 1 (nE[X14 ] + 4n(n − 1)E[X13 ]E[X1 ] ε4 n 4 + 3n(n − 1)E[X12 ]E[X22 ] + 6n(n − 1)(n − 2)E[X12 ]E[X2 ]E[X3 ] + n(n − 1)(n − 2)(n − 3)E[X1 ]E[X2 ]E[X3 ]E[X4 ]) E[Xi ]=0 1 1 (nE[X14 ] + 3n(n − 1)E[X12 ]2 ) ε4 n 4 (∗) 1 1 ≤ 4 4 (nE[X14 ] + 3n(n − 1)E[X14 ]) ε n 1 ≤ c(ε) 2 . n ≤ Also: P∞ h i Sn n=1 P n ≥ ε < ∞. Nach Borel-Cantelli: Sn P ≥ ε für unendlich viele n = 0. n Da ε > 0 beliebig war, folgt P h Sn → n n→∞ i 0 = 1. Definition 6.3.3. Eine Folge (Zn )n∈N von Zufallsvariablen konvergiert P -fast-sicher gegen eine Zufallsvariable Z, falls P[Zn → Z] = 1 (d. h. P[{ω : Zn (ω) → Z(ω)}] = 1.) Lemma 6.3.4. Zn → Z P -fast-sicher ⇒ Zn → Z in Wahrscheinlichkeit. Beweis. Zn → Z P -fast-sicher heißt: Es gibt eine Teilmenge A ⊆ Ω mit P[A] = 1, sodass für ω ∈ A gilt: ∀ε > 0 ∃N0 (ω) < ∞ : |Zn (ω) − Z(ω)| ≤ ε für alle n ≥ N0 (ω). 6.3 Das Lemma von Borel-Cantelli und das starke Gesetz der großen Zahlen Wir setzen N0 (ω) = ∞ für alle ω ∈ / A. Betrachten nun P[|Zn − Z| ≥ ε]: P[|Zn − Z| ≥ ε] = P[n < N0 (ω)]. Aber " lim P[N0 (ω) > n] = P n→∞ also P[|Zn − Z| ≥ ε] → 0. # \ {N0 (ω) > n} = P[N0 (ω) = ∞] = 0, n 64