Universität Regensburg Fakultät Mathematik Vorlesungsmitschrift Einführung in die Wahrscheinlichkeitstheorie und Statistik Prof. Helmut Abels Sommersemester 2009 LATEX: Frank Reinhold Inhaltsverzeichnis 0 Einleitung 5 I 6 Wahrscheinlichkeitstheorie 1 Diskrete Wahrscheinlichkeitsräume 1.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Weitere Beispiele von Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 10 2 Bedingte Wahrscheinlichkeit und Unabhängigkeit 13 2.1 Bedinge Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3 Produktexperiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3 Zufallsgröße, Erwarungswert und Varianz 3.1 Zufallsgrößen, -variablen . . . . . . . . . . 3.2 Unabhängigkeit von Zufallsvariablen . . . 3.3 Erwartungswert und Varianz . . . . . . . 3.4 Varianz . . . . . . . . . . . . . . . . . . . 3.5 Kovarianz . . . . . . . . . . . . . . . . . . 3.6 Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 22 24 27 28 31 4 Approximation der Binomialverteilung 33 4.1 Normalverteilungsapproximation von Bin,p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2 Poisson-Approximation und Summen von Zufallsvaribalen . . . . . . . . . . . . . . . . . . . . 39 5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit 5.1 Definitionen und grundlegende Eigenschaften . . . . . . . . . . . . . . . . . . 5.2 Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Erwartungswert, Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . . Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 42 46 48 51 53 6 Grenzwertsätze 60 6.1 Schwaches Gesetz und starkes Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . 60 6.2 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 II Statistik 7 Einführung in die Schätztheorie 7.1 Grundbegriffe . . . . . . . . . . . . . . . . 7.2 Beispiele für Schätzer . . . . . . . . . . . Erwartungstreue . . . . . . . . . . . . . . Minimale Varianz . . . . . . . . . . . . . . 7.3 Das Maximum-Likelihood-Prinzip . . . . . 7.4 Erwartungstreue und quadratische Fehler 7.5 Varianzminimierende Schätzer . . . . . . . 7.6 Konsistenz . . . . . . . . . . . . . . . . . . 68 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 69 70 72 72 73 74 76 80 3 Inhaltsverzeichnis 8 Konfidenzbereiche 8.1 Definition . . . . . . . . . 8.2 Konstruktion . . . . . . . 8.3 Beispiele . . . . . . . . . . 8.4 Die X 2 - und t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 82 82 83 86 9 Einführung in die Testtheorie 88 9.1 Entscheidungsprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 9.2 Alternativtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 9.3 Beste einseitige Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Literaturverzeichnis 4 94 0 Einleitung Wahrscheinlichkeitstheorie: Untersuchung von Gesetzmäßigkeiten im Zufall, z.B. das Gesetz der großen Zahlen. Was ist Zufall? Hier: Axiomatische Beschreibung mit Hilfe von Wahrscheinlichkeitsräumen. Grundannahme: Zufallsmechanismus ist (im Prinzip) bekannt, oder wird als bekannt angenommen. Gesucht: Aussagen über das zufällige Ereignis (Zufallsexperiment). Statistik: Was kann aus bestimmten Zufallsexperimenten über den Zugrundeliegenden Zufallsmechanismus gesagt werden? Grundansatz: Zufallsmechanismus oder bestimmte Parameter des Mechanismus sind unbekannt. Gesucht: Was sind die Parameter? Wichtig: Unterscheide zwischen Modellbildung und Interpretation der Ergebnisse und mathematischen Aussagen über das mathematische Modell. 5 Teil I Wahrscheinlichkeitstheorie 6 1 Diskrete Wahrscheinlichkeitsräume 1.1 Grundbegriffe Im Folgenden werden wir zufällige Ereignisse bzw. Zufallsexperimente mit Hilfe von sog. Elementarereignissen beschreiben. D.h. jedes Mal tritt im Zufallsexperiment genau eines der Elementarereignisse ein. Ω sei die Menge dieser Ereignisse. Zu jedem Elementarereignis ω ∈ Ω sei p(ω) ∈ [0, 1] die Wahrscheinlichkeit, dass ω eintritt. Es muss gelten: X p(ω) = 1 ω∈Ω Definition 1.1. a) (Ω, p) ist ein diskreter Wahrscheinlichkeitsraum, falls 1.) Ω ist eine endliche oder abzählbare Menge. P 2.) p : Ω → [0, 1] eine Abbildung, ω∈Ω p(ω) = 1 b) Ist (Ω, p) ein diskreter Wahrscheinlichkeitsraum, so wird für alle A ⊆ Ω durch X P (A) := p(ω) (1) ω∈A die Wahrscheinlichkeit des Ereignisses A definiert. Bemerkung. a) Jede Teilmenge A ⊆ Ω wird Ereignis genannt. b) Durch (1) wird eine Abbildung P : P(Ω) → [0, 1] definiert. P heißt das zu (Ω, p) gehörende Wahrscheinlichkeitsmaß. Beispiel 1. Wir betrachten einen Würfel und nehmen an, dass alle Zahlen 1, . . . , 6 gleich wahrscheinlich sind ( freier Würfel“). ” Die beschreiben wir durch Ω = {1, . . . , 6} und setzen: p(ω) = 1 1 = |Ω| 6 ∀ω ∈ Ω Das Ereignis Der Würfelwurf ist gerade“ entspricht der Menge A = {2, 4, 6}. A = Ω heißt sicheres Ereignis“, ” ” A = {} heißt unmögliches Ereignis. Beispiel 2. Allgemein: Eine endliche Menge von Elementarereignissen, die alle gleich wahrscheinlich sind, so setzen wir p(ω) = 1 |Ω| (Gleichverteilung) Dann ist P (A) = |A| |Ω| (Laplace-Wahrscheinlichkeit) Beispiel 3. Die Wahl von Ω ist erstmal willkürlich. Es können unterschiedliche Wahlen sinnvoll sein. Wir betrachten den Wurf von zwei Würfeln: 7 1 Diskrete Wahrscheinlichkeitsräume 1. Möglichkeit: Ω = {1, 2, 3, 4, 5, 6}2 = {(a, b) : a, b ∈ {1, . . . , 6}} Wir nehmen an, dass die Ergebnisse der beiden Würfe unabhängig sind, und dass die 1 = Würfel fair sind. Dann sind alle Elementarereignisse gleich wahrscheinlich. ⇒ p(ω) = |Ω| 1 1 = ∀ω ∈ Ω. |{1,...,6}|2 36 Nicht elementare Ereignisse: • A1 = Summe der Würfel ist 4“ = {(1, 3), (2, 2), (3, 1)} ” • A2 = Es sind nur gerade Zahlen gefallen“= {(2, 2), (2, 4), (2, 6), . . . , (6, 6)} ” 1 32 1 1| ⇒ P (A1 ) = |A 36 = 12 , P (A2 ) = 62 = 4 2. Möglichkeit: Ω = {2, 3, . . . , 12}, d.h. die Elementarereignisse ist Menge der möglichen Summen von zwei Würfeln. In diesem Fall liegt aber keine Gleichverteilung vor. Die Bestimmung von p(ω) ist etwas aufwändiger: p(2) = p(3) = 1 36 2 36 = = 1 1 6 · 6 beide Würfel müssen 1 sein. Dies entspricht 1 18 entspricht {(1, 2), (2, 1)} im 1. Modell. {(1, 1)} im 1. Modell. Beispiel 4. Die Menge Ω kann auch abzählbar sein: Wir werfen eine Münze solange, bis Kopf“ das erste Mal fällt. Wann fällt das erste Mal Kopf“? ” ” Dazu wählen wir Ω = N = {1, 2, . . .} und n ∈ N bedeutet, dass nach genau n Würfen das erste Mal Kopf fällt. n 1 1 1 1 ⇒ p(n) = = · ... · ∀n ∈ N · 2 2 2 2 | {z } |{z} n−1-mal Zahl Kopf Dann gilt: ∞ X p(n) = 1 n=1 Waraum? Geometrische Reihe! Alternativ: Wähle Ω = {Z, K}N = {(ak )k∈N : ak ∈ {Z, K}}. Achtung: Dann ist Ω überabzählbar! Die Konstruktion eines Wahrscheinlichkeitsmaßes ist aufwändiger (→ Maßtheorie, Allgmeine Wahrscheinlichkeitsräume, später). Einfache Eigenschaften von P sind: Lemma 1.2. Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum und P sei das Wahrscheinlichkeitsmaß. Dann erfüllt P : P(Ω) → [0, 1] die sog. Kolmogorov’schen Axiome: K1: P (Ω) = 1 K2: Für alle Folgen (Ai )i∈N von paarweise disjunkten Mengen aus P (Ω) gilt: ! ∞ ∞ [ X P Ai = P (Ai ) (abzählbare oder σ-Additivität) i=1 i=1 Beweis. Klar. Folgerung 1.3. Es sei Ω eine Menge und P : P(Ω) → [0, 1], welche K1 und K2 erfüllt. Dann gilt: a) P (∅) = 0 b) Sind A1 , . . . , An ⊆ Ω paarweise disjunkte Mengen, so gilt: P (A1 ∪ . . . ∪ An ) = n X j=1 8 P (Aj ) (endliche Additivität) 1.1 Grundbegriffe c) Für alle A1 , . . . , An ⊆ Ω gilt: ! n n [ X P ≤ P (Ai ) i=1 (Subadditivität) i=1 d) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) ∀A, B ⊆ Ω e) A ⊆ B ⇒ P (A) ≤ P (B) f ) P (Ac ) = 1 − P (A) mit Ac = Ω \ A Beweis. a) Wähle Ak = ∅, k ∈ N. Dann sind Ak paarweise disjunkt, denn Ak ∩ Aj = ∅ ∀j 6= k, j, k ∈ N. Mit (K2): ! ∞ ∞ ∞ [ X X P (∅) = P Ak = P (Ak ) = P (∅) k=1 k=1 k=1 ⇒ P (∅) = 0, da sonst rechte Seite +∞ ist. b) Wähle Ak = ∅. Für k ≥ n + 1 ⇒ (Ak )k∈N sind paarweise disjunkt. (K2) + a) ⇒ Aussage. c) d) ⇒ P (A ∪ B) = P (A) + P (B) − P (A ∩ B) ≤ P (A) + P (B) für n = 2. Rest per Induktion. | {z } ≥0 d) Die Mengen A \ B, B \ A und A ∩ B sind paarweise disjunkt. P (A ∪ B) = P (A \ B ∪ B \ A ∪ (A ∩ B)) = = P (A \ B) + P (B \ A) + P (A ∩ B) = = P (A \ B) + P (A ∩ B) + P (B \ A) + P (A ∩ B) −P (A ∩ B) {z } | {z } | =P (A) =P (B) ⇒ Aussage. e) A ⊆ B ⇒ P (B) = P (A) + P (B \ A), da B = B \ A ∪ A. ⇒ P (B) ≥ P (A) | {z } ≥0 c f) A und A sind disjunkt, Ω = A + Ac ⇒ 1 = P (Ω) = P (AC ) + P (A) ⇒ Aussage. Bemerkung. 1.) f)) ist nützlich zum Berechnen von einigen Wahrscheinlichkeiten, wenn P (Ac ) leichter zu berechnen ist. 2.) Verallgemeinerung von d): Für alle A1 , A2 , A3 ⊆ Ω gilt: P (A1 ∪ A2 ∪ A3 ) = P ((A1 ∪ A2 ) ∪ A3 ) = = P (A1 ∪ A2 ) + P (A3 ) − P ((A1 ∪ A2 ) ∩ A3 ) = = P (A1 ∪ A2 ) + P (A3 ) − P ((A1 ∩ A3 ) ∪ (A2 ∩ A3 )) = = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − (P (A1 ∩ A3 ) + P (A2 ∩ A3 ) − P (A1 ∩ A2 ∩ A3 )) = = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A2 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) Allgemein erhält man: P m [ ! Ai = (m) S1 − (m) S2 − . . . + (−1) i=1 (m) wobei Sk = P 1≤i1 <·<ik ≤m m+1 · (m) Sm = m X (m) (−1)k+1 · Sk k=1 P (Ai1 ∩ . . . ∩ Aik )k=1,...,m Beweis: Übungsblatt per Induktion. 9 1 Diskrete Wahrscheinlichkeitsräume Beispiel 5. Verteilung von Spatzen Auf wie viele Arten können sich zwei nicht-unterscheidbare Spatzen auf vier Telegraphenmasten verteilen? ∼ Murmeln, Mast ∼ Wir benutzen Spatzen = = Zelle. ⇒ N = 4, n = 2 (mit Mehrfachbesetzung, ununterscheidbare Murmeln). Antwort: 4+2−1 = 52 = 10 Möglichkeiten. 2 Beispiel 6. Ein zerstreuter Briefschreiber schreibt 3 (verschiedene) Briefe und beschriftet 3 (verschiedene) Umschläge. Danach verteilt er die 3 Briefe zufällig auf die 3 Umschläge. Frage: Wie groß ist die Wahrscheinlichkeit, dass kein Brief richtig ankommt? A = kein Brief kommt richtig an“ ” Wir betrachten das Gegenereignis Ac = B1 ∪ B2 ∪ B3 mit Bi = Brief i kommt richtig an“. ” Wir wählen Ω = {π : {1, 2, 3} → {1, 2, 3} bijektiv} und die Gleichverteilung auf Ω. ⇒ |Ω| = 3! = 6 ⇒ Bi = {π : {1, 2, 3} → {1, 2, 3} : π(i) = i} , |Bi | = 2! = 2 2 1 |Bi | = = |Ω| 6 3 B1 ∩ B2 = {π : {1, 2, 3} → {1, 2, 3} : π(1) = 1, pi(2) = 2} = {id} ⇒ P (Bi ) = ⇒ |B1 ∩ B2 | = |B2 ∩ B3 | = |B1 ∩ B3 | = 1 ⇒ P (B1 ∩ B2 ) = P (B2 ∩ B3 ) = P (B1 ∩ B3 ) = 1 6 B1 ∩ B2 ∩ B3 = B1 ∩ B2 = {id} 1 1 1 1 1 2 ⇒ P (B1 ∪ B2 ∪ B3 ) = + + − 3 · + 1 · = 3 3 3 6 6 3 1 c P (A) = 1 − P (A ) = 3 1.2 Weitere Beispiele von Verteilungen Hypergeometrische Verteilung: Wir betrachten eine Urne mit S schwarzen Kugeln und W weißen Kugeln und ziehen n ≤ S + W Kugeln ohne Rücklegen. Annahme: Kugeln sind gut durchmischt“ ⇒ Alle Kugeln gleich wahrscheinlich. ” Frage: Wahrscheinlichkeit, dass genau s schwarze gezogen wurden. ⇒ Genau w = n − s weiße Kugeln. Die Wahrscheinlichkeit ist: Hypn,S,W (s) = S W s n−s S+W n wobei s ∈ {max{0, n − W }, . . . , min{S, n}}. Hierbei ist S+W die Zahl der Möglichkeiten n Kugeln aus n S + W Kugeln auzuwählen, Ss die Zahl der Möglichkeiten s schwarze Kugeln aus S schwarzen Kugeln und W n−s die Zahl der Möglichkeiten n − s weiße Kugeln aus W weißen Kugeln auszuwählen. Durch Ω = {max{0, n − W }, . . . , min{S, n}} und p(s) = Hypn,S,W (s) ∀s ∈ Ω wird (Ω, p) ein diskreter Wahrscheinlichkeitsraum, denn X s∈Ω 10 p(s) = 1 · S+W n min{S,n} X s=max{0,n−W } S W · =1 s n−s 1.2 Weitere Beispiele von Verteilungen Beispiel 7. Lotterie Wie groß ist die Wahrscheinlichkeit 4 richtige von 6 getippten Zahlen bei einer Lotterie 6 aus 49 zu erhalten? Wir färben“ die 6 getippten Zahlen (Kugeln) schwarz, die anderen weiß. D.h. wir suchen die Wahrschein” lichkeit 4 von den 6 schwarzen Kugeln zu ziehen bei einem Zug von insgesammt 6 Kugeln. 6 43 1 4 2 = 9, 682 · 10−4 ≈ P = Hyp6,6,43 (4) = 49 1000 6 Bernoulliverteilung: Wir spielen n-mal ein Glücksspiel, das mit Wahrscheinlichkeit p ∈ [0, 1] zum Erfolg führt (Bernoulliexperiment der Länge n). Um dies zu beschreiben wählen wir Ω = {0, 1}n . Ist x = (x1 , . . . , xn ) ∈ {0, 1}n , so bedeutet xi = 1, dass das i-te Spiel ein Erfolg war, xi = 0 im i-ten Spiel einen Misserfolg. Dann ist die Wahrscheinlichkeit für den Ausgang x ∈ Ω: p(x) = n Y pxi (1 − p)1−xi = i=1 Pn =p i=1 xi · (1 − p)n− Pn i=1 xi mit p falls xi = 1 und (1 − p) falls xi = 0. Dann gilt: X ∈ Ωp(x) = 1 x Beweis per Induktion Binomialverteilung: Wir führen ein Bernoulliexperiment der Länge n durch. Frage: Wahrscheinlichkeit dafür, genau k ∈ {0, . . . , n} Erfolge zu haben? Pn n Betrachte: Ak = {x ∈ {0, 1}n : i=1 xi = k} ⇒ |Ak | = k . Verteile k Einsen auf n Zellen ohne Mehrfachbesetzen. Da p(x) = pk · (1 − p)n−k ∀x ∈ Ak ist, folgt n P (Ak ) = |Ak | · pk · (1 − p)n−k = · pk · (1 − p)n−k =: Bin,p (k) k Bemerkung. ({0, . . . , n}, Bin,p ) ist ein diskreter Wahrscheinlichkeitsraum, da n X n k=0 k · pk · (1 − p)n−k = (x + y)n = (p + (1 − p))n = 1n = 1 = |{z} | {z } xk y n−k n X Bin,p (k) k=0 Satz 1.4 (Binomischer Lehrsatz). Für alle n ∈ N, x, y ∈ R gilt: n (x + y) = n X n k=0 k · xk · y n−k Beweis. Analysis 1 Folgerung 1.5. Pn n n i) k=0 k = 2 Pn k n ii) k=0 (−1) k = 0 Pn n n−1 iii) k=0 k · k = n · 2 Beweis. i) Wähle x = y = 1. 11 1 Diskrete Wahrscheinlichkeitsräume ii) Wähle x = 1, y = −1. iii) Differenziere (??) bezüglich x. ⇒ n(x + y)n−1 = n X n k=0 k · k · xk−1 · y n−k Setze nun x = y = 1. Bemerkung. Außerdem gilt für alle n, k ∈ N: n n−1 n−1 = + k k k−1 sofern nk := 0, falls k > n oder k < 0. Multinomialkoeffizienten: nk beschreibt auf wieviele Arten genau k Elemente aus einer n-elementigen Menge ausgewählt werden können. Frage: Wieviele Möglichkeiten gibt es eine Menge M mit n Elementen in Prr disjunkte Mengen M1 , . . . , Mr aufzuteilen, wobei die Menge Mi genau ki Elemente haben soll und n = i=1 ki . Antwort: Es gibt n! =: k1 ! · . . . · kr ! n k1 , k2 , . . . , kr Mulitnomialkoeffizient Beweis. Per Induktion über r ∈ N. Induktionsanfang : r = 1. Es gibt genau eine Möglichkeit, k1 = n Elemente für M1 aus M auszuwählen und n n! = =1 n n! Induktionsvoraussetzung: Aussage ist für r richtig. Induktionsschritt : Wir wählen zuerst k1 Elemente für M1 aus der Menge M aus. Dafür gibt es kn1 Möglichkeiten. Betrachte nun M̃ = M \ M1 . Dann hat M̃ genau ñ = n − k1 ñ Elemente und nach Induktionsvoraussetzung gibt es k2 ,...,k Möglichkeiten M̃ r auf M2 , . . . , Mr aufzuteilen. ⇒ Die Gesamtzahl der Möglichkeiten ist: n n − k1 n! (n − k1 )! n = · = k1 k2 , . . . , kr k1 !(n − k1 )! k2 ! · . . . · kr ! k1 , . . . , kr Bemerkung. Die Reihenfolge der Mengen spielt hierbei eine Rolle! Beispiel 8. Wir wollen 26 Kinder auf 2 Mannschaften mit je 11 Spielern und 2 Tennisteams mit je 2 Spielern aufteilen. Dann gibt es 26 26! = 11, 11, 2, 2 11!11!2!2! Möglichkeiten. Dabei werden die Mannschaften unterschieden und z.B. die Einteilungen A = {1, 2, . . . , 11}, B = {12, . . . , 22}, C = {23, 24}, D = {25, 26} und A0 = A, B 0 = B, C 0 = D, D0 = C unterschieden. 12 2 Bedingte Wahrscheinlichkeit und Unabhängigkeit 2.1 Bedinge Wahrscheinlichkeit Häufig möchte man eine Wahrscheinlichkeit berechnen unter der Voraussetzung, dass ein bestimmtes Ereignis schon eingetreten ist (bzw. eine bestimmte Information zur Verfügung steht). Beispiel 1. Wir werfen dreimal einen fairen Würfel. Wie groß ist die Wahrscheinlichkeit, dass 3x eine 6 fällt, sofern schon in den ersten beiden Würfen jeweils eine 6 gefallen ist. Der Wahrscheinlichkeitsraum sei Ω = {1, . . . , 6}3 mit Gleichverteilung. Da schon zweimal eine 6 gefallen ist, sind die möglichen Elementarereignisse nur noch B = {(6, 6, k) : k = 1, . . . , 6} Da alle Elementarereignisse aus B gleich wahrscheinlich sind, ist P (A|B) = |A ∩ B| P (A ∩ B) = P (B) |B| Insbesondere ist P ({(6, 6, 6)}) = (1) |{(6, 6, 6)}| 1 = |B| 6 und z.B. P ({(x, y, z) : x + y + z ≤ 12}|B) = |∅| |A ∩ B| = =0 |B| |B| Bemerkung. Wesentlich für alle Herleitungen von (1) war die Annahme, dass Gleichverteilung vorliegt. Im allgemeinen definieren wir: Definition 2.1 (Bedingte Wahrscheinlichkeit). Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum und A, B ⊆ Ω mit P (B) > 0. Dann definieren wir P (A|B) := P (A ∩ B) P (B) als bedingte Wahrscheinlichkeit von A gegeben B. Beispiel 2. Es sei pk (k ∈ N) die Wahrscheinlichkeit, dass man im k-ten Lebensjahr stirbt. Dann ist sk = pk+1 + . . . + . . . die Wahrscheinlichkeit, dass man das Alter k erreicht (und später sterbe). Wenn man nun für eine Person, die schon k Jahre alt geworden ist, die Wahrscheinlichkeit berechnen möchte, mit der die Person im (k + 1)-ten Lebensjahr stirbt, so sollte man die bedingte Wahrscheinlichkeit berechnen: pk+1 P (A ∩ B) = sk P (B) Lemma 2.2. Es sei (Ω, p) ein diskreiter Wahrscheinlichkeitsraum und B ⊆ Ω mit P (B) > 0. a) Es sei pB (ω) = P ({ω}|B) ∀ω ∈ Ω. Dann ist (Ω, PB ) ein diskreter Wahrscheinlichkeitsraum und für das zugehörige Wahrscheinlichkeitsmaß PB gilt: PB (A) = P (A|B) ∀A ⊆ Ω 13 2 Bedingte Wahrscheinlichkeit und Unabhängigkeit b) Formel von der totalen Sn Wahrscheinlichkeit: Für alle A ⊆ Ω und alle paarweise disjunkten B1 , . . . , Bn ⊆ Ω und B = i=1 Bi sowie P (Bi ) > 0 ∀i = 1, . . . , n gilt: P (A ∩ B) = n X P (Bi )P (A|Bi ) i=1 c) Formel S von Bayes: Für alle A ⊆ Ω mit P (A) > 0 und alle paarweise disjunkten B1 , . . . , Bn ⊆ Ω n mit Ω = i=1 Bi und P (Bi ) > 0 ∀i = 1, . . . , n gilt: P (Bi )P (A|Bi ) P (Bi |A) = Pn j=1 P (Bj )P (A|Bj ) ∀i = 1, . . . , n wobei für den Nenner gilt: n X P (Bj )P (A|Bj ) = P A ∩ j=1 n [ Bj = P (A ∩ Ω) = P (A) j=1 Bemerkung. Die Aussagen in b) und c) gelten entsprechend für abzählbar viele, paarweise disjunkte (Br )r∈N . Beweis. a) Es gilt: X ω∈Ω S X P ({ω} ∩ B) P = pB (ω) = P (B) ω∈Ω {ω} ∩B P (B) ω∈Ω = P (Ω ∩ B) =1 P (B) Für PB (A) gilt: PB (A) = X ω∈A S X P ({ω} ∩ B) P = PB ({ω}) = P (B) ω∈A {ω} ∩B P (B) ω∈A = P (A ∩ B) P (B) ⇒ PB (A) = P (A|B) ∀A ⊆ Ω b) Nach Definition von P (A|Bi ) gilt: n X P (Bi )P (A|Bi ) = i=1 mit Distributivität: n X P (A ∩ Bi ) = P i=1 n [ ! (Bi ∩ A) A∩ n [ c) Da P (Bi |A) = ! Bi = P (A ∩ B) i=1 i=1 (Bi ∩ A) = A ∩ i=1 wobei nach b) =P n [ n [ Bi i=1 P (Bi ∩ A) P (Bi )P (A|Bi ) = P (A) P (A) P (A) = P A ∩ n [ j=1 Bj = n X P (Bj )P (A|Bj ) j=1 Beispiel 3. Eine seltene Krankheit liegt bei ca. 0, 5% der Bevölkerung vor. Ein Test auf diese Krankheit spricht auf 99% der Kranken positiv an, sowie bei 2% der Gesunden. Frage: Mit welcher Wahrscheinlichkeit ist eine positiv getestete Person wirklich krank? Sie Ω die Menge aller getesteten Personen, sowie B1 die Menge der Kranken und B2 die Menge der gesunden Personen. Es sei A ⊆ Ω das Ereignis, dass der Test positiv auf eine Person anspricht. 14 2.2 Unabhängigkeit von Ereignissen Gesucht: P (B1 |A) Wir wissen: P (B1 ) = 0, 005, P (A|B1 ) = 0, 99 P (B2 ) = 0, 995, P (A|B2 ) = 0, 02 Formel von Bayes: P (B1 |A) = P (B1 )P (A|B1 ) 1 ≈ = 20% P (B1 )P (A|B1 ) + P (B2 )P (A|B2 ) 5 Lemma 2.3 (Multiplikationsformel). Für alle n ∈ N und alle A1 , . . . , An ⊆ Ω mit P (A1 ∩ . . . ∩ An−1 ) > 0 gilt: P (A1 ∩ . . . ∩ An ) = P (A1 ) · P (A2 |A1 ) · . . . · P (An |A1 ∩ . . . ∩ An−1 ) Beweis. Einsetzen in die Definition der bedingten Wahrscheinlichkeit. Beispiel 4. Mit welcher Wahrscheinlichkeit besitzt bei einem Skatspiel jeder der 3 Spieler genau ein Ass (ohne Skataufnahme!)? Genauer: Wir verteilen 32 Karten mit 4 Assen zufällig auf 3 Spieler, sodass jeder Spieler genau 10 Karten erhält und 2 übrig bleiben. Es sei Ai das Ereignis: Der Spieler i hat genau ein Ass“. Dann folgt aus Lemma 2.3: ” P (A1 ∩ A2 ∩ A3 ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) = 2 10 3 19 4 28 1 = 9 32 10 · 1 | {z } 9 · 22 10 1 9 12 10 ≈ 0, 0556 =Hyp10,4,28 (1) 2.2 Unabhängigkeit von Ereignissen Intuitiv bedeutet Unabhängigkeit zweier Ereignisse A und B, dass das Eintreten von Ereignis A nicht das Eintreten von Ereignis B beeinflussen soll und umgekehrt. Formal: Falls P (B) > 0 muss gelten: P (A) = P (A|B) = Falls P (A) > 0 muss gelten: P (B) = P (B|A) = P (A∩B) P (A) P (A∩B) P (B) ⇒ P (A) · P (B) = P (A ∩ B) in beiden Fällen. Definition 2.4 (Unabhängigkeit). Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum. a) A, B heißen unabhängig, falls P (A) · P (B) = P (A ∩ B). b) Eine Familie (Ai )i∈I von Ereignissen (wobei I eine beliebige Indexmenge sei) heißt unabhängig, wenn für alle endlichen J ⊆ I gilt: [ Y P Aj = P (Aj ) (2) j∈J j∈J Bemerkung. 1.) Es ist wesentlich, dass (2) für alle J ⊆ I endlich gilt, selbst wenn I endlich ist. Es reicht nicht aus (2) für I = J zu zeigen, wenn I endlich ist. 15 2 Bedingte Wahrscheinlichkeit und Unabhängigkeit Gegenbeispiel: Es sei Ω = {Z, K}3 und p(ω) = 1 8 ∀ω ∈ Ω. Es sei: A = mindestens zweimal Kopf“ = ” = {(K, K, K), (K, K, Z), (Z, K, K), (K, Z, K)} B = 1. Wurf ist Kopf“ = ” = {(K, x, y) : x, y ∈ {Z, K}} C = 2. und 3. Wurf sind gleich“ = ” = {(K, K, K), (K, Z, Z), (Z, K, K), (Z, Z, Z)} ⇒ P (A) = P (B) = P (C) = 21 . Dann ist P (A B ∩ C}) = | ∩ {z ={(K,K,K)} 1 = P (A) · P (B) · P (C) 8 aber P (A) · P (B) = 1 3 6= = P (A ∩ B) 4 8 2.) Eine Familie (Ai )i∈I muss nicht unabhängig sein, sofern sie paarweise unabhängig sind, d.h. P (Ai ∩ Aj ) = P (Ai ) · P (Aj ) Gegenbeispiel: Ω = {Z, K}2 , p(ω) = 1 4 ∀i, j ∈ I, i 6= j ∀ω ∈ Ω. A1 = {(K, K), (K, Z)} = 1. Wurf Kopf“ ” A2 = {(Z, K), (K, K)} = 2. Wurf Kopf“ ” A3 = {(K, K), (Z, Z)} = beide Würfe gleich“ ” Dann sind (A1 , A2 , A3 ) paarweise unabhängig P (Ai ∩ Aj ) = aber P (A1 ∩ A2 ∩ A3 ) = 1 = P (Ai ) · P (Aj ) ∀i 6= j 4 1 1 6= = P (A1 ) · P (A2 ) · P (A3 ) 4 8 ⇒ (A1 , A2 , A3 ) sind nicht unabhängig. 3.) Unabhängigkeit ist keine Eigenschaft von mengen von Ereignissen, sondern von Tupeln von Ereignissen. Dabei kommt es aber auf die Reihenfolge der Ereignisse nicht an. Dies ist wichtig, falls ein Ereignis mehrfach in der Familie (Ai )i∈I auftritt. Beispiel: (A, A) ist unabhängig genau dann, wenn P (A) = P (A ∩ A) = P (A) · P (A) ⇒ P (A) = 0 oder P (A) = 1, also A = ∅ oder A = Ω. Beispiel 5. Beim n-fachen Wurf eines fairen Würfels (also Ω = {1, . . . , 6}n mit Gleichverteilung) sind die Ereignisse: Ai = {ω ∈ Ω : ωi = 6} = i-ter Wurf ist 6“ ” mit i = 1, . . . , n unabhängig, denn P (Ai1 ∩ . . . ∩ Aik ) = 1 = P (Ai1 ) · . . . · P (Aik ) | {z } 6k = 16 für alle 1 ≤ i1 < . . . < ik ≤ n, k = 1, . . . , n Ein nützliches Lemma ist: 16 2.2 Unabhängigkeit von Ereignissen Lemma 2.5. Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum. Dann sind A1 , . . . , An ≤ Ω genau dann unabhängig, wenn für alle k1 , . . . , kn ∈ {1, c} gilt: ! n n \ Y ki P Ai = (3) P Aki i i=1 i=1 wobei: A1i = Ai ist. Beweis. ⇒“: Seien A1 , . . . , An unabhängig. Wir zeigen nun (3) für alle k1 , . . . , kn ∈ {1, c}. Da es auf die Reihenfolge ” von A1 , . . . , An nicht ankommt, reicht es den Fall k1 = . . . = km = c, km+1 , . . . , kn für m = 0, . . . , n zu betrachten. Dies beweisen wir per Induktion über m ∈ N bei beliebigen A1 , . . . , An und n ≥ m. Für m = 0 ist k1 , . . . , kn = 1 und es folgt (3) aus (2). Nun sei die Aussage für m ∈ N bewiesen. Dann gilt für den Fall m + 1 ! ! n n \ \ ki ki c P Ai = P A1 ∩ Ai = i=1 i=2 n \ =P i=2 ! Aki i −P A1 ∩ i=2 | | {z } nur noch m Komplemente n \ ! Aki i {z = } nur noch m Komplemente Induktionsvoraussetzung n yY n Y P Aki i − P (A1 ) · P Aki i = = i=2 = P (Ac1 ) · n Y i=2 P Aki i = i=2 n Y i=1 P Aki i ⇒ (3) ⇐“: Es gelte (3) für alle k1 , . . . , kn ∈ {1, c}. ” Behauptung: Es gilt n n \ Y P Aki i = P Aki i i=j ∀j = 1, . . . , n (4) i=j Beweis per Induktion: Falls j = 1 folgt (4) aus (3). Falls (4) für j ≤ n − 1 bereits gilt, folgt für j + 1: P Ω=Aj ∪Acj n \ i=j+1 y ki Ai =P z Situation für j Aj ∩ }| n \ i=j+1 {! Aki i +P Acj ∩ n \ i=j+1 ! Aki i = Induktionsvoraussetzung n n y Y Y ki c = P (Aj ) P Ai + P Aj P Aki i = i=j+1 = n Y i=j+1 P Aki i i=j+1 da P (Aj ) + P Acj = 1 ist. ⇒ Behauptung. ⇒ P (Aj ∩ . . . ∩ An ) = Qn i=j P (Ai ) für j = 1, . . . , n für beliebige A1 , . . . , An , sodass (3) gilt. Da die Reihenfolge keine Rolle spielt, folgt (2). 17 2 Bedingte Wahrscheinlichkeit und Unabhängigkeit Folgerung 2.6. Seien A1 , . . . , An ⊆ Ω unabhängig. a) Dann sind B1 , . . . , Bn unabhängig für alle Bi ∈ {Ai , Aci }, i = 1, . . . , n. b) A1 ∩ A2 , A3 , . . . , An sind unabhängig. c) A1 ∪ A2 , A3 , . . . , An sind unabhängig. Beweis. 3. Übungsblatt 2.3 Produktexperiment Der Begriff der Unabhängigkeit ist eng verknüpft mit Produkträumen von mehreren (diskreten) Wahrscheinlichkeitsräumen. Dazu seien (Ω1 , p1 ), . . . , (Ωn , pn ) diskrete Wahrscheinlichkeitsräume mit Wahrscheinlichkeitsmaßen P1 , . . . , Pn . Auf der Produktmenge Ω = Ω1 × . . . × Ωn = {(ω1 , . . . , ωn ) : ωi ∈ Ωi , i = 1, . . . , n} definieren wir p : Ω → [0, 1] durch p(ω) = p1 (ω1 ) · . . . · pn (ωn ) = und P (A) = P ω∈A n Y pi (ωi ) ∀ω ∈ Ω i=1 p(ω) ∀A ⊆ Ω. Lemma 2.7. Für alle A1 ⊆ Ω1 , . . . , An ⊆ Ωn gilt P (A1 × . . . × An ) = n Y Pi (Ai ) i=1 Beweis. Es ist P (A1 × . . . × An ) = X p(ω) = ωi ∈Ai i=1,...,n X X p1 (ω1 ) · . . . · pn (ωn ) {z } | ω1 ∈Ω1 ωn ∈Ωn unabhängig von ωn = = ... ! n Y X i=1 ωi ∈Ai | pi (ωi ) {z Pi (Ai ) = } per Induktion n yY = Pi (Ai ) ⇒ Behauptung i=1 Folgerung 2.8. (Ω, p) ist ein diskreter Wahrscheinlichkeitsraum. Beweis. Es ist P (Ω) = P (Ω1 × . . . × Ωn ) = n Y i=1 Pi (Ωi ) = 1 | {z } =1 Bemerkung. (Ω, p) heißt Produktwahrscheinlichkeitsraum von Ω1 , . . . , Ωn . 18 = (5) 2.3 Produktexperiment Satz 2.9. Es seien (Ω1 , p1 ), . . . , (Ωn , pn ) diskrete Wahrscheinlichkeitsräume mit Wahrscheinlichkeitsmaßen P1 , . . . , Pn und (Ω, p) der wie oben definierte Produktraum mit Wahrscheinlichkeitsmaß P . Dann sind für alle A1 ⊆ Ω1 , . . . , An ⊆ Ωn die Ereignisse Ã1 , . . . , Ãn ⊆ Ω mit Ãi = {ω ∈ Ω : ωi ∈ Ai } = im i-ten Experiment ist Ereignis Ai eingetreten“ ” unabhängig. Beweis. Wir benutzen Lemma 2.5 und bemerken Ãci = {ω ∈ Ω : ωi ∈ Aci } = = Ω1 × . . . × Ωi−1 × Aci × Ωi+1 × . . . × Ωn 2.7 =⇒ P (Ãi ) = Pi (Ai ) = P1 (Ω1 ) · . . . · Pi−1 (Ωi−1 ) · Pi (Ai ) · Pi+1 (Ωi+1 ) · . . . · Pn (Ωn ) P (Ãci ) = Pi (Aci ) Daraus folgt für alle k1 , . . . , kn ∈ {1, c}: n \ P i=1 ! Ãki i = P Ak11 + . . . + Aknn = 2.7 = n Y P Ãki i Pi Aki i = i=1 i=1 | {z } n Y k P (Ãi i ) ⇒ (Ã1 . . . , Ãn ) sind unabhängig nach Lemma 2.5. Beispiel 6 (Bernoulli-Experiment). Sei (Ω = {0, 1}n , p) der Wahrscheinlichkeitsraum, der das BernoulliExperiment der Stufe n beschreibt. D.h. p(x) = q i=1 xi · (1 − q)n− i=1 xi = n Y = q xi · (1 − q)1−xi | {z } 8 i=1 > <q xi = 1 Erfolg = > :(1 − q) xi = 0 Misserfolg Pn ⇒ Ω = Ω1 × . . . × Ωn , p(x) = Qn i=1 Pn pi (xi ), x ∈ Ω, wobei Ωi = {0, 1} und ( q pi (xi ) = 1−q xi = 1 xi = 0 für alle i = 1, . . . , n. D.h. (Ω, p) ist der Produktwahrscheinlichkeitsraum von (Ωi , pi ), die jeweils ein q-stufiges Bernoulli-Experiment beschreiben. Satz 2.9 ⇒ A1 , . . . , An mit Ai = {x ∈ {0, 1}n , xi = 1} sind unabhängig. 19 3 Zufallsgröße, Erwarungswert und Varianz 3.1 Zufallsgrößen, -variablen Wir betrachten nun Größen, z.B. den Gewinn eines Spiels, die von zufälligen Ereignissen abhängen. Es sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum. Definition 3.1. a) Jede Abbildung X : Ω → R heißt eine (reellwertige) Zufallsgröße oder Zufallsvariable. b) Ist M eine beliebige Menge, so heißt jede Abbildung X : Ω → M eine M -wertige Zufallsgröße. c) Ist M = Rn , so heißt X : Ω → Rn Zufallsvektor. n Beispiel 1. Die P Anzahl der Erfolge bei einem Bernoulli-Experiment mit n Stufen (Ω = {0, 1} mit p(x) = P n− xi xi (1 − q) ) ist die Zufallsgröße X : Ω → R mit q X(x) = n X xi ∀x ∈ Ω i=1 Außerdem ist ∀i = 1, . . . , n Xi : Ω → R mit Xi (x) = xi eine Zufallsvariable. Beispiel 2. Die Augensumme bei zwei Würfeln eines fairen Würfels ist die auf Ω = {1, . . . , 6}2 mit Gleichverteilung definierte Zufallsvariable X(i, j) = i + j ∀(i, j) ∈ Ω. Es A ⊆ Ω die Indikatorfunktion ( 1 iA (ω) = 0 iA : Ω → R, ω∈A ω∈ /A eine Zufallsvariable. Es gilt: iA1 (x) · . . . · iAn (x) = iA1 ∩...∩An (x) ∀x ∈ Ω Notation. Sei X eine Zufallsvariable und A ⊆ R, z ∈ R. X(Ω) = {X(ω) : ω ∈ Ω} das Bild, {x ∈ A} := X −1 (A) = {ω ∈ Ω : X(ω) ∈ A} das Urbild von A, {X = z} := X −1 ({z}) = {ω ∈ Ω : X(ω) = z}, {X ≤ z} := X −1 ((−∞, z]) Statt P ({x ∈ A}) schreiben wir P (x ∈ A) und mit P (X ∈ A, Y ∈ B) meinen wir P ({X ∈ A} ∩ {Y ∈ B}) wobei Y : Ω → R, B ⊆ Ω. Lemma 3.2 (Verteilung einer Zufallsgröße). Sei X eine beliebige M -werige Zufallsvariable und pX (x) = P(X = x) ∀x ∈ X(Ω) Dann ist (Ω(x), px ) ein diskreter Wahrscheinlichkeitsraum und das zugehörige Wahrscheinlichkeitsmaß ! X [ PX (A) = P({X = x}) = P {X = x} = P(X ∈ A) ∀A ⊆ X(Ω) x∈A heißt Verteilung von X. 20 x∈A 3.1 Zufallsgrößen, -variablen Beweis. Es ist zu ziegen, dass (X(Ω), pX ) ein diskreter Wahrscheinlichkeitsraum ist. X X [ pX (x) = P({X = x}) = P {X = x} = 1 x∈X(Ω) x∈X(Ω) | x∈X(Ω) {z =X −1 (X(Ω))=X } Bemerkung. Es gilt: PX (A) = P(X −1 (A)) = (P ◦ X −1 )(A) ∀A ⊆ X(Ω) wobei: X −1 : P(X(Ω)) → P(Ω) die Urbildabbildung ist. Beispiel 3. Für die Summe X zweier Würfelwürfe aus Beispiel 2 gilt: |X −1 (k)| |{(x, y) ∈ {1, . . . , 6}2 : x + y = k}| = 36 36 1 ⇒ pX (2) = pX (12) = 36 2 pX (3) = pX (11) = 36 pX (k) = bzw.: pX (k) = pX (14 − k) = k−1 36 , k = 2, . . . , 7. Anschaulich als Stabdiagramm: pX (k) P12 k=2 Pn 2 4 6 8 10 pX (k) = 1 12 Beispiel 4. Es sei S(x) = i=1 xi , x ∈ {0, 1}n die Summe der Erfolge von X im Bernoulli-Experiment der Stufe n wie in Beispiel 1. Dann gilt: ( )! n X n pX (k) = P({S = k}) = P x ∈ {0, 1} : xi = k = n k = q (1 − q)n−k = Bin,p (k) k i=1 die Binomialverteilung. Bemerkung. Ist xy“ der Name der Verteilung, so heißt X : Ω → R, xy“-verteilt, wenn PX die xy“” ” ” Verteilung ist, d.h. S in Beispiel 4 ist gerade binomialverteilt. Definition. Seien X1 , . . . , Xn Zufallsvariablen bezüglich des selben Wahrscheinlichkeitsraums (Ω, p), so ist X : Ω → Rn mit X(ω) = (X1 (ω), . . . , Xn (ω)) ∀ω ∈ Ω ein Zufallsvektor. Die Verteilung PX von X wird gemeinsame Verteilung von X1 , . . . , Xn genannt. Bemerkung. Insbesondere ist (X(Ω), pX ) ein diskreter Wahrscheinlichkeitsraum, wobei X(Ω) = X1 (Ω) × . . . × Xn (Ω) pX = PX ({ω}) ∀ω ∈ X(Ω) PX ist im Allgemeinen nicht die Produktwahrscheinlichkeit von ((X1 (Ω), pX1 ), . . . , (Xn (Ω), pXn ))! 21 3 Zufallsgröße, Erwarungswert und Varianz Beispiel 5. Sei S wie in Beispiel 4 und ( N (x) = min{j ≥ 1 : xj = 1} falls S(x) ≥ 1 n+1 falls S(x) = 0 die Nummer des ersten Erfolges von x ∈ {0, 1}n . Dann kann die gemeinsame Verteilung von S, N beschrieben werden durch p(k, h) = P(S = k, N = h) mit 0 ≤ k ≤ n und 1 ≤ h ≤ n + 1. Dann ist: ( 0 für 1 ≤ h ≤ n (1 − q)n h = n + 1 n−h k q (−q)n−k p(k, h) = k−1 p(0, h) = wobei n−h k−1 die Anzahl der Möglichkeiten ist, k − 1 Erfolge auf Xh+1 , . . . , Xn aufzuteilen. Bemerkung. Ist N (x) = h, so ist x1 = . . . = xn−1 = 0, xn = 1. Beispiel 6. Für n = 3, q = 1 2 ist: N S 0 1 2 3 1 0 2 0 3 0 4 1 8 2 8 1 8 1 2 1 8 1 8 1 8 0 0 0 0 0 0 1 4 1 8 1 8 1 8 P (N = h) 1 8 3 8 3 8 1 8 P (S = k) Es gilt: P(N = h) = n X P(S = k, N = h) k=0 P(S = k) = n+1 X P(S = k, N = h) h=0 Allgemein gilt: Ist PX die gemeinsame Verteilung von X1 , . . . , Xn , so gilt für die Verteilungsfunktion von Xi , i = 1, . . . , n: pXi (ωi ) = X ω1 ,...,ωi−1 ωi+1 ,...,ωn pX (ω1 , . . . , ωn ) i-te Rand-, oder Marginalverteilung wobei pXi (ωi ) = PXi ({ωi }) ist. Bemerkung. Es ist pXi (ωi ) = P({x ∈ Ω : xi = ωi }). 3.2 Unabhängigkeit von Zufallsvariablen Definition 3.3. Es sei (Xi )i∈I eine Familie von Zufallsvariablen Xi : Ω → R, wobei I eine beliebige Indexmenge ist. Dann ist (Xi )i∈I unabhängig, wenn für jede Familie (Ai )i∈I , Ai ⊆ R, die Familie von Ereignissen ({Xi ∈ Ai })i∈I unabhängig sind. 22 3.2 Unabhängigkeit von Zufallsvariablen Im Folgenden sein X1 , . . . , Xn unabhängige Zufallsgrößen. Dann gilt für x1 ∈ X1 (Ω), . . . , xn ∈ Xn (Ω): n \ P(X1 = x1 , . . . , Xn = xn ) = P {Xi = xi } = i=1 | {z } unabhängig Ai ={xi } = n Y i=1 P({Xi = xi }) | {z } = =pXi (xi )=PXi ({xi }) n Y pXi (xi ) ∀X ∈ X1 (Ω) × . . . × Xn (Ω) i=1 ⇒ Die Verteilung von X = (X1 , . . . , Xn ) ist gerade die Verteilung des Produktraumes (X1 (Ω), pX1 ) × . . . × (Xn (Ω), pXn ). D.h. gemeinsame Verteilung = Produktverteilung von X1 , . . . , Xn . Satz 3.4. Die folgenden Aussagen sind äquivalent: a) Die Zufallsvariablen X1 , . . . , Xn sind unabhängig. b) Für alle x1 ∈ X1 (Ω), . . . , xn ∈ Xn (Ω) gilt: pX (x1 , . . . , xn ) = P(X1 = x1 , . . . , Xn = xn ) = n Y pXi (xi ) (1) i=1 c) Für alle A1 ⊆ X1 (Ω), . . . , An ⊆ Xn (Ω) gilt: P n \ ! {Xi ∈ Ai } = i=1 n Y P(Xi ∈ Ai ) (2) i=1 Beweis. a) ⇒ b) Siehe oben. b) ⇒ a) (1) besagt, dass die Verteilung von X = (X1 , . . . , Xn ) die Verteilung des Produktraums von (X1 (Ω), pX1 ), . . . , (Xn (Ω), pXn ) ist. Da {Xi ∈ Ai } = {ω ∈ X(Ω) : ωi ∈ Xi−1 (Ai )} ist, folgt aus Lemma 2.7, dass {X1 ∈ A1 }, . . . , {Xn ∈ An } unabhängig sind für alle A1 ⊆ X1 (Ω), . . . , An ⊆ Xn (Ω). D.h. X1 , . . . , Xn sind unabhängig. c) ⇒ b) trivial b) ⇒ c) Lemma 2.7 Satz 3.5. Seien X1 , . . . , Xn unabhängige Zufallsvariablen und fi : R → R, i = 1, . . . , n beliebige Funktionen. Dann sind die Zufallsvariablen Yi = fi ◦ Xi , i = 1, . . . , n ebenfalls unabhängig. Beweis. Es seinen yi ∈ fi (Xi (Ω)) = Yi (Ω), i = 1, . . . , n und Ai = {xi ∈ Xi (Ω) : fi (xi ) = yi } = fi−1 (yi ) ⇒ {ω ∈ Ω : Yi (ω = yi } = {ω ∈ Ω : Xi (ω) ∈ Ai } (2) ⇒ P(Y1 = y1 , . . . , Yn = yn ) = P(X1 ∈ A1 , . . . , Xn ∈ An ) = (2) = P(X1 ∈ A1 ) · . . . · P(Xn ∈ An ) | {z } | {z } P(Y1 =y1 ) P(Yn =yn ) 3.4 =⇒ Y1 , . . . , Yn sind unahängig. 23 3 Zufallsgröße, Erwarungswert und Varianz 3.3 Erwartungswert und Varianz Definition 3.6 (Erwartungswert). Eine Zufallsgröße X : Ω → R besitzt einen Erwartungswert, wenn die Reihe X p(ω) · |X(ω)| ω∈Ω 1 1 konvergiert. Kurz: X ∈ L (Ω, P) oder X ∈ L . In diesem Fall definieren wir den Erwartungswert von X als E(X) = X p(ω) · X(ω) (3) ω∈Ω Bemerkung. P a) Ist X ≥ 0 und divergiert ω∈Ω p(ω)X(ω), so setzen wir E(x) = +∞. b) Ist Ω endlich, so hat jede Zufallsvariable X : Ω → R einen Erwartungswert. Lemma 3.7 (Eigenschaften). a) X ∈ L1 (Ω, P) genau dann, wenn X |x| · P(X = x) x∈X(Ω) konvergiert. In diesem Fall ist E(x) = X x · P(X = x) (4) x∈X(ω) b) X, Y ∈ L1 mit X(ω) ≤ Y (ω) ∀ω ∈ Ω ⇒ E(X) ≤ E(Y ) c) X, Y ∈ L1 , c ∈ R, so ist X + cY ∈ L1 und es gilt: E(X + cY ) = E(X) + c · E(Y ) d) Falls X, Y ∈ L1 unabhängig sind, so ist auch X · Y ∈ L1 und es gilt: E(XY ) = E(X) · E(Y ) Beweis. a) Es gilt: X |x| · P(X = x) = x∈X(Ω) X x∈X(Ω) = = X |x| · X X x∈X(Ω) ω∈Ω X(ω)=x X p(ω) = ω∈Ω X(ω)=x |X(ω)|p(ω) = p(ω · |X(ω)| ω∈Ω ⇒ X ∈ L1 ⇔ P x∈X(Ω) |x| · P(X = x) konvergiert. Gleiche Rechnung ohne |.| zeigt Gleichung (4). b) Folgt direkt aus (3) c) Folgt direkt aus (3) und den Rechenregeln für kovergente Reihen. 24 3.3 Erwartungswert und Varianz d) Es gilt: X X |z| · P(XY = z) = z∈XY (Ω) X |z| · P(XY = z, X = x) = z∈XY (Ω) x∈X(Ω) = X X |z| · P(XY = z, X = x) = z6=0 x∈X(Ω) X = x,z6=0 x∈X(Ω) z∈XY (Ω) X = x∈X(Ω) y∈Y (Ω) = z y=: xz = |z| · P X = x, Y = x |xy| · P(X = x, Y = y) = | {z } X =P(X=x)P(Y =y) da unabhängig |x| · P(X = x) · x∈X(Ω) X |y| · P(Y = y) y∈Y (Ω) ⇒ XY ∈ L1 . E(XY ) = E(X)E(Y ) folgt aus gleicher Rechnung ohne |.|. Bemerkung. Es ist X ∈ L1 genau dann, wenn E(|x|) < ∞. Beispiel 7. Erwartungswert der Binomialverteilung: Es sei Ω = {0, 1}n mit p(ω) = q mit q ∈ [0, 1], ω ∈ Ω (Bernoulli-Experiment der Stufe n) und S(ω) = n X ωi P ωi · (1 − q)n− P ωi ∀ω ∈ Ω i=1 Beispiel 4: ⇒ P(S = k) = Bin,q (k) = n k q k (1 − q)n−k ∀k = 0, . . . , n. Andererseits: S = X1 + . . . + Xn wobei Xi (ω) = ωi ∀ω ∈ Ω = {0, 1}n und P(Xi = 1) = q, P(Xi = 0)1 − q. ⇒ E(Xi ) = 1 · P(Xi = 1) + 0 · P(Xi = 0) = q 3.7 =⇒ E(S) = E(X1 ) + . . . + E(Xn ) = nq Wir betrachten die geometrische Verteilung auf N, d.h. wir betrachten Ω = N und p(k) = (1 − q)k−1 · q Wahrscheinlichkeit für Erfolg beim k-ten Spiel, sonst Misserfolge. q ∈ (0, 1] Erfolgswahrscheinlichkeit des Spiels. Nun sei X eine geometrisch verteilte Zufallsvariable. Um E(X) zu berechnen, benuzten wir: ∞ f (x) := X 1 = xk 1−x k=0 f 0 (x) = 3.7 E(X) = ∀|x| < 1 ∞ X 1 = kxk−1 (1 − x)2 ∞ X k=1 k=0 k · P(X = k) = q · | {z } q(1−q)k−1 ∀|x| < 1 ∞ X k · (1 − q)k−1 = k=1 q q 1 = 2 = 2 (1 − (1 − q)) q q Beispiel 8. Erwartungswert der Poissonverteilung: Es sei X eine zum Parameter α > 0 Poisson-vertilte Zufallsvariable, d.h. P(X = k) = αk −α e k! ∀k ∈ N0 Wahrscheinlichkeitsfunktion der Poissonverteilung. Man kann die Poissonverteilung als Grenzwert der Binomialverteilung erhalten. Es gilt: P ◦ α(k) = lim Bin,p (k) n→∞ falls npn → α > 0 25 3 Zufallsgröße, Erwarungswert und Varianz Dann ist: E(X) = ∞ X k · P(X = k) = e−α · k=0 ∞ X k · αk k! k=1 = αe−α ∞ X k=0 αk = αe−α eα = α (k − 1)! Lemma 3.8. Der Erwartungswert einer N0 -wertigen Zufallsvariable ist gegeben durch E(X) = ∞ X P(X > k) k=0 Beweis. Übung. Zur Behandlung von Erwartungswerten von zusammengesetzten Zufallsvariablen ist das folgende Lemma nützlich. Lemma 3.9. Es seien X1 , . . . , Xn Zufallsvariablen und g : X1 (Ω) × . . . × Xn (Ω) → R. Dann gibt es den Erwartungswert von Y (ω) = g(X1 (ω), . . . , Xn (ω) ∀ω ∈ Ω genau dann, wenn: X ... x1 ∈X1 (Ω) X g(x1 , . . . , xn ) · P(X1 = x1 , . . . , Xn = xn ) xn ∈Xn (Ω) absolut konvergiert und der Wert dieser Reihe ist dann E(Y ). Beweis. Es sei Ω0 = X1 (Ω) × . . . × Xn (Ω) und p0 (x1 , . . . , xn ) = P(X1 = x1 , . . . , Xn = xn ) ∀x1 , . . . , xn ∈ Ω0 (5) Dann ist (Ω0 , p0 ) ein diskreter Wahrscheinlichkeitsraum und g : Ω0 → R eine Zufallsvariable auf (Ω0 , p0 ). Außerdem ist die Verteilung von g auf (Ω0 , p0 ) identisch mit der Verteilung Y , denn: X P(g ∈ A) = (x1 ,...,xn p0 (x1 , . . . , xn ) = X (5) = bzgl. (Ω0 , p0 ) )∈g −1 (A) P(X1 = x1 , . . . , Xn = xn ) = {z } | (x1 ,...,xn )∈g −1 (A) P({ω:X1 =x1 ,...,Xn =xn }) = P {ω : g(X1 (ω), . . . , Xn (ω)) ∈ A} = P(Y ∈ A) | {z } da disjunkt =Y (ω) Nun folgt aus 3.7, dass E(Y ) exisitiert, genau dann, wenn E(|Y |) = X x∈Y (Ω) = X mit x ∈ Y (Ω) = g −1 (Ω0 ) |x| · P(Y = x) = | {z } =P(|g|=x) 3.7 |x| · P(|g| = x) = E(|g|) < ∞ x∈g −1 (Ω0 ) E(|g|) < ∞ ⇔ X g(x1 , . . . , xn ) · p(x1 , . . . , xn ) absolut konvergiert | {z } 0 (x1 ,...,xn )∈Ω P(X1 =x1 ,...,Xn =xn ) E(|Y |) < ∞ ⇔ E(|g|) < ∞ Falls dies der Fall ist, zeigt obige Rechnung ohne |.|: E(Y ) = E(g) = (6) 26 (6) 3.4 Varianz 3.4 Varianz Der Erwartungswert sagt nocht nicht viel über eine Zufallsvariable aus. Insbesondere kann |X(ω0 ) − E(X)| für ω0 ∈ Ω beliebig groß sein. Eine Größe, die diese Abweichung kontrolliert, ist die Varianz. Definition 3.10 (Varianz). Es sei X ∈ L1 . Die Varianz von X ist V(X) = X (x − E(X))2 · P(X = x) ∈ [0, ∞] x∈X(Ω) Wir sagen die Varianz von X existiert, falls V(X) < ∞. In diesem Fall ist S(X) = abweichung von X. p V(X) die Standart- Bemerkung. Aus Lemma 3.7a) folgt, dass V(X) = E (X − E(X))2 Beispiel 9. Varianz der Gleichverteilung: Es sei X(Ω) = {x1 , . . . , xn } mit P(X = xj ) = Dann ist 1 n, j = 1, . . . , n. n 1X xj E(X) = n j=1 (arithmetisches Mittel) n V(X) = 1X (xj − E(X))2 n j=1 mittlere quadratische Abweichung vom Mittelwert Beispiel 10. Varianz der Bernoulliverteilung: Für eine bernoulliverteilte Zufallsvariable X gilt: P(X = 1) = q, P(X = 0) = 1 − q mit q ∈ [0, 1] ⇒ E(X) = q V(X) = (0 − q)2 P(X = 0) + (1 − q)2 P(X = 1) = q 2 (1 − q) + (1 − q)2 q = q(1 − q) Lemma 3.11 (Eigenschaften). Es seien X, Y ∈ L1 . a) Die Varianz von X existiert genau dann, wenn E(X 2 ) < ∞, kurz X ∈ L2 . In diesem Fall gilt: V(X) = E(X 2 ) − E(X)2 b) Es seinen a, b ∈ R. Existiert die Varianz von X, so existiert die Varianz von aX + b und es gilt: V(aX + b) = a2 V(X) c) Sind X, Y unabhängige Zufallsvariablen und X, Y ∈ L2 , dann existiert auch die Varianz des Summe X + Y und es gilt: V(X + y) = V(X) + V(Y ) d) Falls V(X) existiert und V(X) = 0 ist, so gibt es ein x ∈ R mit P(X = x) = 1 Beweis. a) Es gilt: (x − E(X))2 P(X = x) = x2 P(X = x) − 2xE(X)P(X = x) + E(X)2 P(X = x) Da X ∈ L1 , konvergiert X 2xE(X)P(X = x) x∈X(Ω) 27 3 Zufallsgröße, Erwarungswert und Varianz absolut. Außerdem gilt X E(X)2 P(X = x) = E(X)2 · P(Ω) = E(X)2 x∈X(Ω) ⇒ V(X) < ∞± ⇔ E(X 2 ) < ∞ Damit ist: V(X) = X x2 P(X = x) − 2E(X) x∈X(Ω) X xP(X = x) + E(X)2 P(Ω) = x∈X(Ω) 2 2 2 = E(X ) − 2E(X) + E(X) = E(X 2 ) − E(X)2 b) Aus a)) folgt: V(aX + b) = E((aX + b)2 ) − E(aX + b)2 = = a2 E(X 2 ) + b2 + 2abE(X) − a2 E(X)2 + b2 + 2abE(X) = = a2 E(X 2 ) + E(X)2 = a2 V(X) c) Wegen (X(ω) + Y (ω))2 ≤ 4 (X(ω))2 + (Y (ω))2 ist E((X + Y )2 ) < ∞ ⇒ V(X + Y ) existiert. Dies gilt auch für abhängige Zufallsgrößen. Aus a)) folgt: V(X + Y ) = E((X + Y )2 ) − E((X + Y ))2 = = E(X 2 ) + E(Y 2 ) + E(2XY ) − E(X)2 − 2E(X)E(Y ) − E(Y )2 = = E(X 2 ) − E(X)2 + E(Y 2 ) − E(Y )2 + 2E(XY ) − 2E(X)E(Y ) = V(X) + V(Y ) {z } | =0, Lemma 3.7 d) Aus V(X) = 0 folgt, für jedes x ∈ Ω: x = E(X) oder P(X = x) = 0. ⇒ P(X = E(X)) = 1. Lemma 3.12 (Minimale quadratische Abweichung). Für alle X ∈ L2 gilt E (X − a)2 ≥ V(X) ∀a ∈ R mit Gleichheit genau dann, wenn a = E(X). Beweis. Mit Hilfe der Linearität von E(X) errechnet man mit E(X − E(X)) = E(X) − E(X) = 0: E((X − a)2 ) = E (X − E(X) + E(X) − a)2 = = E (X − E(X))2 + E (E(X) − a)2 + 0 ⇒ E((X − a)2 ) = E((X − E(X))2 ) + (E(X) − a)2 ≥ E((X − E(X))2 ) = V(X) Außerdem gilt: =“ genau dann, wenn (E(X) − a)2 = 0 genau dann, wenn a = E(X). ” 3.5 Kovarianz Definition 3.13. Es seinen X, Y ∈ L2 . Dann ist die Kovarianz von X und Y die Zahl Cov(X, Y ) = E(XY ) − E(X)E(Y ) Wir nennen X, Y unkorreliert, falls Cov(X, Y ) = 0. 28 3.5 Kovarianz Bemerkung. Die Kovarianz ist wohldefiniert, denn 2 |X(ω) + Y (ω)| ≤ X(ω)2 + Y (ω)2 ⇔ 0 ≤ X 2 − 2XY + Y 2 = (X − Y )2 ⇒ E(XY ) existieren Lemma 3.14 (Eigenschaften). a) Für alle X, Y ∈ L2 gilt: Cov(X, Y ) = E (X − E(X))(Y − E(Y )) Cov(X, X) = V(X) Cov(X, Y ) = Cov(Y, X) Cov(aX + c, bY + d) = ab Cov(X, Y ) ∀a, b, c, d ∈ R b) Für alle X1 , . . . , Xn ∈ L2 gilt: V n X ! Xi = i=1 n X V(Xi ) + i=1 n X Cov(Xi , Xj ) i,j=1 i6=j c) Sind X, Y ∈ L2 unabhängig, so gilt Cov(X, Y ) = 0. Beweis. 4. Übungsblatt. Folgerung 3.15 (Satz von Bienaymé). Sind X1 , . . . , Xn ∈ L2 paarweise unkorreliert (d.h. Cov(Xi , Xj ) = 0 ∀i 6= j), dann gilt: V(X1 + . . . + Xn ) = V(X1 ) + . . . + V(Xn ) Beispiel 11 (Varianz der Binomialverteilung). Wie in Beispiel 7.) sei S = X1 + . . . + Xn wobei X1 , . . . , Xn unabhängige Bernoulliverteilte Zufallsvariablen zum Parameter q ∈ [0, 1] sind. Beispiel 10.): ⇒ C(Xi ) = q(1 − q) ∀i = 1, . . . , n 3.14 ⇒ X1 , . . . , Xn paarweise unkorreliert. Satz von Bienaymé 3.15: V(S) = V(X1 ) + . . . V(Xn ) = n · q(1 − q) Erinnerung: P(S = k) = Bin,q (k) = nk q k (1 − q)n−k ∀k = 0, . . . , n Die folgende Minimalitätseigenschaft ist nützlich, wenn eine komplizierte Zufallsvariable durch aX + b approximiert werden soll. Lemma 3.16 (Beste lineare Vorhersage). Es seien X, Y ∈ L2 mit V(X) = 1. Dann wird die quadratische Abweichung E (Y − a − bX)2 a, b ∈ R zwischen Y und a + bX minimiert genau dann, wenn: b = Cov(X, Y ), a = E(Y − bX) Bemerkung. Falls X und Y unkorreliert sind, so hängt die Lösung b = 0 und E(Y ) = a nicht von X ab. Beweis. 4. Übungsblatt Eine der wichtigsten Ungleichungen: 29 3 Zufallsgröße, Erwarungswert und Varianz Satz 3.17 (Cauchy-Schwarz-Ungleichung). Für alle X, Y ∈ L2 gilt: p p |E(XY )| ≤ E(X 2 ) · E(Y 2 ) (7) Es gilt Gleichheit genau dann, wenn P(aX + bY = 0) = 1, genau dann, wenn aX(ω) + bY (ω) = 0 ∀ω mit p(ω) > 0 nur für E(XY ) 6= 0! Beweis. Sei α = E(Y 2 ) und β = E(XY ). 1. Fall: α = 0: Dann ist P(Y = 0) = 1 ⇒ E(XY ) = 0 2. Fall: α > 0: Es gilt: 0 ≤ E (αX − βY )2 = α2 E(X 2 ) − 2αβE(XY ) + β 2 E(Y 2 ) = = αE(X 2 )E(Y 2 ) − 2αE(XY )2 + E(XY )2 · α = = α E(X 2 )E(Y 2 ) − E(XY )2 ⇒ E(X 2 )E(Y 2 ) ≥ E(XY )2 ⇒ (7) Die Abschätzung zeigt, dass Gleichheit gilt genau dann, wenn 0 = E (αX − βY )2 ⇒ αX(ω) − βY (ω) = 0 ∀ω ∈ Ω mit p(ω) > 0 ⇒ P(αX − βY = 0) = 1 Bemerkung. Aus (7) folgt: | Cov(X, Y )| = E (X − E(X))(y − E(Y )) ≤ q q ≤ E (X − E(X))2 · E (Y − E(Y ))2 = (8) = S(X)S(Y ) ⇒ −1 ≤ Cov(X, Y ) ≤1 S(X)S(Y ) (9) Bemerkung. 1.) Es gelte Gleichheit in einer der Ungleichungen in (9). Dann gilt Gleichheit in (8) und es folgt aus 3.17, dass es a, b ∈ R gibt mit P(a(X − E(X)) + b(Y − E(Y )) = 0) = 1. ⇒ aX(ω) + bY (ω) + c = 0 ∀ω ∈ Ω : p(ω) > 0, wobei c = −aE(X) − bE(Y ) ist. D.h. die Werte von (X(ω, Y (ω)) liegen für alle ω ∈ Ω mit p(ω) > 0 auf einer Geraden. 2.) Grob gesagt bedeutet Cov(X, Y ) > 0, dass eine Tendenz vorliegt, nach der das Ereignis {X > E(X)} öfter mit dem Ereignis {Y > E(Y )} oder das Ereignis {X < E(X)} mit dem Ereignis {Y < E(Y )} zusammentrifft, als {X ≥ E(X)} auf {Y < E(Y )} bzw. {X ≤ E(X)} auf {Y > E(Y )}. 3.) Ist Cov(X, Y ) = 0, so müssen X, Y nicht unabhängig sein! Bsp.: Ω = {1, 2, 3, 4}, p(1) = p(2) = 52 , p(3) = p(4) = 1 10 X(1) = 1, Y (1) = −1 X(2) = −1, Y (2) = 1, X(3) = Y (3) = 2 X(4) = Y (4) = −2 ⇒ E(X) = E(Y ) = 0 Cov(X, Y ) = E(XY ) = 1 · P(X = 1, Y = 1) = 30 2 2 1 1 −1· +4· +4· =0 5 5 10 10 2 4 6= = P(X = 1) · P(Y = −1) 5 25 3.6 Das schwache Gesetz der großen Zahlen 3.6 Das schwache Gesetz der großen Zahlen Das schwache Gesetz der großen Zahlen liefert eine Aussage über Abweichungen von einer Summe von Zufallsvariablen n1 (X1 , . . . , Xn ) von dem Erwartungswert. Satz 3.18 (Tschebyschewsche Ungleichung). Es sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum und X eine (reellwertige) Zufallsvariable mit endlicher Varianz. Dann gilt für alle ε 0 P (|X − E(X)| ≥ ε) ≤ Beweis. Es sei Z = X − E(X). Wir setzen ( Y (ω) = 0 ε2 V(X) ε2 falls |Z9ω)|, ε falls |Z(ω)| ≥ ε Dann gilt Y ≤ |Z 2 | und somit V(X) = E(|Z 2 |) ≥ E(Y ) = ε2 · P(Y = ε2 ) = ε2 P (|X − E(X)| ≥ ε) |{z} Monotonie von E Bemerkung (Markovsche Ungleichung). ist Φ : [0, ∞) → [0, ∞) monoton wachsend und Φ(ε) > 0, so gilt für jede Zufallsvariable Z: E(Φ(Z)) P (|Z| ≥ ε) ≤ Φ(ε) Der Beweis ist der Gleiche wie oben: Man setze ( 0 |Z(ω)| < ε Y (ω) = Φ(ε) |Z(ω) ≥ ε Satz 3.19 (Schwaches Gesetz der großen Zahlen für unabhängige Zufallsvariablen mit beschränkter Varianz). Es seien X1 , . . . , Xn paarweise unkorrelierte Zufallsvariablen mit gleichem Erwartungswert und V(Xi ) ≤ M < ∞ für alle i = 1, . . . , n. Dann gilt für alle ε > 0: 1 M n→∞ P (X1 + . . . + Xn ) − E(X1 ) ≥ ε ≤ 2 −−−−→ 0 n ε n Bemerkung. Ist (Yn )n∈N eine Folge von Zufallsvariablen, so sagt man (Yn )n∈N konvergiert in Wahrscheinlichkeit, bzw. konvergiert stochastisch gegen Zufallsvariable Y , falls lim P(|Yn − Y | ≥ ε) = 0 für alle ε > 0 n→∞ In diesem Fall schreibt man auch Yn −−−−→ Y P n→∞ Satz 3.19 besagt gerade, dass 1 n Sn := 1 n (X1 + . . . + Xn ) −−−−→ 0. P n→∞ Beweis. Aufgrund der Linearität des Erwartungswertes ist: 1 1 E (X1 + . . . + Xn ) = E(X1 ) + . . . + E(Xn ) = E(X1 ) n n Aufgrund der paarweisen Unkorreliertheit, 3.11b) und 3.15 (Satz von Bienaymé) ist: 1 1 1 1 M V Sn = 2 V(X1 + . . . + Xn ) = 2 V(X1 ) + . . . + V(Xn ) ≤ 2 · n · M = | {z } n n n | {z } n n 1 V( n1 Sn ) M 3.18 =⇒ P Sn − E(X1 ) ≥ ε ≤ ≤ 2 2 n ε nε ≤M ≤M 31 3 Zufallsgröße, Erwarungswert und Varianz Beispiel 12. Sind X1 , . . . , Xn unabhängige bernoulliverteilte Zufallsvariablen zum Parameter p ∈ [0, 1], d.h. P(Xj = 1) = p, So ist E(Xj ) = p, V(Xj ) = p(1 − p) ≤ Dann erhält man: 1 4 P(Xj = 0) = 1 − p ∀j = 1, . . . , n siehe Beispiel 10.) 1 p(1 − p) 1 P (X1 + . . . + Xn ) − p ≥ ε ≤ ≤ 2 n nε 4nε2 Mit großer Wahrscheinlichkeit ist der Mittelwert Bsp.: p = 1 6 1 n Sn nahe der Erfolgswahrscheinlichkeit p. 1 6 = P( Wrürfelwurf ist 6“) ⇒ p = aller Würfelwürfe ist die 6“ für große n. ” ” Beispiel 13 (Ein vorteilhaftes Spiel, das man auf Dauer verliert). Ein Spiel, bei dem in jeder Runde der Erwartungswert des Gewinns gleich dem Erwartungswert des Verlustes ist, heißt fair. Eines, bei dem der erwartete Gewinn größer als der erwartete Verlust ist, heißt vorteilhaft. Das folgende Spiel heißt vorteilhaft: Man beginnt mit Startkapital X0 = 1. In jeder Runde wird eine faire Münze geworfen und ( 1 Xn−1 falls n-ter Wurf Kopf“ ” Xn = 25 falls n-ter Wurf Zahl“ 3 Xn−1 ” Dann ist der erwartete Gewinn 21 · 23 ·Xn−1 größer als der erwartete Verlust 12 · 21 ·Xn−1 , da 13 > 41 . Andererseits ( 1 falls n-ter Wurf Kopf“ ” Yn = 25 falls n-ter Wurf Zahl“ 3 ” Dann ist Xn = Y1 · . . . · Yn und die Y1 , . . . , Yn sind unabhängig. Aus 2 1 13 15 E(Yi ) = = >1 folgt + 2 23 12 n n Y 13 n→∞ ⇒ E(Xn ) = E(Yi ) = −−−−→ ∞ 12 i=1 Wir betrachten nun µ = E(log Yi ). Dann ist 1 5 1 1 1 µ = log + log · < log + log 2 · = 0 2 3 2 2 2 µ Wir wählen ε = |µ| 2 = − 2 und wenden das schwache Gesetz der großen Zahlen an: 1 1 n→∞ P (log Y1 + . . . + log Yn ) − µ < ε = 1 − P (log Y1 + . . . + log Yn ) − µ ≥ ε −−−−→ 1 + 0 = 1 2 n Da log Xn = log Y1 + . . . + log Yn folgt: P log Xn µ −µ≤− n 2 ⇒ Mit Wahrscheinlichkeit nahe bei 1 ist also Xn ≤ exp nµ 2 n→∞ −−−−→ 1 n→∞ −−−−−→ 0 da µ<0 D.h. mit großer Wahrscheinlichkeit strebt das Kapital exponentiell schnell gegen 0. Bemerkung. 1.) Für das Spiel ist wichtig, dass 5 3 < 2. 2.) Die Existenz von einer Folge von Zufallsvariablen (Yn )n∈N , sodass Y1 , . . . , Yn ∀n ∈ N unabhängig sind und Yn bernoulliverteilt mit p = 21 sind, ist im Rahmen der diskreten Wahrscheinlichkeitsräume nicht gesichert! Dafür werden allgemeine Wahrscheinlichkeitsräume benötigt. Allerdings kann man mit Hilfe (n) (n) von endlichen Produkträumen zeigen, dass es ∀n ∈ N unabhängige Zufallsvariablen Y1 , . . . , YN gibt, 1 die bernoulliverteilt mit p = 2 sind (vgl. Ergänzungen). (n) (n) Für Y1 , . . . , YN 32 gelten dann alle oben gemachten Aussagen. 4 Approximation der Binomialverteilung 4.1 Normalverteilungsapproximation von Bin,p Es seien X1 , . . . , Xn unabhängige bernoulliverteilte Zufallsvariablen zum Parameter p ∈ (0, 1). P(Xi = 1) = p, P(Xi = 0) = 1 − p. Dann ist S1 = X1 + . . . + Xn binomialverteilt zu den Parametern n, p n k P(Sn = k) = Bin,p (k) = p (1 − p)n−k k Erinnerung. E(Sn ) = n · E(Xi ) = np V(Sn ) = np (1 − p) = npq | {z } =:q Frage: Wie stark weicht Sn von E(Sn ) = np ab? Lemma 4.1 (Größenordnung der Fluktuation). Es sei (an )n∈N eine Folge positiver Zahlen. Dann gilt: ( an →∞ 1 falls √ n lim P |Sn − np| ≤ an = a n→∞ 0 falls √nn → 0 Beweis. 1. Fall: Mit 3.18 (Tschebyschewsche Ungleichung), 3.19 (schwaches Gesetz der großen Zahlen) gilt: √ 2 an M Mn n n→∞ 1 = 2 =M· −−−−→ 0 P Sn − p ≥ ≤ a 2 n n n a a n n ·n |{z} n =ε da an √ n n→∞ −−−−→ ∞ ist. Also ist: P (|Sn − np| ≤ an ) = 1 − P(|Sn − np| ≥ an ) = 1 an M n n→∞ = 1 − P Sn − p ≥ ≥ 1 − 2 −−−−→ 1 n n an | {z } n ≤M a2 n 2. Fall: [3, Georgii], oder Satz 4.2. Für eine genauere Untersuchung von P(|Sn − np| ≤ an ) ist es gut, an ≈ trivial). Genauere Asymptotik: Wir betrachten Bin,p (k) √ n zu wählen (sonst ist das Ergebnis für |k − np| ≤ c · √ n mit c > 0 beliebig, aber fest. Wichtiges Hilfsmittel: Stirling Formel. Stirling Formel. n! ∼ wobei an ∼ bn ⇔ limn→∞ an bn √ 2πn · n n e (1) = 1. 33 4 Approximation der Binomialverteilung Beweis. Analysis I oder [1, Krengel] Bemerkung. an ∼ bn , cn ∼ dn ⇒ an cn ∼ bn dn Vorbereitung. 1.) k √ c k n→∞ |k − np| ≤ c n ⇒ − p ≤ √ ⇒ −−−−→ p n n n n−k k n→∞ ⇒ = 1 − −−−−→ 1 − p =: q n n ⇒ n − k ∼ nq 2.) wobei: q n k(n−k) ∼ q bzw. k ∼ np √ 2πn( ne )n n n! p = ∼√ = n−k k!(n − k)! k 2πk( ke )k · 2π(n − k)( n−k e ) r n k n n−k 1 n =√ · · k(n − k) k n−k 2π n npnq ⇒ Bin,p (k) = = √1 npq np k nq n−k k n k n−k 1 1 p q ∼√ =√ · e−nh( n ) k n−k 2πnpq k 2πnpq mit h(s) := s · ln p2 + (1 − 2) · ln 1−s q . Nun gilt: h(p) = 0 h0 (s) = ln 1−s s − ln ⇒ h0 (p) = 0 p q Bem.: k → n → inf typ n 1 1 1 = h00 (s) = + s 1−s s(1 − s) 1 1 ⇒ h00 (p) = = p(1 − p) pq Taylorreihenentwicklung um s = p: (s − p)2 + O((S − p)3 ) = 2 (s − p)2 = + O((s − p)3 ) 2pq h(s) = h00 (p) Da | nk − p| ≤ √c n für n → ∞, folgt: ( k − p)2 3 k h = n + O(n− 2 ) n 2pq Sei nun: k − np Xn (k) = √ npq 3 k Xn (k)2 ⇒ nh = + nO(n− 2 n 2 Xn (k)2 1 1 · e− 2 =: ϕ(Xn (k)) · √ ⇒ Bin,p (k) ∼ √ npq 2πnpq 34 für n → ∞ 4.1 Normalverteilungsapproximation von Bin,p mit ϕ(x) = x2 − 2 e√ sπ Dichte der Standartnormalverteilung. Daraus erhalten wir: Satz 4.2 (Lokaler Grenzwertsatz für die Binomialverteilung). Es sei 0 < p < 1 und q = 1 − p. Dann gilt für alle c > 0: √ npq · Bin,p (k) (2) lim max − 1 = 0 n→∞ k, ϕ(Xn (k)) |Xn (k)|≤c Bemerkung. Skizze für ϕ(x) = √ |k − np| ≤ c n ⇔ |Xn (k)| ≤ c0 2 x √1 e− 2 2Π : Es gilt: ϕ(−x) = ϕ(x) ∀x ∈ R Mann kann zeigen: Z ∞ −∞ ϕ(x) dx = 1 Weiterhin erhalten wir: Satz 4.3 (Satz von Moivre-Laplace, Zentraler Grenzwertsatz für Bin,p ). Sei 0 < p < 1 und Sn , n ∈ N eine Folge Bin,p verteilter Zufallsvariablen. Dann gilt für alle a, b ∈ R, a < b: lim P a ≤ Sn∗ ≤ b = n→∞ mit Z b a ϕ(x) dx Sn − np Sn∗ = p np(1 − p) normalisierte Form von Sn . Bemerkung. 35 4 Approximation der Binomialverteilung 1.) Es ist p p np(1 − p) = V(Sn ) und es gilt: E(Sn∗ ) = 0 V(Sn∗ ) = 2.) Setzt man Z Φ(x) = x −∞ V(Sn ) =1 np(1 − p) Z ϕ(t) dt = x −∞ exp(− t2 ) √ dt 2π 2 die sog. Verteilungsfunktion der Standartnormalverteilung, so gilt: lim P(a ≤ Sn∗ ≤ b) = |P hi(b) − Φ(a) n→∞ x→−∞ x→∞ 3.) Es gilt Φ(0) = 0, 5, Φ(x) −−−−−→ 0, Φ(x) −−−−→ 1. Insbesondere ist Φ(−x) = 1 − Φ(x) ∀x ∈ R, da Z Φ(−x) = Beweis. Sei σn = nun: −x −∞ Z ϕ(t) dt = p np(1 − p) ⇒ xn (k) = k−np σn . ∞ −∞ Z ϕ(t) dt − x −∞ ϕ(t) dt = 1 − Φ(x) Nun gilt: a ≤ Sn∗ ≤ b ⇔ aσn + np ≤ Sn ≤ bσn + np. Sei αn := daσn + npe, βn := bbσn + npc mit d. . .e aufgerundet, b. . .c abgerundet. ⇒ |αn − aσn − np| ≤ 1 1 ⇒ |xn (αn ) − a| ≤ σn Ähnlich: |xn (βn ) − b| ≤ 1 − εn ≤ 36 1 σn . Mit (4.2) folgt: σn · Bin,p (k) ≤ 1 + εn ϕ(xn (k)) n→∞ ∀k : αn ≤ k ≤ βn wobei εn −−−−→ 0 (3) 4.1 Normalverteilungsapproximation von Bin,p Sei nun: Rn = βn X 1 · ϕ(xn (k)) σn k=αn (3)·Rn =⇒ (1 − εn )Rn ≤ βn X Bin,p (k) ≤ (1 + εn )Rn k=αn | {z } =P(αn ≤Sn ≤βn ) ∗ =P(a≤Sn ≤b) ⇒ lim P(a ≤ Sn∗ ≤ b) = lim Rn n→∞ n→∞ Nun ist: Z lim Rn = n→∞ b a ϕ(x) dx da Rn ist Riemann-Summe bzgl. von intervallen mit Seitenlänge k ≤ βn . Mit xn (k + 1) = xn (k) + σ1n . 1 σn und Mittelpunkten xn (k), wobei αn ≤ Nachtrag zum Beweis. Wir haben gezeigt: (1 − εn )Rn ≤ P(a ≤ Sn∗ ≤ b) ≤ (1 + εn )Rn wobei n→∞ εn −−−−→ 0 Rn = βn X 1 ϕ(xn (k)) σn k=αn Es gilt: σn = αn = daσn + npe, βn = bbσn + npc Z b a Beweis. Zu zeigen: p k − np , xn (k) = p np(1 − p) R∞ −∞ Z n→∞ ϕ(x) dx ←−−−− Rn ≈ xn (βn + 12 ) xn (αn − 21 ) n→∞ ϕ(x) dx −−−−→ np(s − p) Z a b ϕ(x) dx ϕ(x) dx = 1 ≤“: ” Z s∗n 1 ≥ lim P(a ≤ ≤ b) = n→∞ Z ∞ ⇒1≥ ϕ(x) dx a b ϕ(x) dx ∀a, b −∞ ≥“: Sei ε > 0. Lemma 4.1: ” Wähle an = M · √ n. an n→∞ ⇒ lim P(|S − n − np| ≤ an ) + 1 falls √ −−−−→ ∞ n→∞ n ⇒ ∃M > 0, sodass an P(|Sn − np| ≤ an ) ≥ 1 − ε falls √ ≥ M n √ ⇒ P(|Sn − np| ≤ M n) ≥ 1 − ε {z }« |„ ∗ =P − √ M ≤Sn ≤√ M p(1−p) p(1−p) R M̃ R∞ = −M̃ ϕ(x) dx≤ −∞ ϕ(x) dx Z ⇒ ε > 0 beliebig ⇒ ∞ −∞ ϕ(x) dx ≥ 1 37 4 Approximation der Binomialverteilung Beispiel 1. Frage: Wie groß ist näherungsweise die Wahrscheinlichkeit bei 600 Würfelwürfen (fairer Würfel) mindestens 90 und maximal 100 mal eine 6 zu würfeln? Es sei n = 600 und p = 61 . ⇒ E(Sn ) = np = 100 p p r 1 5 np(1 − p) = 600 . . . · ≈ 9, 13 6 6 90 − 100 Sn − 100 100 − 100 ⇒ P(90 ≤ Sn ≤ 100) = P ≤ ≤ ≈ σn σn σn −10 ≈ Φ(0) − Φ = 0, 5 − (1 − Φ(1, 095)) = 9, 13 σn = V(Sn ) = = Φ(1, 095) − 0, 5 = 0, 862 − 0, 5 = 0, 36 Exakter Wert: P(90 ≤ S − n ≤ 100) = 0, 4025 (Computer) Bessere Approximation: Nutze (3) 1 1 P(90 ≤ S − n ≤ 100) ≈ Φ xn (β + − Φ xn α − = 2 2 90 − 21 − 100 100 + 12 − 100 −Φ = =Φ σn σn 0, 5 −10, 5 =Φ −Φ = . . . = 0, 397 σn σn Beispiel 2. (Wahlvorhersage) wir wollen den Prozentsatz der Wähler einer Partei A schätzen. Sind unter n befragten Wählern Sn Wähler der Partei A, so nehmen wir Snn als Schätzung für die (unbekannte) Wahrscheinlichkeit p, dass ein Wähler Partei A wählt. Frage: Wie groß muss n gewählt werden, damit die Wahrscheinlichkeit einer Abweichung von mehr als 1% kleiner als 0, 05 ist? Sn n von p um Gesucht ist also ein (minimales) n, sodass Sn − p ≤ 0, 01 & 0, 95 P −0, 01 ≤ n p Mit σn = np(1 − p) folgt aus 4.3: ! −0, 01 · n Sn − np 0, 01 · n 0, 01n 0, 01n 0, 01n P ≤ ≤ =Φ −Φ − = 2Φ − 1 ≥ 0, 95 σn σn σn σn σn σn 0, 01n ⇒Φ ≥ 0, 9725 σn Wissen: Φ : R → (0, 1) bijektiv, streng monoton wachsend. Wähle n ∈ N, sodass 0, 01n ≥ Φ−1 (0, 9725) ≈ 1, 96 np(1 − p) √ 1, 96 · 100 1 ⇒ n≥ p ⇔ n ≥ (196)2 · p(1 − p) ≈ (196)2 · 4 p(1 − p) Da p ∈ (0, 1), folgt p(1 − p) ≤ 12 1 − 12 = 14 p ⇒ n≥ (196)2 ) = 9604 4 Wissen wir außerdem, dass p ≤ 0, 1, so gilt p(1 − p) ≤ 0, 1(1 − 0, 1) = 0, 09. Dann würden n ≥ Wähler ausreichen. 38 (196)2 0,09 = 3450 4.2 Poisson-Approximation und Summen von Zufallsvaribalen 4.2 Poisson-Approximation und Summen von Zufallsvaribalen Ist p klein (genauer: p·n ≈ α für ein α > 0), so ist eine Approximation von Bin,p durch die Poissonverteilung αk ∀k ∈ N k! besser als die Normalverteilungsapproximation von Satz 4.3. Um dies herzuleiten, benötigen wir: Poα (k) = e−α Satz 4.4. Sind X und Y unabhängige Z-wertige Zufallsvariablen, so ist X P(X + Y = k) = P(X = k − j)P(Y = j) ∀k ∈ Z j∈Z Bemerkung. 1.) Setzt man ak = P(X = k), bk = P(Y = k) ∀k ∈ Z, so ist X P(X + Y + k) = ak−j bj =: (a ∗ b)k ∀k ∈ Z j∈Z wobei die Folge a ∗ b = ((a ∗ b)k )k∈Z die Faltung von den Folgen (ak )k∈Z und (bk )k∈Z ist. 2.) Nehmen X, Y nur Werte in N0 an, so gilt: P(X + Y = n) = n X k=0 Beweis. P(X + Y = k) = X P(X = n − k) · P(Y = k) {z } | {z } | =0 ∀l>n (4) =0 ∀k<0 P(X + Y = k, Y = j) = j∈Z = X P(X = k − j, Y = j) = j∈Z = X P(X = k − j)P(Y = j) j∈Z Erinnerung. Eine Zufallsvariable X heißt Poissonverteilt zum Parameter α > 0 (kurz Poα -verteilt), falls: αk ∀k ∈ N0 k! Lemma 4.5. Sind X1 und X2 unabhängige Zufallsvariablen und ist Xi Poαi -verteilt mit αi > 0, i = 1, 2, so ist die Summe X1 + X2 Poα1 +α2 -verteilt. P(X = k) = Poα (k) = e−α Beweis. Benutze (4). Es ist: P(X1 + X2 = n) = = n X k=0 n X k=0 P(X1 = n − k)P(X2 = k) = e−α1 α1n−k αk · e−α2 2 = (n − k)! k! n 1 X αn−k α2k · n! 1 = n! (n − k)! k! k=0 n 1 X n n−k k · α · α2 = = e−(α1 +α2 ) · n! k 1 k=0 | {z } = e−α1 −α2 · =(α1 +α2 )n Binom. Lehrsatz = e−(α1 +α2 ) · (α1 + α2 )n = Poα1 +α2 (n) n! 39 4 Approximation der Binomialverteilung Satz 4.6. Es seien X1 , . . . , Xn unabhängige Zufallsvariablen mit P(Xi = 1) = qi , P(Xi = 0) = 1 − qi für qi ∈ [0, 1] und i = 1, . . . , n. Sei S = X1 + . . . + Xn und α = q1 + . . . + 1n . Dann gilt: n ∞ k X X P(S = k) − e−α α ≤ 2 · qi2 k! k=0 k=0 Beweis. Für die Berechnung P(S = k) ist es egal, auf welchem Wahrscheinlichkeitsraum X1 , . . . , Xn definiert sind. Es kommt nur auf die Verteilung von X1 , . . . , Xn und deren Unabhängigkeit an. Deswegen können wir einen passenden Wahrscheinlichkeitsraum wählen. Sei Ωi = {−1, 0, 1, 2, . . .} = N ∪ {0, −1} und pi (0) = 1 − qi , pi (−1) = e−qi − (1 − qi ), pi (k) = e−qi · für i = 1, . . . , n ⇒ (Ωi , pi ) ist ein diskreter Wahrscheinlichkeitsraum. qik k! ∀k ∈ N Wir setzen (Ω, p) der Produktwarhscheinlichkeitsraum von (Ω1 , p1 ), . . . , (Ωn , pn ): Ω = Ω1 × . . . × Ωn p(ω) = p1 (ω1 ) · . . . · pn (ωn ) Wir setzen: ( Xi (ω) = ( Yi (ω) = ∀ω = (ω1 , . . . , ωn ) 0 falls ωi = 0 1 sonst k 0 falls ωi = k ≥ 1 sonst, also ωi ∈ {−1, 0} für alle ω ∈ Ω, i = 1, . . . , n. Dann sind X1 , . . . , Xn unabhängig und P(Xi = 1) = qi , P(Xi = 0) = 1 − qi . Außerdem sind Y1 , . . . , Yn unabhängig, da Yi nur von ωi abhängt. Es gilt: P(Xi = Yi ) = pi (0) + pi (1) = 1 − qi + e−1i · qi ⇒ P(Xi 6= Yi ) = 1 − P(Xi = Yi ) = qi − e−qi · qi = qi 1 − e−1i ≤ qi2 da 1 − e−x = xe−ξ < x nach Mittelwertsatz. 4.5 =⇒ T = Y1 + . . . + Yn ist Poα -verteilt mit α = q1 + . . . + 1n , da Y − i Poαi -verteilt sind und Y1 , . . . , Yn unabhängig. ∞ ∞ X X P(S = k, T = k) + P(S = k, T 6= k) − P(T = k, S = k)−]P (T = k, S 6= k) ≤ ⇒ P(S = k) − Poα (k) = | {z } k=0 k=0 P(T =k) ≤ ∞ X |P(S = k, T 6= k)| + |P(T = k, S 6= k)| = 2 · P(S 6= T ) ≤ k=0 ≤2· n X P(Xi 6= Yi ) =: I i=0 (5) ⇐= da S(ω) 6= T (ω), gibt es ein i ∈ {1, . . . , n}, sodass Xi (ω) 6= Yi (ω). ⇒ {ω : S(ω) 6= T (ω)} ⊆ ⇒ I ≤2· n X i=1 40 n [ i=1 qi2 {ω : Xi (ω) 6= Yi (ω)} (5) 4.2 Poisson-Approximation und Summen von Zufallsvaribalen n→∞ Folgerung 4.7. Ist p(n) eine Folge mit p(n) ∈ [0, 1] und n · p(n) −−−−→ α > 0. Dann gilt lim Bin,p (k) = Poα (k) ∀k ∈ N0 n→∞ Beweis. Setze qi = p(n), i = 1, . . . , n. Sei X1 , . . . , Xn wie in Satz 4.6. ⇒ S = X1 + . . . + Xn ist Bin,p(n) -verteilt sowie: 2· n X i=1 n→∞ n→∞ p(n)2 = 2 · p(n) (n + 1)p(n) −−−−→ 0 {z } |{z} | →α →0 n→∞ da p(n) −−−−→ 0, weil n · p(n) −−−−→ α. ∞ X |P(S = k) − Poα (k)| ≤ ⇒ Bin,p(n) (k) − Poα (k) ≤ k=0 ≤2· n X n→∞ qi2 −−−−→ 0 i=0 Bemerkung. Man erhält sogar die folgende Fehlerabschätzung: Sind n · p(n) ≤ C ∀n ∈ N0 , so gilt: ∞ 2 X Bin,p(n) (k) − Poα (k) ≤ 2C sup Bin,p(n) (k) − Poα (k) ≤ n k∈N0 k=0 Beispiel 3. In einem Hörsaal seien n = 91 Studenten. Wir nehmen an, dass die Wahrscheinlichkeit heute 1 Geburtstag zu haben p = 365 ist. Dann ist die Anzahl X von Studierenden, die heute Geburtstag haben, 91 näherungsweise Poα -verteilt mit α = np = 365 ≈ 0, 25. Beispiel 4. Von einer Ware (z.B. Glühbirnen) ist ein kleiner Anteil p = 0, 015 nach der Produktion defekt. Wie viele Stücke muss man in einen Karton tun, um mit Wahrscheinlichkeit ≥ 0, 8 mindestens 100 intakte Stücke zu haben? Gesucht ist ein minimales n ≥ 100, sodass 0, 8 ≤ n−100 X Bin,p (k) ≈ | {z } n−100 X k=0 k=0 Wahrscheinlichkeit k defekte Objekte zu haben. e−αn αnk k! Wahrscheinlichkeit maximal n − 100 defekte Objekte zu haben =: rn , wobei αn = n · p ≈ 1, 5. ⇒ r100 ≈ e−1,5 · 1 = 0, 22 r101 ≈ e−1,5 (1 + 1, 5) ≈ 0, 558 2, 25 −1,5 r102 ≈ e 1 + 1, 5 + ≈ 0, 809 2 ⇒ Wähle n = 102. 41 5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten 5.1 Definitionen und grundlegende Eigenschaften Motivation. Für einige Konstruktionen und Grenzprozesse ist die Klasse der diskreten Wahrscheinlichkeitsräume zu eng: 1.) Es gibt kein diskretes Wahrscheinlichkeitsmaß, sodass: Z P([a, b]) = a b ϕ(x) dx = lim P(a ≤ Sn∗ ≤ b) n→∞ da P({ω}) = P([ω, ω]) = 0 ∀ω ∈ R und ein diskretes Wahrscheinlichkeitsmaß durch P({ω}) = p(ω) ∀ω ∈ Ω charakterisiert ist. 2.) Unendlicher Münzwurf: Ω = {0, 1}N = {(aj )j∈N : aj ∈ {0, 1}} ist überabzählbar. 3.) Allgemeiner: Sind (Ωj , pj )j∈N diskrete Wahrscheinlichkeitsräume, so ist Ω= ∞ Y Ωj = (ωj )j∈N : ωj ∈ Ωj ∀j ∈ N j=1 überabzählbar, falls |Ωj | ≥ 2 ∀j ∈ N. ⇒ Abzählbare Produkte von diskreten Wahrscheinlichkeitsräumen sind im Allgemeinen keine diskreten Wahrscheinlichkeitsräume mehr. Solche Produkte sind notwendig, um Folgen Xj ,j ∈ N0 von unabhängigen Zufallsvariablen (mit vorgegebener Verteilung) zu konstruieren. Grundlegendes Problem. Im Allgemeinen kann man P(A) nicht für alle A ∈ P(Ω) kosntruieren, wenn Ω überabzählbar ist. Satz 5.1 (Vitali: Die Potenzmenge ist zu groß“). Sei Ω = {0, 1}N . Dann gibt es keine Abbildung P : P(Ω) → ” [0, 1] mit: (N) P(Ω) = 1 (A) P ist σ-additiv, d.h. P ∞ [ i=1 ! Ai = ∞ X P(Ai ) i=1 für alle paarweise disjunkten (Ai )i∈N , Ai ⊆ Ω. (I) Invarianz: Für alle A ⊆ Ω, n ≥ 1 gilt: P(Tn A) = P(A) ( ωj wobei Tn A = 1 − ωn j 6= n ist. j=n Beweis. Ergänzung, bzw. [3, Georgii, Satz 1.5] 42 (1) 5.1 Definitionen und grundlegende Eigenschaften Bemerkung. (1) ⇒ P({ω ∈ Ω : ωn = 1}) = P({ω ∈ Ω : ωn = 0}) = 12 , da An ∪ Tn An = Ω. {z } | {z } | An Tn A n ⇒ (N), (A), (I) beschreiben unendlichen Münzwurf. Deswegen muss man sich auf passende Teilmengen den P(Ω) einschränken. Definition 5.2. Sei Ω eine Menge. Dann heißt A ⊆ P(Ω) σ-Algebra, falls i) Ω ∈ A ii) ∀A ∈ A : Ac ∈ A iii) Aj ∈ A ∀j ∈ N ⇒ S∞ j=1 Aj ∈ A Bemerkung. Eigenschaft (iii)) hängt mit σ-Additivität zusammen. Definition 5.3. 1.) Ist Ω eine Menge und A ⊆ P(Ω) eine σ-Algebra, dann heißt (Ω, A) messbarer Raum. 2.) Ist (Ω, A) ein messbarer Raum, so heißt P : A → [0, 1] Wahrscheinlichkeitsmaß, oder Wahrscheinlichkeitsverteilung auf (Ω, A), falls gilt: i) P ist normiert: P(Ω) = 1 (K1) ii) P ist σ-additiv, d.h. für alle paarweise disjunkten (Aj )j∈N mit Aj ∈ A ∀j ∈ N gilt: ∞ ∞ [ X P Aj = P(Aj ) j=1 (K2) j=1 3.) Ist (Ω, A) ein messbarer Raum und P ein Wahrscheinlichkeitsmaß auf (Ω, A), so heißt (Ω, A, P) allgemeiner Wahrscheinlichkeitsraum. Beispiel 1. Ist (Ω, p) ein diskreter Wahrscheinlichkeitsraum und X P(A) = p(ω) ∀A ⊆ Ω ω∈A so ist (Ω, P(Ω), P) ein allgemeiner Wahrscheinlichkeitsraum. Definition 5.4. Ist f : Rn → [0, ∞) (Lebesgue-)integrierbar mit Z f (x) dx = 1 Rn so heißt f Dichte (bzgl. des Lebesgue-Maßes). Beispiel 2. Für jede Dichte f ist mit 1A (charakteristische Funktion) Z Pf (A) = A Z f (x) dx = Rn f (x)1A (x) dλn (x) für alle Lebesguemessbaren Mengen A ∈ L(Rn ) ein Wahrscheinlichkeitsmaß auf (Rn , L(Rn )). Bew.: 1.) P(Rn ) = R Rn f (x) dx = 1 2.) σ-Additivität folgt aus Satz über monotone Konvergenz. 43 5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten Wiederholung (Satz über monotone Konvergenz). Seien 0 ≤ f1 (x) ≤ . . . ≤ fn (x) ≤ fn+1 (x) für fast alle x ∈ Rn und n ∈ N, sodass limn→∞ fn (x) = f (x) für fast alle x ∈ Rn . Dann gilt: Z Z lim n→∞ Rn fn (x) dx = Z lim fn (x) dx = Rn n→∞ f (x) dx ∈ [0, ∞] Rn Daraus folgt die σ-Additivität: Seien Aj ∈ L(Rn ), j ∈ N, paarweise disjunkt und gn (x) = n X 1Aj (x) = 1Snj=1 Aj (x) ∀x ∈ Rn , n ∈ N j=1 Dann gilt ∀x ∈ Rn 0 ≤ . . . ≤ gn (x) ≤ gn+1 (x), sowie n→∞ (x) gn (x) −−−−→ g(x) = 1S∞ j=1 Aj ∀x ∈ Rn Satz über monotone Konvergenz: ∞ X Pf (Aj ) = lim n→∞ j=1 ∞ X Z Pf (Aj ) = lim n→∞ j=1 Z j=1 Z = lim n→∞ S∞ f (x)gn (x) dx = Rn Rn Aj f (x) dx = f (x)g(x) dx = Pf ∞ [ Aj j=1 Beispiel 3. Gleichverteilung: Setzt man für a < b ∈ R: f (x) = 1 · 1[a,b] (x) b−a ∀x ∈ R Dann ist f eine Dichte und Pf (A) = 1 λ1 A ∩ [a, b] b−a ∀A ∈ L(R) Beispiel 4. Exponentialverteilung: Sei α > 0. Annahme: Für t > 0 sie die Zahl der Schadensfälle im Zeitintervall [0, t] Poαt -verteilt. Dann ist die Wahrscheinlichkeit mindestens einen Schadensfall im Intervall [0, t] zu haben: Z t Poα ([0, t]) = 1 − Poαt (0) = 1 − e−αt = αe−αx dx 0 Sei nun ( αe−αx fα (x) = 0 x≥0 x<0 Dann ist fα eine Dichte und die zugehörige Verteilung Pα heißt Exponentialverteilung zum Parameter α > 0. Beispiel 5. Standartnormalverteilung: Sei x2 1 ϕ(x) = √ · e− 2 2π Dann ist ϕ eine Dichte (Abschnitt 4.1). Die zugehörige Verteilung Pϕ heißt Standartnormalverteilung. Produktdichten: Sind fj : R → [0, ∞], j = 1, . . . , n Dichten auf R, so ist f (x) = f1 (x1 ) · . . . · fn (xn ) eine Dichte auf Rn , denn: Z Z f (x) dx = Rn 44 ∀x = (x1 , . . . , xn ) Z f1 (x1 ) dx1 · . . . · R R fn (xn ) dxn = 1n = 1 5.1 Definitionen und grundlegende Eigenschaften Sind fj (xj ) = ϕ(xj ), ∀j = 1, . . . , n, so ist n x2 x2 1 1 n √ · e− 2 · . . . · e− 2 = f (x) = 2π n x2 x2 1 1 n · e− 2 −...− 2 = = √ 2π n |x|2 |x|2 1 1 − 2 · e− 2 = = √ n · e (2π) 2 2π ∀x ∈ Rn die Dichte der Standartnormalverteilung im Rn . Aus (K1) und (K2) folgt: Folgerung 5.5. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Dann gilt: i) P(∅) = 0 ii) Sind Ai paarweise disjunkt und A1 , . . . , An ∈ A, so gilt ! n n [ X P Ai = P(Aj ) i=1 iii) Sind A1 , . . . , An ∈ A, so gilt: n [ P j=1 ! Ai ≤ i=1 n X P(Aj ) j=1 iv) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ∀A, B ∈ A v) A ⊆ B, A, B ∈ A ⇒ P(A) ≤ P(B) vi) P(Ac ) = 1 − P(A) ∀A ∈ A Eine Folgerung aus der σ-Additivität ist: Lemma 5.6. Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Dann gilt: 1.) Sind Aj ∈ A mit Aj ⊇ Aj+1 ∀j ∈ N, so ist lim P(Aj ) = P j→∞ n \ Aj j=1 2.) Sind Aj ∈ A mit Aj ⊆ Aj+1 ∀j ∈ N, so ist lim P(Aj ) = P j→∞ 3.) Sind Aj ∈ A, j ∈ N, so ist P n [ Aj j=1 ∞ [ j=1 Aj ≤ ∞ X P(Aj ) j=1 Beweis. 45 5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten 1.) Betrachte A0j := Acj ∀j ∈ N ⇒ A0j ⊆ A0j+1 ∀j ∈ N c ∞ ∞ \ \ ⇒ P Aj = 1 − P Aj = 1 − lim P(Acn ) = lim (1 − P(Acn )) = lim (P(An )) j=1 |S ∞ j=1 = n→∞ j=1 {z S Acj = ∞ j=1 n→∞ n→∞ } A0j 2.) Setze Bj = Aj+1 \ Aj ∈ A ∀j ∈ N. Dann ist (Bj )j∈N0 paarweise disjunkt. A := ∞ [ Aj = j=1 ∞ [ Bj j=0 mit B0 := A1 . Mit (K2) folgt: P(A) = ∞ X P(Bj ) = lim n→∞ j=0 n X [n j=0 | Sn j=1 n→∞ |„ {z P 3.) Setze Bn = P(Bj ) = lim P(An+1 ) = lim P(An ) j=1 n→∞ }« Bj {z An+1 } Aj ⇒ Bn ⊆ Bn+1 ∀n ∈ N ⇒ P n [ Aj = P j=1 ∞ [ n=1 ! Bn = lim P(Bn ) ≤ lim n→∞ n→∞ ∞ X P(Aj ) = j=1 ∞ X P(Aj ) j=1 5.2 Verteilungsfunktionen Im Folgenden seien für a, b ∈ Rn a ≤ b :⇔ aj ≤ bj ∀j = 1, . . . , n a < b :⇔ aj < bj ∀j = 1, . . . , n sowie: (a, b] := {x ∈ Rn : a < x ≤ b} = (a1 , b1 ] × . . . × (an , bn ] [a, b] := {x ∈ Rn : a ≤ x ≤ b} (−∞, a] := {x ∈ Rn : x ≤ a} (−∞, a) := {x ∈ Rn : x < a} Erinnerung (Borelsche σ-Algebra). 1.) Ist F ⊆ P(Ω) ein Mengensystem, so gibt es immer eine kleinste σ-Algebra σ(F), die F enthält. Es gibt also genau eine σ-Algebra σ(F), sodass i) F ⊆ σ(F) ii) Ist A ⊇ F eine σ-Algebra, so gilt σ(F) ⊆ A Die σ(F) heißt die von F erzuegt σ-Algebra. Es ist o \n σ(F) = A σ-Algebra : A ⊇ F 46 5.2 Verteilungsfunktionen 2.) Es sei O ⊆ P(Rn ) die Menge aller offenen Mengen. Dann ist B(Rn ) := σ(O) die Borelsche σ-Algebra. Es ist: (a, b] : a, b ∈ Rn mit a < b = σ [a, b] : a, b ∈ Rn mit a < b = σ (−∞, a] : a ∈ Rn = σ (−∞, a) : a ∈ Rn B(Rn ) = σ Bemerkung. Es gilt B(Rn ) ⊆ L(Rn ). Die Eigenschaft (1.)) ist nützlich für folgenden Eindeutigkeitssatz: Satz 5.7. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und G ⊆ P(Ω) ein Erzeugendensystem von A, d.h. σ(G) = A, sodass A, B ∈ G ⇒ A ∩ B ∈ G ( Durchschnittsstabil“). Dann ist P eindeutig durch P(A) ∀A ∈ G ” bestimmt. Folgerung 5.8. Ist P ein Wahrscheinlichkeitsmaß auf (Rn , B(Rn )), so ist P eindeutig durch i) P((a, b]) ∀a, b ∈ Rn , a < b oder ii) P([a, b]) ∀a, b ∈ Rn , a < b oder iii) P((−∞, a]) ∀a ∈ Rn festgelegt. Beweis. Folgt direkt aus (1.)), Satz 5.7 und der Durchschnittsstabilität der Intervallsysteme, z.B. (−∞, a1 ] ∩ (−∞, a2 ] = (−∞, min{a1 , a, 2}). Definition 5.9. 1.) Ein Wahrscheinlichkeitsmaß auf (Rn , B(Rn )) heißt Borelsches Wahrscheinlichkeitsmaß. 2.) Ist P ein Borelsches Wahrscheinlichkeitsmaß, so heißt ∀x ∈ Rn F (x) = P((−∞, x]) Verteilungsfunktion von P. Bemerkung. 1.) Durch F (x), x ∈ Rn ist nach 5.8 das P eindeutig festgelegt. 2.) i) Jedes diskrete Wahrscheinlichkeitsmaß P auf Ω ⊆ Rn kann durch X P(A) = p(ω) ∀A ∈ B(Rn ) ω∈A∩Ω als Borelsches Wahrscheinlichkeitsmaß aufgefasst werden. ii) Ist f : Rn → [0, ∞) eine Dichte, so ist Z Pf (A) = f (x) dx A ∀A ∈ B(Rn ) ⊆ L(Rn ) ein Borelsches Wahrscheinlichkeitsmaß. ⇒ Alle für uns wichtigen Wahrscheinlichkeitsmaße werden Borelsche Wahrscheinlichkeitsmaße und durch dren Verteilungsfunktion F eindeutig bestimmt sein. Definition 5.10. Ist P ein Borelsches Wahrscheinlichkeitsmaß, so sagen wir 47 5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten i) P hat eine Dichte, falls es eine Dichte f : Rn → [0, ∞] gibt mit Z P(A) = f (x) dx A ∀A ∈ B(Rn ) ii) P is diskret, fall es eine höchstens abzählbare Menge Ω ⊆ Rn gibt und ein p : Ω → [0, 1], sodass X P(A) = p(ω) ∀A ⊆ B(Rn ) ω∈A∩Ω Bemerkung. 1.) Hat P eine Dichte f , so gilt für die zugehörige Verteilungsfunktion F Z Z Z F (x) = f (y) dy = ... f (y1 , . . . , yn ) d(y1 , . . . , yn ) (−∞,x] (−∞,x1 ] (−∞,xn ] 2.) Ist P ein Borelsches Wahrscheinlichkeitsmaß auf (R, B(R)) und ist F : R → [0, 1] die zugehörige Verteilungsfunktion, so ist F monoton wachsend, rechtsseitig stetig, d.h. lim F (t) = F (s) t&s und es gilt lim F (t) = 1, lim F (t) = 0 t→∞ t→−∞ Spezialfälle. a) Wenn P eine Dichte hat, dann ist Z F (x) = x −∞ f (t) dt stetig. b) P ist diskret. Dann ist X F (x) = p(ω) ω∈Ω ω≤x stückweise konstant und F springt an x = ω ∈ Ω um p(ω) nach oben, d.h. F (ω) = lim F (x) + p(ω) x%ω 5.3 Zufallsvariablen Definition 5.11. a) Sind (Ω, A), (Ω0 , A0 ) messbare Räume, so heißt f : Ω → Ω0 messbar, falls f −1 (A0 ) ∈ A ∀A0 ∈ A0 b) Ist (Ω, A, P) ein Wahrscheinlichkeitsraum und (Ω0 , A0 ) ein messbarer Raum, so heißt jede messbare Abbildung X : Ω → Ω0 Zufallsvariable. Bemerkung. Im Folgenden werden meist Ω0 = Rn und A0 = B(Rn ) sein. In diesem Fall haben wir das einfache Messbarkeitskriterium: Lemma 5.12. Ist (Ω, A) ein messbarer Raum, so ist f : Ω → Rn mesbar bezüglich B(Rn ), falls f −1 ((−∞, x]) ∈ A ∀x ∈ Rn oder f −1 ((−∞, x)) ∈ A ∀x ∈ Rn Beweis. Es sei A0f := {A0 ⊆ Rn : f −1 (A0 ) ∈ A}. Dann ist A0f eine σ-Algebra, denn 48 5.3 Zufallsvariablen i) (A0j )j∈N ∈ A0f ⇒ f −1 (A0j ) ∈ A ⇒ A3 ∞ [ f −1 (A0j ) = f −1 j=1 ⇒ ∞ [ ∞ [ A0j j=1 A0j ∈ A0f j=1 ii) A0 ∈ A0f ⇒ f −1 (A0 ) ∈ A c c ⇒ A 3 f −1 (A0 ) = f −1 (A0 ) c ⇒ A0 ∈ A0f Nun gilt nach Voraussetzung: n o (−∞, x] : x ∈ Rn ∈ A0f n o oder (−∞, x) : x ∈ Rn ∈ A0f n o ⊆ A0f ⇒ σ (−∞, x] : x ∈ Rn {z } | oder σ | n =B(Rn ) o ⊆ A0f (−∞, x) : x ∈ Rn {z } =B(Rn ) Nun ist f messbar ⇔ B(Rn ) ⊆ A0f . Mit diesem Kriterium zeigt man: Folgerung 5.13. Sind X1 , . . . , Xn : Ω → R messbar, wobei (Ω, A) messbarer Raum, so ist (X1 , . . . , Xn ) : Ω → Rn messbar. Beweis. Folgt aus (X1 , . . . , Xn )−1 ((−∞, x]) = n \ Xj−1 ((−∞, x]) {z } j=1 | ∈A | {z } ∈A Schließlich gilt: Lemma 5.14. Sind (Ω, A), (Ω0 , A0 ), (Ω00 , A00 ) messbare Räume und X : Ω → Ω0 , g : Ω0 → Ω00 messbar, so ist Y = g ◦ X : Ω → Ω00 messbar. Beweis. Ist A00 ∈ A00 so folgt g −1 (A00 ) ∈ A0 , da g messbar ist. Somit folgt: Y −1 (A00 ) = X −1 g −1 (A00 ) ∈ A Aus 5.13 und 5.14 erhält man, dass α1 X1 +. . .+αn Xn und X1 ·. . .·Xn messbar sind, sofern X1 , . . . , Xn : Ω → R messbar sind und α1 , . . . , αn ∈ R. Wähle dafür entweder g(X1 , . . . , Xn ) = α1 X1 + . . . + αn Xn , oder g(X1 , . . . , Xn ) = X1 · . . . · Xn . 49 5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten Bemerkung. Jede stetige Abbildung g : Rn → Rn ist messbar, da g −1 ((−∞, x)) für alle x ∈ Rn offen ist. Definition 5.15. a) Ist (Ω, A, P) ein Wahrscheinlichkeitsraum und X : Ω → Rn eine Zufallsvariable, so heißt PX : B(Rn ) → [0, 1] PX (A) = P(X −1 (A)) die Verteilung von X und b) FX : Rn → [0, 1] FX (x) = PX ((−∞, x)) die Verteilungsfunktion von X. Bemerkung. a) Es ist X −1 (A) = {ω ∈ Ω : X(ω) ∈ A} = {X ∈ A} und somit PX (A) = P(X ∈ A) und FX (x) = P(X ≤ x). b) PX ist das so genannte Bildmaß von P unter X. Lemma 5.16. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und X : Ω → Rn eine Zufallsvariable. Dann ist PX ein Wahrscheinlichkeitsmaß auf (Rn , B(Rn )). Beweis. Für alle paarweise disjunkten Mengen (Aj )j∈N in B(Rn ) sind (X −1 (Aj ))j∈N in A auch paarweise disjunkt. ∞ ∞ ∞ ∞ ∞ X X [ [ [ PX (Aj ) P(X −1 (Aj )) = X −1 (Aj ) = Aj = P Aj = P X −1 ⇒ PX j=1 j=1 j=1 j=1 j=1 d.h. PX ist σ-additiv. Außerdem ist PX (Rn ) = P(X −1 (Rn )) = P(Ω) = 1 und PX (A) ∈ [0, 1]. Definition 5.17. Ist (Ω, A, P) ein Wahrscheinlichkeitsraum und X : Ω → Rn eine Zufallsvariable, so hat X eine Dichte F , falls PX eine Dichte besitzt, d.h. es gibt eine Dichte F : Z PX (A) = F (x) dx ∀A ∈ B(Rn ) A Eine nützliche Transformationsformel ist: Lemma 5.18. Ist X : Ω → R eine Zufallsvaribale mit Dichte f und ϕ : R → R stetig differenzierbar und streng monoton, so hat Y = ϕ ◦ X die Dichte g(y) = f (ϕ−1 (y)) ϕ0 (ϕ−1 (y)) ∀y ∈ R Beweis. 7. Übungsblatt Folgerung 5.19. Hat X : Ω → R eine Dichte f , so hat Y = aX + b, a 6= 0, b ∈ R die Dichte: 1 y−b g(y) = ·f ∀y ∈ R |a| a 50 5.4 Unabhängigkeit Anwendung. Es sei X : Ω → R Standartnormalverteilt, d.h.: Z FX (x) = Dann hat X die Dichte f (x) = x2 − 2 e√ 2π x −∞ t2 e− 2 √ dt 2π ∀x ∈ R und y = σX + µ, σ 6= 0, µ ∈ R hat die Dichte: (x−µ)2 2σ 2 e− ϕµ,σ2 (x) = √ ∀x ∈ R 2πσ Die zugehörige Verteilung heißt Normalverteilung mit Erwartungswert µ und Varianz σ 2 . Y ist N (µ, σ 2 )-verteilt. 5.4 Unabhängigkeit Definition 5.20. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. a) Eine Familie Ai ∈ A, i ∈ I heißt unabhängig, falls für jede endliche Auswahl von Indizes J ⊆ I gilt: ! \ Y P Ai = P(Aj ) i∈J j∈J b) Zufallsvariablen Xi : Ω → R, i ∈ I heißen unabhängig, falls für alle Ai ∈ B(Rn ), i ∈ I die Familie {Xi ∈ Ai }, i ∈ I unabhängig ist. Bemerkung. Es gelten die gleichen Bemerkungen, wie im diskreten Fall Ein wichtiges Kriterium für Unabhängigkeit ist: Satz 5.21. Seien Zufallsvariablen Xi : Ω → R, i ∈ I gegeben. Dann sind äquivalent: a) X1 , . . . , Xn unabhängig. b) ∀x ∈ Rn sind {X1 ≤ x1 }, . . . , {Xn ≤ xn } unabhängig. c) Es gilt: P(X = x) = n Y ∀x ∈ Rn P(Xi = xi ) i=1 Bemerkung. Ein ähnliches Kriterium für diskrete Wahrscheinlichkeitsräume lieferte Satz 3.4: (Xi )i∈I sind unabhängig genau dann, wenn P(X1 = x1 , . . . , Xn = xn ) = P(X1 = x1 ) · . . . · P(Xn = xn ) ∀xj ∈ Xj (Ω), j = 1, . . . , n Eine ähnliche Aussage liefert: Folgerung 5.22. Es seien X1 , . . . , Xn Zufallsvariablen mit Dichten f1 , . . . , fn und X = (X1 , . . . , xn ). a) Sind X1 , . . . , Xn unabhängig, so hat X = (X1 , . . . , Xn ) die Dichte f (x1 n . . . , xn ) = f1 (x1 ) · . . . · fn (xn ) ∀x ∈ Rn (2) b) Umgekehrt gilt: Hat X die Dichte (2), so sind X1 , . . . , Xn unabhängig. 51 5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten Beweis. a) Es sei Q das Wahrscheinlichkeitsmaß mit Dichte f . Dann gilt für alle a ≤ b ∈ Rn : Z Q([a, b]) = = a1 Z b1 | = b1 a1 Z ... bn an f1 (x1 ) · . . . · fn (xn ) dxn . . . dx1 = Z bn f1 (x1 ) dx1 · . . . · fn (xn ) dxn = a | n {z } {z } PXn ([an ,bn ]) PX1 ([a1 ,b1 ]) n Y i=1 PX ([ai , bi ]) = | i {z } =P(Xi ∈[ai ,bi ]) Ereignisse unabhängig n \ =P | Xi ∈ [ai , bi ] i=1 {z ! = PX ([a, b]) } {X∈[a,b]} ⇒ Q([a, b]) = PX ([a, b]) ∀a ≤ b ∈ Rn . Eindeutigkeitssatz 5.7 und Folgerung 5.8 ∀A ∈ B(Rn ) ⇒ Q(A) = PX (A) b) Hat PX die Dichte f wie (2), so gilt: Z PX ([a, b]) = . . . = = n Y b1 a1 Z f1 (x1 )dx1 · . . . · bn an fn (xn ) dxn = PXi ([ai , bi ]) ∀a ≤ b ∈ Rn i=1 Für a1 , . . . , an → −∞ erhält man P(X ≤ b) = n Y PXi ((−∞, b]) ∀b ∈ Rn i=1 Satz 5.21 ⇒ X1 , . . . , Xn sind unabhängig. Bemerkung. Sind X1 , . . . , Xn Zufallsvariablen, so heißt PX mit X = (X1 , . . . , Xn ) gemeinsame Verteilung von X1 , . . . , Xn . Ein analoges Ergebnis zu [1, Krengel, Satz 5.6] ist: Satz 5.23. Sind X1 , X2 unabhängig mit Dichten f1 , f2 , so hat X1 + X2 die Dichte: Z f1 ∗ f2 (x) = f1 (x − y)f2 (y) dy ∀x ∈ R R Bemerkung. f1 ∗ f2 heißt Faltung von f1 , f2 . Beweis. Es sei BX := {(x1 , x2 ) ∈ R2 : x1 + x2 ≤ x} mit x ∈ R. P(X1 + X2 ≤ x) = P((X1 , X2 ) ∈ BX ) = Z 5.22 = P(X1 ,X2 ) (BX ) = f1 (x1 )f2 (x2 ) d(x1 , x2 ) = B Z x Z ∞ Z x = du dv f1 (u − v)f2 (v) = f1 ∗ f2 (u) du −∞ −∞ −∞ {z } | =f1 ∗f2 (u) ⇒ PX1 +X2 bzw. X1 + X2 hat die Dichte f1 ∗ f2 . 52 u = x1 + x2 , v = x2 ∀x ∈ R 5.5 Erwartungswert, Varianz und Kovarianz 5.5 Erwartungswert, Varianz und Kovarianz Erinnerung. E(X) = ist. P X(ω)p(ω) falls X : Ω → R und (Ω, p) ein diskreter Wahrscheinlichkeitsraum X X 3.7 E(X) = x · P(X = x) = x · PX (x) ω∈Ω x∈X(Ω) x∈X(Ω) Definition 5.24 (Erwartungswert). Es sei (Ω, A, P) ein Warhscheinlichkeitsraum und X : Ω → R eine Zufallsvariable. Dann exisitert der Erwartungswert von X, falls: Z |X(ω)| dP(ω) < ∞ Ω In diesem Fall ist Z E(X) = Ω X(ω) dP(ω) der Erwartungswert von X. Bemerkung. Es existiert der Erwartungswert von X genau dann, wenn Z 1 X ∈ L (Ω, P) = f : Ω → R messbar : |f (ω| dP(ω) < ∞ R Ω Erinnerung (Integralkonstruktion). Die Konstruktion von f (ω) dP(ω) verläuft in 3 Schritten: P 1.) Für einfache Funktionen: f (x) = i∈N αi 1Ai (x) für αi ∈ R, Ai ∈ A ∀i ∈ N ist: Z X f (ω) dP(ω) := αi P(Ai ) Ω i∈N 2.) Ist f : Ω → [0, ∞) nicht negativ, so wählt man eine Folge einfacher Funktionen fn : Ω → [0, ∞), sodass n→∞ fn (x) ≤ fn+1 (x) −−−−→ f (x) für fast alle x ∈ Ω und setzt: Z Z f (ω) dP(ω) = lim fn (ω) dP(ω) ∈ [0, ∞] n→∞ Ω 3.) Für f ∈ L1 (Ω, P) existiert Z Ω und man setzt: Z ± f (ω) dP(ω) ≤ Z Ω Z f (omega) dP(ω) = wobei f ± (ω) = max(0 ± f (x)). Bemerkung. X ist eine einfache Funktion X = E(X) = Ω Ω |f (ω)| dP(ω) < ∞ + f (ω) dP(ω) − P i∈N X Z Ω f − (ω) dP(ω) αi 1Ai ⇔ X ist diskret verteilt. In diesem Fall ist: x · P(X = x) x∈X(Ω) Bemerkung. Ist Ω abzählbar und (Ω, P(Ω), P) ein Wahrscheinlichkeitsraum, so gilt: Z X f (ω) dP(ω) = f (ω)p(ω) Ω ω∈Ω für f ∈ L1 (Ω, P) wobei p(ω) = P({ω}). Man kann E(X) für X ∈ L1 (Ω, P) auch durch Approximation durch diskret-verteilte Zufallsvariablen Xn definieren: Für n ∈ N ∞ X k k+1 k 1A (ω), An,k = ≤ X(ω) ≤ (3) Xn (ω) = n n,k n n k=−∞ | {z } k k+1 X −1 ([ n , n ])∈A 53 5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten Dann sind Xn diskret-verteilte Zufallsvariablen, bzw. einfache Funktionen, da Xn (Ω) ⊆ dem gilt: Xn (ω) ≤ X(ω) ≤ Xn (ω) + 1 n k n : k ∈ Z . Außer- ∀ω ∈ Ω Daraus folgt: Lemma 5.25. Es existiert E(X) genau dann, wenn E(Xn ) für ein n ∈ N existiert. In diesem Fall existiert E(Xn ) für alle n ∈ N und es gilt: E(X) = lim E(Xn ) (4) n→∞ Bemerkung. Die Identität (4) wird im Buch [1, Krengel] als Definition von E(X) im allgemeinen Fall verwendet. Beweis. 1.) Da Xn ≤ X ≤ Xn + n1 , so folgt: 1 1 ≤ |X(ω) ≤ |Xn (ω)| + n n 1 1 ⇒ E(|Xn |) − ≤ E(|X|) ≤ E(|Xn |) + n n |Xn (ω)| − ∀n ∈ N E(|X|) < ∞ ⇔ E(|Xn |) < ∞ für ein n ∈ N ⇔ E(|Xn |) < ∞ für alle n ∈ N ⇒ 1. Teil der Aussage. 2.) Nach Konstruktion gilt: i) limn→∞ Xn (ω) = X(ω) für fast alle x ∈ Ω. ii) |Xn (ω)| ≤ |X(ω)| + 1 n ≤ |X(ω)| + 1 wobei |X| + 1 ∈ L1 (Ω, P) Satz über majorisierte Konvergenz: Z lim E(Xn ) = lim n→∞ n→∞ Ω Z xn (ω) dP(ω) = Ω X(ω) dP(ω) = E(X) Einfache Eigenschaften von E(X) sind: Lemma 5.26. Es seine X, Y ∈ L1 (Ω, P) und (Ω, A, P) ein Wahrscheinlichkeitsraum. Dann gilt: i) Für λ ∈ R ist λX ∈ L1 (Ω, P) und ii) X + Y ∈ L1 (Ω, P) und E(λX) = λE(X) E(X + Y ) + E(X) + E(Y ) iii) Gilt X(ω) ≤ Y (ω) für fast alle ω ∈ Ω, so gilt: E(X) ≤ E(Y ) iv) Sind X, Y unabhängig, so ist XY ∈ L1 (Ω, P) und es gilt: E(XY ) = E(X)E(Y ) Beweis. (i)-(iii) folgt sofort aus der Linearität und Monotonie von 54 R dP oder per Approximation. 5.5 Erwartungswert, Varianz und Kovarianz iii) Beweis per Approximation: Es sei Xn wie in (3) und Yn entsprechend mit X 7→ Y . Dann gilt: X, Y unabhängig k k+1 k = ω: ≤X≤ und ⇒ Xn = n n n k0 k0 k0 + 1 = ω: Yn = ≤Y ≤ sind unabhängig n n n | {z } 0 0 ={Y ∈[ kn , k n+1 ]} ⇒ {Xn = x} und {Yn = y} sind unabhängig für alle x, y ∈ R, bzw. x ∈ Xn (Ω), y ∈ Yn (Ω). 3.4 =⇒ Xn , Yn sind unabhängig. 1 1 ⇒ |X(ω)Y (ω)| ≤ Xn (ω+ Yn (ω) + n n {z } | ∈L1 (Ω,P) da Xn Yn ∈L1 ,Xn ,Yn ∈L1 ⇒ E(|XY |) < ∞ Satz über major. Konvergenz ↓ ⇒ E(XY ) = Aussage im diskreten Fall ↓ 5.25 lim E(Xn Yn ) = lim E(Xn )E(Yn ) = n→∞ n→∞ E(X)E(Y ) Eine Verallgemeinerung der Identität: E(g(X)) = X X 3.9 g((X(ω))p(ω) = ω∈Ω x∈X(Ω) g(x) P(X = x) | {z } =PX (x) im diskreten Fall ist: Satz 5.27. Es sei X : Ω → R eine Zufallsvariable und (Ω, A, P) ein Wahrscheinlichkeitsraum und g : R → R messbar (oder stetig). Dann existiert der Erwartungswert von g ◦ X genau dann, wenn Z |g(x)| dPX (x) < ∞ R In diesem Fall ist: Z E(g ◦ X) = Ω Z g(X(ω)) dP(ω) = g(x) dPX (x) (5) R Beweis. 1. Schritt“: Wir zeigen (5) für alle g(x) ≥ 0 messbar: ” P∞ Ist g(x) = i=1 αiAi (x) eine einfache Funktion, so gilt: Z ∞ Def.X ↓ g(x) dPX (x) = i=1 R Def.Z ↓ = αi PX (Ai ) = | {z } =P({X∈Ai }) ∞ X αi P({X ∈ A − i}) = i=1 ∞ X αi 1{X∈Ai } (ω) dP(ω) = | {z } Ω i=1 =1Ai (Xi (ω)) Z Ω g(X(ω)) dP(ω) D.h. (5) gilt für alle einfachen g(x) ≥ 0. Ist nun g(x) messbar, so gibt es einfache Funktionen gn (x) > 0, sodass n→∞ gn (x) ≤ gn+1 (x) −−−−→ g(x) 55 5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten für fast alle x ∈ Ω, so folgt: Z Z Def. ↓ g(x) dPX (x) = lim n→∞ R Z (5) gn (x) dPX (x) = lim n→∞ R gn (X(ω)) dP(ω) = | {z } −−−−→g(X(ω)) Ω n→∞ für fast alle ω∈Ω Satz über Z mon. Konvergenz ↓ = Ω g(X(ω)) dP(ω) 2. Schritt“: Für allgemeines g : R → R messbar, folgt die Aussage aus der Aussage für g ± (x) = max(0, ±g(x)). ” Folgerung 5.28. Es sei X : Ω → R eine Zufallsvariable mit Dichte f und g : R → R messbar. Dann existiert E(g ◦ X) genau dann, wenn Z |g(x)|f (x) |{z} dx < ∞ R Lebesgue-Maß Z In diesem Fall ist: E(g ◦ X) = g(x)f (x) dx R Beweis. Hat X bzw. PX eine Dichte, so gilt: Z Z g(x) dPX (x) = g(x)f (x) dx R für alle g ∈ L1 (Ω, PX ) und g(x) ≥ 0 messbar. Beweis dazu in der Übung - ähnlich wie zuvor. Damit folgt die Aussage. Man erhält nun insbesondere: Z E(X) = xf (x) dx R falls X ∈ L1 (Ω, P) die Dichte f hat. Beispiel 6. Erwartungswert der Normalverteilung: Ist X standartnormalverteilt, dann X die Dichte ϕ(x) = x2 − 2 e√ 2π , x ∈ R. x7→−x Z Subst. ↓ Z ⇒ E(X) = xϕ(x) dx = R | {z } ungerade d (−x)ϕ(−x) · (−x) dx = dx R | {z } =1 Z =− xϕ(x) dx = 0 R Für σ 6= 0, µ ∈ R ist Y = σX + µ, N (µ, σ 2 )-verteilt. ⇒ E(Y ) = σE(X) + µ = µ Erinnerung: Doe Dichte der N (µ, σ 2 )-Verteilung ist ϕµ,σ2 Vergleiche Anwendung nach Folgerung 5.19. 56 2 exp − (x−µ) 2σ 2 √ = 2πσ 5.5 Erwartungswert, Varianz und Kovarianz Erwartungswert der Exponentialverteilung: Es sei X exponentialverteilt, α ≥ 0. Dann hat X die Dichte ( αe−αt x ≥ 0 f (x) = 0 x<0 Z ∞ Z ∞ ∞ e−αx dx = + xαe−αx dx = −xe−αx ⇒ E(X) = x=0 0 −αx ∞ 0 e 1 = = −α x=0 α Es sei Lp (Ω, P) := Z f : Ω → R messbar : |f (ω)|p dP(ω) < ∞ für 1 ≤ p ≤ ∞ Definition 5.29. Für X, Y ∈ L2 (Ω, P) heißt: a) V(X) = E((X − E(X))2 ) Varianz von X. b) Cov(X, Y ) = E((X − E(X))(Y − E(Y ))) Kovarianz von X, Y . c) Ist Cov(X, Y ) = 0, so heißen X und Y unkorreliert. Wie im diskreten Fall ist V(X) = E(X 2 ) − E(X)2 Cov(X, Y ) = E(XY ) − E(X)E(Y ) und es gelten die Rechenregeln: Satz 5.30. Es seien X, Y, Xi ∈ L2 (Ω, P), i = 1, . . . , n, a, b, c, d ∈ R. Dann gilt: a) aX + b, cY + d ∈ L2 (Ω, P) und Cov(aX + b, cY + d) = ac Cov(X, Y ) V(aX + b) = a2 V(X) b) Pn i=1 Xi ∈ L2 (Ω, P) und V n X ! Xi = i=1 n X V(Xi ) + i=1 Insbesondere gilt (Bienaymé): ! n n X X V Xi = V(Xi ) i=1 X Cov(Xi , Xj ) 1≤i6=j<n falls X1 , . . . , Xn paarweise unkorreliert i=1 c) Sind X, Y unabhängig, so sind X, Y unkorreliert. Beweis. Wie im diskreten Fall Bemerkung. 1.) Ist X ∈ L2 (Ω, P) mit V(X) > 0, so ist X − E(X) X∗ = p V(X) standartisiert, d.h. E(X ∗ ) = 0, V(X ∗ ) = 1 57 5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten 2.) Hat X ∈ L2 die Dichte f , so folgt aus Folgerung 5.28 Z Z V(X) = (x − E(x))2 f (x) dx = x2 f (x) dx − E(X)2 R2 R Beispiel 7 (Varianz von Normal- und Exponentialverteilung). Dichte ϕ(x) = 2 exp(− x2 ) √ 2π a) Ist X N (0, 1)-verteilt, so hat X die und es gilt: Z da E(X)=0 ↓ 2 V(X) = E(X ) = ∞ x2 e− −∞ | = part. Int 1 ↓ =√ 2π Z x2 2 1 · √ dx = 2π {z } √x 2π x2 − 2 · |xe{z } d − = − dx e ∞ −∞ 1 · e− x2 2 x2 2 dx = 1 Für σ 6= 0, µ ∈ R ist Y = σX + µ N (µ, σ 2 )-verteilt und V(Y = σ 2 V(X) = σ 2 b) Ist X exponentialverteilt zum parameter α, α > 0, so hat X die Dichte ( αe−αx x ≥ 0 f (x) = 0 x<0 Z ∞ 1 −αx dx − 2 = V(X) = E(X 2 ) − E(X)2 = x2 · αe {z } | | {z } α 0 d −αx − dx e = α12 part. Int Z ∞ 1 2 1 1 ↓ =0+ 2xe−αx dx − 2 = 2 − 2 = 2 α α α α 0 {z } R | 1 ∞ = α 0 xαe−αx dx = α2 E(X) Beispiel 8. Ist X gleichverteilt auf [a, b], d.h. X hat die Dichte f (x) = E(X) = a+b , 2 1 b−1 V(X) = 1[a,b] (x), so ist (b − 1)2 12 Abschließend noch zwei Eigenschaften der Normalverteilung: Satz 5.31. a) Ist X N (µ, σ 2 )-verteilt, µ ∈ R, σ 6= 0, so ist aX + b, N (aµ + b, a2 σ 2 )-verteilt ∀a, b ∈ R, a 6= 0. b) Sind X1 , X2 unabhängige Zufallsvariablen, die N (µ1 , σ12 )- bzw. N (µ2 , σ22 )-verteilt sind, so ist X1 + X2 N (µ1 + µ2 , σ12 + σ22 )-verteilt. Beweis. a) Folgt aus Folgerung 5.19 (vgl Anwendung nach dieser Folgerung). b) Es sei Yi = Xi − µi , i = 1, 2. Dann ist Yi N (0, σi2 )-verteilt (Teil a)). ⇒ Yi hat die Dichte 58 x2 exp − 2σ 2 √ i ϕ0,σi (x) = σi 2π 5.5 Erwartungswert, Varianz und Kovarianz und Y1 + Y2 hat nach Satz 5.23 die Dichte: Z ∞ ϕ0,σ1 (x − y)ϕ0,σ2 (y) dy = ϕ0,σ1 ∗ ϕ0,σ2 (x) = −∞ =√ 1 1 √ 2πσ1 2πσ2 Z ∞ − |e −∞ e (x−y)2 2 2σ1 {z· e (x−y)2 − 2 2σ1 − y2 2 2σ2 } dy 2 − y2 2σ2 Nun verwenden wir die Substitution: z=y σ σ2 −x σ1 σ2 σσ1 ⇒ dz σ = dy σ1 σ2 wobei σ 2 = σ12 + σ22 und die Identität y2 z2 (x − y)2 x2 + 2 = + 2 2 2σ1 2σ2 2 2σ ⇒ ϕ0,σ1 1 ∗ ϕ0,σ2 (x) = √ 2πσ Z | ∞ −∞ x2 x2 z2 1 e− 2σ2 √ e− 2 dz · e− 2σ2 = √ = ϕ0,σ2 (x) 2π 2πσ {z } =1 59 6 Grenzwertsätze 6.1 Schwaches Gesetz und starkes Gesetz der großen Zahlen Genauso wie im Fall diskreter Wahrscheinlichkeitsräume haben wir: Satz 6.1 (Schwaches Gesetz der großen Zahlen). Seien Xn ∈ L2 (Ω, P), n ∈ N, paarweise unkorrelierte Zufallsvariablen mit gleichem Erwartungswert und supn∈N (V(Xn )) = µ < ∞. Dann gilt für alle ε > 0: n ! 1 X µ n→∞ P Xi − E(X1 ) > ε ≤ 2 −−−−→ 0 n nε i=1 Beweis. Wie zuvor, vgl. Satz 3.19, wobei die Tschebyscheff-Ungleichung V(Z) ∀ε > 0, Z ∈ L2 (Ω, P) P |Z − E(Z) < ε ≤ ε2 (1) Erinnerung. Eine Folge (Zn )n∈N konvergiert stochastisch gegen Z, falls für alle ε > 0 n→∞ P |Zn − Z| > ε −−−−→ 0 Eine Verschärfung ist der folgende Satz: Satz 6.2 (Starkes Gesetz der großen Zahlen). Es seine Xn ∈ L2 (Ω, P), n ∈ N paarweise unkorreliert mit gleichem Erwartungswert und supn∈N V(Xn ) = M < ∞. Dann gilt: )! ( n 1X Xi (ω) = E(X1 ) =1 P ω ∈ Ω : lim n→∞ n i=1 Bemerkung. • Eine Folge (Zn )n∈N konvergiert fast sicher gegen Z, falls P lim Zn = Z = 1 n→∞ • Satz 6.1 ⇒ 1 n • Satz 6.2 ⇒ 1 n Pn i=1 Xi → E(X1 ) stochastisch i=1 Xi → E(X1 ) fast sicher Pn Lemma 6.3. Konvergiert (Zn )n∈N fast sicher gegen Z, so konvergiert (Zn )n∈N stochastisch gegen Z. Beweis. Für ε > 0: sup |Zn (ω) − Z(ω)| > ε P(|Zn − Z| < ε) ≤ P k≥n {z } | 5.6 ===⇒ P n→∞ \ ! An =:An ≥An+1 = P ({ω ∈ Ω : |Zn (ω) − Z(ω)| > ε für unenedlich viele n ∈ N}) n∈N da Zn →Z fast sicher n o ↓ n→∞ =0 ≤ P ω ∈ Ω : Zn (ω) 6−−−−→ Z(ω) {z } | T ⊇ 60 n∈N An 6.1 Schwaches Gesetz und starkes Gesetz der großen Zahlen Bemerkung. Die Umkehrung ist im Allgemeinen falsch. Gegenbeispiel: Zn (ω) = 1[m2−k ,(m+1)2−k (ω) falls n = 2k + m mit 0 ≤ m < 2k für ω ∈ [0, 1] mit Gleichverteilung auf [0, 1]. Z2 1 k = 1, m = 0 ⇒ n=2 1 1 2 1 Z4 k = 2, m = 0 ⇒ n=4 1 4 Z3 1 1 1 2 1 Z5 1 1 1 2 1 2 1 4 Dann gilt: lim P(|Zn | < ε) = 2−k ≤ ⇒ k→∞ n→∞ Zn −−−−→ 1 n→∞ −−−−→ 0 n 0 stochastisch n→∞ Aber: Zn (ω) 6−−−−→ 0 für alle ω ∈ [0, 1], da für alle N ∈ N ∃n ≥ N : Zn (ω) = 1. Für den Beweis benötigen wir: Lemma 6.4 (Borel-Cantelli). Seien Ak ∈ A, k ∈ N, wobei (Ω, A, P) ein Wahrscheinlichkeitsraum ist und sei A∗ = {ω ∈ Ω : ω ∈ Ak für unendlich viele k ∈ N} P∞ a) Gilt k=1 P(Ak ) < ∞, so ist P(A∗ ) = 0. P∞ b) Sind Ak , k ∈ N unabhängig und ist k=1 P(Ak ) = ∞, so ist P(A∗ ) = 1. Beweis. a) ω ∈ A∗ ⇔ ∀n ∈ N ∃k ≥ n : ω ∈ Ak \ [ ⇔ ω∈ Ak (2) n∈N k≤n P(A∗ ) ≤ P [ k≤n σ-Sub addit.∞ ↓ X n→∞ An ≤ P(Ak ) −−−−→ 0 k=n 61 6 Grenzwertsätze P∞ da für jede konvergente Reihe k=n n→∞ ak −−−−→ 0. ⇒ 0 ≤ P(A∗ ) ≤ 0 ⇒ P(A∗ ) = 0 b) Für alle 0 ≤ s < 1 gilt 1 − s ≤ e−s , da s → e−s konvex ist (Mittelwertsatz) Unabhängigk. von (Ak ) bzw.(Ack ) ⇒ P N \ Ack k=n ! N N N y Y Y Y e−P(Ak ) = = P(Ack ) = (1 − P(Ak )) ≤ {z } | k=n k=n k=n ≤ e−P(Ak ) = e− da P∞ k=1 P(Ak )− −−−→−∞ N →∞ N →∞ PN k=n −−−−→ 0 P(Ak ) = ∞. ∞ \ ⇒P k=n ∞ \ ⇒P ! Ack N \ ≤P k=n N →∞ −−−−→ 0 k=n ! Ack ! Ack =0 ∀n ∈ N [ \ (2) ⇒ P ((A∗ )c ) = P Ack ≤ n∈N k≤n ∞ X P(Ack ) = 0 | {z } n=1 =0 ⇒ P(A ) = 1 − P(A∗ c ) = 1 ∗ Beweis 6.2. P Wir können oBdA annehmen, dass E(Xn ) = E(X1 ) = 0 ist (sonst ersetze Xn durch Xn −E(Xn )). Sei Zn = n1 i Xi . 1. Schritt:“ Zeige: (Zn2 )n∈N konvergiert fast sicher gegen 0. (Xn ) sind paarweise unkorreliert: ” n 1 X M ⇒ V(Zn2 ) = 4 V(Xi ) ≤ n i=1 | {z } n2 2 ≤M Tschebyscheff-Ungleichung: ⇒ P (|Zn2 | > ε) ≤ V(Zn2 ) m ≤ 2 2 ε2 ε n Setze nun An := {ω : |Zn2 (ω)| > ε}. ⇒ ∞ X P(An ) ≤ n=1 ∞ ∞ X M M2 X 1 = <∞ ε2 n2 ε2 n=1 n2 n=1 6.4a) ===⇒ P(A∗ ) = 0 mit A∗ = {ω ∈ Ω : |Zn2 (ω)| > ε für unendlich viele n ∈ N} Wähle nun ε = k1 , k ∈ N und Ek = {ω : |Zn2 (ω)| > ε} ⇒ P(Ek ) = 0 ⇒P ∞ [ Ek =: E ∀k ∈ N ! =0 ⇒ P(E c ) = 1 k=1 T∞ Für jedes x ∈ E c = Ω \ k=1 Ekc gilt nun limn→∞ Zn2 (ω) = 0, da es für alle k ∈ N nur endlich viele n ∈ N gibt, mit |Zn (ω)| ≥ k1 . 62 6.2 Zentraler Grenzwertsatz m→∞ 2. Schritt:“ Zeige: Zm (ω) −−−−→ Z(ω) für fast alle ω ∈ Ω. Für m ∈ N sei u = n(m), sodass u2 ≤ m < Pm ” 2 (n + 1) und setze Sm = i=1 Xi . Tschebyscheff-Ungleichung: ! 2 εn ⇒ P |Sm − Sn2 | > |{z} ≤ =:ε0 V Pm i=n2 +1 (εn2 )2 Xi = ≤M z }| { V(Xi ) M (m − n2 ) 2 = i=n +1 ≤ ε2 n4 ε2 n4 ∞ ∞ X M X m − n(m)2 2 2 = ⇒ P |Sn − Sm(n) | > εn ≤ 2 ε m=1 n(m)4 | {z } m=1 Pm =:Am ≤ 2n + 1 z }| { ∞ M m − n2 m X (2n + 1)2 = 2 ≤ 4 ε n=1 n4 ε2 n=1 | n {z } m=n2 | {z } 1 ≤c· 2 (n + 1)2 − n2 Terme n {z } | | {z } = 2n + 1 <∞ 2 +1)−1 ∞ (n X X Borel-Cantelli wie im 1. Schritt anwenden auf (Am ) liefert: S Sn2 m − m→∞ n(m)2 − P n(m)2 −−−→ 0 = 1 | {z } =Z n2 ⇒ Für fast alle ω ∈ Ω gilt: Zm (ω) = da limn→∞ Zn2 (ω) = 0, limm→∞ Sm (ω) n(ω)2 n(ω)2 Sm (ω) m→∞ · −−−−→ 0 m } n(m)2 | {z | {z } ≤c m→∞ −−−−→0 − Zn(m)2 (ω) = 0 für fast alle ω ∈ Ω. 6.2 Zentraler Grenzwertsatz Eine bemerkenswerte Verallgemeinertung vom Satz von Moivre-Laplace (Satz 4.3) ist: Satz 6.5. Es seien (Xi )i∈N eine Folge von unabhängigen, identisch verteilten Zufallsvariablen (d.h. PXi = PXj ∀i, j) mit Xi ∈ L2 (Ω, P) und E(Xi ) = m, V(Xi ) = v > 0. Dann ist lim P (Sn∗ ≤ t) = Φ(t) ∀t ∈ R n→∞ (3) wobei Sn∗ n 1 X Xi − m √ , =√ n i=1 v 1 Φ(t) = √ 2π Z t e− x2 2 dx −∞ Bemerkung. a) Yi = X√ i −m v ist normalisiert, d.h. E(Yi ) = 0, V(Yi ) = 1. ⇒ E(Sn∗ ) = 0, V(Sn∗ ) = 1 n Pn i=1 V(Yi ) = 1. b) Sind Xi Bernoulli-verteilt, so erhalten wir den Satz von Moivre-Laplace (Satz 4.3). 63 6 Grenzwertsätze c) Sind Xi N (µ, σ 2 )-verteilt, so ist n 1 X Xi − µ Sn∗ = √ σ } n i=1 | {z N (0, 1)-verteilt | {z } N (0, n)-verteilt N (0, 1)-verteilt. In diesem Fall gilt P(Sn∗ ≤ t) = Φ(t). d) Ist (Xi )i∈N eine Folge von Zufallsvariablen, so sagt man (Xi ) konvergiert in Verteilung gegen X, falls lim FXn (t) = FX (t) für alle t ∈ R, in dem FX stetig ist. n→∞ Lemma 6.6. Die folgenden Aussagen sind äquivalent: a) (Xi ) konvergiert in Verteilung gegen X. b) FXi konvergiert gleichmäßig gegen FX , d.h. i→∞ sup |FXi (t) − FX (t)| −−−→ 0 t∈R c) Für jede stetige und beschränkte Funktion f : R → R gilt: lim E(f ◦ Xi ) = E(f ◦ X) (4) i→∞ d) Für jede stetige, beschränkte, dreimal stetig differenzierbare Funktion f : R → R mit beschränkten Ableitungen gilt (4) Beweis. Siehe [3, Georgii, Bemerkung 5.28]. d) ⇒ a) Es sei t ∈ R, sodass FX stetig ist. Dann gibt es zu jedem δ > 0 ein f ∈ C 3 (R) mit beschränkter Ableitung, sodass 1(−∞,t] (x) ≤ f (x) ≤ 1(−∞,t+δ) (x) Vor. ↓ = Rt −∞ ⇒ lim sup FXi (t) ≤ lim sup E(f ◦ Xi ) = E(f ◦ X) | {z } i→∞ R i→∞ dPXi (x) = R 1(−∞,t] (x) dPXi (x) = E 1(−∞,t] ◦ X ⇒ lim sup FXi (t) ≤ E(f ◦ X) ≤ E 1(−∞,t+δ]◦X {z } | i→∞ δ→0 FX (δ + t) −−−→ FX (t) da F stetig ist. ⇒ lim sup FXi (t) ≤ FX (t) i→∞ Ähnlich ziegt man: lim FXi (t) ≥ lim E(f˜ ◦ Xi ) = E(f˜ ◦ X) ≥ i→∞ ≥ E 1(−∞,t−δ] (x) = FX (t − δ) i→∞ wobei f˜ ∈ C 3 (R) mit 1(−∞,t−δ] (x) ≤ f˜(x) ≤ 1(−∞,t] (x) ⇒ lim inf FXi (t) ≥ lim FX (t − δ) = FX (t) i→∞ δ→0 ⇒ lim FXi (t) = FX (t) i→∞ 64 6.2 Zentraler Grenzwertsatz Lemma 6.7 (Taylorentwicklung). Es sei f ∈ C 3 (R) beschränkt und mit beschränkten Ableitungen und X, Y seien unabhängige Zufallsvariablen. Dann gilt: Y 2 E f (X + Y ) = E f (X) + E f 0 (X) E(Y ) + E f 00 (X) E + E R(X, Y ) 2 2 3 wobei R(X, Y ) = Y6 f 000 (x + ϑXY Y ) = Y2 f 00 (x + ϑ̃XY Y ) − f 00 (X) mit ϑ, ϑ̃ ∈ [0, 1]. Beweis. Z E(X + Y ) = TaylorZf ↓ f X(ω) + Y (ω) dP(ω) = f X(ω) dP(ω) + Ω {z } |Ω Z E(f ◦X) Z Z Y 2 (ω) + f 0 X(ω) Y (ω) dP(ω) + f 00 X(ω) dP(ω) + R X(ω), Y (ω) dP(ω) = 2 Ω Ω |Ω {z } E(f (X)·Y ) Y2 0 00 +E R(X, Y ) = E f (X) + E f (X) · Y + E f (X) · 2 {z } | | {z } =E(f 0 (X))E(Y ), da f 0 (X),Y unabhängig → 6.8 2 E(f 00 (X))E( Y2 ) Lemma 6.8. Sind X1 , . . . , Xn unabhängige Zufallsvariablen und f : Rk → R, k ≤ n − 1, so sind f (X1 , . . . , Xk ), Xk+1 , . . . , Xn unabhängig. Beweis. Zentralübung Beweis 6.5. nach [3, Georgii] Es sei (Yi )i∈N eine Folge von unabhängigen standartnormalverteilten Zufallsvariablen, sodass (Xi )i∈N , (Yi )i∈N unabhängig sind. Existenz von (Yi ) wird in den Ergänzungen gezeigt. Dann sind: n 1 X √ Yi n i=1 standartnormalverteilt (siehe Bemerkungen). oBdA: Sei E(Xi ) = 0, V(Xi ) = 1 sonst ersetze Xi durch X√ i −m . v Wir nutzen Lemma 6.6d)) um Konvergenz in Verteilung zu zeigen. Dazu zeigen wir !! !! n n 1 X 1 X n→∞ E f √ Xi −E f √ Yi −−−−→ 0 n i=1 n i=1 (5) Dazu sei für alle i = 1, . . . , n: 1 Zn,i = √ (X1 + . . . + Xi−1 + Yi+1 + . . . + Yn ) n √1 Xi n = Zn,i+1 + √1n Yi+1 für alle i = 1, . . . , n − 1 Pn 2.) Zn,n + Xn = √1n i=1 Xi Pn 3.) Zn,1 + Y1 = √1n i=1 Yi 1.) Zn,i + 65 6 Grenzwertsätze X n n X 1 1 ⇒ (5) = E f Zn,i + √ Xi − f Zn,i + √ Yi = Ii n n i=1 i=1 | {z } Xi wird als Yi ersetzt. Teleskopsumme Aus Lemma 6.7 folgt nun: =0 =0 z }| { z }| { 1 1 0 0 Ii = E(f (Zn,i )) − E(f (Zn,i )) + E(f (Zn,i )) E √ Xi −E(f (Zn,i )) E √ Yi + n n 2 2 Xi Yi 1 1 00 √ √ + E(f (Zn,i )) E −E +E R Zn,i , Xi − R Zn,i , Yi 2n 2n n n {z } | = wobei V(Xi ) V(Y ) − 2 i =0 2 |Xi |3 c · √n3 ≤ ε|Xi |2 falls 1 E R Zn,i , √ Xi ≤ |Xi |2 n c· n falls 3 c̃ i| E R Zn,i , √1 Yi ≤ c · E |Y √ = √ n n n n n √1 |Xi | n √1 |Xi | n ≤ε >ε i) = V(X n n X }| z { 2 ⇒ |(5)| ≤ |Ii | ≤ c · Xi2 Xi c = εE · 1{ √1 |Xi |≤ε} +cE · 1{ √1 |Xi |>ε} + √ i=1 i=1 n n n n n n n X 1 nV(Xi ) 1 √ ≤ cε · +n · E Xi2 · 1{ n1 |Xi |>ε} + n } n| {z } i=1 n n | {z | {z } =1 = (∆) = √1n 1 ≤ c · ε + √ + (∆) n n X wobei X12 · 1{|Xi |>√nε} | {z } (∆) = E |{z} n→∞ ∈L1 −−−−→0 punktw. ! n→∞ −−−−→ 0 Majorisierte Konvergenz. ⇒ lim sup |(5)| ≤ cε ∀ε > 0 n→∞ ⇒ lim |(5)| = 0 n→∞ Beispiel 1 (Brown’sche Molekularbewegung). Ein schweres Teilchen erfahre durch zufällige Stöße von beliebigen Teilchen pro Zentimeter eine zufällige Geschwindigkeitsänderung (-umkehr), d.h. für den Ort Xt ∈ R zur Zeit t = 0, 1, 2, 3, 4, 5, . . . gilt t X Xt = Vi i=1 wobei 1 für ein ν > 0 2 √ Dies gelte, sofern die Zeiten in kleinen Zeiteinheiten (∼ ε) und Xt in kleinen Längeneinheiten (∼ ε) gemessen wird. Durch Skalierung geht man nun zu einer makroskopischen Größe über, indem man: √ (ε) Bt := ε · Xb εt c P(Vi = ±ν) = setzt. 66 6.2 Zentraler Grenzwertsatz x, t ∈ R Xt (ε) Bt ε x, t ∈ N Behauptung. Z (ε) lim P Bt ≤ x = ε→0 wobei %t (x) = x2 − t e√ 2πt x −∞ %t (y) dy ∀t ≥ 0, x ∈ R Wärmeleitkern falls v = 1. Beweis. Falls v = 1, gilt: V(Xi ) = E(Xi )2 = 12 (1+1) = 1 und E(Xi ) = 0. Setze Nε = b εt c ⇒ ε→0 und N −−−→ ∞. P (ε) Bt Nε √ X ≤x =P ε vi ≤ x ! Nε =P i=1 ε→0 x wobei √xt ≤ √Nx ε ≤ √t−ε −−−→ ε Dann ist ∀0 < ε ≤ ε0 : x √ . t x 1 X √ vi ≤ √ εNε N ε i=1 Sei nun δ > 0 beliebig und ε0 > 0, sodass √x t−ε t ε −1 < Nε ≤ t ε ! ≤ x √ ε + δ ∀0 < ε ≤ ε0 . ! Nε x x 1 X (ε) ∗ P vi ≤ √ ≤ P Bt ≤ x ≤ P SNε ≤ √ + δ Nε i=1 t t | {z } ε→0 −−−→ Φ √xt x x ε→0 ∗ √ √ P SN ≤ + δ − − − → Φ + δ ε ε t ⇒ Φ ⇒ lim P ε→0 (ε) Bt x √ t (ε) ≤ lim inf P Bt ≤ x ε→0 x (ε) ≤ lim sup P Bt ≤ x ≤ Φ √ + δ t ε→0 | {z } δ → 0 ⇒ Φ √xt ≤x =Φ x √ t Z = x −∞ s2 s= √ytZ e− 2 ↓ √ ds = 2π x −inf ty ∀δ > 0 y2 e− 2t √ dy sπt Bemerkung. %t (x) löst die sogenannte Wärmeleitungsgleichung δt u(t, x) = δx2 u(t, x) = 0 ∀t > 0, x ∈ R %t heißt Fundamentallösung der Wärmeleitungsgleichung. Lösungen dieser Gleichung beschreiben Konzentrationen von Stoffen bei (einfachen) Differsionsprozessen. 67 Teil II Statistik 68 7 Einführung in die Schätztheorie Referenz. Nach Skript von [2, König] und [1, Krengel §4, §13] 7.1 Grundbegriffe Grundproblem. In der Realität ist meist das genaue stochastische Modell (bzw. der zugehörige Wahrscheinlichkeitsraum) für einen gegebenen Prozess nicht bekannt. Selbst wenn man die Art der zugehörigen Verteilung passend modellieren kann (z.B. durch eine Binomialverteilung), so sind oft die Parameter (z.B. n ∈ N, p ∈ [0, 1]) unbekannt und müssen aus Ergebnissen geeigneter Experimente geschlossen werden. Beispiel 1. Schätzung eines Fischbestandes: In einem Teich ist eine unbekannte Anzahl N von Fischen. Wir wollen N schätzen. Dazu fischen wir W ≤ N Fische aus dem Teich, markieren diese und werfen sie in den Teich. Nach einigen Tagen (damit markierte und unmarkierte Fische gut durchmischen“) fischen wir n ” Fische und zählen x markierte Fische unter diesen. Frage: Was ist (basierend auf diesen Daten) eine gute Schätzung für N ? 1. Ansatz: Quote der gefangenen, markierten Fische ∼ Quote aller markierten Fische: W x ∼ n N ⇒N ≈W · n =: N1 (x) x Also nehmen wir N1 (x) den Schätzer für N . 2. Ansatz: Wir nehmen an, dass die Zahl x Hypn,W,NW -verteilt ist. Frage: Für welches N ∈ N besitzt das beobachtete Ereignis x die größte Wahrscheinlichkeit? D.h. (W )(N −W ) für welches N ≥ max(x, W ) ist PN (x) = Hypn,W,N −W (x) = x Nn−x maximal? (n) Dazu betrachten wir: PN (x) = PN −1 (x) N −1 N −W n n−x N N −1−W n−x n = N −n N −W Wn − Nx · =1+ ≥1 N N −W −n+x N (N − W − n + x) ⇔ Wn − Nx ≥ 0 ⇒ N ≤ W nx D.h. das Maximum liegt bei Ñ2 (x) = Schätzer für N sein. Wn x . Somit sollten N2 (x) = Wn x oder Ñ2 (x) = Wn x gute Bemerkung. Ein Schätzer, der nach diesem Ansatz bestimmt ist, heißt Maximum-Likelihood-Schätzer. Nun erstmal zum Allgemeinen Kontext der Schätztheorie: Definition 7.1 (Statistisches Modell). Ein statistisches Modell ist ein Tripel X , A, (Pϑ )ϑ∈Θ , wobei (X , A) ein messbarer Raum ist, Θ eine (mindestens zweielementige) Indesxmenge und Pϑ : A → [0, 1] sind für alle ϑ ∈ Θ Wahrscheinlichkeitsmaße. X heißt Stichprobenraum. Definition 7.2. Sei M = X , A, (Pϑ )ϑ∈Θ ein statistisches Modell. 69 7 Einführung in die Schätztheorie a) M heißt parametrisiertes Modell, falls Θ ⊆ Rn für ein n ∈ N und M heißt einparametrig, falls Θ ⊆ R. b) M heißt diskret, falls X abzählbar oder endlich und A = P(X ) ist. In diesem Fall ist pϑ (x) = Pϑ ({x}) ∀x ∈ X c) M heißt stetig, falls X ⊆ Rn Borel-messbar ist (d.h. X ∈ B(Rn )) und n o A = B(X ) =: A ⊆ X : A = B ∩ X für B ∈ B(Rn ) und jedes Pϑ eine Dichte %ϑ besitzt. d) M heißt Standardmodell, falls M stetig oder diskret ist. Beispiel 2. Wählt man X = N, Θ = N, x ∈ X , N ∈ Θ und Pϑ = PN , sodass PN ({x}) = Hypn,W,N −W (x) ∀x ∈ N, N ∈ Θ = N so erhält man ein diskretes statistisches Modell für Beispiel 1.). Hierbei sei Hypn,W,N −W (x) = 0 ∀x ≥ min(W, n) ∀x < max(0, n − N + W ) Um endliche Serien von unabhängigen Experimenten zu modellieren, benötigen wir: Definition 7.3 (Produktmodell). Sei M = X , A, (Pϑ )ϑ∈Θ ein Standardmodell und n ∈ N. Dann heißt M⊗n = X n , A⊗n , Pϑ ⊗n ϑ∈Θ n-faches Produktmodell, wobei: a) Falls M diskret: A⊗n = P(X n ) und Pϑ ⊗n (x) = pϑ (x1 ) · . . . · pϑ (xn ) ∀x ∈ X n (1) wobei Pϑ ⊗n ({x}) = pϑ ⊗n (x)Z∀x ∈ X n . b) Falls M stetig: A⊗n = B(X n ) und Pϑ ⊗n habe Dichte pϑ ⊗n mit pϑ (x) gegeben durch (1) ∀x ∈ X n Schließlich sei Xi : X n → X die Projektion auf die i-te Komponente, d.h. Xi (x) = xi ∀x ∈ X n . Bemerkung. X1 , . . . ,Xn sind unabhängig bezüglich Pϑ ⊗n ∀ϑ ∈ Θ und jedes Xi hat Verteilung Pϑ , sofern ⊗n n ⊗n X , A , Pϑ der zugrundeliegende Wahrscheinlichkeitsraum ist (vgl. Folgerung 5.22, Satz 3.4). ϑ∈Θ Bemerkung. Die Erwartungswerte und die Varianz bzgl. Pϑ und Pϑ ⊗n werden mit Eϑ und Vϑ , bzw. Eϑ ⊗n und Vϑ ⊗n bezeichnet. 7.2 Beispiele für Schätzer Definition 7.4. Es sei X , A, (Pϑ )ϑ∈Θ ein statistisches Modell und Σ ein messbarer Raum, der Ereignisraum. a) Jede Zufallsvariable S : X → Σ heißt Statistik. b) Sei τ : Θ → Σ eine messbare Abbildung, die Kenngröße, so heißt jede Statistik T : X → Σ Schätzer für τ . Beispiel 3. Es sei X = Θ = N wie in Beispiel 2.) (Fischteich) und τ : N → R =: Σ gegeben durch τ (N ) = N ∀N ∈ N. Dann heißt jede messbare Abbildung T :: N → R Schätzer für τ , die unbekannte Zahl der Fische. Insbesondere sind N1 , N2 , Ñ2 Schätzer. T muss im Allgemeinen nichts mit τ zu tun haben (nach Definition). 70 7.2 Beispiele für Schätzer Taxiproblem: In einer großen Stadt gebe es eine unbekannte Zahl von N Taxis, die wir Schätzen wollen. Jedes Taxi trage genau eine der Zahlen 1, . . . , N . Wir stellen uns an eine Kreuzung und warten, bis n verschiedene Taxis vorbeigefahren sind, mit den Nummern 1 ≤ x1 ≤ . . . ≤ xn ≤ N . Frage: Was ist eine gute Schätzung von N (gegeben x1 , . . . , xn ). 1. Ansatz: Wähle N ∩ (x1 , . . . , xn ) = max{x1 , . . . , xn } = xn . Dies ist der sogenannte Maximum-LikelihoodSchätzer: Wenn wir annehmen, dass alle n-elementigen Teilmengen von {1, . . . , N } gleich wahrscheinlich sind so ist die Wahrscheinlichkeit 1 ∀xn ≤ N PN (x1 , . . . , xn ) = N n N Dies ist maximal für N1 = xn , da n in N monoton wächst. Problem: Es gilt immer N1 (x1 , . . . , xn ) < N , sofern nicht xn = N . 2. Ansatz: Aus Symmetriegründen sollte gelten, dass: x1 − 1 ≈ N − xn ⇒ N2 (x1 , . . . , xn ) = x1 + xn − 1 3. Ansatz: Es sollte gelten: N − xn = Mittelwert der Lücken zwischen den Zahlen 1 ≤ x1 , . . . , xn . 1 (x1 − 1) + (x2 − x1 − 1) + . . . + (xn − xn−1 − 1) ⇒ N − xn ≈ n xn − n = n ⇒ N3 (x1 , . . . , xn ) = x + n + xn −n n sollte ein guter Schätzer für N sein. Beispiel 4. Raten des Bereichs von Zufallszahlen: Ein Showmaster produziert mit einer Maschine Zufallszahlen, die in [0, ϑ] gleichverteilt (= gleichförmig verteilt) sind. ϑ ∈ Θ = (0, ∞) wird geheim eingestellt. Nun sollen die Kandidaten aufgrund von n gegebenen Zufallszahlen x1 , . . . , xn den Parameter τ (ϑ) = ϑ schätzen. Unter der Annahme, dass x1 , . . . , xn unabhängig sind, bietet sich das statistische Modell (0, ∞)n , B ((0, ∞)n ) , Pϑ ⊗n ϑ∈Θ an, wobei Pϑ die Dichte pϑ (x) = 1 ϑ 1[0,ϑ] (x) hat. 1. Ansatz: Schwaches Gesetz der großen Zahlen n ⇒ T1 (x1 , . . . , xn ) = 2 n Pn i=1 2. Ansatz: Wähle 1X ϑ 1 xi ≈ E(x1 ) = = n i=1 2 ϑ Z 0 ϑ x dx xi ist ein plausibler Schätzer für ϑ. T2 (x1 , . . . , xn ) = max{x1 , . . . , xn } Dann gilt zwar T2 (x1 , . . . , xn ) ≤ ϑ und fast sicher T2 (x1 , . . . , xn ) < ϑ wegen Pϑ (xj = ϑ) = 0Z∀j = 1, . . . , n. Allerdings gilt für alle ε > 0 Pϑ ⊗n {|T2 (x1 , . . . , xn ) − ϑ| ≥ ε) = Pϑ ⊗n (max{x1 , . . . , xn } ≤ ϑ − ε) = x1 ,...,xn unabhängig ↓ = Pϑ ⊗n (x1 ≤ ϑ − ε, . . . , xn ≤ ϑ − ε) = = Pϑ ⊗n (x1 ≤ ϑ − ε) · . . . · Pϑ ⊗n (xn ≤ ϑ − ε) = | R {z } 1 ϑ = ϑ−ε 0 dx= ϑ−ε ϑ ϑ − ε n→∞ −−−−→ 0 ϑ | {z } n <1 ⇒ T2 (x1 , . . . , xn ) konvergiert stochastisch gegen ϑ. Das gleiche gilt für T1 (x1 , . . . , xn ) wegen dem schwachen Gesetz der Großen Zahlen. 71 7 Einführung in die Schätztheorie Frage: Welcher der beiden Schätzer ist besser? Das hängt vom Gütekriterium ab. 1. Kriterium: Erwartungstreue Definition 7.5. Sei M = X , A, (Pϑ )ϑ∈Θ ein statistisches Modell, τ : Θ → R eine reelle Kenngröße. Dann ist dein Schätzer T : X → R erwartungstreu (bzgl. τ ), falls Z Eϑ (T ) = T (x) dPϑ (x) = τ (ϑ) ∀ϑ ∈ Θ X T1 ist erwartungstreu (in Beispiel 4), da Eϑ ⊗n (T1 ) = n 2 2 X ⊗n Eϑ (xi ) = 2 · Eϑ ⊗n (x1 ) = n i=1 ϑ Z 0 ϑ x dx = ϑ T2 ist nicht erwartungstreu, aber asymptotisch erwartungstreu, d.h. n→∞ Eϑ ⊗n (T2 ) −−−−→ ϑ n n→∞ Eϑ ⊗n (T2 ) = ϑ −−−−→ ϑ n+1 Denn T2 hat die Verteilungsfunktion Fn (t) = Pϑ ⊗n (x1 ≤ t, . . . , xn ≤ t) = Pϑ ⊗n (x1 ≤ t) falls t ≥ ϑ 1 = ( ϑt )n falls 0 < t < ϑ 0 falls t ≤ 0 ⇒ T2 hat die Dichte n = t≥ϑ 0 −n n−1 0 fn (t) = Fn (t) = nϑ t 0≤t<ϑ 0 t≤0 Z ϑ n ⇒ Eϑ ⊗n (T2 ) = t · n · ϑ−n tn−1 dt = ·ϑ n + 1 0 Aus T2 bekommt man einen Erwartungstreuen Schätzer durch T3 (x1 , . . . , xn ) = n+1 · T2 (x1 , . . . , xn ) n 2. Kriterium: Minimale Varianz Es hilft wenig, wenn ein Schätzer erwartungstreu ist, aber stark streut, d.h. wenn die Varianz gros ist. ⇒ Varianz sollte klein sein. Es gilt: Vϑ ⊗n (T1 ) = n ϑ2 4 X ⊗n 4 ⊗n · V (x ) = V (x ) = ϑ i ϑ 1 n2 i=1 | {z } n | {z } 3n 2 ) Vϑ ⊗n (x 1 =ϑ 12 Varianz der Gleichverteilung auf [0,ϑ] nϑ2 Berechnet man mit Hilfe der Dichte (n + 1)2 (n + 2) 2 n+1 ϑ2 1 ⊗n ⊗n Vϑ (T3 ) = ·Vϑ (T2 ) = =O für n → ∞ n n(n + 2) n2 | {z } Vϑ ⊗n (T2 ) = ≥1 72 7.3 Das Maximum-Likelihood-Prinzip Für große n sind die Varianzen von T2 und T3 wesentlich kleiner als von T1 . Allerdings gilt: Vϑ ⊗n (T2 ) < Vϑ ⊗n (T3 ) Aber T2 streut um den falschen Erwartungswert. Seine mittlere quadratische Abweichung von τ (ϑ) = ϑ ist: 2 Eϑ ⊗n (T2 (n) − ϑ)2 = Vϑ ⊗n (T2 (n)) + ϑ − Eϑ ⊗n (T2 ) Bemerkung. Es gilt allgemein: E (X − a)2 = V(X) + (a − E(X))2 ∀X ∈ L2 vgl. Beweis von Lemma 3.11 ⇒ Die mittlere quadratische Abweichung von T2 ist: Eϑ ⊗n T2 (n) − ϑ)2 = ϑ2 nϑ2 = + 2 (n + 1) (n + 2) (n + 2)2 2ϑ2 = > Vϑ ⊗n (T3 ) (n + 1)2 (n + 2) da 2 1 > für n ≥ 2 n+1 n Für große n ist die quadratische Abweichung von T2 fast doppelt so groß, wie Vϑ ⊗n (T3 ). 7.3 Das Maximum-Likelihood-Prinzip In diesem Abschnitt formalisieren wir die Maximum-Likelihood-Konstruktion aus Beispiel 1.) Definition 7.6 (Maximum-Likelihood-Schätzer). Es sei M = X , A, (Pϑ )ϑ∈Θ ein statistisches Standardmodell und %ϑ (x) = Pϑ ({x}) falls M diskret ist und %ϑ (x) sei die Dichte von Pϑ sonst. a) Die Abbildung % : X × Θ → [0, ∞) mit %(x, ϑ) = %ϑ (x) heißt Likelihood-Funktion, oder Plausibilitätsfunktion. Die %x : Θ → [0, ∞) Likelihood-Funktion zum Beobachtungswert x ∈ X . b) Ein Schätzer T : X → Θ für τ (ϑ) = ϑ ist ein Maximum-Likelihood-Schätzer, falls % x, T (x) = max %(x, ϑ) ∀x ∈ X ϑ∈Θ Beispiel 5. Reißnagel: Ein auf den Boden geworfener Reißnagel fällt mit unbekannter Wahrscheinlichkeit ϑ ∈ [0, 1] auf die Spitze. Wir werfen den Reißnagel n-mal und zählen, dass er x-mal dabei auf die Spitze fällt. Da die Ergebnisse der Würfe unabhängig sind, ist x Bin,ϑ -verteilt mit ϑ ∈ [0, 1] unbekannt. Dann ist die Likelihood-Funktion: %(x, ϑ) = %ϑ (x) = Bin,ϑ (x) = n x ϑ (1 − ϑ)n−x x für x ∈ {0, . . . , n}, ϑ ∈ [0, 1] Mit der sogenannten Log-Likelihood-Funktion log %x lässt sich besser rechnen, da n log %x (ϑ) = log + x log ϑ + (n − x) log(1 − ϑ) x Da log : (0, ∞) → R streng monoton wachsend, ist %x an einer Stelle ϑe maximal genau dann, wenn log %x an der Stelle ϑe maximal ist. Nun ist: d x n−x log %x (ϑ) = − =: f (ϑ) dϑ ϑ 1−ϑ f : (0, 1) → R ist streng monoton fallend und f (ϑ) = 0 für ϑ = xn. ⇒ T (x) = x n ist der eindeutige Maximum-Likelihood-Schätzer. 73 7 Einführung in die Schätztheorie Beispiel 6. Bereich von Zufallszahlen: Die Likelihood-Funktion zu Beispiel 4.) ist: ( ϑ−n falls x1 , . . . , xn ≤ ϑ %x (ϑ) = 0 sonst wobei x = (x1 , . . . , xn ). Der Schätzer T2 (n) = max{x1 , . . . , xn } ist der Maximum-Likelihood-Schätzer, denn für gegebenes x1 , . . . , xn ist das Maximum max{x1 , . . . , xn } = ϑe die kleinste Zahl ϑ mit x1 ≤ ϑ, . . . , xn ≤ ϑ und %x (ϑ) ist maximal für minimales ϑ ≥ x1 , . . . , xn . Ein wichtiges statistisches Modell mit zwei Parametern ist das Gauß-Modell: Satz 7.7 (Maximum-Likelihood-Schätzer imGauß-Modell). Für n ∈ N betrachten wir das Produkt-GaußModell Rn , B(Rn ), (N (µ, σ 2 )⊗n )µ∈R,σ2 ∈(0,∞) , wobei N (µ, σ 2 ) die Normalverteilung (Gaußverteilung) mit Erwartungswert µ und Varianz σ 2 mit Dichte (x−µ)2 2σ 2 e− ϕµ,σ (x) = √ 2πσ ist. Dann ist der einzige Maximum-Likelihood-Schätzer für τ (µ, σ 2 ) = (µ, σ 2 ) ∀(µ, σ 2 ) ∈ R × [0, ∞) gegeben durch: n n 1X 1X xi , V = (xi − M )2 T = (M, V ), M= n i=1 n i=1 Beweis. 10. Übungsblatt Bemerkung. Man nennt M auch den empirischen Mittelwert und V die exmpirische Varianz der Zufallsgröße x1 , . . . , xn . 7.4 Erwartungstreue und quadratische Fehler Definition 7.8 (Bias). Ist M = X , A, (Pϑ )ϑ∈Θ ein statistisches Modell, τ : Θ → R eine reelle Kenngröße und T : X → R ein Schätzer für τ , so heißt Bϑ (T ) = Eϑ (T ) − τ (ϑ) für ϑ ∈ Θ der Bias oder systematischer Fehler von T . Bemerkung. 1.) Ein Schätzer ist erwartungstreu ⇔ Bϑ (T ) = 0 ∀ϑ ∈ Θ. 2.) In Beispiel 4.) und 6.) ist T2 (n) ein Maximum-Likelihood-Schätzer. Dieser ist nicht erwartungstreu. Auch der Maximum-Likelihood-Schätzer in Satz 7.7 (Gauß-Modell) ist nicht erwartungstreu, wie der folgende Satz zeigt: Satz 7.9 (Erwartungstreue Schätzer für Erwartungswert und Varianz). Es sei n ∈ N, n ≥ 2, X n , A⊗n , Pϑ ⊗n ϑ∈Θ ein n-faches Produktmodell eines Standardmodells X , A, (Pϑ )ϑ∈Θ mit X ⊆ R. Für jedes ϑ ∈ Θ sei Z m(ϑ) = Eϑ (Pϑ ) := x dPϑ (x) ZX v(ϑ) = Vϑ (Pϑ ) := (x − m(ϑ))2 dPϑ (x) X der Erwartungswert und die Varianz von Pϑ . Dann sind der empirische Mittelwert und die korrigierte empirische Varianz n M= 1X xi n i=1 V∗ = 1 X (xi − M )2 n − 1 i=1 erwartungstreue Schätzer für m(ϑ) bzw. v(ϑ). 74 n 7.4 Erwartungstreue und quadratische Fehler Beweis. 1.) Es ist Eϑ ⊗n n 1 X ⊗n Eϑ (Xi ) = Eϑ (Pϑ ) = m(ϑ) (M ) = n i=1 | {z } =Eϑ (Pϑ ), da Xi Pϑ -verteilt 2.) Es sei V = n−1 ∗ n V = 1 n Pn − M )2 . Dann gilt: i=1 (Xi Eϑ ⊗n (V ) = n 1 X ⊗n Eϑ (Xi − M )2 = n i=1 {z } | ⊗n =V⊗n ϑ (Xi −M ), da Eϑ (Xi −M )=0 =V⊗n (X −M ), da X 1 i gleichverteilt ϑ = Vϑ ⊗n (X1 − M ) = Vϑ ⊗n n 1X n−1 X1 − Xi n n i=2 ! = Bienaymé n y n − 1 2 1 X ⊗n = Vϑ ⊗n (X1 ) + 2 Vϑ (Xi ) = | {z } n n i=2 | {z } =v(ϑ) = ⇒ Eϑ ⊗n (V ∗ ) = n n−1 2 (n − 1) n−1 + n n2 =v(ϑ), da Xi Pϑ -verteilt · v(ϑ) = n−1 · v(ϑ) n · Eϑ ⊗n (V ) = v(ϑ). Ein Maß für die Qualität eines Schätzers ist: Definition 7.10. Es sei X , A, (Pϑ )ϑ∈Θ ein statistisches Modell, τ : Θ → R eine reelle Kenngröße und T : X → R ein Schätzer. Dann ist der mittlere quadratische Fehler von T : Fϑ (T ) = Eϑ (T − τ (ϑ))2 Bemerkung. 1.) Es gilt: Fϑ (T ) = Vϑ (T ) + Bϑ (T )2 ∀ϑ ∈ Θ vgl. Beispiel 4 2.) Um den quadratischen Fehler klein zu halten, muss aber die Summe aus Varianz und Bias2 klein sein. Dazu muss der Bias aber nicht unbedingt verschwinden, wie das folgende Beispiel zeigt. Beispiel 7. Ein guter Schätzer mit Bias: Wir betrachten das Binomialmodell {0, . . . , n}, P({0, . . . , n}), (Bin,ϑ )ϑ∈[0,1] aus Beispiel 5. Der Maximum-Likelihood-Schätzer ist T (x) = Eϑ (T ) = x n. Dieser ist erwartungstreu, da: 1 1 Eϑ (x ) = nϑ = ϑ n n y Bin,ϑ -verteilt Nun S(x) = x+1 n+2 . Dann ist S nicht mehr erwartungstreu, aber es gilt: für alle ϑ − Fϑ (S) ≤ Fϑ (T ) vgl. 10. Übungsblatt. D.h. ist bekannt, dass ϑ nahe bei kleineren quadratischen Fehlers. 1 2 3 1 ≤ 2− 2 2 liegt, so ist S ein besserer Schätzer im Sinne eines 75 7 Einführung in die Schätztheorie 7.5 Varianzminimierende Schätzer Definition 7.11. Sei X , A, (Pϑ )ϑ∈Θ ein statistisches Modell und τ : Θ → R eine reelle Kenngröße. Dann heißt ein erwartungstreuer Schätzer T für τ varianzminimierend, oder bester (gleichmäßiger) Schätzer, wenn für jeden erwartungstreuen Schätzer S für τ gilt, dass Vϑ (T ) ≤ Vϑ(S) ∀ϑ ∈ Θ Wir werden uns auf einparametrige Modelle beschränken und varianzminimierende Schätzer für die folgende Klasse von Modellen konstruieren: Definition 7.12 (Reguläre Modelle, Fischerinformation). Ein einparametriges Modell X , A, (Pϑ )ϑ∈Θ heist regulär, falls Θ ⊆ R ein offenes Intervall ist und: i) Die Likelihood-Funktion % : X × Θ → [0, ∞) strikt positiv und nach ϑ ∈ Θ stetig differenzierbar ist. ii) Für jedes ϑ ∈ Θ existiert die Varianz I(ϑ) := Vϑ (Uϑ ) und ist positiv, wobei Uϑ (x) = %0 (ϑ) d log %(x, ϑ) = x dϑ %x (ϑ) die sog. Score-Funktion ist. Außerdem gelte: Z Z d d %(x, ϑ) dx = %(x, ϑ) dx dϑ X X dϑ X d d X %(x, ϑ) = %(x, ϑ) dϑ dϑ x∈X falls M stetig falls M diskret (2) x∈X I : Θ → [0, ∞) heißt Fischerinformation. Der Einfachheit halber schreiben wir ab jetzt auch R X . . . dx statt P x∈X . . . im diskreten Fall. Bemerkung. a) Aus der Vertauschungsrelation (2) folgt Eϑ (Uϑ ) = 0, denn Z Z %0x (ϑ) d Eϑ (Uϑ ) = · %x (ϑ) dx = %(x, ϑ) dx = 0 dϑ X X %x (ϑ) | {z } =1 b) Wegen Eϑ (Uϑ ) = 0 folgt: I(ϑ) = Vϑ (Uϑ ) = Eϑ (Uϑ2 ) = Z X %02 x (ϑ) dx %x (ϑ) ⇒ Große Werte von I(ϑ) bedeuten große Änderungen der Likelihodd-Funktion %(., ϑ) bei Variation von ϑ. c) Die Vertauschungsrelation ist erfüllt, falls es für jedes feste ϑ0 ∈ Θ eine Umgebung N (ϑ0 ) gibt, sodass Z d sup %(x, ϑ) dx < ∞ dϑ X ϑ∈N (ϑ0 ) Folgt aus Satz über majorisierte Konvergenz und Approximation von d dϑ durch Differenzenquotienten. Die Bedeutung der Fischer-Information folgt aus folgendem Satz. Dazu nennen wir einen (erwartungstreuen) Schätzer T (x) regulär, falls Z Z d d T (x) %(x, ϑ) dx = T (x)%(x, ϑ) dx dϑ dϑ X X 76 7.5 Varianzminimierende Schätzer Satz 7.13 (Informationsungleichung). Sei M = X , A, (Pϑ )ϑ∈Θ ein reguläres Standardmodell, τ : Θ → R eine stetig differenzierbare Kenngröße mit τ 0 (ϑ) 6= 0 ∀ϑ ∈ Θ und T ein regulärer, erwartungstreuer Schätzer für τ . Dann gilt: Vϑ (T ) = Fϑ (T ) ≥ τ 0 (ϑ)2 I(ϑ) ∀ϑ ∈ Θ (3) Gleichheit gilt genau dann, wenn τ 0 (ϑ) · Uϑ (x) I(ϑ) ∀ϑ ∈ Θ und fast alle x ∈ X (4) %(x, ϑ) = ea(ϑ)T (x)−b(ϑ) h(x) ∀ϑ ∈ Θ und fast alle x ∈ X (5) T (x) − τ (ϑ) = Es gilt (4) genau dann, wenn I(ϑ) τ 0 (ϑ) wobei a : Θ → R stetig differenzierbar mit a0 (ϑ) = Z b(ϑ) = log X 6= 0 und h : X → (0, ∞) messbar ist. Hierbei ist: ea(ϑ)T (x) h(x) dx Bemerkung. a) Wenn sich ein regulärer, erwartungstreuer Schätzer T : X → R finden lässt, sodass (4) bzw. (5) gilt, so hat T minimale Varianz in der Klasse aller regulären, erwartungstreuen Schätzer. Solch ein Schätzer heißt Cramér-Rao-effizient. b) Ein einparametriges Standardmodell, welches (5) für ein a : Θ → R stetig differenzierbar mit a0 (ϑ) 6= 0 ∀ϑ ∈ Θ, h : X → R+ messbar und b(ϑ) wie in Satz 7.13 erfüllt, heißt exponentielles Modell bezüglich der Statistik T : X → R. Für solche Modelle kann man zeigen, dass alle erwartungstreuen Schätzer regulär sind und damit T varianzminimierend ist, siehe [2, König, Satz 7.5.6] oder Ergänzungen. Beweis. Aus Eϑ (Uϑ ) und der Regularität und Erwartungstreue von T folgt: Covϑ (T, Uϑ ) = Eϑ (T · Uϑ ) = Z %0 (ϑ) = T (x) x %x (ϑ) dx = %x (ϑ) X Z d T (x)%(x, ϑ) dx = τ 0 (ϑ) = dϑ X | {z } =Eϑ (T )=τ (ϑ) Hieraus folgt mit c(ϑ) = τ 0 (ϑ) I(ϑ) : 0 ≤ Vϑ (T − c(ϑ)Uϑ ) = = Vϑ (T ) + c(ϑ)2 Vϑ (Uϑ ) −2 c(ϑ) Covϑ (T, Uϑ ) = | {z } |{z} | {z } =I(ϑ) = Vϑ (T ) − τ 0 (ϑ) I(ϑ) τ 0 (ϑ) τ 02 (ϑ) I(ϑ) ⇒ (3) Nun gilt Gleichheit in (3) ⇔ Vϑ (T − c(ϑ)Uϑ ) = 0 ⇔ T (x) − c(ϑ)Uϑ (x) = d(ϑ) ⇒ d(ϑ) = Eϑ (T ) − E(Uϑ (x)) ·c(ϑ) = τ (ϑ) | {z } | {z } =τ (ϑ) für fast alle x ∈ X (6) ∀ϑ ∈ Θ =0 Somit gilt Gleichheit in (3) genau dann, wenn (4) gilt. Es bleibt zu zeigen: 77 7 Einführung in die Schätztheorie (4) ⇒ (5): Aus (4) und Uϑ = d dϑ log %(x, ϑ) folgt d I(ϑ) log %(x, ϑ) = 0 (T (x) − τ (ϑ)) dϑ τ (ϑ) | {z } =a0 (ϑ) ⇒ log %(x, ϑ) = a(ϑ)T (x) − b(ϑ) + ũ(x) wobei a0 (ϑ) = I(ϑ) τ 0 (ϑ) , b0 (ϑ) = I(ϑ) τ 0 (ϑ) τ (ϑ) und ũ : X → R messbar. ⇒ %(x, ϑ) = ea(ϑ)T (x)−b(ϑ) h(x) für eine messbare Funktion h : X → (0, ∞) mit h(x) = eũ(x) und a : Θ → R stetig differenzierbar mit a0 (ϑ) = τI(ϑ) 0 (ϑ) . Hierbei ist b(ϑ) eindeutig gegeben durch: Z Z 1= %(x, ϑ) dx = e−b(ϑ) X ea(ϑ)T (x) h(x) dx X Z ⇒ b(ϑ) = log ea(ϑ)T (x) h(x) dx X (5) ⇒ (4): Aus (5) folgt: log %(x, ϑ) = a(ϑ)T (x) − b(ϑ) + log h(x) d log %(x, ϑ) = a0 (ϑ) T (x) − b0 (ϑ) ⇒ Uϑ (x) = | {z } dϑ I(ϑ) = τ 0 (ϑ) Außerdem folgt: 0 = Eϑ (Uϑ ) = I(ϑ) Eϑ (T ) −b0 (ϑ) τ 0 (ϑ) | {z } =τ (ϑ) ⇒ b0 (ϑ) = I(ϑ) τ (ϑ) τ 0 (ϑ) ⇒ (4) Beispiel 8. Es sei M = (N0 , P(N0 ), (Poϑ )ϑ∈Θ ) mit Θ = (0, ∞) und τ (ϑ) = ϑ. Dann ist die LikelihoodFunktion: %(x, ϑ) = e−ϑ ϑx = x! T (x) ↑ log ϑ·x−ϑ =e =h(x) ↑ · 1 x! Dann hat % die Form (5), wobei T (x) = x und a(ϑ) = log ϑ ist. Es ist nun zu prüfen, dass a0 (ϑ) = I(ϑ) = ∞ X %0x (ϑ)2 · x=0 = ∞ X 1 1 = · e−ϑ · (x!%0x )2 = | {z } %x (ϑ) x=0 x! =(−e−ϑ ϑx +e−ϑ xϑx−1 )2 2 ϑx −ϑ x e −1 = x! | ϑ {z } x=0 ∞ X = ϑ12 (x−ϑ)2 = ∞ 1 X ϑx −ϑ e (x − ϑ)2 = ↓ ϑ2 x=0 x! =Eϑ (T (x))=Eϑ (x) = 1 1 Vϑ (x) = = a0 (ϑ) ϑ2 | {z } ϑ =V(Poϑ )=ϑ 78 I(ϑ) τ 0 (ϑ) = I(ϑ) 7.5 Varianzminimierende Schätzer Damit ist T (x) = x ein regulärer, erwartungstreuer Schätzer für τ (ϑ) = ϑ, der (5) erfüllt. ⇒ T hat kleinste Varianz in der Klasse der erwartungstreuen Schätzer. Beispiel 9. Binomialmodell: Für festes n ∈ N sei X = {0, . . . , n} und Pϑ = Bin,ϑ mit ϑ ∈ Θ = (0, 1). Dann gilt: n x %(x, ϑ) = ϑ (1 − ϑ)n−x = x n ϑ x (1 − ϑ)n = = x 1−ϑ ϑ n x · n · log = exp +n · log(1 − ϑ) x n 1−ϑ |{z} | {z } T (x) ⇒ % hat die Form (5) mit T (x) = x n, a(ϑ) = n · log Eϑ (T (x)) = a(ϑ) ϑ 1−ϑ , h(x) = x n . Dann ist T (x) = x n erwartungstreu, da Eϑ (x) Eϑ (Bin,ϑ = =ϑ n n (5) ⇒ T ist varianzminimierend, da alle Schätzer S : X → R regulär sind. Dabei ist noch zu prüfen, dass a0 (ϑ) = τI(ϑ) 0 (ϑ) . Zu Produktmodellen und der Fischeinformation: Lemma7.14. Es sei M = X , A, (Pϑ )ϑ∈Θ ein reguläres Standardmodell mit Fischerinformation I und M⊗n = X n , A⊗n , Pϑ ⊗n ϑ∈Θ das n-fache Produktmodell. Dann hat M⊗n die Fischerinformation n · I(ϑ) =: I ⊗n (ϑ) Beweis. Die Likelihood-Funktion von M⊗n ist: %⊗n (x, ϑ) = n Y ∀x ∈ X n , ϑ ∈ Θ %(xi , ϑ) i=1 n d d X ⇒ log %⊗n (x, ϑ) = log %(xi , ϑ) = dϑ dϑ i=1 = n X d log %(xi , ϑ) dϑ {z } i=1 | =Uϑ (x) von M ⇒I ⊗n (ϑ) = Vϑ Uϑ (x) = n X = Vϑ ⊗n (Uϑ (xi )) = {z } | ⊗n i=1 ⊗n =Vϑ (Uϑ )=I(ϑ) = n · I(ϑ) Bemerkung. Ist Tn : X n → R ein erwartungstreuer, regulärer Schätzer für τ bezüglich M⊗n , so folgt: Vϑ ⊗n (Tn ) ≥ τ 0 (ϑ)2 const. = n · I(ϑ) n für n → ∞ Bemerkung. In Beispiel 4 (Zufallszahlen) hatten wir Schätzer mit Vϑ (Tn ) = O zugehörige Modell M ist aber nicht regulär, da %(x, ϑ) = 1 n2 für n → ∞. Das 1 · 1[0,∞) (x) ϑ nicht stetig differenzierbar bezüglich ϑ ∀ϑ > 0 ist. 79 7 Einführung in die Schätztheorie 7.6 Konsistenz In Beispiel 4 (Raten des Bereichs von Zufallszahlen) hatten wir Schätzer n T1 (n) = 2X Xi n i=1 T2 (x) = max{X1 , . . . , Xn } betrachtet, für die gilt: n→∞ Pϑ ⊗n |Tj (n) − ϑ| ≥ ε −−−−→ 0 ∀ε > 0, ϑ ∈ Θ Diese Eigenschaft nenn man Konsistenz. Allgemeiner: Definition 7.15 (Konsistente Schätzer). Für jedes n ∈ N sei Xn , A, (Pϑ,n )ϑ∈Θ ein statistisches Modell für festes Θ (unabhängig von n). Ferner sei τ : Θ → R eine reelle Kenngröße und Tn : Xn → R ein Schätzer für alle n ∈ N. Dann heißt die Schätzerfolge (Tn )n∈N konsistent, falls für alle ε > 0, ϑ ∈ Θ gilt: lim Pϑ,n |T − n − τ (ϑ)| > ε = 0 n→∞ Bemerkung. Wir schreiben kurz Xn −−−n−→ 0, falls limn→∞ Pn (|Xn | > ε) = 0, wobei (Ωn , An , Pn ), n ∈ N x→∞ eine Folge von Wahrscheinlichkeitsräumen ist und Xn : Ωn → R Zufallsvariablen sind. P Ein nützliches Lemma ist: Lemma 7.16. Es seine (Ωn , An , Pn ) Wahrscheinlichkeitsräume und Xn , Yn : Ωn → R Zufallsvariablen für alle n ∈ N, sodass Xn −−−n−→ 0, Yn −−−n−→ 0, sowie (an )n∈N eine beschränkte Folge in R. Dann gilt: P P n→∞ n→∞ Xn + Yn −−−n−→ 0, an Xn −−−n−→ 0 P P n→∞ n→∞ Beweis. i) Zunächst gilt: n o n ε εo ∪ ω ∈ Ωn : |Yn (ω)| > ω ∈ Ωn : |Xn (ω) + Yn (ω)| > ε ⊆ ω ∈ Ωn : |Xn (ω)| > 2 2 denn aus |Xn (ω) + Yn (ω)| > ε folgt |Xn (ω)| > 2ε oder |Yn (ω)| > 2ε ε ε n→∞ ⇒ Pn (|Xn + Yn | > ε) ≤ Pn |Xn | > + Pn |Yn | > −−−−→ 0 2} | | {z {z 2 } n→∞ n→∞ −−−−→0 −−−−→0 ii) Wenn |an | ≤ c für alle n ∈ N, c > 0, gilt: ε n→∞ −−−−→ 0 Pn (|an Xn | > ε) ≤ Pn (c|Xn | > ε) = Pn |Xn | > c Satz 7.17 (Konsistenz von empirischem Mittelwert und Varianz). Es sei M = X , A, (Pϑ )ϑ∈Θ ein Stan dardmodell mit X ⊆ R und M⊗n = X n , A⊗n , Pϑ ⊗n ϑ∈Θ das n-fache Produktmodell von M. Ferner sei für alle ϑ ∈ Θ Z Eϑ (x4 ) = X x4 dPϑ (x) < ∞ und m(ϑ) = E(Pϑ ), v(ϑ) = V(P(ϑ). Dann sind die Schätzer n Mn = 1X xi , n i=1 konsistente Schätzer für m(ϑ) und v(ϑ). 80 V∗n = n 1 X (xi − M )2 n − 1 i=1 7.6 Konsistenz Beweis. i) Die Konsistenz von Mn folgt sofort aus dem schwachen Gesetz der großen Zahlen (bzw. der TschebyscheffUngleichung): X n Vϑ (x1 ) n→∞ ⊗n 1 xi − m(ϑ) > ε ≤ −−−−→ 0 Pϑ n | {z } ε2 n i=1 =E(xi ) wobei Vϑ (xi ) = V(Pϑ ) = v(ϑ) ist. ii) Wegen Eϑ (x4 ) < ∞ ist Vϑ ⊗n (xi − m(ϑ)2 = Vϑ x1 − m(ϑ)2 = M < ∞ Ist nun: n Ṽn := folgt mit: 1X (xi − m(ϑ)) 2 n i=1 M n→∞ Pϑ ⊗n |Ṽn − v(ϑ)| > ε ≤ 2 −−−−→ 0 ε n da Eϑ (xi − m(ϑ)2 = v(ϑ). Damit folgt für Vn = n−1 ∗ n Vn : n Vn − v(ϑ) = 1X (xi − m(ϑ))2 − v(ϑ) − (Mn − m(ϑ))2 | {z } n i=1 ⊗n | {z } P ϑ −− − −→0 ⊗n Pn n→∞ −− − − → n→∞ P⊗n ϑ ⇒ Vn − v(ϑ) −−− −→ 0 nach Lemma 7.16. Schließlich folgt: n→∞ V∗n − v(ϑ) = n v(ϑ) (Vn − v(ϑ)) − n−1 n−1 | {z } | {z } ⊗n P ϑ −− − −→0 n→∞ ⊗n P ϑ −− − −→0 n→∞ P⊗n n ⇒ V∗n − v(ϑ) −−− −→ 0 n→∞ 81 8 Konfidenzbereiche 8.1 Definition Bis jetzt haben wir keine Aussage darüber gemacht, wie weit der wahre Wert ϑ von einer Schätzung T (x) entfernt liegen kann. (Die Varianz gibt nur eine Aussage über die Abweichung im Mittel.) Besser ist es deswegen, statt einem Wert T (x) als Schätzung für ϑ, einen Bereich C(x) anzugeben, in dem ϑ mit großer Wahrscheinlichkeit liegt. Definition 8.1 (Konfidenzbereich). Es sei M = X , A, (Pϑ )ϑ∈Θ ein statistisches Modell, τ : Θ → R eine Kenngröße und α ∈ (0, 1) eine Fehlerschranke. Dann heißt eine Familie (C(x))x∈X von Mengen C(x) ⊆ R Konfidenz- oder Vertrauensbereich für τ zum Irrtumsniveau α, falls ∀ϑ ∈ Θ: Pϑ {x ∈ X : τ (ϑ) ∈ C(x)} ≥ 1 − α (1) Falls C(x) für jedes x ∈ X ein Intervall ist, spricht man von Konfidenzintervallen C(x). Bemerkung. a) Damit (1) wohldefiniert ist, müssen wir voraussetzen, dass ∀ϑ ∈ Θ Cϑ = {x ∈ X : τ (ϑ) ∈ C(x)} ∈ A messbar ist. (Ist M diskret, so ist dies keine Bedingung. Ist M stetig, so wird im Folgenden meist Cϑ ein Intervall sein.) b) Die Abbildung x 7→ C(x) ist gewissermaßen eine Zufallsvariable mit Werten in P(R) (ohne auf Details der Messbarkeit einzugehen). c) Setzt man C(x) = R für alle x ∈ X , so ist (1) natürlich erfüllt. Gesucht sind abber möglichst kleine C(x). Die Wahl ist aber nicht eindeutig. d) Allgemein gilt: Je kleiner α > 0 gewählt wird, umso größer muss man C(x) wählen. 8.2 Konstruktion Es sei τ (ϑ) = ϑ und n o C = (x, ϑ) ∈ X × Θ : ϑ ∈ C(x) Dann ist C bzw. sind (C(x))x∈X eindeutig durch Cϑ = {x ∈ X : (x, ϑ) ∈ C} für alle ϑ ∈ Θ festgelegt: Θ 111111111111 000000000000 000000000000 111111111111 000000000000 111111111111 000000000000 01111111111111 1111111111 0000000000 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 C(x) C ϑ Cϑ x 82 X 8.3 Beispiele (1) ist äquivalent zu Pϑ (Cϑ ) ≥ 1 − α ∀ϑ ∈ Θ Ist M ein Standardmodell und % die zugehörige Likelihood-Funktion, so kann Cϑ z.B. wie folgt konstruiert werden: i) Für festes ϑ ∈ Θ wähle man mϑ > 0 so, dass: n o Cϑ = x ∈ X : %(x, ϑ) > mϑ wobei mϑ > 0 so bestimmt wird, dass Pϑ (Cϑ ) ≥ 1 − α möglichst knapp erfüllt ist. ii) Ist X ⊆ R und m(ϑ) = E(Pϑ ), so macht es Sinn n o Cϑ = x ∈ X : |x − m(ϑ)| ≤ s zu wählen, wobei s > 0, so gewählt wird, dass Pϑ |x − m(ϑ)| ≤ s ≥ 1 − α 8.3 Beispiele Beispiel 1 (Emissionskontrolle). Von N = 10 Kraftwerken sollen bei n = 4 zufällig getestet werden, ob die Emissionswerte eingehalten werden. Darunter sind x ∈ {0, . . . , 4} Kraftwerke, die die Grenzwerte verletzen. Gesucht ist ein Konfidenzbereich für die unbekannte Zahl ϑ ∈ {0, . . . , 10} mit zu hohen Emissionswerten gegeben x ∈ {0, . . . , 4}. Als statistisches Modell wählen wir: X = {0, . . . , 4}, X , A, (Pϑ )ϑ∈Θ , Θ = {0, . . . , 10}, Pϑ = Hyp4,ϑ,1−ϑ Wir wählen α = f rac15 als Fehlerschranke. Die folgenden Tabellen zeigen die Werte von %̃(x, ϑ) = ϑ Hyp4,ϑ,1−ϑ = 10−ϑ 4−x x für alle ϑ ≤ 5. Die Werte für ϑ > 5 folgen aus Symmetrie. C2 ϑ=5 4 3 2 1 0 x=0 5 15 35 70 126 210 1 50 80 105 112 84 0 2 100 90 63 28 0 0 3 50 24 7 0 0 0 C(2) ϑ=5 4 3 2 1 0 C(0) ϑ=5 4 3 2 1 0 4 5 1 0 0 0 0 x=0 5 15 35 70 126 210 1 50 80 105 112 84 0 2 100 90 63 28 0 0 3 50 24 7 0 0 0 x=0 5 15 35 70 126 210 1 50 80 105 112 84 0 2 100 90 63 28 0 0 3 50 24 7 0 0 0 10 4 · 4 5 1 0 0 0 0 4 5 1 0 0 0 0 In jeder Zeile wählt man so lange Werte von x für ϑ aus (angefangen mit dem größten Wert), bis Pϑ (Cϑ ) ≥ 1 − α, bzw. X 10 %̃(x, ϑ) ≥ (1 − α) = 168 4 x∈Cϑ 83 8 Konfidenzbereiche So erhält man C(0) = {0, 1, 2}, C(1) = {1, . . . , 5}, C(2) = {3, . . . , 7}, Beispiel 2 (Binomialmodell (Reißnagel)). Wir betrachten sucht ist ein Konfidenzbereich für τ (ϑ) = ϑ ∈ (0, 1). Beispiel 9 ⇒ T (x) = ist, d.h. x n C(3) = {5, . . . , 9}, C(4) = {8, 9, 10} {0, . . . , n}, P({0, . . . , n}), (Bin,ϑ )ϑ∈(0,1) . Ge- ist ein varianzminimierender Schätzer, der auch der Maximum-Likelihood-Schätzer %(x, ϑ) = Bin,ϑ (x) ist für gegebenes x ∈ {0, . . . , n} bei ϑe = x n maximal. Deshalb machen wir den Ansatz: C(x) = x − ε, n x +ε n wobei ε > 0 so gewählt wird, dass x o X n = Pϑ,n x ∈ X : − ϑ ≥ ε Bin,ϑ (x) ≤ α n x x:| n −ϑ|≥ε wobei Pn,ϑ (M ) = X Bin,ϑ (x) x∈M i) Verwendung der Tschbyscheff-Ungleichung: Aus der Ungleichung, bzw. dem schwachen Gesetz der großen Zahlen, folgt: x Pn,ϑ − ϑ ≥ ε = Pn,ϑ |x − |{z} nϑ | ≥ εn ≤ n E(Bin,ϑ ) ≤ ϑ(1 − ϑ) 1 V(Bin,ϑ = ≤ ε2 n nε2 4nε2 Falls ε > 0 so gewählt wird, dass 1 =α → ε= 4nε2 r 1 4nα folgt x Pn,ϑ − ϑ ≥ ε ≤ α n ∀ϑ ∈ (0, 1) Für n = 1000, α = 0, 025 benötigt man ε = 0, 1. Nachteil: Tschebyscheff-Ungleichung ist im Allgemeinen recht ungenau. ii) Verwendung der Normalverteilung: Aus dem Satz von Moivre-Laplace, bzw. dem Zentralen Grenzwertsatz folgt: ! r x − nϑ x n Pn,ϑ − ϑ < ε = Pn,ϑ p ≈ ≤ε nϑ(1 − ϑ) n ϑ(1 − ϑ) r r n n ≈Φ ε − Φ −ε = ϑ(1 − ϑ) ϑ(1 − ϑ) r n = 2Φ ε −1 ϑ(1 − ϑ) wobei Φ standardnormalverteilt ist. Falls n = 1000, α = 0, 025 und führt man eine Sicherheitsmarge von 0,02 für die Approximationsfehler ein, so sollte x Pn,ϑ − ϑ ≤ ε ≤ 1 − α n 84 8.3 Beispiele erfüllt sein, sofern Da ϑ(1 − ϑ) ≤ 1 4 n − 1 ≥ 1 − α + 0, 02 = 0, 975 + 0, 02 ϑ(1 − ϑ) 12 n ⇒ε ≥ Φ−1 (0, 9975) = 2, 82 ϑ(1 − ϑ) r 2Φ ε · ist, ist dies erfüllt, falls 2, 82 ε≥ √ ≈ 0, 0446 4000 Also ist dieses Ergebnis trotz der Sicherheitsmarke noch um einen Faktor 2 besser als im 1. Fall. Beispiel 3 (Mittelwert im Gaußschen Produktmodell). Wir betrachten Rn , B(Rn ), N (m, v)⊗n (m,v)∈Θ , Θ = R × (0, ∞). Wir wollen die ersten Komponenten von ϑ = (m, v) schätzen, bzw. ein Konfidenzintervall bestimmen, wobei auch die Varianz unbekannt ist. Dazu suchen wir eine möglichst kleine Menge Cm ⊆ Rn , sodass Pϑ (Cm ) ≥ 1 − α ∀ϑ ∈ (m, v) ∈ Θ Wir machen den Ansatz: n o Cm = x ∈ Rn : |M (x) − m| ≤ s(x) , M (x) = 1X xi n i für ein geeignetes s(x), denn die Dichte von M = M (x) ist maximal in m, falls x1 , . . . , xn unabhängig und Normalverteilt sind. Für die Abweichung s(x) machen wir den Ansatz: r s(x) = t mit V∗ (x) = 1 n−1 P i (xi V∗ (x) n − M (x))2 , da V∗ (x) ∼ v, wobei t > 0 noch zu wählen ist. Dies führt zu: M (x) − m ≤ t Cm = x ∈ Rn : q V ∗ (x) n Nun ist t > 0 so zu bestimmen, dass P(m,v) ⊗n (Cm ) ≥ 1 − α ∀(m, v) ∈ Θ Sind nun x1 , . . . , xn unabhängig und N (m, v)-verteilt, so ist die Verteilung von P √1 i Yi n Tm (x1 , . . . , xm ) = q =: T0 (Y1 , . . . , Yn ) P 1 2 Y i i n−1 wobei Y1 , . . . , Yn unabhängig und standardnormalverteilt sind. Die Verteilung T0 (Y1 , . . . , Yn ) ist die sogenannte stidentsche t-Verteilung mit n − 1 Freiheitsgraden, kurz tn−1 -Verteilung. Wir suchen nun ein Intervall I, sodass PT0 (I) := P(0,1) ⊗n T0 (Y1 , . . . , Yn ) ∈ I ≥ 1 − α ⇔ P(0,1) ⊗n Tm (x1 , . . . , xn ) ∈ I ≥ 1 − α PT0 hat die Dichte τn−1 , sie symmetrisch um 0, sowie monoton fallend auf (0, ∞) ist. ⇒ Wählt man tα > 0, sodass 1 FT0 (tα ) := PT0 (−∞, tα ] = 1 − α so folgt: PT0 [−tα , tα ] = PT0 (−∞, tα ] − PT0 (−∞, −tα ) = 1 − α | {z } | {z } F (tα ) 1−F (tα ) 85 8 Konfidenzbereiche Definition 8.2. Ist Q ein Wahrscheinlichkeitsmaß auf R und α ∈ (0, 1), so heißt q ∈ R mit Q((−∞, q]) und Q([q, ∞)) ≥ 1 − α α-Quantilvon Q. Ein 21 -Quantil heißt Median, ein (1 − α)-Quantil heißt α-Fraktil. Die Quantile der tn−1 -Verteilung sind tabelliert. ⇒ Wähle t = tα als 1 − Verteilung. α 2 -Quantil von der tn−1 - Somit erfüllt die Menge: Cm = {x ∈ Rn : |Tm (x)| ≤ tα } P(m,v) ⊗n (Cm ) = PT0 ((−tα , tα )) = 1 − α Daraus erhält man: r C(x) = M (x) − tα 1 ∗ V (x), M (x) + tα n r 1 ∗ V (x) n ! als Konfidenzintervalle für m. Beispiel 4 (Vergleich zweier Schlafmittel). Es werden zwei verschiedene Schlafmittel an n = 10 Personen getestet und die Differenz der Schlafdauer notiert. Patient Differenz 1 1,2 2 2,4 3 1,3 4 1,3 5 0 6 1,0 7 1,8 8 0,8 9 4,6 10 1,4 Nimmt man an, dass die Schlafdauer von vielen kleinen unabhängigen Einflüssen abhängt, so sollte die Differenz der Schlafdauer N (m, v)-verteilt sein. Für die Daten x = (x1 , . . . , x10 ) berechnet man M (x) = 1, 58 und V ∗ (x) = 1, 513. Für α = 0, 025 ist tα = 2, 72 (siehe Tabelle). ⇒ C(x) = (0.52, 2.64) als Konfidenzintervall für m zum Niveau α. 8.4 Die X 2 - und t-Verteilung Definition 8.3. Es seien Y, X1 , . . . , Xn unabhängige N (0, 1)-verteilte Zufallsvariablen. a) Die Verteilung von n X Xi2 i=1 heißt X -Verteilungmit n Freiheitsgraden, kurz Xn2 -Verteilung. 2 b) Die Verteilung von Y T =q P n 1 n i=1 Xi2 heißt Studentsche t-Verteilung mit n Freiheitsgraden, kurz tn -Verteilung. Die Quantile der Xn2 und tn -Verteilung sind tabelliert. Lemma 8.4. a) Die Xn2 -Verteilung hat die Dichte: t t 2 −1 n · e− 2 · 1[0,∞) , n Γ 2 22 n Xn2 (t) = t∈R b) Die tn -Verteilung hat die Dichte: τn (t) = 86 Γ Γ n 2 n+1 2 √ Γ n1 n − n+1 2 t2 · 1+ , n ∀t 8.4 Die X 2 - und t-Verteilung Beweis. Ergänzungen, oder [2, König, Lemma 8.44] Bemerkung. Für n → ∞ konvergiert τn (t) gegen die Dichte der Normalverteilung. Satz 8.5. Es seien X1 , . . . , Xn unabhängige und N (0, 1)-verteilte Zufallsvariablen. n 1X Xi , M= n i=1 n 1 X V = (X − i − M )2 n − 1 i=1 ∗ a) M und V ∗ sind unabhängig. 2 b) M ist N (0, n− 2 )-verteilt und (n − 1)V ∗ ist Xn−1 -verteilt. 1 c) T0 = √ √nM V∗ ist tn−1 -verteilt. Beweis. Es sei X = (X1 , . . . , Xn ) und U eine orthogonale n × n-Matrix: U = √1 n ··· ··· ∗ ··· ∗ .. . √1 n ∗ .. . ∗ sowie Y = U X = (Y1 , . . . , Yn ). Dann sind Y1 , . . . , Yn wieder unabhängig und N (0, 1)-verteilt. Außerdem gilt: n √ 1 X Y1 = √ Xi = nM n i=1 (n − 1)V ∗ = n X i=1 = n X i=1 Xi2 − nM 2 = |X|2 −Y12 = |{z} =|Y |2 Yi2 − Y12 = n X Yi2 i=2 ⇒ M und (n − 1)V ∗ sind unabhängig. Pn 2 ⇒ (n − 1)V ∗ = i=2 Yi2 ist Xn−1 -verteilt. ⇒ T0 ist tn−1 -verteilt. Bemerkung. Sind X1 , . . . , Xn N (µ, σ 2 )-verteilt und unabhängig, so ist (n−1)V ∗ σ2 2 Xn−1 -verteilt. 87 9 Einführung in die Testtheorie 9.1 Entscheidungsprobleme Beispiel 1. Ein Importeur erhält 10000 Orangen. Den vereinbarten Preis muss er nur zahlen, falls höchstens 5% der Orangen faul sind. Dafür untersucht er 50 Orangen und zählt, wie viele davon faul sind. Falls maximal c davon faul sind, akzeptiert er die Ladung, sonst reklamiert er sie. Frage: Wie ist 0 ≤ c ≤ 50 zu wählen? Problem: Wählt man c klein, so ist die Wahrscheinlichkeit groß, dass die Ladung reklamiert wird, obwohl sie okay ist. Wählt man c groß, ist die Wahrscheinlichkeit groß, dass die Ladung akzeptiert wird, obwohl sie schlecht ist. Der Importeur sucht einen sogenannten Test bzw. ein Entscheidungsverfahren, der ihm die Entscheidung über die Ladung abnimmt. Ein solches Verfahren wird in 5 Schritte eingeteilt: 1.) Statistisches Modell aufstellen Im Beispiel: M = {0, . . . , 50}, {0, . . . , 10000}, Hyp50,ϑ,10000−ϑ = (X , P(X ), (Pϑ )ϑ∈Θ ). 2.) Zerlege Θ in Θ0 und Θ1 (disjunkt), wobei ϑ ∈ Θ0 ϑ ist abzeptabel (Hypothese) ϑ ∈ Θ1 ϑ ist problematisch (Alternative) Man sagt: Die Hypothese H0 : ϑ ∈ Θ0 wird gegen die Alternative getestet. Im Beispiel: Θ0 = {0, . . . , 500}, Θ1 = {501, . . . , 10000}. 3.) Wähle ein Irrtumsniveau α ∈ (0, 1) für den Fehler 1. Art, d.h. für die Wahrscheinlichkeit, dass die Alternative gewählt wird, obwohl die Hypothese zutrifft. 4.) Wähle eine Entscheidungsregel, d.h. eine Statistik ϕ : X → [0, 1], wobei ϕ(X) = 0 Feshalten an der Hypothese ϕ(X) = 1 Verwerfen der Hypothese/Entscheidung für Alternative ϕ(X) ∈ (0, 1) Führe ein Zufallsexperiment mit Erfolgswahrscheinlichkeit ϕ(X) durch und wähle Alternative, im Falle eines Erfolges. Im Beispiel: Wähle ϕ(x) = 1 1 2 0 falls x > c falls x = c falls x < c Im Fall von c faulen Orangen wird in diesem Fall eine Münze geworfen. 5.) Führe das Experiment durch, das M beschreibt. Bemerkung. a) Führe erst das Experiment in 5. durch, wenn 1.-4. geklärt ist. Alles andere ist unseriös. b) Das Verfahren ist symmetrisch in Hypothese und Alternative. Hypothese und Alternative unterscheiden sich nur durch den Fehler 1. Art. 88 9.1 Entscheidungsprobleme c) Ein Fehler 2. Art liegt vor, falls ϑ ∈ Θ1 , aber die Hypothese akzeptiert bzw. nicht verworfen wird. Diesen Fehler kann man im Allgemeinen nicht klein kriegen, wenn der Fehler 1. Art schon begrenzt ist. Der mathematische Kern ist: Definition 9.1 (Test, Hypothese, Niveau, Macht). Sei X , A, (Pϑ )ϑ∈Θ ein statistisches Modell und Θ = ˙ 1 eine (Null-)Hypothese Θ0 und Θ1 die Alternative. Θ0 ∪Θ a) Jede Statistik ϕ : X → [0, 1] heißt Test von Θ0 gegen Θ1 . Sie heißt nicht randomisiert, falls ϕ(x) ∈ (0, 1) für (fast) alle x ∈ X , sonst randomisiert. Im ersten Fall heißt {x ∈ X : ϕ(x) = 1} der Ablehnungs-, Verwertungs- oder krischer Bereich von 0. b) supϑ∈Θ Eϑ (ϕ) heißt Umfang oder effektives Niveau vom Test ϕ. ϕ ist ein Test zum Irrtumsniveau α, falls supϑ∈Θ Eϑ (ϕ) ≤ α. c) Gϕ : Θ → [0, 1] mit Gϕ (ϑ) = Eϑ (ϕ) heißt Gütefunktion des Tests ϕ. Für ϑ ∈ Θ1 heißt Gϕ (ϑ) Macht, Stärke oder Schärfe von ϕ bei ϑ. Bemerkung. Für ϑ ∈ Θ1 ist βϕ (ϑ) = 1 − Gϕ (ϑ) die Wahrscheinlichkeit für einen Fehler 2. Art. Wir stellen folgende Anforderungen an ϕ: i) Gϕ (ϑ) ≤ α ∀ϑ ∈ Θ0 , d.h. Fehler 1. Art ≤ α. ii) Für ϑ ∈ Θ1 sollte Gϕ (ϑ) möglichst groß sein, d.h. Fehler 2. Art möglichst klein. Definition 9.2. Ein Test ϕ zum Niveau α heißt bester Test zum Niveau α, falls für jeden Test ψ zum Niveau α gilt: Gϕ (ϑ) ≥ Gψ (ϑ) ∀ϑ ∈ Θ1 Beispiel 2 (Außersinnliche Wahrnehmung). Ein Medium“ behauptet, er könne verdeckte Spielkarten iden” tifizieren. Dazu wird ihm 20 mal ein verdecktes Paar von Herz-Dame/Herz-König vorgelegt. Er soll die Herz-Dame umdrehen. Die Zahl der Treffer X wird notiert. Ein geeignetes Modell ist: {0, . . . , 20}, P({0, . . . , 20}, (Bi20,ϑ )ϑ∈Θ mit Θ = 21 , 1 . Mann will die Nullhypothese H0 : ϑ = ein Irrtumsniveau α = 0, 05. Als Test wählen wir 1 2 gegen die Alternative Θ1 = 1 2, 1 testen und wählt ϕ(x) = 1{0,...,20}(x) für passendes c. Man berechnet, dass Bi20, 12 ({15, . . . , 20}) ≈ 0, 02707 < α aber Bi20, 21 ({14, . . . , 20}) > α ⇒ Wählt man c = 15, so erhält man einen Test zum Niveau α, d.h. der Fehler 1. Art ist durch α beschränkt. Im Folgenden studieren wir beste Tests, zunächst in einem einfachen Fall: 89 9 Einführung in die Testtheorie 9.2 Alternativtests Sei M = X , A, (Pϑ )ϑ∈Θ ein Stadardmodell mit Θ = {0, 1}, sowie Θ0 = {0}, Θ1 = {1} (einelementige Hypothesen und Alternativen werden einfach genannt). Gemäß dem Maximum-Likelihood-Prinzip wird man sich für die Alternative P1 entscheiden, falls ( %1 (x) falls %0 (x) > 0 R(x) = %0 (x) +∞ falls %0 (x) = 0 hinreichend groß ist. Dabei werden wir davon ausgehen, dass %0 (x) = %1 (x) > 0 für alle x ∈ X (sonst entfernt man x aus X ). Die Intuition liefert sogar beste Schätzer: Satz 9.3 (Neyman-Pearson-Lemma). Es seien M, Θ0 , Θ1 wie oben. Dann gilt für jedes α ∈ (0, 1): a) Jeder beste Test ψ von Θ0 gegen Θ1 zum Niveau α hat die Gestalt ( 1 falls R(x) > c ψ(x) = 0 falls R(x) < c für ein c = c(α) > 0. Jeder solche Test heißt Neyman-Pearson-Test. b) Es gibt einen Neyman-Pearson-Test ϕ mit E0 (ϕ) = α. c) Jeder Neyman-Pearson-Test ϕ mit E0 (ϕ) = α ist ein bester Test zum Niveau α. Beweis. a) Wir betrachten G∗ : (0, 1) → [0, ∞) mit G∗ (α) = sup{E1 (ϕ) : ϕ Test zum Niveau α, d.h. E0 (ϕ) ≤ α}. D.h. G∗ ist die maximal erreichbare Macht. Dann ist G∗ monoton wachsend und konkav, wie man wie folgt sieht: Sind ϕ, ψ Tests mit E0 (ϕ) ≤ α und E0 (ψ) ≤ β, so folgt: G∗ (tα + (1 − t)β) = E1 (tϕ + (1 − t)ψ) = = tE1 (ϕ) + (1 − t)E1 (ψ) für alle 0 ≤ t ≤ 1, 0 ≤ α, β ≤ 1, da E0 (tϕ + (1 − t)ψ) ≤ tα + (1 − t)β. Supremum bezüglich ϕ, ψ mit E0 (ϕ) ≤ α, E0 (ψ) ≤ β ⇒ G∗ (tα + (1 − t)β) ≥ tG∗ (α) + (1 − t)G∗ (β) (konkav) Ist nun ψ ein bester Tester zum Niveau α, so gilt Niveau α besterTester y E0 (ψ) ≤ α y E1 (ψ) = G∗ (α), G∗ monoton wachsend ⇒ G∗ (E0 (ϕ)) ≤ G∗ (α) = E1 (ψ) G∗ monoton wachsend und konkav ⇒ Es gibt eine Gerade mit Steigung c ≥ 0, die oberhalb vom Graphen G∗ liegt und G∗ im Punkt E0 (ψ) berührt. t(x) G∗ 0 90 E0 (ψ) 1 9.2 Alternativtests D.h. t(x) = G∗ (E0 (ϕ)) + c(s − E0 (ψ)) ≥ G∗ (s) ( Beh.: ψ(x) = 1 0 ∀s ∈ (0, 1) (1) R(x) > c R(x) ≤ c Bew.: ϕ(x) := 1{R(x)>c} ≥E1 (ψ) ≥E1 (ϕ) z }| { z }| { (1) für s = E0 (ϕ) ⇒ 0 ≤ G∗ (E0 (ϕ)) − G∗ (E0 (ψ)) −c(E0 (ϕ) − E0 (ψ)) ≥ ≥ E1 (ϕ) − E1 (ψ) − c(E0 (ϕ) − E0 (ψ)) = = E1 (ϕ − ψ) − cE0 (ϕ − ψ) = Z = (%1 − c%0 )(ϕ − ψ) dx {z } X | mit P x∈X . . . falls M diskret ist. ⇒ 0 ≥ =:f (x) R X f (x) dx. Nun ist f (x) ≥ 0, denn %1 (x) − c%0 (x) > 0 ⇔ R(x) > c ⇒ ϕ(x) − ψ(x) = 1 − ψ(x) ≥ 0 %1 (x) − c%0 (x) < 0 ⇔ R(x) < c ⇒ ϕ(x) − ψ(x) = 0 − ψ(x) ≤ 0 ⇒ f (x) = 0 für fast alle x ∈ X ⇒ ϕ(x) = ψ(x) falls %1 (x) 6= c%0 (x) ⇔ R(x) 6= c ( 1 R(x) > c ⇒ ψ(x) = 0 R(x) < c b) Es sei c ein α-Fraktil von der Verteilung von R bezüglich P0 , d.h. P0 (R ≤ c) ≥ 1 − α ⇔ P0 (R > c) ≤ α P0 (R ≥ c) ≥ α ⇒ 0 ≤ α − P0 (R > c) ≤ P0 (R ≥ c) − P0 (R > c) = P0 (R = c) Sei nun ( γ= und 0 α−P0 (R>c) P0 (R=c) 1 ϕ= γ 0 (2) falls P0 (R = c) = 0 falls P0 (R = c) 6= 0 R(x) > c R(x) < c R(x) < c Dann ist ϕ ein Neyman-Pearson-Test mit E0 (ϕ) = P0 (R > c) + γP0 (R = c) = α | {z } =α−P0 (R>c) c) Sei ϕ ein Neyman-Pearson-Test mit α = E0 (ϕ) und Schwellenwert c, sowie ψ ein beliebiger Test zum Niveau α. Dann ist wiederrum f (x) = (%1 (x) − c%0 (x))(ϕ(x) − ψ(x)) ≥ 0 Z Z Z ⇒ o≤ f (x) dx = %1 (x)(ϕ(x) − ψ(x)) dx − c %0 (x)(ϕ(x) − ψ(x)) dx = X = E1 (ϕ) − E1 (ψ) − c E0 (ϕ − ψ) ≤ E1 (ϕ) − E1 (ψ) | {z } = E0 (ϕ) − E0 (ψ) | {z } | {z } =α ≤α ⇒ E1 (ψ) ≤ E1 (ϕ) mit ψ beliebig. ⇒ ϕ ist optimaler Test. 91 9 Einführung in die Testtheorie Bemerkung. Aus dem Beweis von Satz 9.3 folgt, dass jeder Neyman-Pearson-Test mit E0 (ϕ) = α die Gestalt 1 R(x) > c ϕ(x) = γ R(x) = c 0 R(x) < c hat, wobei c ∈ [0, ∞) und γ ∈ [0, 1], falls P0 (R(x) = c) > 0 eindeutig durch α = R0 (ϕ) = P0 (R > c) + γP0 (R = c) bestimmt ist. Dabei ist c das α-Fraktil von der Verteilungsfunktion FR (t) := P0 (R ≤ t) Beispiel 3 (Außersinnliche Wir betrachten M = ({0, . . . , n}, P({0, . . . , n}), (Bin,ϑ )ϑ∈Θ ) Wahrnehmung). wobei Θ = Θ0 ∪ Θ1 , Θ0 = 21 , Θ1 = {p1 } mit p > 12 . Dann ist: n x n−x Bin,p (x) Bin,p1 (x) xp1 (1 − p1 ) = R(x) = = = n x n−x Bin, 12 (x) Bin,p0 (x) x p0 (1 − p0 ) x n−x p1 1 − p1 = p0 1 − p0 p1 1 − p0 1 − p1 ⇒ ln R(x) = x · ln +n · ln · p0 1 − p1 1 − p0 {z } | >1 | {z } >0 ⇒ ln R(x) und R(x) streng monoton wachsend. ⇒ R(x) > c ⇔ ln R(x) > ln c 1−p0 ln c − n ln 1−p 1 ⇔ x > tc := p1 1−p0 ln p0 · 1−p1 n o n o x : R(x) > c = t̃c + 1, . . . , n mit t̃c = max{btc c − 1} für t̃c ∈ {−1, . . . , n}, wobei {n + 1, . . . , n} := ∅. ⇒ Der Test ϕ(x) = 1{15,...,20} (x), n = 20 aus Beispiel 2 ist ein Neyman-Pearson-Test mit E0 )ϕ) = E0 1{15,...,20} (x) = Bin, 21 ({15, . . . , 20}) = 0, 02707 < α. Will man nun einen optimalen Test zum Niveau α = 0, 05 konstruieren, so wählt man 1 x ∈ {15, . . . , 20} ϕ(x) = γ x = 14 0 x < 14 wobei γ so gewählt wird, dass 0, 05 = αE0 (ϕ) = Bi20, 12 ({15, . . . , 20}) +γ · Bi20, 12 ({14}) | {z } | {z } =0,02707 ⇒γ= 0, 05 − 0, 02707 = 0, 62 0, 037 9.3 =⇒ ϕ ist ein optimaler Test zum Niveau α. Bemerkung. c, γ bzw. ϕ hängen nicht von der Wahl von p1 > 12 ab! ⇒ ϕ ist optimaler Test für alle p1 ∈ 21 , 1 zum Niveau α. ⇒ ϕ ist optimaler Test von Θ0 = 21 gegen Θ1 = 12 , 1 zum Niveau α. 92 =0,037 9.3 Beste einseitige Tests 9.3 Beste einseitige Tests Beispiel 4 (Qualitätskontrolle). Wie in Beispiel 1 betrachten wir X = {0, . . . , n}, Θ = {0, . . . , N } und Pϑ = Hypn,ϑ,N −ϑ wobei n < N, ϑ ∈ Θ (n: Zahl der getesteten, N : Gesamtzahl). ⇒ %ϑ (x) = ϑ x N −ϑ n−x N n für max{0, n − N + ϑ} ≤ x ≤ min{n, ϑ}. Wir wollen einen optimalen Test ϕ von H0 : ϑ ∈ Θ0 = {0, . . . , ϑ0 } gegen H1 : ϑ ∈ Θ1 = {ϑ0 + 1, . . . , N } zum Niveau α ∈ (0, 1) kosntruieren. Ansatz: Sei ϑ1 ∈ Θ1 beliebig und ϕ ein Neyman-Pearson-Test von {ϑ0 } gegen {ϑ1 } mit E0 (ϕ) = α. Behauptung: ϕ ist ein optimaler Test (gleichmäßiger bester Test) von Θ0 gegen Θ1 zum Niveau α. 93 Literaturverzeichnis [1] U. Krengel, Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Vieweg und Teubner, 8. Auflage, 2005 [2] W. König, Elementare Wahrscheinlichkeitstheorie und Statistik, Universität Leipzig, http://www.math.uni-leipzig.de/~koenig/www/ElemWT.pdf [3] H.-O. Georgii, Stochastik, DeGruyter, 3. Auflage, 2007 94