Vorbereitung für die mündliche Staatsexamensprüfung Wahrscheinlichkeitstheorie und Statistik Frank Reinhold 19. April 2010 nach einer Vorlesung von Prof. H. Abels Inhaltsverzeichnis I. Wahrscheinlichkeitstheorie 2 1. Wahrscheinlichkeitsräume und Zufallsvariablen 1.1. Diskreter Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Allgemeiner Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Zusammenhang zwischen diskreten und allgemeinen Wahrscheinlichkeitsräumen . . . . . . . . 2 2 2 3 2. Verschiedene Verteilungen 2.1. Urnenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Diskreter Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Verteilungen mich Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 5 3. Bedingte Wahrscheinlichkeit und Unabhängigkeit 3.1. Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 4. Erwartungswert, Varianz, Kovarianz 4.1. Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 7 7 5. Grenzwertsätze 5.1. Schwaches und Starkes Gesetz der Großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Approximation der Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 9 11 II. Statistik 11 6. Grundbegriffe der Statistik 11 7. Arten und Eigenschaften von Schätzern 11 7.1. Das Maximum-Likelihood-Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 7.2. Erwartungstreue Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 7.3. Varianzminimierende Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 8. Testtheorie 13 8.1. Entscheidungsprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 8.2. Beste Tests, Neyman-Pearson-Lemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1 Teil I. Wahrscheinlichkeitstheorie 1. Wahrscheinlichkeitsräume und Zufallsvariablen 1.1. Diskreter Fall Definition 1 (Diskreter Wahrscheinlichkeitsraum, Wahrscheinlichkeit). (Ω, p) heißt diskreter Wahrscheinlichkeitsraum, falls 1.) Ω ist eine endliche oder abzählbare Menge. 2.) p : Ω → [0, 1] ist eine Abbildung, für die gilt: P ω∈Ω p(ω) = 1. In diesem Fall wird für alle A ⊆ Ω durch P (A) = X p(ω) (1) ω∈A die Wahrscheinlichkeit des Ereignisses A definiert. Definition 2 (Zufallsvariable im diskreten Fall). Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum. Dann heißt X : Ω → M eine M -wertige Zufallsvariable. Beispiel 1 (diskrete Zufallsvariable). Betrachte die Augensumme bei zwei Würfen eines fairen Würfels. Diese ist auf Ω = {1, . . . , 6}2 mit Gleichverteilung eine Zufallsvariable: X(i, j) = i + j ∀(i, j) ∈ Ω 1.2. Allgemeiner Fall Definition 3 (σ-Algebra). Sei Ω eine Menge. Dann heißt A ⊆ P(Ω) σ-Algebra, falls gilt: 1.) Ω ∈ A. 2.) Für alle A ∈ A gilt Ac ∈ A. 3.) Seien Aj ∈ A für alle j ∈ N. Dann ist auch S∞ j=1 Aj ∈ A. Definition 4 (Messbarer Raum). Ist Ω eine Menge und A ⊂ P(Ω) eine σ-Algebra, dann heißt (Ω, A) messbarer Raum. Definition 5 (Wahrscheinlichkeitsmaß). Ist (Ω, A) ein messbarer Raum, so heißt P : A → [0, 1] Wahrscheinlichkeitsmaß, falls gilt: 1.) P ist normiert: P(Ω) = 1. 2.) P ist σ-additiv: Für alle paarweise disjunkten (Aj )j∈N mit Aj ∈ A für alle j ∈ N ist: P P∞ j=1 P(Aj ) S ∞ j=1 Aj = Definition 6 (Allgemeiner Wahrscheinlichkeitsraum). Ist (Ω, A) ein messbarer Raum und P ein Wahrscheinlichkeitsmaß auf (Ω, A), so heißt (Ω, A, P) allgemeiner Wahrscheinlichkeitsraum. Lemma 1 (Kolmogorov’sche Axiome). Ein Wahrscheinlichkeitsmaß erfüllt die Kolmogorov’schen Axiome: 1.) P ist normiert: P(Ω) = 1 2 (2) 2.) P ist σ-additiv: Für alle paarweise disjunkten (Aj )j∈N mit Aj ∈ A für alle j ∈ N ist: ∞ ∞ [ X P Aj = P(Aj ) j=1 (3) j=1 3.) Für jedes Ereignis A ∈ A ist die Wahrscheinlichkeit eine reelle Zahl zwischen 0 und 1: 0 ≤ P(A) ≤ 1 (4) Definition 7 (Messbare Abbildungen). Seien (Ω, A), (Ω0 , A0 ) messbare Räume, so heißt f : Ω → Ω0 messbar, falls f −1 (A0 ) ∈ A für alle A0 ∈ A0 . Definition 8 (Zufallsvariable im allgemeinen Fall). Ist (Ω, A, P) ein Wahrscheinlichkeitsraum und (Ω0 , A0 ) ein messbarer Raum, so heißt jede messbare Funktion X : Ω → Ω0 Zufallsvariable. Definition 9 (Dichte einer Zufallsvariable). Sei X : Ω → R eine Zufallsvariable. Eine Funktion fX : R → R heißt Dichte von X, wenn P ω ∈ Ω : a < X(ω) < b = Z b fX (t) dt (5) a und R R fX (t) dt = 1. 1.3. Zusammenhang zwischen diskreten und allgemeinen Wahrscheinlichkeitsräumen P Lemma 2. Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum und P(A) = ω∈A p(ω). Dann ist (Ω, P(Ω), P) ein allgemeiner Wahrscheinlichkeitsraum. Die σ-Algebra ist die Potenzmenge. Im Allgemeinen ist die Potenzmenge zu groß: Lemma 3 (Satz von Vitali). Sei Ω = {0, 1}N . Dann gibt es keine Abbildung P : P(Ω) → [0, 1] mit: 1.) P ist normiert. 2.) P ist σ-additiv. 3.) Für alle A ⊆ Ω, n ≥ 1 gilt P(Tn A) = P(A) mit ( Tn A = ωj 1 − ωn j= 6 n j=n (6) Bemerkung. Tn : Ω → Ω ist die Abbildung von Ω auf sich selbst, welche das Ergebnis des n-ten Wurfes umdreht und Tn A = {Tn (ω) : ω ∈ A} ist das Bild von A unter Tn . Dies drückt die Fairness der Münze und die Unabhängigkeit der Würfe aus. Aus (6) folgt: P({ω ∈ Ω : ωn = 1}) = P(An ) = P({ω ∈ Ω : ωn = 0}) = P(Tn An ) = Also beschreibt der Satz von Vitali den unendlichen Münzwurf. 1 2 da Tn An ∪ An = Ω. 2. Verschiedene Verteilungen 2.1. Urnenmodelle Gegeben sei eine Urne mit N Kugeln mit den Aufschriften 1, 2, . . . , N . Ziehe n Kugeln aus der Urne. Sei M = {1, . . . , N } und (k1 , . . . , kn ) ∈ Mn , wobei ki bedeute, bei i-ter Ziehung die Kugel ki zu bekommen. Es ergeben sich folgende Möglichkeiten: 3 a) Mit Zurücklegen, mit Reihenfolge (bzw. unterscheidbare Murmeln, mit Mehrfachbesetzung): Ωi. = Mn = {(k1 , . . . , kn ) : k1 , . . . , kn ∈ M} |Ωi. | = N n (7) b) Ohne Zurücklegen, mit Reihenfolge (bzw. unterscheidbare Murmeln, ohne Mehrfachbesetzung): Zusätzliche Voraussetzung: n ≤ N . Ωii. = {(k1 , . . . , kn ) ∈ Mn : k1 , . . . , kn ∈ M paarweise verschieden} N! |Ωii. | = N · (N − 1) · . . . · (N − n + 1) = (N − n)! (8) c) Ohne Zurücklegen, ohne Reihenfolge (bzw. ununterscheidbare Murmeln, ohne Mehrfachbesetzung): Ωiii. = {A ⊂ M : |A| = n} = {k1 , . . . , kn } ⊂ M : k1 , . . . , kn paarweise verschieden |Ωii. | N! N |Ωiii. | = = = (9) n! (N − n)! · n! n d) Mit Zurücklegen, ohne Reihenfolge (bzw. ununterscheidbare Murmeln, mit Mehrfachbesetzung): Ordne am Ende die Kugeln nach Aufschrift und zähle, wie oft welche gezogen wurde. ki bedeutet nun die i-te größte Aufschrift, die wir gezogen haben. Ωiv. = {(k1 , . . . , kn ) ∈ Mn : k1 ≤ . . . ≤ kn } N +n−1 |Ωiv. | = n (10) 2.2. Diskreter Verteilungen Definition 10 (Hypergeometrische Verteilung). Betrachte Urne mit S schwarzen und W weißen Kugeln. Ziehe n ≤ S + W Kugeln ohne Rücklegen. Unter der Annahme, dass alle Kugeln gleich wahrscheinlich sind, ist die Wahrscheinlichkeit, dass genau s schwarze Kugeln gezogen wurden hypergeometrisch verteilt: S W s n−s S+W n Hypn,S,W (s) = (11) Definition 11 (Poissonverteilung). Die Poissonverteilung zum Parameter α > 0 ist die Verteilung auf Ω = N0 = {0, 1, 2, . . .}, die gegeben ist durch: Poα (k) = e−α αk k! (12) Definition 12 (Bernoulliverteilung). Wir beschreiben ein Bernoulliexperiment der Länge n durch Ω = {0, 1}n , P (xi = 1) = p, P (xi = 0) = 1 − p mit Erfolgswahrscheinlichkeit p ∈ [0, 1]. Weiterhin bedeute für x = (x1 , . . . , xn ) ∈ Ω xi = 1, dass das i-te Spiel ein Erfolg war und umgekehrt xi = 0, im i-ten Spiel einen Misserfolg. Dann ist die Wahrscheinlichkeit für einen Ausgang x ∈ Ω: P (x) = n Y pxi · (1 − p)1−xi = p Pn i=1 xi Pn · (1 − p)n− i=1 xi (13) i=1 Definition 13 (Binomialverteilung). Die Wahrscheinlichkeit dafür, in einem Bernoulliexperiment der Länge n genau k Erfolge zu haben, ist binomialverteilt: n Bin,p (k) = · pk · (1 − p)n−k (14) k 4 2.3. Verteilungen mich Dichten Definition 14 (Exponentialverteilung). Die Exponentialverteilung zum Parameter α ≥ 0 hat die Dichte: ( αe−αx x ≥ 0 (15) f (x) = 0 x<0 Definition 15 (Standardnormalverteilung). Die Dichte der Standardnormalverteilung ist: 2 exp − x2 √ %(x) = 2π (16) Definition 16 (Normalverteilung). Die Dichte der Normalverteilung mit Erwartungswert µ und Varianz σ 2 ist: 2 exp − (x−µ) 2 2σ √ %µ,σ2 (x) = (17) σ · 2π Definition 17 (Gleichverteilung). Die Gleichverteilung auf dem Intervall [a, b] hat die Dichte: %(x) = 1 1[a,b] (x) b−a (18) 3. Bedingte Wahrscheinlichkeit und Unabhängigkeit 3.1. Bedingte Wahrscheinlichkeit Definition 18 (Bedingte Wahrscheinlichkeit). Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum und A, B ⊆ Ω mit P (B) > 0. Dann definieren wir die bedingte Wahrscheinlichkeit von A gegeben B als: P (A|B) = P (A ∩ B) P (B) (19) Lemma 4 (Formel von der totalen Wahrscheinlichkeit). Es sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum. Sn Für alle A ⊆ Ω und alle paarweise disjunkten B1 , . . . , Bn ⊆ Ω und Ω = i=1 Bi , sowie P (Bi ) > 0 für alle i = 1, . . . , n gilt: P (A) = n X P (Bi )P (A|Bi ) (20) i=1 Lemma 5 (Formel von Bayes). Es sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum. Für alle A ⊆ Ω mit Sn P (A) > 0 und alle paarweise disjunkten B1 , . . . , Bn ⊆ Ω mit Ω = i=1 Bi und P (Bi ) > 0 für alle i = 1, . . . , n gilt: P (Bi )P (A|Bi ) P (Bi )P (A|Bi ) P (Bi |A) = Pn = P (A) P (B )P (A|B ) j j j=1 (21) Beispiel 2 (Seltene Krankheit). Eine seltene Krankheit liegt bei ca. 0.5% der Bevölkerung vor. Ein Test auf diese Krankheit spricht auf 99% aller Kranken positiv an, sowie bei 2% der Gesunden. Mit welcher Wahrscheinlichkeit ist eine positiv getestete Person wirklich krank? Ω Menge aller getesteten Personen, B1 Menge der Kranken, B2 Menge der Gesunden. A bedeute, dass der Test positiv auf eine Person anspricht. Dann ist: P (B1 ) = 0.005, P (B2 ) = 0.995, P (A|B1 ) = 0.99, P (A|B2 ) = 0.02. Wir suchen P (B1 |A). P (B1 |A) = 1 P (B1 )P (A|B1 ) ≈ = 20% P (B1 )P (A|B1 ) + P (B2 )P (A|B2 ) 5 5 3.2. Unabhängigkeit Definition 19 (Unabhängigkeit). A, B ⊆ Ω heißen unabhängig, falls P (A) · P (B) = P (A ∩ B), oder allgemeiner: (Ai )i∈I heißen unanhängig, wenn für alle endlichen J ⊆ I gilt: \ Y P Aj = P (Aj ) (22) j∈J j∈J Definition 20 (Unabhängigkeit von Zufallsvariablen). Zufallsvariablen Xi : Ω → R heißen unabhängig, falls für alle Ai ⊆ Ω, i ∈ I die Familie {Xi ∈ Ai }, i ∈ I unabhängig ist. Lemma 6 (Äquivalenzaussagen). Dieses Lemma sollte man wissen... Beispiel 3 (Unabhängigkeit beim zweimaliger Münzwurf). Sei Ω = {K, Z}2 und 1 2 1 P (B) = 4 1 P (C) = 2 A = 1. Wurf Kopf“ = {(K, Z), (K, K)}, ” P (A) = B = Zweimal Kopf“ = {(K, K)}, ” C = 2. Wurf Zahl“ = {(K, Z), (Z, Z)}, ” Dann sind: 1 1 1 1 6= = · = P (A) · P (B) 4 8 2 4 1 1 1 P (A ∩ C) = P ((K, Z)) = = · = P (A) · P (B) 4 2 2 P (A ∩ B) = P ((K, K)) = A, B nicht unabhängig A, C unabhängig 4. Erwartungswert, Varianz, Kovarianz 4.1. Erwartungswert Definition 21 (Erwartungswert im diskreten Fall). Eine Zufallsvariable X : Ω → R besitzt einen ErwarP tungswert, wenn die Reihe ω∈Ω p(ω) · |X(ω)| konvergiert. Der Erwartungswert von X ist dann: X X E(X) = p(ω) · X(ω) = x · P (X = x) (23) ω∈Ω x∈X(Ω) Beispiel 4 (Erwartungswert der Poissonverteilung). Sei X Poα -verteilt. Dann ist: E(X) = ∞ X k=0 k · P (X = k) = e−α ∞ X kαk k! k=1 = αe−α ∞ ∞ X X αk−1 αk = αe−α = αe−α eα = α (k − 1)! k! k=1 k=0 Definition 22 (Erwartungswert im allgemeinen Fall). Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und X : R Ω → R eine Zufallsvariable mit Dichte %. Dann existiert der Erwartungswert von X, falls Ω |X(ω)| dP(ω) < ∞, also falls X ∈ L1 . Der Erwartungswert von X ist dann: Z Z E(X) = X(ω) dP(ω) = x · %(x) dx (24) Ω R Beispiel 5 (Erwartungswert der Exponentialverteilung). Sei X exponentialverteilt zum Parameter α ≥ 0. Dann ist: Z ∞ ∞ Z ∞ e−αx ∞ 1 E(X) = x · αe−αx dx = −x · e−αx + e−αx dx = = −α 0 α 0 0 0 Lemma 7 (Eigenschaften des Erwartungswerts). Seien X, Y ∈ L2 , c ∈ R. Dann gilt: 1.) Sei X(ω) ≤ Y (ω) für fast alle ω ∈ Ω. Dann ist E(X) ≤ E(Y ). 2.) X + cY ∈ L1 und E(X + cY ) = E(X) + cE(Y ). 3.) Seien X, Y unabhängig. Dann ist XY ∈ L1 und E(XY ) = E(X)E(Y ). 4.) X + Y ∈ L1 und E(X + Y ) = E(X) + E(Y ). 6 4.2. Varianz Definition 23 (Varianz). Sei X ∈ L1 . Die Varianz von X ist: V(X) = E (X − E(X))2 = E X 2 − E(X)2 (25) Lemma 8 (Eigenschaften der Varianz). Seien X, Y ∈ L2 , a, b ∈ R. Dann gilt: 1.) aX + b ∈ L2 und V(aX + b) = a2 V(X). 2.) Seien X, Y unabhängig. Dann ist X + Y ∈ L2 und V(X + Y ) = V(X) + V(Y ). 4.3. Kovarianz Definition 24 (Kovarianz). Seien X, Y ∈ L2 Zufallsvariablen. Dann ist die Kovarianz von X und Y : Cov(X, Y ) = E(XY ) − E(X)E(Y ) = E (X − E(X))(Y − E(Y )) (26) Lemma 9 (Eigenschaften der Kovarianz). Seien X, Y ∈ L2 und a, b, c, d ∈ R. Dann gilt: 1.) Cov(X, X) = V(X). 2.) Cov(X, Y ) = Cov(Y, X). 3.) Cov(aX + b, cY + d) = ac Cov(X, Y ). Pn Pn Pn 4.) Für alle X1 , . . . , Xn ∈ L2 ist V ( i=1 Xi ) = i=1 V(Xi ) + i,j=1;i6=j Cov(Xi , Xj ). 5.) Seien X, Y unabhängig. Dann ist Cov(X, Y ) = 0, sprich X, Y sind unkorreliert. Lemma 10 (Satz von Bienaymé). Seien X1 , . . . , Xn ∈ L2 paarweise unkorreliert, dann ist: ! n n X X V Xi = V(Xi ) i=1 (27) i=1 Beispiel 6 (Erwartungswert und Varianz der Binomialverteilung). Sei X Bin,q -verteilt. Dann ist: E(Xi ) = 1 · P (Xi = 1) + 0 · P (Xi = 0) = q n X E(Sn ) = E(Xi ) = nq i=1 Bienaymé n yX V(Sn ) = V(Xi ) = i=1 n X n X E Xi2 − E(Xi )2 = q · 12 − q 2 = nq(1 − q) i=1 i=1 5. Grenzwertsätze 5.1. Schwaches und Starkes Gesetz der Großen Zahlen Lemma 11 (Markov-Ungleichung). Sei X eine reelle Zufallsvariable und f : [0, ∞) → [0, ∞) eine monoton wachsende Funktion mit f (x) > 0 für x > 0. Dann gilt für alle ε > 0: P (|X| ≥ ε) ≤ E(f ◦ |X|) f (ε) (28) Beweis. f ◦ |X| ist eine Zufallsvariable, da {f ≤ c} für alle c ∈ R ein Intervall ist. f ◦ |X| ist nicht-negativ und hat damit einen Erwartungswert. Dann ist f (ε)P(|X| ≥ ε) = E f (ε) · 1{|X|≥ε} ≤ E(f ◦ |X|) da f (ε) · 1{|X|≥ε} ≤ f ◦ |X|. Dies gilt, da auf {|X| ≥ ε} = {ω ∈ Ω : |X(ω)| ≥ ε} wegen der Monotonie von f gilt, dass f (ε) ≤ f (|X(ω)|). 7 Lemma 12 (Tschebyscheff-Ungleichung). Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum und X eine reellwertige Zufallsvariable mit endlicher Varianz. Dann gilt für alle ε > 0: P (|X − E(X)| ≥ ε) ≤ Beweis (ausführlich). Sei Z = X − E(X). Wir setzen ( ε2 Y (ω) = 0 V(X) ε2 (29) |Z(ω)| ≥ ε |Z(ω)| < ε Dann gilt: Y ≤ |Z 2 | und somit V(X) = E(|Z 2 |) ≥ E(Y ) = ε2 · P(Y = ε2 ) = ε2 · P(|X − E(X)| ≥ ε) Beweis (mit Markov-Ungleichung). Sei Z = X − E(X), f (x) = x2 . Dann gilt nach der Markov-Ungleichung P (|X − E(X)| ≥ ε) ≤ V(X) E(f ◦ Z) = f (ε) ε2 Satz 13 (Schwaches Gesetz der großen Zahlen). Seien Xn ∈ L2 (Ω, P), n ∈ N paarweise unkorrelierte Zufallsvariablen mit gleichem Erwartungswert und supn V(Xn ) = µ < ∞. Dann gilt für alle ε > 0: n ! 1 X µ n→∞ P Xi − E(X1 ) ≥ ε ≤ 2 −−−−→ 0 (30) n nε i=1 Also konvergiert 1 n Sn stochastisch gegen E(X1 ). Pn Beweis. Der Erwartungswert ist linear. Damit ist E n1 Sn = n1 · i=1 E(Xi ) = n1 · nE(X1 ) = E(X1 ). Mit der Pn paarweisen Unkorreliertheit und den Eigenschaften der Varianz ist: V n1 Sn = n12 · i=1 V(Xi ) ≤ n12 ·nµ = nµ . Mit Tschebyscheff: 1 V n1 Sn µ = 2 P Sn − E(X1 ) ≥ ε ≤ 2 n ε nε Satz 14 (Starkes Gesetz der großen Zahlen). Seien Xn ∈ L2 (Ω, P), n ∈ N paarweise unkorreliert mit gleichem Erwartungswert und supn V(Xn ) = M < ∞. Dann gilt: ( )! n 1X P ω ∈ Ω : lim Xi (ω) = E(X1 ) =1 (31) n→∞ n i=1 Also konvergiert 1 n Sn fast sicher gegen E(X1 ). Lemma 15. Konvergiert (Zn )n∈N fast sicher gegen Z, so konvergiert (Zn )n∈N stochastisch gegen Z. Die Umkehrung gilt nicht. Beweis. Sei ε > 0. Die Mengen BN = {ω ∈ Ω : |Yn (ω) − Y (ω)| < ε ∀n ≥ N } bilden eine aufsteigende Folge: BN ≤ BN +1 . Ihre Vereinigung B enthält die Menge A := {ω ∈ Ω : limn→∞ Yn (ω) = Y (ω)}. Konvergiert Yn fast sicher gegen Y , so gilt P(A) = 1. Also ist auch P(B) = 1 und damit P(BN ) → 1. Also P(|Yn − Y | ≥ ε) ≤ c P (BN ) → 0. Die Umkehrung gilt nicht. Gegenbeispiel: Sei Zn (ω) = 1[m2−k ,(m+1)2−k ] (ω) falls n = 2k + m mit 0 ≤ m < 2k für ω ∈ [0, 1] mit Gleichverteilung (die Zn sind immer schmaler werdende Balken, die zwischen 0 und 1 wandern): 8 1 Z2 k = 1, m = 0 ⇒ n=2 Z3 1 1 1 2 1 k = 1, m = 1 ⇒ n=3 1 2 Z4 k = 2, m = 0 ⇒ n=4 1 1 4 1 2 1 Z5 1 k = 2, m = 1 ⇒ n=5 1 4 1 1 2 Dann gilt limn→∞ P(|Zn | > ε) = 2−k ≤ n1 → 0, aber Zn (ω) 6→ 0, da für alle N ∈ N ein n ≥ N exisitert, sodass Zn (ω) = 1 ist. Also konvergiert Zn stochastisch gegen 0, aber nicht fast sicher! Lemma 16 (Borel-Cantelli). Seien Ak ∈ A, k ∈ N, (Ω, A, P) Wahrscheinlichkeitsraum und sei A∗ = {ω ∈ Ω : ω ∈ Ak für unendlich viele k ∈ N}. P∞ 1.) Gilt k=1 P(Ak ) < ∞, so ist P(A∗ ) = 0. P∞ 2.) Sind Ak , k ∈ N unabhängig mit k=1 P(Ak ) = ∞, so ist P(A∗ ) = 1. Beweisidee Satz 14. oBdA sei E(Xi ) = 0 für alle i, betrachte sonst Xi0 = Xi − E(Xi ). Setze Yn = 1 n Pn i=1 Xi . 1. Schritt: Zeige Yn2 → 0 fast sicher mit Hilfe von Tschebyscheff und Borel-Cantelli, wobei An = {ω : |Yn2 (ω)| > ε} ist. 2. Schritt: Für m ∈ N sei n = n(m) so gewählt, dass n2 ≤ m < (n + 1)2 . Vergleiche Ym mit Yn2 und setze Pk Sk = k · Yk = i=1 Xi . Tschebyscheff Ungleichung und erneut Borel-Cantelli liefert das Starke Gesetz der großen Zahlen. 5.2. Approximation der Binomialverteilung Lemma 17 (Stirling-Formel). Es gilt: n! ∼ wobei an ∼ bn ⇔ limn→∞ an bn √ 2πn · n n e (32) = 1. Satz 18 (Lokaler Grenzwertsatz für die Binomialverteilung). Es sei 0 < p < 1 und q = 1 − p. Dann gilt mit √ Xn (k) = k−np npq für alle c > 0: √ npq Bin,p (k) lim max − 1 = 0 n→∞ k:|Xn (k)|≤c ϕ(Xn (k)) mit ϕ(x) = √1 2π (33) 2 exp − x2 Dichte der Standardnormalverteilung. Beweisidee. 3x Stirling und Umformungen Satz 19 (Zentraler Grenzwertsatz der Binomialverteilung, Satz von Moivre-Laplace). Sei 0 < p < 1 und Sn , n ∈ N eine Folge Bin,p -verteilter Zufallsvariablen. Dann gilt für alle a, b ∈ R mit a < b: lim P (a ≤ Sn∗ ≤ b) = n→∞ n −E(Sn ) mit Sn∗ = S√ = V(Sn ) Z b ϕ(x) dx = Φ(b) − Φ(a) (34) a Sn −np √ npq . 9 p ∗ Beweis. Sei σn = np(1 − p) ⇒ Xn (k) = k−np σn . Es ist a ≤ Sn ≤ b genau dann, wenn aσn + np ≤ Sn ≤ bσn + np ist. Sei αn = daσn + npe und βn = bbσn + npc. αn − np 1 ⇒ |αn − aσn − np| ≤ 1 ⇒ |Xn (αn ) − a| = − a ≤ σn σn Ähnlich |Xn (βn ) − b| ≤ 1 σn . 1 − εn ≤ Mit dem Lokalen Grenzwertsatz der Binomialverteilung folgt: σn · Bin,p (k) ≤ 1 + εn ϕ(Xn (k)) ∀k : αn ≤ k ≤ βn , εn → 0 Riemann-Summe bezüglich von Intervallen mit Seitenlänge Pβn 1 Rn = k=α · ϕ(Xn (k)). n σn βn X ⇒ (1 − εn )Rn ≤ 1 σn und Mittelpunkten Xn (k), αn ≤ k ≤ βn : Bin,p (k) ≤ (1 + εn )Rn k=αn | {z } ∗ =P(αn ≤Sn ≤βn )=P(a≤Sn ≤b) ⇒ lim P(a ≤ Sn∗ ≤ b) = lim Rn = n→∞ n→∞ Z b ϕ(x) dx a Bemerkung. Es gilt: E(Sn ) − np =0 √ npq V(Sn ) =1 V (Sn∗ ) = npq E (Sn∗ ) = Lemma 20. Es seien X1 , . . . , Xn unabhängige Zufallsvariablen mit P(Xi = 1) = qi , P(Xi = 0) = 1 − qi für qi ∈ [0, 1] und i = 1, . . . , n. Sei S = X1 + . . . + Xn und α = q1 + . . . + qn . Dann gilt: ∞ n k X X P(S = k) − e−α α ≤ 2 · qi2 k! (35) i=1 k=0 Satz 21 (Poissonapproximation der Binomialverteilung). Ist p(n) eine Folge mit p(n) ∈ [0, 1] und n · n→∞ p(n) −−−−→ α > 0. Dann gilt: lim Bin,p (k) = Poα (k) (36) n→∞ Beweis. Setze qi = p(n) für alle i. Seien Xi wie in vorhergenden Lemma. Dann ist S = n→∞ verteilt, sowie p(n) −−−−→ 0. Dann ist 2· n X i=1 Pn i=1 Xi Bin,p(n) - p(n)2 = 2 · p(n) · (n + 1)p(n) −−−−→ 0 |{z} | {z } n→∞ →0 →α ∞ n X X n→∞ Bin,p(n) (k) − Poα (k) ≤ |P(S = k) − Poα (k)| ≤ 2 · qi2 −−−−→ 0 i=1 k=0 Bemerkung (Fehlerabschätzung). Sind n · p(n) ≤ C für alle n ∈ N0 , so gilt: ∞ 2 X Bin,p(n) (k) − Poα (k) ≤ 2C sup Bin,p(n) (k) − Poα (k) ≤ n k∈N0 k=0 10 (37) 5.3. Zentraler Grenzwertsatz Satz 22 (Zentraler Grenzwertsatz). Es sei (Xi )i∈N eine Folge von unabhängige, identisch verteilte Zufallsvariablen (d.h. PXi = PXj für alle i, j) mit Xi ∈ L2 (Ω, P) und E(Xi ) = m, V(Xi ) = v > 0. Dann ist: lim P(Sn∗ ≤ t) = Φ(t) n→∞ wobei Sn∗ = √1 n Pn i=1 X√ i −m v (38) ist. Beweisidee. Die sollte man wissen... Teil II. Statistik 6. Grundbegriffe der Statistik Definition 25 (Statistisches Modell). Ein statistisches Modell ist ein Tripel X , A, (Pϑ )ϑ∈Θ , wobei (X , A) ein messbarer Raum, Θ eine (mindestens zweielementige) Indexmenge und Pϑ : A → [0, 1] Wahrscheinlichkeitsmaße für alle ϑ ∈ Θ sind. Definition 26 (Statistik). Sei X , A, (Pϑ )ϑ∈Θ ein statistisches Modell und Σ ein messbarer Raum. Dann ist jede Zufallsvariable S : X → Σ eine Statistik. Definition 27 (Kenngröße, Schätzer). Sei τ : Θ → Σ eine messbare Abbildung - die Kenngröße. Dann heißt jede Statistik T : X → Σ Schätzer für τ . 7. Arten und Eigenschaften von Schätzern 7.1. Das Maximum-Likelihood-Prinzip Definition 28 (Likelihood-Funktion). Sei M ein statistisches Modell und %ϑ (x) die Dichte von Pϑ . Dann heißt die Abbildung % : X × Θ → [0, ∞) mit %(x, ϑ) = %ϑ (x) Likelihood-Funktion. Definition 29 (Maximum-Likelihood-Schätzer). Ein Schätzer T : X → R für τ (ϑ) = ϑ ist ein MaximumLikelihood-Schätzer, falls %(x, T (x)) = max %(x, ϑ) ϑ∈Θ (39) Dies ist genau dann der Fall, wenn die Log-Likelihood-Funktion log %(x, T (x)) maximal ist. Beispiel 7 (Reißnagel). Mit Wahrscheinlichkeit ϑ ∈ [0, 1] fällt ein Reißnagel auf die Spitze. n-mal Werfen liefert x-mal Spitze. Die Ergebnisse seien unabhängig, also ist x Bin,ϑ -verteilt. Also ist die LikelihoodFunktion: %(x, ϑ) = Bin,ϑ (x) = nx ϑx (1 − ϑ)n−x . Dann ist: n log %(x, ϑ) = log + x · log ϑ + (n − x) · log(1 − ϑ) x d x n−x ! log %(x, ϑ) = − =0 dϑ ϑ 1−ϑ x − ϑx − ϑn + ϑx ! =0 ϑ(1 − ϑ) Also ist %(x, ϑ) maximal für ϑe = x n. 11 7.2. Erwartungstreue Schätzer Definition 30 (Erwartungstreu). Sei M ein statistisches Modell und τ : Θ → R eine reelle Kenngröße. Dann ist ein Schätzer T : X → R erwartungstreu bezüglich τ , falls Z Eϑ (T ) = T (x) dPϑ (x) = τ (ϑ) (40) X Beispiel 8 (Raten eines Bereichs von Zufallszahlen). Zahlen auf [0, ϑ], ϑ ∈ Θ = (0, ∞) gleichverteilt. Aufgrund von n gegebenen Zufallszahlen x1 , . . . , xn soll τ (ϑ) = ϑ geschätzt werden. Annahme: xi unabhängig! ⊗n n n Statistisches Modell: M = (0, ∞) , B ((0, ∞) ) , Pϑ ϑ∈Θ mit Pϑ hat Dichte pϑ (x) = ϑ1 1[0,ϑ] (x). Pn Mit schwachem Gesetz der großen Zahlen: n1 i=1 xi ≈ E(x1 ) = als Schätzer für τ (ϑ) = ϑ. T ist erwartungstreu, weil = 1 ϑ Rϑ 2X 2 Eϑ (xi ) = 2 · Eϑ (x1 ) = n i=1 ϑ Z ϑ ϑ 2 n E⊗n ϑ (T ) = 0 0 x dx. Also wähle T (x) = 2 n Pn i=1 xi x dx = ϑ Definition 31 (Bias). Sei M ein statistisches Modell, τ : Θ → R eine Kenngröße und T : X → R ein Schätzer für τ . Dann ist der Bias von T Bϑ (T ) = Eϑ (T ) − τ (ϑ) (41) Bemerkung. Ist T erwartungstreu, so ist B(T ) = 0. Definition 32 (Mittlerer quadratischer Fehler). Sei M ein statistisches Modell, τ : Θ → R eine reelle Kenngröße, und T : X → R ein Schätzer. Dann ist der mittlere quadratische Fehler von T : Fϑ (T ) = Eϑ (T − τ (ϑ))2 = Vϑ (T ) + Bϑ (T )2 (42) Beispiel 9 (Ein guter Schätzer mit Bias). Nochmal Reißnagel: Sei S(x) = τ (ϑ) = ϑ. Dann ist: nϑ + 1 , n+2 1 − 2ϑ B(S) = , n+2 nϑ(1 − ϑ) V(S) = , (n + 2)2 nϑ(1 − ϑ) − (1 − 2ϑ)2 F(S) = , (n + 2)2 E(S) = x+1 n+2 ein weiterer Schätzer für E(T ) = ϑ B(T ) = 0 ϑ(1 − ϑ) n ϑ(1 − ϑ) F(T ) = n V(T ) = Dann ist in einem bestimmten Intervall F(S) < F(T )! 7.3. Varianzminimierende Schätzer Definition 33 (Varianzminimierend). Sei M ein statistisches Modell und τ : Θ → R eine reelle Kenngröße. Dann heißt ein erwartungstreuer Schätzer T für τ varianzminimierend, wenn für jeden erwartungstreuen Schätzer S für τ gilt, dass Vϑ (T ) ≤ Vϑ (S) für alle ϑ ∈ Θ. Definition 34 (Regularität, Score Funktion, Fisher-Information). Ein statistisches Modell M heißt regulär, falls Θ ⊆ R ein offenes Intervall ist und 1.) % : X × Θ → [0, ∞) ist strikt positiv und nach ϑ ∈ Θ stetig differenzierbar. 2.) Für jedes ϑ ∈ Θ existiert (und ist positiv) die Varianz I(ϑ) := Vϑ (Uϑ ), wobei Uϑ (x) = d %0 (ϑ) log %(x, ϑ) = x dϑ %x (ϑ) die sog. Score-Funktion ist und I : Θ → [0, ∞) Fisher-Information heißt. 12 (43) Außerdem gelte: gilt: R d %(x, ϑ) dx X dϑ = Z X d dϑ R X %(x, ϑ) dx. Weiterhin heißt T (x) ein regulärer Schätzer, wenn d d T (x) %(x, ϑ) dx = dϑ dϑ Z T (x)%(x, ϑ) dx (44) X Satz 23 (Informationsungleichung). Sei M ein reguläres Standardmodell, τ : Θ → R eine stetig differenzierbare Kenngröße mit τ 0 (ϑ) 6= 0 für alle ϑ ∈ Θ und T ein regulärer, erwartungstreuer Schätzer für τ . Dann gilt: Vϑ (T ) = Fϑ (T ) ≥ τ 0 (ϑ)2 I(ϑ) (45) und Gleichheit gilt genau dann, wenn τ 0 (ϑ)2 · Uϑ (x) I(ϑ) bzw. %(x, ϑ) = exp (a(ϑ)T (x) − b(ϑ)) · h(x) T (x) − τ (ϑ) = mit a0 (ϑ) = (46) (47) I(ϑ) τ 0 (ϑ) . Beweisidee. Die sollte man wissen... Bemerkung. Ein Schätzer, der (46) oder (47) erfüllt, heißt Cramer-Rao-Effizient und ist varianzminimierend in der Klasse der erwartungstreuen Schätzer. Beispiel 10 (Ein Cramer-Rao-Effizienter Schätzer). Sei M = N0 , P(N0 ), (Poϑ )ϑ∈Θ mit Θ = (0, ∞) und τ (ϑ) = ϑ. Die Likelihood-Funktion ist: %(x, ϑ) = e−ϑ mit T (x) = x, h(x) = 1 x! 1 ϑx = exp (x · log ϑ − ϑ) · x! x! und a(ϑ) = log ϑ. Zu prüfen ist, dass a0 (ϑ) = I(ϑ) = Vϑ %0x (ϑ) %x (ϑ) = Vϑ e−ϑ x! · −ϑx + xϑx−1 I(ϑ) τ 0 (ϑ) = I(ϑ) ist, wobei a0 (ϑ) = 1 ϑ ist. ! = · ϑx x x x 1 1 −ϑ + xϑx−1 = V − 1 = V = 2 Vϑ (x) = = Vϑ ϑ ϑ x ϑ ϑ ϑ ϑ ϑ e−ϑ x! Also ist T (x) = x ein Cramer-Rao-Effizienter Schätzer. 8. Testtheorie 8.1. Entscheidungsprobleme Definition 35 (Nullhypothese, Alternative, Test, randomisiert). Sei X , A, (Pϑ )ϑ∈Θ ein statistisches Modell ˙ 1 mit Nullhypothese Θ0 und Alternative Θ1 . Jede Statistik ϕ : X → [0, 1] heißt Test und Θ = Θ0 ∪Θ von Θ0 gegen Θ1 . Ein Test ϕ heißt nicht randomisiert, falls ϕ(x) ∈ {0, 1}, sonst randomisiert. Definition 36 (Irrtumsniveau). ϕ ist ein Test zum Irrtumsniveau α, falls supϑ Eϑ (ϕ) ≤ α. ˙ 1. Definition 37 (Güte, Fehler 1. und 2. Art). Sei X , A, (Pϑ )ϑ∈Θ ein statistisches Modell und Θ = Θ0 ∪Θ Gϕ : Θ → [0, 1] mit Gϕ (ϑ) = Eϑ (ϕ) heißt Gütefunktion des Tests ϕ. Ein Fehler 1. Art liegt vor, wenn die Nullhypothese Θ0 abgelehnt wird, obwohl sie richtig ist. Ein Fehler 2. Art liegt vor, wenn die Nullhypothese beibehalten wird, obwohl sie falsch ist. Bemerkung. Wir stellen folgende Anforderungen an einen Test ϕ: a) Die Wahrscheinlichkeit für einen Fehler 1. Art soll kleiner sein, als α: Für alle ϑ ∈ Θ0 soll gelten: Gϕ (ϑ) ≤ α. 13 b) Die Wahrscheinlichkeit für einen Fehler 2. Art soll möglichst klein sein: Für alle ϑ ∈ Θ1 soll gelten: Gϕ (ϑ) möglichst groß. Beispiel 11 (Außersinnliche Wahrnehmung). Ein Medium behauptet, er könne verdeckte Spielkarten identifizieren. Dazu wird ihm 20 mal ein verdecktes Paar von Herz-Dame/Herz-König vorgelegt. Er soll die Herz-Dame umdrehen. Die Zahl x der Treffer wird notiert. ˙ 1 = 12 ∪ 12 , 1 und Irrtumsniveau Modell: ({0, . . . , 20}, P({0, . . . , 20}), (Bi20,ϑ )ϑ∈Θ ) mit Θ = 21 , 1 = Θ0 ∪Θ α = 0.05. Dann berechnet man, dass: Bi20, 12 ({15, . . . , 20}) ≈ 0.02707 < α, Bi20, 12 ({14, . . . , 20}) > α Ein Test zum Nievau α ist folgender: Deckt das Medium 15 mal oder öfter die Herz-Dame um, so verwirft man die Nullhypothese Θ0 und gesteht ihm außersinnliche Wahrnehmung zu. 8.2. Beste Tests, Neyman-Pearson-Lemma Definition 38 (Bester Test). Ein Test ϕ zum Niveau α heißt bester Test zum Niveau α, falls für jeden Test ψ zum Niveau α gilt, dass Gϕ (ϑ) ≥ Gψ (ϑ) für alle ϑ ∈ Θ1 . Sei M = X , A, (Pϑ )ϑ∈Θ ein Standardmodell, Θ = {0, 1}, Θ0 = {0}, Θ1 = {1}. Wir suchen einen besten Test von Θ0 gegen Θ1 zum Niveau α. Betrachte dazu die Dichten %0 und %1 . ̺0 ̺1 α ϕ=0 ϕ=1 Gemäß dem Maximum-Likelihood-Prinzip wird man sich immer dann für die Alternative entscheiden, wenn für das beobachtete x die Dichtefunktion %1 (x) hinreichend stark über %0 (x) dominiert. Der Grad der Dominanz von %1 über %0 wird in natürlicher Weise beschrieben durch den Likelihood-Quotienten: ( %1 (x) falls %0 (x) > 0 R(x) = %0 (x) (48) ∞ falls %0 (x) = 0 Hinreichend starke Dominanz bedeutet dementsprechend, dass der Likelihood-Quotient R(x) einen geeigneten Schwellenwert c übersteigt. Satz 24 (Neyman-Pearson-Lemma). Seien M, Θ0 , Θ1 wie oben. Dann gilt für jedes α ∈ (0, 1): Jeder beste Test ψ von Θ0 gegen Θ1 zum Niveau α hat die Gestalt: ( 1 falls R(x) > c ψ(x) = (49) 0 falls R(x) < c für ein c = c(α) > 0. Ein solcher Test heißt Neyman-Pearson-Test. Jeder Neyman-Pearson-Test mit E0 (ϕ) = α ist ein bester Test zum Niveau α. Bemerkung. Jeder Neyman-Pearson-Test mit E0 (ϕ) = α hat die Gestalt: 1 falls R(x) > c ϕ(x) = γ falls R(x) = c 0 falls R(x) < c (50) wobei c ∈ [0, ∞) und γ ∈ [0, 1], falls P0 (R(x) = c) > 0 eindeutig durch α = P0 (ϕ) = P0 (R > c) + γP0 (R = c) bestimmt ist. 14 Beispiel 12 (Außersinnliche Wahrnehmung). Will man aus vorhergehendem Beispiel einen besten Test zum Niveau α kosntruieren, so wählt man: 1 falls x ∈ {15, . . . , 20} ϕ(x) = γ falls x = 14 0 falls x < 14 wobei γ so gewählt wird, dass α = 0.05 = Bi20, 21 ({15, . . . , 20}) + γ · Bi20, 12 ({14}) also γ = 0.05−0.02707 0.037 = 0.62 ist. 15