Wahrscheinlichkeit und Statistik Informatik-SS2002 A.J. McNeil Michel Estermann 28. August 2002 Inhaltsverzeichnis Teil 1. Wahrscheinlichkeitsrechnung 1 Kapitel 1. 1 Wahrscheinlichkeiten 1.1. Zufallsexperimente 1 1.2. Der Ereignisraum / Grundraum 1 1.3. Das Wahrscheinlichkeitsmass 2 1.4. Die Interpretation (bzw. Festlegung) von Wahrscheinlichkeit) 4 1.5. Berechnung von Wahrscheinlichkeiten in endlichen Räumen 5 1.6. Bedingte Wahrscheinlichkeit 1.7. Unabhängigkeit Kapitel 2. 8 12 Zufallsvariablen 14 2.1. Begri der Zufallsvariable (ZV) 14 2.2. Wahrscheinlichkeits- und Verteilungsfunktion (diskreter ZV) 14 2.3. Wichtige diskrete Verteilung 15 2.4. Stetige Zufallsvariablen 20 2.5. Wichtige stetige Verteilungen 20 2.6. Transformationen von (stetigen) ZV 23 2.7. Erzeugung von Zufallsvariablen 24 Kapitel 3. Gemeinsame Verteilung mehrerer Zufallsvariablen 26 3.1. Das Konzept der gemeinsamen Verteilung 3.2. Randverteilung 27 3.3. Unabhängigkeit von Zufallsvariablen 28 3.4. Wichtige Mehrdimensionale Verteilungen 29 3.5. Bedingte Verteilung 31 3.6. Funktionen von Zufallsvariablen 33 Kapitel 4. 26 Erwartungswert 35 4.1. Denition 35 4.2. Varianz und Standardabweichung 38 4.3. Kovarianz und Korrelation 40 Kapitel 5. Grenzwertsätze 5.1. (schwaches) Gesetz der grossen Zahlen 5.2. Zentraler Grenzwertsatz 42 42 43 Teil 2. Statistik 45 Kapitel 6. 45 Statistik 6.1. Beschreibende Statistik 45 6.2. Anpassung der Poisson-Verteilung 46 6.3. Anpassung der Normalverteilung 48 6.4. allgemeine Methoden zur Parameterschätzung 50 6.5. Allgemeine Testtheorie 52 6.6. Vergleich von 2 Behandlungen 56 II Teil 1 Wahrscheinlichkeitsrechnung KAPITEL 1 Wahrscheinlichkeiten 1.1. Zufallsexperimente künstlich erzeugte Experimente komlexe Phänomene Werfen einer Münze Würfeln Lotterieziehungen Börsen − Kursentwicklung Wetter Genetik Turbulenzen Epidemien Warteschlangen Definition. Zufallsexperiment: -ein Experiment desen Ergebnis im voraus nicht exakt vorausgesagt werden kann 1.2. Der Ereignisraum / Grundraum Definition. Der Ereignisraum Ein Elementarereignis Ω ist die Menge aller möglichen Ergebnisse des Zufallsexperimentes. ist ein Element ω∈Ω Beispiel. 1. 2. 3. 4. Ein 1 Würfel Ω = {1, 2, 3, 4, 5, 6} 2 Würfe einer Münze Ω = {KK, KZ, ZK, ZZ} Ω = {0, 1, 2, ...} Anzahl Kunden zur Zeit t in einer Warteschlange Lebensdauer einer Glühbirne Ω = {t > 0} Ergebnis A ist eine Teilmenge von Ω A⊂Ω Beispiel. 1. 2. Würfel Münzen A = {2, 4, 6} = {gerade Augenzahl A = {KK, KZ, ZK} = {mind. } einen Kopf } Seien A und B Ereignisse. Durch Mengentheorie können wir weitere Ereignisse bilden 1 1.3. DAS WAHRSCHEINLICHKEITSMASS Ω Α Β A ∩ B = das Ω Ereignis , dass A und B eintritt Β Α ΩA A ∪ B = Ereignis , dass A oder B (oder beides) eintritt Ac (Komplement ) = Ereignis , A tritt ein, falls das realisierte Elementarereignis A 2 ω dass A nicht eintritt Element von A ( ω∈A ) ist. ist die Klasse der beobachtbaren Ereignisse, d.h. die Menge aller Teilmengen von 1.3. Das Wahrscheinlichkeitsmass P : A → [0, 1] P (A) : Abbildung der Klasse aller Ereognisse in Die Wahrscheinlichkeit, dass A eintritt [0, 1] Ω . 1.3. DAS WAHRSCHEINLICHKEITSMASS 3 Grundregeln (Axiome ) für Wahrscheinlichkeiten für alle Ereignisse A in A Axiom 1. 0 6 P (A) Axiom 2. P (Ω) = 1 Axiom 3. P (A ∪ B) = P (A) + P (B) falls A ∩ B = φ ist | und im allgemeinen {z } ∞ [ Ai ) = disjunkt P( i=1 ∞ X P (Ai ) i=1 für paarweise disjunkte Ereignisse Weitere Rechenregeln werden aus den Axiomen hergeleitet i) P (Ac ) = 1 − P (A) Beweis. A ∪ Ac = Ω , A ∩ Ac = φ 1 = P (Ω) = P (A) + P (Ac ) ii) P (ϕ) = 0 Beweis. folgt sofort weil iii) ϕ = Ωc (ϕ ist die leere Menge φ ) A ⊂ B ⇒ P (A) 6 P (B) Beweis. B ∩ Ac = B \ A Ω B P (B) B A = A ∪ (B \ A) = P (A) + P (B \ A) ⇒ P (B) > P (A) iv) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Beweis. Allgemeiner Additivitätssatz 1.4. DIE INTERPRETATION (BZW. FESTLEGUNG) VON WAHRSCHEINLICHKEIT) Ω A∪B P (A ∪ B) 4 Β Α (A ∩ B c ) ∪ (B ∩ Ac ) ∪ (A ∩ B) A \ B ∪ B \ A ∪ (A ∩ B) = P (A \ B) + P (B \ A) + P (A ∩ B) = Allgemein: A = A \ B ∪ A ∩ B (disjunkte ⇒ P (A \ B) = P (A) − P (A ∩ B) Ereignisse ) ähnliches Argument ⇒ P (B \ A) = P (B) − P (A ∩ B) ⇒ Satz 1.4. Die Interpretation (bzw. Festlegung) von Wahrscheinlichkeit) Was bedeutet z.B. P (A) = p P (Kopf ) = P (Morgen ? 1 2 wird es regnen ) = 1 2 Die frequentistische Interpretation. Man betrachtet die wiederholungen eines Zufallsexperimentes unter identischen Bedingungen n Für A sei fn (A) = P (A) = lim fn (A) n→∞ 1X 1 {A n i=1 tritt beim Experiment i ein } Frequenz unter unendlichen Widerholungen Die subjektive Bayes'sche Interpretation. P (A) ist ein Mass für den persönlichen Glauben, dass A eintreten wird. 1.5. BERECHNUNG VON WAHRSCHEINLICHKEITEN IN ENDLICHEN RÄUMEN 5 1.5. Berechnung von Wahrscheinlichkeiten in endlichen Räumen Ω = {ω1 , ..., ωn } , P (ωi ) = pi , Zur Berechnung von P(A) wird i = 1, ..., n P P (A) = i=ωi ∈A pi Beispiel. 2 Würfe einer Münze, Ω = {KK, KZ, ZK, ZZ} 1 i = 1, ..., 4 pi = 4 P (min. Wenn ω1 , ..., ωn ein Kopf ) gleichwahrscheinlich sind = P (KK, KZ, ZK) = (p1 = p2 = ... = pn ) , heisst Ω 3 4 ein Laplace-Raum In einem Laplace-Raum ist also: P (A) = Anzahl Elementarereignisse in A Anzahl Elementarereignisse in Ω = |A| |Ω| Kombinatorik. 1. Permutationen ohne Zurücklegen. Aufgabe: Aus n Objekten sind k 6n herauszugreifen und in einer Folge anzuordnen, wobei die Reihenfolge eine Rolle spielt. Überlegung: Für die 1. Stelle gibt es n Möglichkeiten, für die 2. Stelle noch n-1, usw. Anzahl = n(n − 1).....(n − k + 1) = n! (n−k)! Spezialfall: Von n Objekten gibt es n! Permutationen 2. Permutationen mit Zurücklegen. Aufgabe: Wieviele Folgen der Länge k kann man bilden, falls jedes Objekt gewählt werden darf ? Überlegung : Für die 1. Stelle gibt es n Möglichkeiten, ebenso für die 2. Stelle usw. Anzahl Möglichkeiten = nk 1.5. BERECHNUNG VON WAHRSCHEINLICHKEITEN IN ENDLICHEN RÄUMEN 6 3. Kombination ohne Zurücklegen. Aufgabe: Wieviele Teilmengen mit k 6 n Elementen gibt es? Überlegung: Gemäss (1.) gibt es mit Berücksichtigung der Reihenfolge n! (n−k)! Möglichkeiten Da es aber nicht auf die Reihenfolge ankommt, ist diese Zahl durch k! (Anzahl Permutationen bei k Objekten) zu dividieren Anzahl Möglichkeiten = n! k!(n−k)! = n k Beispiele von Laplace-Räumen. Beispiel. 1 Was ist die Wahrscheinlichkeit, dass eine zufällig gewählte 3-stellige Nummer wiederholte Zahlen enthält A = {Nummer enthält wiederholte c P (A) = 1 − P (Ac ) = 1 − AΩ |Ω| : |Ac | : Zahlen } Permutationen mit zurücklegen = 103 Permutationen ohne zurücklegen = 10 ∗ 9 ∗ 8 P (A) = 1 − 0.72 = 0.28 Beispiel. 2A Das Geburtstagsproblem Ein Raum enthält n Leute a) Was ist die Wahrscheinlichkeit, dass mind. zwei davon einen gemeinsamen Geburtstag haben ? b) Wie gross muss n sein, damit diese Wahrscheinlichkeit > 0.5 ist ? Elementarereignis ω = Θ1 , Θ2 , ..., Θn → Θi ∈ {1, 2, ..., 365} Geburstag des i − ten [Annahme: Geburtstage sind über das ganze Jahr gleichverteilt] |Ω = 365n | Individuums 1.5. BERECHNUNG VON WAHRSCHEINLICHKEITEN IN ENDLICHEN RÄUMEN Ac = {Keine Leute 365! |Ac | = (365 − n)! Beispiel. haben einen gemeinsamen Gebutstag } |Ac | |Ω| P (A) = 1− n = 23 n = 56 , , P (A) = 0.507 P (A) = 0.988 2B - Was ist die Wahrscheinlichkeit, dass jemand heute Geburtstag hat ? - Wie gross muss n sein, damit die Wahrscheinlichkeit > 0.5 ist ? Ac = {Niemand |Ac | = 364n Beispiel. 364 365 hat heute Geburtstag } n P (A) = 1− n = 300 n = 253 , , P (A) = 0.56 P (A) = 0.5 Kombinationen statt Permutationen Beim Lotto werden aus 45 Zahlen 6 gezogen. Was ist die Wahrscheinlichkeit, dass ich: i) die 6 Richtigen wähle ? = A1 ii) genau 4 Richtige Zahlen wähle ? |Ω| = |A1 | = 1 45 6 = A2 = 80 1450 060 1 80 1450 060 6 39 = 110 115 4 2 ⇒ P (A1 ) = |A2 | = ⇒ P (A2 ) = 110 115 80 1450 060 Kombinationen ohne zurücklegen 7 1.6. BEDINGTE WAHRSCHEINLICHKEIT 8 1.6. Bedingte Wahrscheinlichkeit Seien A und B Ereignisse. Sei P (A) > 0 Die bedingte Wahrscheinlichkeit von B unter der Bedingung, dass A eintritt, wird durch P (B|A) = P (A ∩ B) P (A) berechnet. Beispiel. Würfelspiel A = {gerade Augenzahl } B = {Augenzahl > 3} A∩B = {4, 6} P (B|A) = 2 6 3 6 = 2 3 Bemerkung. • • In der Regel P (B|A) 6= P (B) P (..|A) Ω∗ = A aufgefasst werden • P (..|A) erfüllen die Axiome A1.1-A1.3 Die bedingten Wahrscheinlichkeiten können als Wahrscheinlichkeiten in einem neuen Grund- raum Multiplikationssatz. Sei P (A) > 0 . Dann ist P (A ∩ B) = P (B|A) ∗ P (A) Additionssatz. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Beispiel. 1 Eine Urneenthält 3 rote Kugeln + 1 blaue Kugel. - Was ist die Wahrscheinlichkeit, dass ich 2 rote Kugeln ziehe ? (ohne die 1. zurückzulegen) R1 R2 P (R2 ∩ R1 ) = {Kugel 1 = {Kugel 2 rot} rot} = P (R2 |R1 ) ∗ P (R1 ) 2 3 = ∗ 3 4 1 = 2 1.6. BEDINGTE WAHRSCHEINLICHKEIT Beispiel. 9 2 Was ist die Wahrscheinlichkeit, dass niemand heute oder morgen Geburtstag hat ? (Siehe 1.5 Beispiel 2) 363 365 n oder mit Multiplikationssatz: = {Keiner = {Keiner A1 A2 hat heute Geburtstag } 0 hat morgen G tag} n 364 365 n 363 P (A2 |A1 ) = 364 n 363 ⇒ P (A1 ∩ A2 ) = 365 P (A1 ) = Satz der totalen Wahrscheinlichkeit. Eine Einteilung von (1) (2) Ω Sn i=1 Ai = Ω Ai ∩ Aj = φ, Dann gilt für beliebige sei durch für A1 , ..., Ai gegeben. D.h. i 6= j B⊂Ω P (B) = Ω Pn i=1 P (B|Ai ) ∗ P (Ai ) Ω A1 A1 A2 A4 A3 A5 B A2 A4 A3 A5 1.6. BEDINGTE WAHRSCHEINLICHKEIT 10 Beweis. B = B∩Ω = B∩ n [ Ai ! i=1 n [ = (B ∩ Ai ) i=1 Wobei (B ∩ Ai ) ∩ (B ∩ Aj ) = φ i 6= j : P (B) n X = i=1 n X = P (B ∩ Ai ) Axiom (P (B|Ai ) ∗ P (Ai ) Multiplikationssatz 1.3 i=1 Beispiel. 1 Fortsetzung P (R2 ) = P (Kugel 2 rot) P (R2 ) = P (R1 ) ∗ P (R2 |R1 ) + P (B1 ) ∗ P (R2 |B1 ) B1 = {Kugel 1 blau } = R1c R1 und B1 bilden eine Einteilung von Ω P (R2 ) = 3 2 3 1 ∗ + ∗1= 3 4 4 4 Baumdiagram 2-stuges Experiment 2/3 R2 R−R 1/3 B2 R−B 1 R2 B−R B2 (B−B) R1 3/4 1/4 c B1 = R1 0 Beispiel. • • • Röntgen-Analyse bei Tb Von Tb-kranken Personen werden 90% durch Röntgen entdeckt Von den Tb-freien Personen werden 99% als solche erkannt In einer Bevölkerung sind 0.1% tb-krank , wobei 1.6. BEDINGTE WAHRSCHEINLICHKEIT 11 Eine Person wird herausgegrien, geröntgt und als Tb-krank eingestuft. Mit welcher Wahrscheinlichkeit stimmt das ? A = {Person Tb − krank } A = {Per. nicht Tb − krank } B = {Röntgenanalyse positiv } B c = {Röntgenanalyse negativ } c P (B|A) = P (B|Ac ) = P (A|B) 0.9 B 0.1 B 0.01 B 0.99 B = P (A) = 0.001 P (Ac ) = 0.999 P (B) =? P (B c ) =? 0.9 0.01 P (A ∩ B) P (B) gesucht A 0.001 0.999 A c c c Satz der totalen Wahrscheinlichkeit =⇒ P (B) = P (A)P (B|A) + P (Ac )P (B|Ac ) = 0.001 ∗ 0.9 + 0.999 ∗ 0.01 = 0.01089 Multiplikationssatz =⇒ P (A ∩ B) = P (A) ∗ P (B|A) = 0.001 ∗ 0.9 = 0.0009 P (A|B) = P (A ∩ B) = 0.083 = 8.3% P (B) Bemerkung. • Die kleine Wahrscheinlichkeit liegt daran, dass zwar viele Leute die Krankheit nicht haben, aber bei 10% der Test trotzdem positiv ausgeht. • P (B|Ac ) = 0.001 −→ P (A|B c ) = 0.47 Falls (falsche Diagnose bei nicht Tb-kranken) (Problem der falschen Daignose bei seltenen Krankheiten) Wir haben den Satz von Bayes benutzt P (A|B) = P (A ∩ B) P (B|A) ∗ P (A) = P (B) P (B|A) ∗ P (A) + P (B|Ac )P (Ac ) 1.7. UNABHÄNGIGKEIT 12 Allgemeine Form von Bayes: A1 , ..., An Seien eine Einteilung von P (Ai ) > 0, ∀i Ω P (B) > 0 Dann gilt P (Ak |B) = P (B|Ak )∗P (An ) n P P (B|Ai )∗P (Aj ) j=1 1.7. Unabhängigkeit Definition. Die Ereignisse Beweis. A, B ⊂ Ω heissen unabhängig, falls P (A ∩ B) = P (A) ∗ P (B) Falls P (A) 6= 0 A, B unabhängig : Falls P (B) > 0 A, B unabhängig # ⇐⇒ P (B|A) = P (B) ⇐⇒ P (A|B) = P (A) von # ⇒ P (B|A) = P (B∩A) P (A) = P (B) ⇐ P (A ∩ B) = P (B|A) ∗ P (A) = P (A) ∗ P (B) Die Tatsache, dass A eingetreten ist, hat keinen Einuss auf die Wahrscheinlichkeit von B Beispiel. 2 In einer Urne benden sich 2 Sorten von Münzen, gleichviele von jeder Sorte • • Münzen der 1. Sorte: Münzen der 2. Sorte: P (K) = 0.9 , P (Z) = 0.1 fair Ich ziehe eine Münze und werfe sie zweimal auf. K1 = {Kopf beim 1. Wurf } K2 = {Kopf beim 2. Wurf } Sind K1 und A = {Münze K2 unabhängig ? NEIN der 1. Sorte wird gezogen } (verfälscht) P (K2 ) = P (AK1 K2 , AK1 Z2 , Ac K1 K2 , Ac K1 K2 = 0.405 + 0.045 + 0.045 + 0.125 + 0.125 = 0.7 P (K2 ) = 0.7 P (K1 ∩ K2 ) = P (AK1 K2 , Ac K1 K2 = 0.53 1.7. UNABHÄNGIGKEIT 13 P (K1 ∩ K2 ) > P (K1 )P (K2 ) P (K2 |K1 = 0.53 0.7 = 0.757 > P (K1 ) K1 K2 und und A A sind abhängig sind abhängig P (K1 |A) = 0.9 > P (K1 ) P (K2 |A) > P (K2 ) durch die gemeinsame abhängigkeit vom A sind K1 und K2 abhängig. Allgemeine Dention der Unabhängigkeit A1, . . . , An heissen unabhängig für je m Ereignisse {K1 , . . . , Km } ⊂ {1, . . . , n} ist, stets gilt m ∈ N und m Q P (Aki ) ∩ . . . ∩ Akm ) = Ak1 , . . . , Akm P (Ak1 ∩ Ak2 wo i=1 Bemerkung: Es genügt nicht, dass alle Ereignisse paarweise unabhängig sind. Beispiel. 2 Würfel A={Würfel 1 zeigt gerade Augenzahl} B={Würfel 2 zeigt gerade Augenzahl} C={Beide Wüerfel zeigen gerade oder ungerade } P (A) = P (B) = P (C) = 12 P (A ∩ B) = P (A ∩ C) = P (C ∩ B) = 14 A∩B∩C =A∩B P (A ∩ B ∩ C) = 41 > P (A)P (B)P (C) = 1 8 KAPITEL 2 Zufallsvariablen 2.1. Begri der Zufallsvariable (ZV) Definition. Es sei Ω ein Grundraum. Eine Zufallsvariable auf Jedes Elementarereignis ω wird eine Zahl X(ω) Ω ist eine Abbildung: X:Ω→R abgebildet. Beispiel. Würfeln 1) Die Augenzahl ist eine ZV Ω = {1, . . . , 6}, X(ω) = ω X1 : Gesamtanzahl der X2 : Anzahl der Köpfe - Anzahl der Zahlen ω KK KZ ZK ZZ X1 (ω) 2 1 1 0 X2 (ω) 2 0 0 -2 2) 2-maliger Münzwurf Köpfe 3) Ich werfe eine Münze, bis ich Kopf erhalte X : Gesamtanzahl ω = K, ZK, ZZK, X(ω)=1,2,3,4 . . . der Würfe ZZZK, . . . Diskete Zufallsvariablen nehmen entweder endliche viele (Beispiel 1 und 2) oder aber abzählbar unendlich viele Werte an (Beispiel 3) 2.2. Wahrscheinlichkeits- und Verteilungsfunktion (diskreter ZV) Alternative Darstellung der Verteilung einer Zufallsvariable. AX = {ω : X(ω) = x} ⊂ Ω Wir schreiben P (X = x) und verstehen (Ereignis im Grundraum) P (Ax ) Definition. X ist ( P (X = x), p(x) = 0, Die Wahrscheinlichkeitsfunktion für eine diskrete ZV: Wobei W der Wertebereich von X ist. 14 die Funktion: X∈W sonst 2.3. WICHTIGE DISKRETE VERTEILUNG 15 Definition. Die Verteilunsfunktion der ZV X ist die Funktion x∈R F (x) = P (X 6 x), Beispiel. 2 (Fortsetzung) P (X2 = 2) = P ({ω : X2 (ω) = 2}) = P ({KK}) = P (X2 = 0) = P ({KZ, KK}) = P (X2 = −2) = Die Paare (X, P (X2 = x)), x = −2, 0, 2 1 2 1 4 legen die sogenannte Verteilung von W = {−2, 0, 2} x ∈ (−∞, 0) ⇒ P (X2 6 x) = 0 x ∈ [−2, 0) ⇒ P (X2 6 x) = P (X2 = −2) = 14 x ∈ [0, 2) ⇒ P (X2 6 x) = P (X2 = −2) + P (X2 = 0) = x ∈ [2, ∞) ⇒ P (X2 6 x) = 1 3 4 Für diskrete ZV ist F (x) = X p(xi ) xi : x ∈ W xi 6 x Eigenschaften einer Verteilungsfunktion. 1) F ist steigend und rechtsstetig 2) lim F (x) = 1, x→∞ lim F (x) = 0 x→−∞ 2.3. Wichtige diskrete Verteilung 2.3.1. Uniform - Gleichverteilung. X hat den Wertebereich W = {x1 , . . . , xn } P(xi )=P(X = Würfeln n=6, Münze n=2, xi )= W={1,. . . ,} X=Anzahl Köpfe , W={0, 1} 1 n, 1 4 i = 1, . . . , n X2 fest 2.3. WICHTIGE DISKRETE VERTEILUNG 16 2.3.2. Bernoulli. Eine Bernoulli-ZV nimmt Werte 0 und 1 an: p(1) = P (X = 1) = p p(0) = P (X = 0) = 1 − p (P (X = x) = 0 x 6= 0, 1) Alternative Schreibweise: ( px (1 − p)(1−x) p(x) = 0 X ∼ Be(p), x = 0, 1 sonst 0<p<1 Beispiel. Indikator eines Ereignisses ( 1 A ⊂ Ω IA (ω) = 0 IA ω∈A ω 6∈ A (A tritt ein) ist eine Bernoulli-Zufallsvariable p(1) = P (1A = 0) = P (Ac ) = 1 − P (A) ⇒ 1A ∼ Be(P (A)) 2.3.3. Binomialverteilung. X X und p, p(k) = P (X = k) = n k ist Binomialverteilt mit Parametern ist die Anzahl der Erfolge bei Ai ={Erfolg beim i-ten n n falls ∗ pk ∗ (1 − p)(n−k) k = 0, 1, 2 . . . unabhängigen Versuchen mit gleicher Erfolgswahrscheinlichkeit. i = 1, 2 . . . n Versuch} P = (A1 ∩ A2 ∩ . . . ∩ Ak ∩ Ack+1 ∩ . . . ∩ Acn ) = k Y P (Ai ) i=1 pk (1 − p)n−k Es gibt n k solche Möglichkeiten bei X ∼ B(n, p) X ∼ B(1, p), Be(p) Bezeichnung Bernoulli: n Versuchen k mal erfolgreich zu sein. n Y i=k+1 P (Aci ) 2.3. WICHTIGE DISKRETE VERTEILUNG 17 Beispiel. Was ist die Wahrscheinlichkeit das von 350 Leute genau k( P (X = k) = k k k k =0 =1 =2 =3 k6 350) heute Geburtstag haben? k 350−k 350 1 364 k 365 365 0.383 0.368 0.176 0.056 Die Summe von unabhängig, identisch verteilten Bernoulli-Zufallsvariablen ist binominalverteilt. Seien Yi ∼ Be(p) i = 1, . . . , n X= n X Yi , X ∼ B(n, p) i=1 Beispiel. Yi = 1{ Individum i hat heute Geburtstag } 1 ) Yi ∼ Be( 365 2.3.4. geometrische Verteilung. X ist geometrisch Verteilt mit Parameter p, falls p(k) = P (X = k) = (1 − p)k−1 p X Ist k = 1, 2, 3, . . . ist die Anzahl Versuche, die ich durchführen muss, bis ein Erfolg eintritt. p(k) eine Wahrscheinlichkeitsfunktion? ∞ X p(k) = p k=1 ∞ X k=1 (1 − p)k−1 = p 1 + (1 − p) + (1 − p)2 + . . . = p ∗ 1 = 1. 1 − (1 − p) 2.3.5. Negativ Binomiale Verteilung. X X r und p, falls r k−r p(k) = P (X = k) = k−1 r−1 p (1 − p) ist negativ binomial Verteilt mit Parametern ist die Anzahl Versuche, die ich machen muss, bis ich r k = r, r + 1, r + 2, . . . Erfolge habe. Herleitung: P (Ac1 ∩ . . . ∩ Ack−r , ∩ Ak−r+1 ∩ . . . ∩ Ak ) = 1 − pk−r pr {z } | {z } | k-r Misserfolge Es gibt k−1 r−1 r Erfolge Möglichkeiten, eine Folge von Versuch ein Erfolg ist. ⇒ p(k) = k−1 r−1 (1 − p)k−r pr k−r Misserfolgen und r Erfolgen hinzuschreiben, damit der letzte 2.3. WICHTIGE DISKRETE VERTEILUNG 18 2.3.6. Die hypergeometrische Verteilung. X ist h-g-verteilt mit den Parametern r, n, m falls: p(k) = P (X = k) = n−r (kr )(m−k ) , n (m) 0 6 k 6 r; k 6 m. Beispiel. 1 n Gegenstände in einer Urne m X =Anzahl Ich ziehe ( r vom Typ 1 -r (vom anderen Typ) davon (ohne Zurücklegen) Gegestände vom Typ 1 in der Stichprobe Wieso? n m = n k n−r m−k Anzahl mögliche Stichproben der Grösse = Anzahl solcher Stichproben mit Beispiel. 2 k m. Gegenständen von Typ 1 und Lotto n=45 Zahlen r=6 die richtigen Zahlen m=6 meine Zahlen P (X = 4) = P ( V ierer ) = (64)(39 2) (45 6) 2.3.7. Die Poisson-Verteilung. X ist Poisson-verteilt mit Parameter λ, falls: P (X = k) = Bezeichnung: λk e−λ k! , k = 1, 2, . . . X ∼ P o(λ) Diese Verteilung eignet sich zur Modellierung seltener Ereignisse Beispiel. Bortkiewicz Todesfälle durch Hufschläge (von Pferden) in der preussischen Armee Daten: 10 Kavallerieregimente beobachtet über eine Periode von 20 Jahren. Zufallsgrösse : Todesfälle pro Regiment pro Jahr. Anzahl Beobachtungen: k Nk RelativeHäuf igkeit : Nk 200 Anzahl Todesfälle: 0 109 200 1 2 65 22 0.545 0.325 3 4 >4 3 1 0 0.11 0.15 0.005 m−k vom anderen Typ. 2.3. WICHTIGE DISKRETE VERTEILUNG B hatte diese Häugkeit mit der Wahrscheinlichkeitsfunktion einer k P (X = k) 0 0.543 1 2 0.331 0.101 P0 (0.61)-ZV 19 verglichen: 3 4 >4 0.021 0.003 0.001 Poisson-Verteilung als Grenzwert der Binominalverteilung X ∼ B(n, p). Wenn p(k) = P (X = k) = Sei λ = np ⇒ p = n gross ist und n k p klein ist, kann X durch Y approximiert werden, wobei Y ∼ P o(np). pk (1 − p)n−k λ n n−k n! λ k 1 − nλ (n−k)!k! n n λk n∗(n−1)∗...∗(n−k+1) 1 − nλ k! n∗n∗...∗n p(k) = = 1− λ −k n Nun betrachten wir den Grenzwert wenn n∗(n−1)∗...∗(n−k+1) n∗n∗...∗n n 1 − nλ → e−λ −k 1 − nλ →1 n→∞ geht. →1 n→∞ λk −λ k! e p(k) −→ Wir betrachten immer mehr Versuche ( n), bei denen der Erfolg immer unwahrscheinlicher ( der Bedingung np = λ p) (konstant). Phänomene die mit Poisson modelliert werden: • • • Anzahl Anrufe bei einer Telefonzentrale in einer gewissen Periode Anzahl Versicherungsschäden in einer gewissen Periode Anzahl Jobs, die bei einem Server ankommen WIESO? Intuitive Idee: Zeitperiode[0,1]: n Intervalle der Länge 1/n Annahme: • Es kann höchstens 1 Kunde/Anruf/Job in einem Intervall ankommen i • Ii , der Idikator einer Ankuft im Intervall i−1 n , n , sei Bernoulli verteilt, Ii ∼ Be(p) • Ankünfte sind unabhängig: I1 , . . . , In unabhängig ⇒X= n X i=1 Gesamtankünfte. X lässt sich durch Y ∼ P o(n, p) approximieren. Ii ∼ B(n, p) wird, aber unter 2.5. WICHTIGE STETIGE VERTEILUNGEN 20 2.4. Stetige Zufallsvariablen W Wir behandeln ZV, bei denen die Menge der möglichen Werte ein Intervall ist (zum Beispiel Für solche Zufallsvariablen übernimmt die Dichte die Rolle der Wahrscheinlichkeitsfunktion. Definition. Sei X Falls: eine ZV mit der Verteilungsfunktion F (x) = Rx f (y) dy, heisst f (x) F (x) = P (X 6 x) die Dichte von X. y=−∞ Eigenschaften: • f (x) > 0 • f (x) ist stetig (oder R∞ • f (x) dx = 1, stückweise stetig) weil limx→∞ F (x) = 1 −∞ a < b ⇒ P (a < X 6 b) = P (X 6 b) − P (X 6 a) = F (b) − F (a) Z b = f (x) dx x=a ε>0 P (a − ε < X 6 a + ε) = Z a+ε f (x) dx a−ε Annahme: f (x) 6 M < ∞ 6 limε→0 P (a − ε < X 6 a + ε) = 0 ⇒ P (X = a) = 0 Wahrscheinlichkeitsfunktion max f (x)2ε (a−ε,a+ε] ist identisch NULL P (a 6 X 6 b) = P (a 6 X < b) = P (a < X 6 b) = P (a < X < b) An allen Stellen, an denen f (x) stetig ist gilt, F 0 (x) = f (x). 2.5. Wichtige stetige Verteilungen 2.5.1. Gleichverteilung / Uniformverteilung. ( 1 f (x) = 0 0 F (x) = x 1 06x61 sonst x60 0<x61 x>1 R, R+ , [0, 1] ) 2.5. WICHTIGE STETIGE VERTEILUNGEN 21 Bezeichnung: X ∼ U (0, 1) 2.5.2. Exponentialverteilung. ( λe−λx 0>x f (x) = ,λ > 0 0 x<0 ( Rx Rx 1 − e−λx F (x) = f (t) dt = λe−λtdt = 0 −∞ −∞ Bezeichnung: X ∼ Exp(λ) x>0 x<0 2.5. WICHTIGE STETIGE VERTEILUNGEN 22 Bemerkung. • Die Exponentialverteilung wird oft zur Modellierung von Lebensdauern gebraucht. Sie hat die Eigenschaft der Gedächtnislosigkeit . T ∼ Exp(λ) s, t > 0 P (T > t + s|T > s) = = = P (T > t + s&T > s) P (T > s) P (T > t + s) 1 − P (T 6 t + s) = P (T > s) 1 − P (T 6 s 1 − F (t + s) e−λ(t+s) = 1 − F (s) eλs = e−λt = P (T > t) t Wahrscheinlichkeit, dass ein Individuum nach einer Zeit • Verbindung Exponential ⇔ überlebt, hängt nicht vom Alter von s ab. Poisson Eine Ankuftsprozess (Kunden/Telefonanrufe) heisst ein Poissonprozess, falls die Zeiten zwischen Ankünften unabhängig, identisch exponentiell verteilt sind. Der Parameter λ heisst die Rate des Poisson- Prozesses. Die Anzahl Ankünfte im Intervall [0, t] (oder in [s, s + t]) ist P0 (λt) verteilt. 2.5.3. Normalverteilung / Gausverteilung. 2 f (x) = 1 x−µ √1 e− 2 ( σ ) σ 2π −∞ < µ < ∞ , Parameter: −∞ < µ < ∞, σ > 0 Bezeichnung: X ∼ N (µ, σ 2 ) F (x) = Zx f (y) dy −∞ Spezialfall: Standardisierte Normalverteilung: Dichte wird mit Falls ϕ(x) X ∼ N (0, 1) µ = 0, Φ(x) bezeichnet und Verteilungsfunktion X ∼ N (µ, σ 2 ) ⇒ X−µ σ σ=1 ∼ N (0, 1) X −µ P( 6 x) = P (X 6 µ + σx) = σ µ+σx Z y=−∞ 1 x−µ 2 1 √ e− 2 ( σ ) dy σ 2π 2.6. TRANSFORMATIONEN VON (STETIGEN) ZV Sei Zx y−µ dy t= ⇒ dt = = σ σ t=−∞ Zx t=−∞ =⇒ Φ(x) = 23 1 2 1 √ e− 2 t dt 2π ϕ(t) dt t=−∞ Phänomene die mit der Gaussverteilung modelliert werden • • • Streueung von Messwerten um den Mittelwert Gewichte / Grössen / IQ's von Individuen in einer Bevölkerung St =Preis am Ende Tag t, (Annahme) ⇒ Xt ∼ N (0, σt2 ) Renditen von Aktien xt := St+1 −St St ∗ 100 2.6. Transformationen von (stetigen) ZV Sei X eine Zufallsvariable mit Verteilungsfunktion Gesucht: Verteilungsfunktion und Dichte von Fx und Dichte Lineare Transformationen. Y = aX + b a > 0, b ∈ R FY (y) = P (Y 6 y) = P (aX + b 6 y) = P X 6 Verteilung: fY (y) = Dichte: Beispiel. X ∼ N (µ, σ 2 ) fY (y) = a1 fX y−b = a 1 √ aσ 2π e 1 2 2 y−b −µ a σ = 1 1 √ e2( aσ 2π y−b−aµ aσ Y ∼ N (b + aµ, a2 µ2 ) Spezialfall a = 1/σ, b = −µ/σ ⇒ Y ∼ N (0, 1) Diese Transformation heisst eine Standardisierung. Zahlenbeispiel: X ∼ N (100, 152 ) Was ist P (120 6 X 6 130)? Tabelle der standardisierten Normalverteilung vorhanden P (120 6 X 6 130) = P 120−100 15 6 X−100 15 6 130−100 15 Y = X−100 ⇒ Y ∼ N (0, 1) = P (1.3) 6 Y 6 2) 15 = Φ(2) − Φ(1.33) = 0.9772 − 0.9082 = 0.069 Sei fx . Y=g(X) 2 ) = FX y−b a (y) = a1 fX y−b a y−b a d dy FY 2.7. ERZEUGUNG VON ZUFALLSVARIABLEN 24 Nichtlineare Transformationen. a) Y = X2 FY (y) = P (Y 6 y) = P (X 2 6 y) √ √ = P (− y 6 X 6 y) √ √ = FX ( y) − FX (− y) Beispiel. X ∼ N (0, 1) √ √ Y = X 2 : FY (y) = Φ( y) − Φ(− y) 1 1 1 √ √ √ fY (y) = 12 y − 2 ϕ( y) + 12 y − 2 ϕ(− y) = y − 2 ϕ( y) Sei Diese Dichte ist die b) χ2 − V erteilung Symmetrie mit einem Freiheitsgrad. Y = 1/X FY (y) = P ( 1 1 1 1 6 y) = P (X > ) = 1 − P (X 6 ) = 1 − FX ( ) x y y y fY (y) = y −2 fX ( y1 ) Beispiel. U ∼ U (0, 1), fU (u) = 1 06u61 V ∼ 1/U, FU (u) = u 06u61 FV (v) = 1 − FU ( v1 ) = 1 − v1 , fV (v) = v 2 06 1 v 61⇔v>1 Allgemeiner (ohne Beweis) Sei X stetig mit der Dichte f (x) Sei Y = y(X), g dierenzierbar und streng monoton in einem Intervall I Sei f (x) = 0, x 6∈ I Satz. ( d −1 fX (g −1 (y)) | dy g (y)| FY (y) = 0 [g −1 (y) = x falls, g(x) = y] b) V = g(U ), g(u) = 1/u, g −1 (v) = 1/v , d −1 (v) dv g y ∈ {g(x)|x ∈ I} y 6∈ {g(x)|x ∈ I} = −1/v 2 , d −1 fV (v) = fU (g −1 (v)) | dv g (v)| = 1/v 2 2.7. Erzeugung von Zufallsvariablen U sei U(0,1)-verteilt Sei X = F −1 (U ), wobei F eine stetige und streng monoton wachsende Verteilungsfunktion ist. Dann gilt P (X 6 x) = F (x) Satz. Beweis. P (X 6 x) = P F −1 (U ) 6 x = P (U 6 F (x)) = F (x) 2.7. ERZEUGUNG VON ZUFALLSVARIABLEN Simulationsalgorithmus für Zufallsvariablen mit der Verteilungsfunktion 25 F: Invertiermethode. • U ∼ (0, 1) mit einem Zufallsgenerator. [Deterministischer Algorithmus, welcher eine Folge (u1 , u2 , . . .) produziert, so dass sie sich gleich Verhalten wie Realisationen von unabhängigen U(0, Simuliere 1)-verteilten ZV] • Berechne X = F −1 (U ) Beispiel. Simuliere F (x) = 1 − e−λx , • • Simuliere Berechne X ∼ Exp(λ) x60 ⇒ F −1 (u) = − log(1−u) λ U ∼ U (0, 1) ) X = − log(1−U λ Bemerkung. • Quantil: Der Wert F −1 (u), u ∈ (0, 1) heisst das u-Quantil der F. P (X 6 F −1 (u)) = F F −1 (u) = u P (X 6 95% − Quantil) = 95% Verteilung • Median: Der Wert F −1 ( 21 ) heisst der Median der Verteilung. KAPITEL 3 Gemeinsame Verteilung mehrerer Zufallsvariablen 3.1. Das Konzept der gemeinsamen Verteilung Definition. Die gemeinsame Verteilungsfunktion von n Zufallsvariablen X1 , . . . , Xn F (x1 , . . . , xn ) = P (X1 6 x1 , X2 6 x2 , . . . , Xn 6 xn ) ist Definition. n diskreten Zufallsvariablen p(x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn ) [ Wir konzentrieren uns auf den Fall n=2 und die Zufallsvariablen X Die gemeinsame Wahrscheinlichkeits von ist und Y ] Beispiel. A. Eine Münze wird 3 mal geworfen Y= X= Anzahl Köpfe beim 1. Wurf Gesamtanzahl Köpfe Ω = {KKK, KKZ, KZK, KZZ, ZKK, ZKZ, ZZK, ZZZ} x= y= p(x,y) 0 1 0 1/8 1 0 2/8 1/8 2 3 1/8 0 2/8 1/8 Definition. Seien X1 , . . . , Xn Zufallssvariablen mit gemeinsamer Verteilungsfunktion F (x1 , . . . , xn ) = Zx1 −∞ heisst f (x1 , . . . , xn ) die gemeinsame Dichte von ··· Zxn F (x1 , . . . , xn ). f (y1 , . . . , yn ) dy1 , . . . , dyn , −∞ X1 , . . . , Xn Eigenschaften • f (x1 , . . . , xn ) > 0 Z∞ Z∞ • ··· f (y1 , . . . , yn ) dy1 , . . . , dyn = 1 −∞ | −∞ {z n mal } n • f (x1 , . . . , xn ) = ∂x1∂...∂xn R R • P ((X1 , . . . , Xn ) ∈ A) = · · · f (x1 , . . . , xn ) dx, . . . , dxn 26 A ⊂ Rn Falls 3.2. RANDVERTEILUNG Beispiel. B Die Verteilung von X und Y hat die gemeinsam Dichte: 12 2 (x + xy), 0 6 x 6 1, 06y61 7 Z Z 12 F (x, y) = x··· y (u2 + uv) dv du 7 f (x, y) = u=0 v=0 3 4 3 x y + x2 y 2 7 7 = F(0,0)=0 , F(1,1)=1 A = {(x, y)|0 6 y 6 x 6 1} P (X > Y ) = P ({ω : X(ω) > Y (ω)}) = P (ω : 0 6 Y (ω) 6 X(ω) 6 1) ZZ = f (x, y) dx dy A P (X > Y ) Z1 Zx = 9 12 2 (x + xy) dy dx = 7 14 x=0 y=0 3.2. Randverteilung Wir haben für X Gesucht wird die und Y eine gemeinsame Verteilungsfunktion F p f von X Verteilungsfunktion Wahrscheinlichkeitsfunktion Dichte bzw Y Wahrscheinlichkeitsfunktion Dichte Die Verteilungsfunktion der Randverteilung von X ist FX (x) = P (X 6 x) = P (X 6 x, Y 6 ∞) = lim F (x, y) y→∞ Diskreter Fall Y nimmt die Werte y1 , y 2 , . . . an. Die Wahrscheinlichkeitsfunktion der Randverteilung von X wird gegeben durch PX (x) = P (X = x) = P j p(x, yj ) 27 3.3. UNABHÄNGIGKEIT VON ZUFALLSVARIABLEN Beispiel. A x= y= p(x,y) 0 1 0 1/8 1 0 2/8 1/8 2 X = Anzahl Köpfe beim Y = Gesamtzahl Köpfe P pX (1) = P (X = 1)) 3 1/8 0 2/8 1/8 1 Wurf p(1, yj ) = 1/8 + 2/8 + 1/8 = 1/2 j X ∼ Be( 12 ) P pY (1) = P (Y = 1) = p(x, y) = 2/8 + 1/8 = 3/8 j pY (0), pY (1), pY (2) u.s.w. Stetiger Fall Die Dichte der Randverteilung von fX (x) = d dy FX (x) = X: d lim F (x, y) dx y→∞ = d dx Rx R∞ f (u, y) dy du = −∞ −∞ R∞ f (x, y) dy −∞ Beispiel. B fX (x) = 12 7 fY (y) = 12 7 R1 (x2 + xy) dy = y=0 R1 (x2 + xy) dx = 0 12 2 7 (x 1y 32 12 7 + x2 ) 3.3. Unabhängigkeit von Zufallsvariablen Definition. Die Zufallsvariabeln X1 , . . . , Xn sind unabhängig, falls F (x1 , . . . , xn ) = FX1 (x1 ) · . . . · FXn (xn ) = n Q i=1 n=2 a) Diskreter Fall X, Y unabhängig ⇔ p(x, y) = pX (x)pY (y), ∀x, y ⇔ f (x, y) = fX (x)fY (y), ∀x, y b) Stetiger Fall X, Y unabhängig Beweis. von b) X,Y unabhängig ⇒ F (x, y) = FX (x)FY (y) ⇒ ∂2 ∂x∂y F (x, y) = d d dx FX (x) dy FY (y) FXi (xi ) 28 3.4. WICHTIGE MEHRDIMENSIONALE VERTEILUNGEN ⇒ f (x, y) = fX (x)fY (y) ⇒ F (x, y) = = Rx fX (u) du −∞ Ry Rx Ry 29 fX (u)fY (v) du dv −∞ −∞ fY (v) dv = FX (x)FY (y) −∞ Weder in Beispiel A noch in Beispiel B sind X ,Y unabhängig. 3.4. Wichtige Mehrdimensionale Verteilungen 3.4.1. Die Mehrdimensionale Normalverteilung (stetig). f (x, y) = 1√ 2πσx σy 1−ρ2 exp x−µx σx 2 + y−µy σy −∞ < µx < ∞, −∞ < µy < ∞, 5 Parameter µ = µµxy 2 σx Σ= ρσx σy −1 2(1−ρ2 ) 2 − 2ρ(x−µx )(y−µy ) σx σy σx > 0, σy > 0 ρ heisst −1 < ρ < 1 die Korrelation Sei ρσx σy σy2 1 1 T −1 f (x) = 2π|Σ| (x − µ) 1/2 exp − 2 (x − µ) Σ x x= y Anwendungen: • X = Rendite der BMW-Aktie Y = Rendite der Siemens-Aktie • X = Log(Körpergewicht eines Säugetiers) Y = Log Gehirnmasse Graphische Darstellung • • Gemeinsame Dichte ist eine glockenförmige Oberäche in Höhenlinien der Dichte {(x,y) | f(x,y) = k}, falls ρ = 0, fX (x) = R∞ f (x, y) dy −∞ Aufgabe = σx 1 √ ∗ e2( 1 2π R3 k>0 sind die Achsen der Ellipse parallel zur x-Achse und zur y-Achse Randverteilungen x−µx σx 2 ) 3.4. WICHTIGE MEHRDIMENSIONALE VERTEILUNGEN 30 X ∼ N (µx , σx2 ) Y ∼ N (µy , σy2 ) Unabhängigkeit f (x, y) = fX (x)fY (y)? ρ=0 Unabhängigkeit von X, Y ⇔ ρ = 0 Wann ist Nur dann wenn (Keine Korrelation) 3.4.2. Die Multinominalverteilung (diskret). n Es werden unabhängige Experimente durchgeführt: Bei jedem Experiment gibt es r mögliche Ergebnisse mit jeweiligen Wahrscheinlichkeiten p1 , . . . , p r r P p1 = 1 i=1 Sei Ni die Anzahl Experimente bei denen Ergebnis i eintritt. n n1 . . . n r | {z } n! n ! · n2 ! · . . . · n r ! |1 {z } p(n1 , n2 , . . . , nr ) = P (N1 = n1 , . . . , Nr = nr ) = pn1 1 pn2 2 . . . pnr r MultinomialKoezient n pn 1 pn2 2 , n1 n2 1 |{z} | {z } (1−p1 )(n−n1 ) im Fall r=2 mit n2 = n − n1 , p2 = 1 − p1 n! n!(n−n1 )! Herleitung Die Folge n z }| { 1, . . . , 1, 2, . . . , 2 . . . . . . r, . . . , r | {z } | {z } | {z } n1 n2 hat Wahrscheinlichkeit pn1 1 pn2 2 . . . pnr r nr Es gibt: n die Ergebnisse von Typ 1 den Stellen der Folge zuzutueilen. n1 Möglichkeiten, n−n1 Möglichkeiten, die Ereignisse vom Typ 2 den verbleibenden (n − n1 ) Stellen der Folge zuzuteilen n2 usw. n n1 n−n1 n2 n−n1 −n2 n3 Randverteilung von ... n−n1 ...nr−1 nr = n n1 ,...,nr Ni PNnii = P (Ni = ni ) = Ni ∼ B(n, p) p(n1 , . . . , nr ) 6= r Q i=1 pNi ni ? n ni pn1 i (1 − pi )n−ni 3.5. BEDINGTE VERTEILUNG N1 , . . . , Nr 31 sind abhängig 3.5. Bedingte Verteilung Diskreter Fall X, Y diskrete Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsfunktion p(x, y). Definition. X Die Wahrscheinlichkeitsfunktion von unter der Bedingung, dass PX|Y (x | y) = P (X = x | Y = y) = P (X=x,Y =y) P (Y =y) = Y =y ist p(x,y) pY (y) falls pY (y) > 0 Bemerkung. • P pX|Y (xi |y) = P p(xi ,y) i pY (y) i = PY (y) PY (y) =1 [x1 , x2 , . . . sind die möglichen Werte von X ] • pX|Y (x|y) = PX (x), ∀x, y mit PY (y) > 0 ⇔ X, Y unabhängig Beispiel. A Bedingte Verteilung von X pX|Y (0|1) = p(0,1) pY (1) = 2 8 3 8 = 2 3 pX|Y (1|1) = p(1,1) pY (1) = 1 8 3 8 = 1 3 gegeben X|Y = 1 ∼ Be( 13 ) ⇒ X, Y X ∼ Be( 12 ) Y =1 abhängig !! Beispiel. B In einer Bevölkerung haben 50% der Leute blaue Augen,40% dunkle Augen,10% grüne Augen Unter 10 zufällig ausgewählten Leuten ist die Anzahl der dunklen Augen 6. Was ist die Verteilung der Anzahl der verbleibenden Leute mit grünen Augen? X= Anzahl Leute mit grünen Augen Y= Anzahl Leute mit dunklen Augen Z= Anzahl Leute mit blauen Augen PX|Y (x|6) = P (X=x,Y =6) PY (6) = 1 2 1 (X, Y, Z) ∼ Mn (10, 10 , 5, 2) Y ∼ B(10, 52 ) P (X=x,Y =6,Z=10−6−x) P (Y =6) 3.5. BEDINGTE VERTEILUNG 10! 1 x 2 6 1 5 2 x!6!(4−x)! 10 10! 2 6 3 4 6!4! 5 4 4−x ( ) ( )( ) ( )( ) PX|Y (x, 6) = = ... = 4 x 1 x 6 5 4−x 6 32 ⇒ X|Y = 6 ∼ B(4, 16 ) Stetiger Fall X, Y f (x, y). stetige Zufallsvariablen mit gem. Dichte Definition. Die bedingte Dichte von Y unter der Bedingung fY |X (y|x) = X=x ist f (x,y) fy (x) , falls 0 < fy (x) < ∞ Bemerkung. • R∞ −∞ 1 fx (x) fY |X (y|x) dy = • fY |X (y|x) = fY (y), R∞ f (x, y) dy = −∞ ∀x, y ⇔ X ,Y fX (x) fX (x) =1 unabhängig. Beispiel. 2-Dimensionale Normalverteilung fY |X(x|y) = f (x,y) fx (x) = ... = σy √ 1 2π(1−ρ2 ) exp σ y (y−µy −ρ σx (x−µx ))2 − 12 σy2 (1−ρ2 ) Dichte ist eine 1-Dimensionale-Normalverteilung mit: p b = σ y 1 − ρ2 a = µy + ρ σσxy (x − µx ), σ ⇒ Y |X = x ∼ N µ + ρ σxy (x − µx ), σy2 (1 − ρ2 ) X Y = relative Kursänderung BMW (täglich) = relative Kursänderung Siemens Modell µx = µy = 0% σx = σy = 1% ρ = 0.7 Was ist die Wahrscheinlichkeit dass die Siemensaktie um 5% oder mehr fällt , gegeben dass BMW um P (Y 6 −5 | X = −5) Y |X = −5 ∼ N (a, b2 ) Bei der Berechnung von a setze x=-5 a =√ −3.5 b = 1 − 0.49 Y −a b |X = −5 ∼ N (0, 1) P (Y 6 −5|X = −5) = P ( Y −a 6 b −5−a b |X Vergleiche mit unbedingt P (Y 6 −5) = Φ(−5) = 2.68 × 10−7 P (Y 6−5 | X=−5) P (Y 6−5) ∼ = 60000 = −5) = Φ −5−a b = 0.0178 5% fällt? 3.6. FUNKTIONEN VON ZUFALLSVARIABLEN 33 3.6. Funktionen von Zufallsvariablen X ,Y sind Zufallsvariablen mit bekannter (gemeinsamer) Verteilung. Was ist die Verteilung von X + Y, X − Y, . . . g(x, y) ? a) Diskreter Fall X ,Y p(x, y) gegeben Z =X +Y S S {Z = z} = {X = xi , Y = z − xi } ⇔ {Y = yi , X = z − yi } i x1 , x2 . . . i mögliche Werte von P PZ (z) = P (Z = z) = P (X = xi , Y = z − xi ) i P PZ (z) = p(xi , z − xi ) i X ,YPunabhängig: pZ (z) = pX (xi )pY (z − xi ) Falls i Die Faltung von Beispiel pX und pY . 3-maliger Munzwurf X = Anzahl K beim 1 Wurf Z =X +Y Y = Gesamtzahl K P pZ (0) = P (X = xi , Y = −xi ) = P (X = 0, Y = 0) = 18 i P pZ (1) = P (X = xi , Y = 1 − xi ) = P (X = 0, Y = 1) + P (X = 1, Y = 0) = | {z } i 2 8 gibts nicht pZ (2) = p(0, 2) + p(1, 1) = pZ (3) = p(0, 3) + p(1, 2) = pZ (4) = p(1, 3) = 18 2 8 2 8 b) Stetiger Fall X ,Y f (x, y) Z =X +Y gegeben FZ (z) = P (Z 6 z) = P (X + Y 6 z) Sei AZ = {(x, y)|x + y 6 z} FZ (z) = P (X + Y 6 z) = P ((X, Y ) ∈ AZ ) = RR f (x, y) dx dy = R∞ z−x R f (x, y) dy dx −∞ −∞ AZ v =x+y ⇒y =v−x dy = dv R∞ Rz Rz R∞ f (x, v − x) dv dx = f (x, v − x) dx dv = FZ (z) Sei −∞ −∞ −∞ −∞ fZ (z) = d dz FZ (z) = R∞ f (x, z − x)dx x=−∞ Falls X,Y unabhängig fZ (z) = R∞ fX (x)fY (z − x)dx −∞ Die Faltung von fX und fY 3.6. FUNKTIONEN VON ZUFALLSVARIABLEN 34 Beispiel. X, Y ∼ Exp(λ), X, Y unabhängig fX (x) = λe−λx , x>0 −λy fY (y) = λe , y>0 ( −λ(z−x) λe x6z fY (z − x) = 0 x>z Zz fZ (z) = λe−λx λe−λ(z−x) dx 0 = Zz λ2 e−λz dx = λ2 ze−λz , 0 Z hat eine Gamma-Verteilung mit Parametern Z ∼ Ga(α, λ) α α−1 −λz fZ (z) = λ z Γ(α)e , α=2 und λ z>0 Allgemeine Form der Dichte einer Gamma(α, λ)-Verteilung. z>0 KAPITEL 4 Erwartungswert 4.1. Denition Motivierendes Beispiel Spieler 1 verspricht Spieler 2, dass er ihm beim Würfelspiel folgende Gewinne auszahlen werde. 10 Rappen, falls 1 oder 2 erscheint 20 Rappen, falls 3 oder 4 erscheint 40 Rappen, falls 5 erscheint 80 Rappen, falls 6 erscheint Wieviel muss Spieler 2, Spieler 1 vor jeder Runde bezahlen damit das Spiel fair ist? Fair heisst dabei, dass der Einsatz gleich dem durchschnittlichen Gewinn sein soll. Lösung: Sei n n0 die Anzahl Runden, G = 10n1 + 10n2 + 20n3 + 20n4 + 40n5 + 80n6 die Anzahl der Runden und Gewinn: Durchschnittlicher Gewinn pro Spielrunde: bei denen die Augenzahl i auftritt. G n Erwartungswert des Gewinns: Idealisierter durchschnittlicher Gewinn bei unendlich vielen Spielrunden Erwartungswert = 10p1 + 10p2 . . . + 80p6 , p1 = p2 . . . p6 = 1 6 ⇒30 Rappen Der Faire Einsatz Definition. Diskret X sei diskret mit Wahrscheinlichkeitsfunktion Dann heisst: E(X) = P xi p(xi ) p(x) der Erwartungswert von x. (vorausgesetzt, dass die Reihe absolut konvergiert) i Beispiel. (1) Roulette Rad 0, 1 . . . 36 + 00 Ich wette 1 CHF, dass die Zahl ungerade ist. Falls dies vorkommt ist mein Gewinn 1, sonst verliere ich meinen Einsatz. X = Netto-Gewinn 18 X = 1 mit Wahrscheinlichkeit 38 X =-1 mit Wahrscheinlichkeit 20 38 20 1 E(X) = 1 · 18 + −1 · = − 38 38 19 Spiel ist unfair. Auf Dauer verlieren wir im Schnitt (2) ≈ 5 Rappen pro Spiel. Bernoulli-Verteilung X ∼ Be(p) P (X = 1) = p = 1 − P (X = 0) E(X) = 1p + 0(1 − p) = p 35 4.1. DEFINITION (3) 36 geometrische Verteilung X ∼ N b(1, b) (Negativbinominal) p(k) = (1 − p)k−1 p k = 1, 2 . . . ∞ P k−1 E(x) = kp(1 − p) k=i E(x) = p + 2p(1 − p) + 3p(1 − p)2 + 4p(1 − p)3 + . . . −(1 − p)E(x) = p(1 − p) + 2p(1 − p)2 + 3p(1 − p)3 + . . . ⇒ p (E(x)) = p + p(1 − p) + p(1 − p)2 + p(1 − p)3 + . . . ∞ P ⇒ pE(X) = p(k) = 1 ⇒ E(x) = k=1 (4) 1 p Poisson-Verteilung −λ k X ∼ PO (λ) = p(k) = e k!λ , k = 1, 2, . . . P ke−λ λk P ke−λ λk E(X) = ∞ k! = ∞ k! k=0 k=1 P e−λ λk−1 =λ ∞ (k−1)! E(X) = λ k=0 Definition. Stetig X sei stetig mit der Dichte Dann heisst R∞ E(X) = f (x) xf (x) dx der Erwartungswert von X (vorausgesetzt, dass das Integral absolut kon- −∞ vergiert). Beispiel. (1) Uniform-Verteilung X ∼ U (0, 1) R∞ R1 E(X) = xf (x) dx = 1x dx = [1/2x2 ]10 = −∞ (2) 0 1 2 E(X) = Normalverteilung X ∼ N (µ, σ 2 ) E(X) = Sei √1 σ 2π z =x−µ E(X) = R∞ xe− R∞ (z + µ)e− 2σ2 dz (x−µ)2 2σ 2 dx −∞ √1 σ 2Π Z∞ z2 −∞ Z∞ 2 z2 1 µ − 2σz√2π = √ ze dz + √ e− 2σ2 dz σ 2π σ 2π −∞ −∞ | {z } | {z } A A=0 weil R∞ B e −z 2 2σ 2 dz = − −∞ R0 −∞ 2 z − 2σ 2 ze dz B = µ, weil µ √ σ 2π 2 N(0,σ )-Verteilung ist. ⇒ (3) 1 2 Cauchy-Verteilung E(X) = µ R∞ −∞ z2 e− 2σ2 dz , das Integral der Dichte einer 4.1. DEFINITION Dichte E(X) 1 1 π 1+x2 , f (x) = 37 −∞ < x < ∞ ist undeniert: Z∞ |x| f (x) dx = 2 −∞ Z∞ x 1 dx = lim 2 k→∞ π 1 + x2 0 = lim k→∞ log(1 + x2 ) π Zk x 1 dx π 1 + x2 0 k log(1 + k 2 ) =∞ k→∞ π = lim 0 Der Median der Cauchy-Verteilung ist aber 0 Funktionen von Zufallsvariablen. Satz. A Sei Y = g(x) • Falls X diskret mit Wahrscheinlichkeitsfunktion p(X) ist: E(Y ) = Summe konvergiert absolut.( • R∞ g(xi )p(xi ) i vorrausgesetzt die |g(xi )| p(xi ) < ∞) Falls X stetig ist mit Dichte f (x) ist: E(Y ) = absolut.( R∞ g(x)f (x) dx −∞ vorausgesetzt das Integral konvergiert g(x)f (x) dx < ∞) −∞ Satz. P P B Seien X1 , . . . , Xn , Y Zufallsvariablen mit Y = g(X1 , . . . Xn ) • Falls X1 . . . Xn diskret mit gemeinsamer Wahrscheinlichkeitsfunktion p(x1 , . . . , xn ) sind, folgt: E(Y ) = P ... x1 • P g(x1 , . . . xn )p(x1 , . . . xn ) xn Falls X1 . . . Xn stetig mit gemeinsamer Dichte f (x1 , . . . , xn ) sind folgt: E(Y ) = R ... x1 R g(x1 , . . . xn )f (x1 , . . . xn )dx1 . . . dxn xn Korollar. X1 , X2 unabhängig. Dann folgt E(g(X1 ), h(X2 )) = E(g(x1 ))E(h(X2 )) vorausgesetzt E(|g(X1 )|)E(|h(X2 )|) < ∞. Beweis. (stetig) RR E(Y R RR ) = E(g(X1 )h(x2 )) = g(x1 )h(x1 )f (x1R, x2 ) dx1 dx2 = g(x1 )h(x1 )fx1 (x)fx2 (x)(x1 ) dx1 dx2 = g(x1 )fx1 (x1 ) dx1 h(x2 )fx2 (x2 ) dx2 . 4.2. VARIANZ UND STANDARDABWEICHUNG 38 Lineare Kombination von Zufallsvariablen. Der Erwartungswert ist ein linearer Operator. Satz. C X1 , . . . , Xn seien Zufallsvariablen mit Erwartungswerten E(X1 ), . . . , E(Xn ) Sei Y = a + n P bi X i i=1 Dann folgt E(Y ) = a + n P bi E(Xi ) i=1 (folgt aus Satz B (ohne Beweis)) Beispiel. (1) Y ∼ B(n, p) n n P P E(Y ) = kp(k) = k nk pk (1 − p)n−k Y = n P k=0 k=0 Xi ∼ Be(p) Xi , i=1 n P E(Y ) = E(Xi ) = i=1 n P p = np i=1 E(Y ) = np (2) Fussballbildchen erhält man in Cornakespakungen 1 pro Packung. Die Serie besteht aus n Bildchen. X =Anzahl Packungen die ich kaufen muss, bis ich die ganze Serie habe Gesucht: E(X); X1 = 1sei die Anzahl Käufe bis ich das erste Bildchen erhalte. Xr sei Pdie Anzahl Käufe nach dem (r − 1)-ten Erfol bis ich ein X= nXr Xr ist geometrischverteilt: neues Bildchen habe. r=1 Erfolgswahrscheinlichkeit = X1 ∼ N b(1, 1) X2 ∼ N b(1, n−1 n ) 1 Xn ∼ N b(1, n ) n n P P E(x) = E(Xr ) = r=1 r=1 ≈ n(log(n) + γ) für n n−r+1 n n n−r+1 gross ( γ =n n P r=1 1 r = Eulesche Konstante ≈ 0.57) E(X) wächst schneller als 4.2. Varianz und Standardabweichung X sei eine Zufallsvariable mit Erwartungswert E(X) 2 p var(X) = E((X − E(X)) ) die Varianz sd(X) = var(X) heisst die Standardabweichung. Dann heisst von X. g(x) = (x − µx )2 , var(X) = E(g(X)), Aus Satz 4.1A folgt var(X) = E(g(x)) = = R∞ −∞ g(x)f (x)dx = P i R∞ −∞ g(xi )p(xi ) = P (xi − µx )2 p(xi ) i (x − µx )2 f (x)dx (Stetig) (Diskret) µx = E(X) n!. 4.2. VARIANZ UND STANDARDABWEICHUNG 39 Beispiel. X ∼ Be(p) E(X) = p 1) var(X) = (0 − p)2 x(1 − p) + (1 − p)2 xp = p(1 − p) N (µ, σ 2 ) R∞ (x−µ)2 2 √ var(X) = E((X − µ)2 ) = (x−µ) e− 2σ2 dx σ 2Π 2) Normalverteilung z= x−µ σ Z∞ ⇒ σ2 ∞ | var(X) = σ 2 ∞ −z 2 1 √ z z e 2 dz 2Π {z } =1 A) Sei X eine Zufallsvariable mit var(X) < ∞ Sei Y = a + bX dann folgt var(Y ) = b2 var(X) Satz. Beweis. var(Y ) = E((Y − E(Y ))2 ) = E (a + bX) − (a + bE(X))2 = E b2 (X − E(X))2 = b2 var(X) Satz. B var(X) = E(X 2 ) − E(X)2 var(X) = E((X − µx )2 ) = E(X 2 − 2µx X + µ2x ) = E(X 2 ) − 2µx E(X) + µ2x ⇒ E(X 2 ) − µ2x Beispiel. 1) U ∼ U (0, 1) E(U 2 ) = E(U ) = 1/2, R1 u2 du = 0 satzB → var(U ) = E(U 2 ) − E(U )2 = 1 3 − 1 22 = 1 3 1 12 2) X ∼ P0 (µ) E(X) = µ, E(X 2 )? Trick: X 2 = X(X − 1) + X E(X 2 ) = E (X(X − 1)) + µ = µ2 + µ ∞ X k(k − 1)e−µ µk E(X(X − 1)) = k! = k=0 ∞ X k=2 = µ2 j=k−2 → = µ2 k(k − 1)e−µ µk k! ∞ X e−µ µk−2 k=2 ∞ X k=0 var(X) = E(X 2 ) − E(X)2 = µ2 + µ − µ2 = µ (k − 2)! e−µ µ2 = µ2 j! 4.3. KOVARIANZ UND KORRELATION 40 4.3. Kovarianz und Korrelation x1 , . . . , xn sind Zufallsvariablen n n P P E( Xi ) = E(Xi ), immer i=1 n P var( i=1 n P Xi ) = i=1 var(Xi ), wenn die ZV unabhängig sind i=1 Wenn die Zufallsvariablen abhängig sind, muss man Kovarianzen betrachten. X , Y seien Zufallsvariablen mit Erwartungswerten µx und µy dann heisst cov(X, Y ) = E((X − µx )(Y − µy )) (+) die Kovarianz von X und Y . Einige Regeln * cov(X, Y ) = E(XY ) − E(X)E(Y ) Beweis. Einfach von der Def ( Korollare i) ii) iii) iv) v) vi) vii) +) * folgen aus ( ) X, Y unabhängig ⇒ cov(X, Y ) = 0 cov(X, X) = var(X) cov(aX, Y ) = a cov(X, Y ) cov(X + Y, Z) = cov(X, Z) + cov(Y, Z) cov(X, a) = 0 n m n P m P P P cov(a + bi X i , c + di Yi ) = bi dj cov(Xi , Yj ) var(a + i=1 n P j=1 bi X i ) = i=1 viii) ( ) i=1 j=1 n P n P bi bj cov(Xi , Xj ) i=1 j=1 var(X + Y ) = var(X) + var(Y ) + 2 cov(X, Y )) Eigenschaften von Kovarianz. • X, Y unabhängig ⇒ E(XY ) = E(X) E(Y ) ⇒ cov(X, Y ) = 0 !! cov(X, Y ) = 0 ; X, Y unabhängig !! Gegenbeispiel: X ∼ N (0, 1), Y = X2 E(XY ) = E(X 3 ) = R∞ −∞ 3 1 2 √x e− 2 x 2π cov(X, Y ) = E(XY ) − E(X) E(Y ) = 0 | {z } | {z } | {z } 0 0 F (x, y) FX (x) ⇒ ∃x, y >0 P (X 6 x, Y 6 y) = P (X 6 x, X 2 6 y) √ √ P (− y 6 x 6 min(x, y)) √ √ FX (min(x, y)) − FX (− y) √ √ φ (min(x, y)) − φ (− y) √ √ = φ(x), FY (y) = P (X 2 6 y) = φ ( y) − φ (− y) = = = = F (x, y) 6= FX (x) FY (y) ! m n P m n P P P • cov a + bi xi , c + d j yj = bi dj cov(xi , yj ) damit i=1 ⇒ var a + j=1 n P i=1 bi xi = i=1 j=1 n P n P i=1 j=1 bi bj cov(xi , yi ) dx = 0 4.3. KOVARIANZ UND KORRELATION Falls X1 . . . X n unabhängig ⇒ var a + n X bi xi ! = i=1 n X b2i cov(xi , xi ) i=1 ⇒ n P i=1 Beispiel. n P = X ∼ B(n, p), Yi , Yi ∼ Be(p), Yi i=1 var(X) = n P var(Yi ) = i=1 Definition. X, Y b2i var(xi ) E(X) = npX unabhängig. P i=1 np(1 − p) = np(1 − p) seien Zufallsvariablen mit endlichen Varianzen dann heisst ρ= √ ρ 41 cov(X,Y ) var(X)var(Y ) Korrelation . misst die Stärke des linearen Zusammenhangs zwischen X und Y. Satz. (ohne Beweis) i) 1 6 ρ 6 1 ii) ρ = ±1 ⇔ P (Y = a + bX) = 1 für Konstanten a, b ∈ Rb 6= 0 Beispiel. X, Y Y. seien gemeinsam normalverteilt mit Parameter µx , µy , σx , σy , ρ. Dann ist ρ die Korrelation von X und KAPITEL 5 Grenzwertsätze X: Gewinn beim Glücksspiel. Spiel wird wiederholt: X1 . . . X n Sn Der durchschnittliche Gewinn (arithmetisches Mittel) n = n P Xi i=1 n Der Erwartungswert wurde als einen idealisierten durchschnittlichen Gewinn bei unendlich vielen Wiederholun- Sn n ,n gen interpretiert: → ∞. Das Gesetz der grossen Zahlen macht diese Überlegung präziser. 5.1. (schwaches) Gesetz der grossen Zahlen Sei Sei X1 . . . X n Sn n Xn = eine Folge von unabhängigen Zufallsvariablen, identisch verteilt mit = 1 n n P Xi . Dann i=1 konvergiert X n gegen µ E(Xi ) = µ und var(Xi ) = σ 2 . in Wahrscheinlichkeit . ε>0 P (|X n | > ε) → 0 für n → ∞ D.h für jedes Beispiel. Simuliere X1 , X 2 , . . . von einer Verteilung. Plotte Xn gegen n für n = 1, 2, . . . A) 5000 Gaussverteilte Zufallsvariablen Das arithmetische Mittel konvergiert gegen Null. Es gilt das Gesetz der grossen Zahlen. B) 5000 Cauchy-verteilte ZV Unterliegt nicht dem Gesetz der grossen Zahlen. Arithmetisches-Mittel konvergiert nicht und bleibt auch bei grossem n unberechenbar E(X) ist undeniert. Die Chebyshev Ungleichung X sei eine Zufallsvariable mit E(X) = µ und var(X) = σ 2 ∀t > 0 gilt P (|X − µ| > t) 6 Lemma. σ2 t2 Beweis. (stetig) A = {x : |x − µ| > t} P (|X − µ| > t) = R f (x)dx A Für x ∈ A, gilt (x−µ) t2 P (|X − µ| > t) = R 2 >1 f (x)dx 6 A R A (x−µ)2 f (x)dx t2 6 R∞ −∞ (x−µ)2 f (x)dx t2 6 1 t2 R∞ (x − µ)2 f (x)dx das Integral ist σ2 −∞ Beweis des Gesetzes der grossen Zahlen E(X n ) = 1 n var(X n ) = Chebyshev n P E(Xi ) = µ i=1 1 n2 n P i=1 var(X) = σ n ⇒ P (|X n − µ| > ε) 6 var(X n ) ε2 6 σ für n→∞ −→ nε2 0 42 5.2. ZENTRALER GRENZWERTSATZ Bemerkung. Starkes Gesetz der grossen Zahlen n→∞ Xn → µ 43 fast sicher P ({ω : X n (ω) → µ, n → ∞}) = 1 Anwendung Monte Carlo Integration Problem: I= R1 g(x)dx ist schwierig zu berechnen. 0 =1 Sei U ∼ U (0, 1) I = E(g(U )) = R1 0 Seien U1 . . . Un unabhangig und identisch Gesetz der Grossen zahlen(GZ) ⇒ Lösung Berechne Simuliere 1 n n P U1 . . . Un , n 1 n n P U (0, 1) z}|{ g(x) f (x) dx verteilt. n→∞ g(Ui ) → E(g(U )) = I i=1 gross (z.B. n = 106 ) g(Ui ) i=1 5.2. Zentraler Grenzwertsatz Sei Sei X1 , X2 , . . . eine unabhängig, identisch verteilte Folge von Zufallsvariablen n P −µn 6 x = Φ(x), ∀x ∈ R . Sn = (Xi ). Dann lim P Sσn √ n mit E(Xi ) = µ und var(xi ) = σ 2 n→∞ i=1 Bemerkung. Sn √ −µn ist die Standardisierung von σ n 2 Sn √ −µn var( σ n ) = nσ1 2 var(Sn ) = nσ nσ 2 = Für n Sn denn −µn E( Sσn √ )=0 n 1 gross genug: Sn √ −µn σ n 2 X n ≈ N (µ, σn ) Sn ≈ N (µn, nσ 2 ) ≈ N (0, 1) Beispiel. Uniform Verteilung Ui ∼ U (− 21 , 12 ), Ui = Ũi − E(Ui ) = E(Ũi ) − 1 2 U1 , . . . , Un 1 2 mit Ũi ∼ U (0, 1) =0 var(Ui ) = var(Ũi ) = 1 12 , Sn = n P Ui i=1 1 S12 ≈ N (0, 12 12 ) = N (0, 1) Beispiel. Eine Normalannäherung für die Binominalverteilung Münzwurfexperiment: Würfe n=100, Anzahl Kopf = 60 Ist die Münze fair? Annahme: X1 . . . Xn u.i.v. (unabhängig identisch verteilt) S100 ∼ B(100, 100 100 X P 100 1 k 1 100−k P (S100 = k) = > 60) = k 2 2 k=60 k=60 | {z } Anzahl Kopf: P (S100 1 2) Normal-Annäherung µ = E(Xi ) = 1 2 (p) mühsam zu rechnen ∼ Be( 12 ) (Xi sind Indikatoren für einen Kopf ) 5.2. ZENTRALER GRENZWERTSATZ σ 2 = var(Xi ) = 1 4 (p(1 − p)) Zentraler Grenzwertsatz P (S100 > 60) = 44 ⇒ S100 ≈ N ( 12 · 100, 14 · 100) ∼ N (50, 25) S100 −50 > 60−50 6 2) ≈ 1 − Φ(2) = 0.028 5 ) = 1 − P( 5 P ( S1005−50 Wenn die Münze fair wäre, dann wäre die wahrscheinlichkeit für S100 > 60 sehr klein.( → Münze ist kaum fair) Teil 2 Statistik KAPITEL 6 Statistik In der Statistik will man aus beobachteten Daten Schlüsse ziehen. 6.1. Beschreibende Statistik Daten: x1 , . . . , xn Annahme: Gesucht: Die Daten sind Realisierung von Zufallsvariablen. Eine geeignete Verteilung. Stichprobe : die Gesamtheit der Daten Sichprobenumfang : ihre Anzahl Graphische Darstellung : Die Werte werden Für jeden Wert fi : y Falls yi x(1) 6 x(2) 6 . . . 6 x(n) Die Daten werden geordnet: m P fi = n, [Ordnungsstatistiken] genannt. wird die zugehörige Häugkeit fi n relative Hügkeit. n n y1 < y2 , . . . < ym , m 6 n Häugkeit von Wert ri = X1 , . . . , X2 fi abgezählt. m P ri = 1 i=1 gross ist oder die Häugkeiten fi klein sind, werden benachbarte Werte zu einer Klasse zusammengefasst. i=1 Der Wertebereich wird in disjunkte Intervalle unterteilt. Faustregel : • • Anzahl Klassen sollte in der Grössenordnung √ n sein Klassenbreite sollte für alle Klassen gleich sein. Histogramm : Die Häugkeiten der klassierten/unklassierten Daten kann in einem Histogramm dargestellt werden. Dies hilft uns, die Form einer geeigneten Dichte-/Wahrscheinlichkeitsfunktion zu erkennen. Die empirische Verteilungsfunktion. Fn (y) = Anzahl der xi 6y Man plottet n [schätzt F (y), die wahre Verteilungsfunktion. ] {(yi , Fn (yi )), i = 1, . . . , m} Das hilft uns, die Form einer geeigneten Verteilungsfunktion zu erkennen. Masszahlen : x1 +...+xn n n P 1 s2 = n−1 (xi i=1 x= s heisst Mittelwert der Stichprobe. 2 − x) empirische Varianz empirische Standardabweichung. α-Quantil: k = [αn] + 1 ([..] bedeutet αn nicht ganzzahlig: x(k) Das empirische nimm Integeranteil) α 45 ganzzahlig: 1 2 (xk + xk+1 ) 6.2. ANPASSUNG DER POISSON-VERTEILUNG 46 Beispiel. n = 100 ⇒ αn = 75 α = 75% k = 76 (ganzzahhlig) n = 101 ⇒ 75 < αn < 76 α = 75% k = 76 ⇒ x(76) Boxplot : ⇒ x(76) +x75 empirisches 75 % -Quantil 2 Empirischer Median = Empirisches 50% Quantil Eine graphische Darstellung der empirischen Quantile =d empirisches 75% Quantil =b empirischer Median δ Skala empirisches 25% Quantil = a =c d = grösster Wert δ xi , damit |xi − b| < 1.5 · δ ausreisser = interquantile range c = der kleinste Wert xi , damit |xj − a| < 1.5 · δ Q-Q-Plot (Quantil-Quantil-Plot) : Man vergleicht die empirischen Quantile der Daten mit den theoretischen Quantilen einer Referenzverteilung (in der Regel der Gaussverteilung) Hypothese : wartet x1 , . . . , xn stammen von −1 x[αn]+1 ≈ Fµ,σ (α) = µ + σΦ−1 (α) | {z } | {z } Daten empirisch Man erwartet: Q-Q-Plot N (µ, σ 2 )-Verteilung mit Verteilungsfunktion Fµ,σ i = [αn] + 1 ⇒ i−1 n ≈α theoretisch x(i) ≈ µ + Φ−1 ( i−1 n ), (Φ−1 ( Normalverteilt einer i− 21 n ), x(i) ), i = 1...,n i = 1, . . . , n) man erwartet eine Gerade mit der Steigung langschwänzig kurzschwänzig schiefe Verteilung 6.2. Anpassung der Poisson-Verteilung Beispiel. Radioaktiver Zerfall von Gesucht : Am245 , α- 1 σ Teilchen werden emittiert. Ein Modell für die Anzahl Emissionen in einem Intervall von 10 Sekunden. Man er- 6.2. ANPASSUNG DER POISSON-VERTEILUNG Daten : 47 Die Betrachtungsperiode wird in 1207 Intervallen von 10 Sekunden unterteil. In jedem Intervall wird die Anzahl Emissionen gezählt. Modell : Poisson (Wie Ankunft von Anrufen) Annahme : Die rohen Daten x1 , . . . x1207 sind realisierung von unabhängig identisch verteilten Zufallsvariablen X1 , . . . X1207 p(k) = P (X = k) = mit Wahrscheinlichkeitsfunktion Anpassung λ = E(X) und mit x geschätzt. (Methode heisst n P λ̂ = x = n1 xi ist der Schätzwert (eine Zahl) Notation λ̂ = X = λk e−λ k! Momentenmethode) i=1 1 n n P Xi ist der Schätzer (eine Zufallsvariable) i=1 Mit anderen Realisierungen von X1 , . . . X1207 hätten wir eine andere Realisisierung des Schätzers. Der Schätzer hat seine eigene Verteilung. µ̂ = 8.392 (Messung hat durchschnittlich 8.392 Emissionen pro 10s ergeben) Das Modell ist gettet. Nun wird die Anpassung kritisch überprüft. Chiquadrat-Anpassungstest ( χ2 ) Klasseneinteilung : x1 , . . . , x1207 y1 = |{i : 0 ≤ xi ≤ 2}| y2 = |{i : xi = 3}| = 18, Anzahl Intervalle mit 0-2 Emissionen . . . y16 = |{i : xi ≥ 17}| Y1 . . . Y16 i = 1, . . . , 16 2 P π1 = P (0 6 X 6 2) = p(k) π2 = P (X = 3) = p(3) = Diese sind Realisierungen von Zufallsvariablen Yi ∼ B(1207, πi ), k=0 [Y1 , . . . , Y16 haben E(Yi ) = 1207 · πi λ̂3 e−λ̂ k! ... π16 = P (X ≥ 17) = 1 − n P p(k) k=0 eine multinomiale Verteilung ] Klasse Beobachtete Häugkeit Erwartete Häugkeit j yj E(Yi ) 0-2 18 12.2 3 28 27 4 56 56.5 5 7.1 . . . 17+ Die Übereinstimmung zwischen den beobachteten und erwarteten Häugkeit wird anhand der PearsonStatistik beurteilt: Z2 = 16 P j=1 Theorie : Z2 ist annäherend χ2 -verteilt (Yj −E[Yj ])2 E(Yj ) mit 14 Freiheitsgraden. Bemerkung. - Je grösser Z2 ist, desto schlechter stimmt die Hypothese. - Anzahl Freiheitsgrade [FG] = Anzahl Klassen - Anzahl geschätzter Parameter - 1 = 16 − 1 − 1 = 14 χ2 - 6.3. ANPASSUNG DER NORMALVERTEILUNG 48 Z 2 = 8.99 Hier: Frage : ist dieser Wert konsistent mit einer Antwort : p-Wert berechnen p∗ = P (Z 2 > 8.99| Modell ist richtig ) χ214 -Verteilung. = 0.83 Regel : Ist der p-Wert klein (< 0.05), dann wird das Modell verworfen, d.h die Anpassung ist schlecht. Hier : Modell passt p-Wert : wenn das Modell richtig ist und wir das Experiment wiederholen würden, dann hätten wir das Ereignis einer gleichen oder noch extremeren p-Wert zu erhalten, die Wahrscheinlichkeit 0.83. Etappen einer parametrischen, statistischen Analyse (1) Beschreibende Statistik (2) Wahl eines Modells (3) Schätzung des/der Parameter (4) Kritische Modellprüfung (5) Standardfehler / Vertrauensintervalle für geschätze Parameter. Standardfehler von µ̂ n P P Xi , damit E(µ̂) = n1 E(Xi ) = i=1 P µ 1 1 var(µ̂) = n var(Xi ) = n · µ = n µ̂ = ⇒ 1 n 1 n nµ =µ (erwartungstreu) ( µ̂ Standardfehler = geschätzte Standardabweichung = q = λ̂) µ̂ n Mass der Präzision des Schätzers Vertrauensintervall Gesucht ZGS: X−µ √ µ n Verteilung von µ̂ = X X ∼ N (µ, nµ ) ∼ N (0, 1) Wir wollen: P √ µ 6 Z1− α −Z1− α2 6 X−µ 2 ≈ 1 − α, α = 0.05 (0.01) n Schreibweise Z1− α2 =z( b α2 ) pµ Wir setzen nun für ⇒ n eine Schätzung, nämlich q µ̂ n mit Einsetzen und Umformen P X − z1− α2 q µ̂ n ein. 6 µ 6 X + Z1− α2 q d.h. also mit Wahrscheinlichkeit 1 − α liegt µ im Intervall q q µ̂ X − Z1− α2 n , X + Z1− α2 nµ̂ = 100% (1 − α)-Vertrauensintervall µ̂ n =1−α (VI) Beispiel. 8.392 ± 1.96 · 0.028(α = 0.05, 95%V I) 6.3. Anpassung der Normalverteilung Gegeben : iid (identisch,unabhängig)- verteilte Stichprobe X1 . . . Xn Annahme : X ∼ N (µ, σ2 ) (X : irgendeine Messgrösse, Summe) Parameterschätzung : (Momenten Methode) µ = E(X) P geschätzt µ̂ = X = n1 Xi 1. Moment: mit arithmetischem Mittel: 6.3. ANPASSUNG DER NORMALVERTEILUNG 49 P 2 E(X 2 ) geschätzt mit n1 Xi 2 2 2 Also: σ = E(X ) − E(X) n P 2 P 2 2 Xi2 − 2X · X + X = σ̂ 2 = n1 Xi − 2X = n1 2. Moment: 1 n P Xi2 − 2X) n1 P i=1 2 x1 + X = Modellprüfung / Anpassungstest : Standard von 1 n n P (Xi − X)2 i=1 Normal-Q-Q-Plot µ̂ Gesucht : Verteilung X P Xi ∼ N (µ, σ 2 ) ⇒ Xi ∼ N (nµ, nσ 2 ) (Faltungsformel) σ2 Also X ∼ N (µ, n ) (mit linearer Transformation) σ Standardfehlernorm X : √ , n √P (Xi −X̂)2 σ̂ Dieser Schätzer wir durch √ = n n Vertrauensintervall 1. Ansatz : Nehme an, dass wir das wahre σ kennen, resp. unsere Schätzung σ̂ dem wahren X−µ √ 6 Z1− α = 1 − α P −Z1− α2 6 σ/ n 2 σ ⇔ P X − Z1− α2 √n 6 µ 6 X + Z1− α2 = 1 − α ⇒ (1 − α)100%− VI ist X ± Z1− α2 √σn normal- α = 0.05, 0.01 ⇒ Z1− α = 1.96, 2.57 2 Bemerkung. :σ nennt man ein Störparameter → Satz. X1 . . . X n Dann: Unbefriedigend ⇒σ meist unbekannt. unabhängige Stichprobe mit Xi ∼ N (µ, σ 2 ) ∀i dann i) (Xσi −X) ∼ χ2 -verteilt und (n − 1) FG 2 P ii) X und (Xi − X)2 sind unabhängig X−µ √ n iii) r Pσ(X −X) ∼ t-Verteilt mit (n − 1) FG ∼ tn−1 2 2 P i (n−1)σ 2 2. Ansatz : √ n(X−µ) rP (Xi −X)2 (n−1) Kennen σ nicht! ∼ tn−1 P −tn−1 ( α2 ) 6 X−µ sP ⇒ P X − tn−1 (Xi −X)2 (n−1) √ n α rP (Xi −X)2 (n−1) √ 2 6 tn−1 ( α2 ) = 1 − α n 6 µ 6 X + tn−1 (1 − α)100% − VI Bemerkung. tn−1 α 2 = b tn−1,1− α2 ist das Bedeutung des VI für Parameter • • (1 − α rP (Xi −X)2 (n−1) √ 2 n =1−α α rP (Xi −X)2 (n−1) √ X ± tn−1 2 n α ) -Quantil der t-Verteilung. 2 µ Das Intervall enthält den wahren Parameter µ mit Wahrscheinlichkeit Das Intervall wird aus einer zufälligen Realisation x1 , . . . , xn 1 − α. berechnet. σ entspricht. 6.4. ALLGEMEINE METHODEN ZUR PARAMETERSCHÄTZUNG • Intervall ist zufällig (der wahre Parameter Bemerkung. Vetrauensintervall [V I]= b µ 50 ist fest). Kondenzintervall [KI] 6.4. allgemeine Methoden zur Parameterschätzung 1.Momentenmethode Das k-te Moment einer ZV Seien ⇒ µˆk X1 , X 2 , . . . , XN (resp. einer Verteilung F (X)) ist deniert durch iid ZV'en irgendeiner Verteilung, dann heisst ist ein Schätzer von Allgemein : X µˆk = 1 n P i=1 µk = E(X k ). n(Xik ) das k-te Stichprobenmoment µk . Verteilung mit Parametern Θ1 . . . , Θm können durch µ1 , . . . , µn Θ1 = f1 (µ1 , µ2 , . . . , µn ) Θ1 . . . , Θm ausgedrückt werden . . . Θm = fm (µ1 , µ2 , . . . , µn ) b i = fi (µ̂1 , . . . , µ̂n ) Dann: Θ ist der Momentenschätzer für Θi Eigenschaften der Θ's Sei Θ̂n ein Schätzer von Θ, welcher auf einer Stichprobe der Grösse Θ̂n erwartungstreu falls E(Θ̂n ) = Θ heisst Θ̂n konsistent , falls für alle > 0 P (|Θ̂n − Θ| > ) → 0 falls n → ∞ (d.h Der n basiert, dann i) heisst ii) Schätzer konvergiert in W'keit gegen Θ). Bemerkung. i) Aus dem Gesetz der grossern Zahlen folgt, dass die Stichprobenmomente gegen die theoretischen Momente konvergieren. ii) Falls die fi stetig sind, konvergieren die Momentenschätzer gegen die (unbekannten) Parameter. 2. Maximum-Likelihood-Methode Einleitendes Beispiel Wir machen 10 Würfe mit einem Würfel: p die 1 xi = 0 Sei Wahrscheinlichkeit einer 6. i−terWurf = 6 sonst Wir erhalten 3 Sechser.( Momentenschätzer: Jetzt MLE x3 , x5 , x8 ) µ̂ = x = 1 10 10 P xi = 0.3 i=1 (Maximum-Likelihood-Estimate) 6.4. ALLGEMEINE METHODEN ZUR PARAMETERSCHÄTZUNG 51 P (x3 = x5 = x8 = 1, x1 = 0 i 6= 3, 5, 8|p) = p3 (1 − p)7 maximal wird (W'keit hängt von unbekanntem Paramter p ab) d.h. wir suchen p so, dass die Wahrscheinlichkeitk, dass das beobachtete Ereignis eintritt, maximal wird Fordern, dass ∂ ∂p P (. . .) = 3p2 (1 − p)7 + p3 7(1 − p)6 (−1) = 0 ⇒ 3(1 − p) = 7p ⇔ 3 = 10p ⇔ µMLE = 0.3 ableiten: Allgemein: Xn ZV's mit gemeinsamer Dichte f (x1 , . . . , xn | Θ1 , . . . , Θm ). Xi = xi , i = 1, . . . , n heisst Lik(Θ1 , . . . , Θm ) = f (x1 , . . . , xn | Θ1 , . . . , Θm ) die Likelihood-Funktion von ( Θ1 , . . . , Θm ) ML-Schätzung der Θ's sind diejenigen Θ's, welche die Likelihood-Funktion (global) maximieren. Seien X1 bis Realisation: Spezialfall Seien die Xi 's u.i.v. ZV (iid) Dann ist die Likelihood-Funktion das Produkt der eindimensionalen Dichten: Lik(Θ1 , . . . , Θm ) = n Y f (xi |Θ1 , . . . , Θm ) i=1 Es ist oft einfacher, mit der Log-Likelihood-Funktion zu arbeiten: L(Θ1 , . . . Θn ) = n X log(f (xi |Θ1 , . . . , Θm ) i=1 Beispiel. 1) Poisson Verteilung −λ k P (X = k) = e k!λ n Q e−λ λxi Lik(λ) = xi ! 0 L (λ) = ⇒ λ̂ = i=1 n P 1 λ 1 n xi − n = 0 xi = x = L(µ, σ) = n Q i=1 n P i=1 ∂L(µ,σ) ∂µ ⇒ #2 ⇒ i=1 Momentenschätzer i=1 Lik(µ, σ) = #1 i=1 i=1 n P 2)X1 , . . . , Xn u.i.v ∂L(µ,σ) ∂σ X1 . . . Xn u.i.v. ∼ P o(λ) x1 . . . xn Realisationen. n n n P P P L(λ) = (xi log λ − λ − log xi !) = log λ xi − nλ − log xi ! √1 1 e 2π σ 1 σ2 = + µ̂ = x s σ̂ = n P x1 , . . . , xn − 1 (xi −µ)2 2 σ2 (− 12 log(2π) − log σ − −n σ = ∼ N (µ, σ 2 ) 1 2σ 2 (xi − µ)2 ) (xi − µ) = 0 #1 n P #2 i=1 1 σ3 1 n (xi − µ)2 = 0 i=1 n P (xi − x)2 i=1 3) Gamma Verteilung X 1 , . . . X2 Lik(α, λ) = n Q i=1 u.i.v.∼ 1 α α−1 −λxi e Γ(α) λ xi Ga(α, λ) i=1 6.5. ALLGEMEINE TESTTHEORIE L(α, λ) = n P (− log Γ(α) + α log λ + (α − 1) log xi − λxi ) i=1 ∂L(α,λ) ∂α = −n Γ̇(α) Γ(α) + n log λ + ∂L(α,λ) ∂λ #2 ⇒ λ̂ = 52 = nx λ − n P n P log xi = 0 #1 i=1 xi = 0 #2 i=1 α̂ x #1 Wenn man das Resultat von #2 in #1 einsetzt, erhält man eine Gleichung für α̂, die mit numerischen Methoden gelöst werden muss. M-L-Schätzer 6= Momentenschätzer 6.5. Allgemeine Testtheorie Allgemeine Problemstellung: Unterscheidung zwischen Verteilungen anhand von Stichproben. In der NeymanPearson-Testtheorie wird eine Nullhypothese ( H0 ) mit einer alternativen Hypothese ( HA ) verglichen Beispiel. Wir haben eine Stichprobe µ1 H0 : µ = µ1 HA : µ = µ2 entweder oder µ2 . X1 . . . X n aus einer Normalverteilung, N (µ, σ 2 ) mit bekannter Varianz σ2 . µ ist Wir müssen entscheiden: Beispiel. 2) Anpassungstest X1 . . . Xn sei eine Stichprobe aus einer H0 : Die Verteilung ist Poisson HA : Die Verteilung ist nicht Poisson diskreten Verteilung Zweite Variante (2b) H0 : Die Stichprobe ist Poissonverteilt mit dem Parameter µ = µ0 HA : Die Stichprobe ist Poissonverteilt mit dem Parameter µ = 6 µ0 Einfache und Zusammengesetzte Hypothesen Wenn unter einer Hypothese die Verteilung und ihre Parameter fest sind, heisst die Hypothese einfach. Beispiel. H0 H0 und HA in 1 in 2b Wenn aber die Verteilung nicht eindeutig festgelegt wird, heisst die Hypothese zusammengesetzt . Beispiel. H0 und HA HA in 2b in 2 Beispiel. 3) Experiment bei einer Studie der aussersinnlichen Wahrnehmung 52 Spielkarten, n Karten werden zufällig gezogen und zurückgelegt. Ohne sie zu sehen muss ich bei jeder Karte erraten was die Farbe ist (Herz, Karo, Kreuz, Pik) X. H0 : X ∼ B(n, 41 ) keiner hellseherische HA : X ∼ B(n, p), p > 14 H0 einfach, HA zusammengesetzt Die Anzahl Erfolge sei Fähigkeit 6.5. ALLGEMEINE TESTTHEORIE 53 Einseitige und Zweiseitige Alternativen HA in 3 ist eine einseitige Annahme H0 in 2B ist eine zweiseitige Annahme Das hängt davon ab, welche Alternativen von der Nullhypothese interessant sind. Der Neyman-Pearson Ansatz Daten X1 , . . . , Xn H0 Nullhypotheses Wir wählen eine Falls Falls Alternativenhypotheses HA (beide einfach) Teststatistik T (X). X = (X1 . . . Xn ) und denieren einen Verwerfungsbereich R. T (X) ∈ R, T (X) 6∈ R, wird wird H0 H0 verworfen angenommen Zwei Arten von Fehlern sind möglich. Fehler 1. Art : H0 stimmt, wird aber verworfen. α = P (Fehler1. Art ) = P (T (X) ∈ R|H0 ) = PH0 (T (X) ∈ R) α heisst auch das Signikanzniveau des Tests, z.Bsp 5 % Fehler 2. Art : H0 β = P (Fehler stimmt nicht, wird aber akzeptiert 2. Art ) = P (T (X) 6∈ R|HA ) = PHA (T (X) 6∈ R) Normales Verfahren : Die Macht wähle eines Tests ist α, R. nde geeignetes 1 − β = P (H0 wird verworfen |HA ) = P (H0 wird zurecht verworfen ) Zusammengesetzte Hypothese H0 : θ ∈ Θ0 α = max P (T (X) ∈ R|Θ) HA : θ ∈ ΘA θ∈Θ0 β = P (T (X) 6∈ R|θ), θ ∈ ΘA (ohne Funktion von ΘA ) Beispiel. A (Münze 10 mal werfen) X sei B(10, p)-verteilt H0 : p = 0.5 (einfach) (Münze fair) HA : p > 0.5 (zusammengesetzt, einseitig) Test-Statistik X R = {X > c} c=7 H0 irrtümlich c=6 mögliche Werte Xi : Anzahl Kopf (Verdacht Münze kam zu oft) Ω = {0, 1, . . . , 10} c∈Ω (Verwerfungsbereich), für ein festes Signikanzniveau = α = P (X > 7|H0 ) 1 − P (X ≤ 7|H0 ) = 0.55 ⇒ α = −172 Wir legen das Signikanzniveau bei α = 0.55 fest; also c = 7 HA : p > 0.5, β(p) = P (X ≤ 7|p), H0 irrtümlich akzeptiert verworfen = Wahrscheinlichkeit des Fehlers 2. Art Macht des Tests p = 0.6 β(p) = 0.833 p = 0.7 β(p) = 0.617 p→1 β(p) → 0 p→1 β(p) → 1 − α 1 − β(p) = 0.176 1 − β(p) = 0.383 1 − β(p) → 1 1 − β(p) → α Macht eines Tests: Wahrscheinlichkeit, dass Die Machtfunktion H0 zurecht verworfen wir. p > 0.5 6.5. ALLGEMEINE TESTTHEORIE 54 mehr Daten - mehr Experimente X sei B(20, p)-verteilt H0 : p = 0.5 R = {X > c} H0 zurecht 1 − β(p) Wahrscheinlichkeit Fehler 2. Art p HA : p > .5 α = P (X > 13|H0 ) = 0.58 c = 13, Wahrscheinlichkeit β(p) 0.6 0.75 0.25 0.7 0.392 0.608 ⇒ mehr Experimente Macht ist grösser mehr Daten Beispiel B X1 , . . . , Xn uiv ⇒ mehr Macht ∼ N (µ, σ 2 ) HA : µ 6= µ0 H0 : µ = µ0 X= 1 n n P √ n(X−µ) Im Modell gilt: s n Xi (Xi −X)2 i=1 n−1 P i=1 √ Test-Statistik: T (X) = verwofen zweiseitig ∼ tn−1 s= s n P (Xi −X)2 i=1 n−1 n(X−µ0 ) s Überlegung: Diese Nullhypothese wird verworfen falls |T (X)| unter H0 für eine t-Verteilung untypisch gross ist. mit n-1 Freiheitsgraden. R = {|T (X)| > tn−1 ( α2 )}, wobei tn−1 ( α2 ) = √ α P n(X−µ) > t ( )|H n−1 0 S 2 α Quantil der tn−1 -Verteilung (Signikanzniveau) wird festgelegt Test: Verwirf H0 falls |T (X)| > tn−1 α 2 R = {x : |x| > Überprüfen des Signikanzniveaus P (T (X) ∈ R|H0 ) = P |T (X)| > tn−1 | {z } α 2 H0 irrtümlich verworfen α 2 } Verwerfungsbereich √ |H0 = P n(X−µ) > tn−1 s α 2 |H0 Wahrscheinlichkeit eines Fehlers 2. Art : √ β(µ) = P (| Macht 6 tn−1 (Wahrscheinlichkeit, 1 − β(µ) HA Unter n(X−µ0 ) | s hat T (X) Zahlenbeispiel α 2 H0 |µ) zurecht verworfen wird): eine nicht-zentrale t-Verteilung. Es ist möglich β(µ) zu berechnen. Ein Bäcker behauptet: meine Brötchen wiegen im Schnitt genau 70 g . Eine Nachkontrolle von Brötchen ergab folgende Gewichte: 69,70,71,68,67,70,70,70,67,69 Modell X1 , . . . X2 u.i.v.N (µ, σ 2 ), x = 69.1 < 70 n = 10 H0 wird verworfen falls | √ n(X−µ0 ) | s > tn−1 σ unbekannt H0 : µ = 70 HA : µ 6= 70 Sicht des Bäckers s = 1.37 α = 0.05 t9 α2 = 2.26 √ α 0) | n(X−µ | = 2.08 < 2.26 2 s 6.5. ALLGEMEINE TESTTHEORIE H0 H0 wird nicht verworfen. Falls wäre, α 2 t9 = 1.83 würde verworfen. Aber die Chance eines Fehlers 1.Art ist vielleicht zu gross. Bemerkung. 1 H0 ⇔ α = 10% 55 √ wird verworfen,falls n(X−µ0 ) s > tn−1 α 2 √ oder n(X−µ0 ) s < −tn−1 α 2 √s tn−1 α 2 n + √sn tn−1 α2 falls µ0 < X − oder µ0 < X µ0 nicht im 100(1 − α)%-Vertrauensintervall für µ liegt. µ = Werte µ0 , wofür bei einem Test vom Niveau α die Nullhypothese H0 : µ = µ0 in anderen Worten, falls 100(1 − α)%−VI für verworfen wird Bemerkung. 2 Der einseitige Test Wir testen: H0 : µ = 70 HA : µ < 70 Ein Kunde interessiert sich nur für negative Abweichungen. √ 0) H0 falls T (X) = n(X−µ < −tn−1 (α) ist. s R = {x : x < −tn−1 (α)} P (T (X) ∈ R|H0 ) = P (T (X) < tn−1 (α)|H0 ) = α α = 0.05 tn−1 (α) = 1.83 H0 wird verworfen. Mehr Macht beim einseitigen Test mit Ich verwerfe √ n(x−70) s = −2.08 < −1.83 dem gleichen Niveau. Neyman-Pearson Lemma Das Konzept eines besten Testes Wir betrachten zwei einfach Hypothesen H0 : X1 , . . . Xn haben eine gemeinsame Dichte f0 (x) HA : X1 , . . . Xn haben eine gemeinsame Dichte fA (x) Gesucht ist ein Test mit den Eigenschaften: (1) (2) α 6 α0 für ein vorgegebenes α0 1 − β möglichst gross Einen solchen Test nennt man besten Test von Niveau Wir denieren den Falls l Test: Likelihood-Quotient : l = α0 . f0 (X) fA (x) klein ist, sind die Daten unter der alternativen Hypothese wahrscheinlicher. Wir verwerfen die Nullhypothese H0 falls l klein ist. (ohne Beweis) Sei dieses α0 vorgegeben. Wir können einen Test konstruieren, damit: Lemma. (1) (2) α = α0 H0 verworfen wird falls f0 (X) fA (X) <k Dieser Test ist der beste Test vom Niveau α0 Beispiel. A 2 X ∼ B(10, p) f0 (x) = p0 (x) = H0 : p = 0.5 10 x x 10−x · 0.5 0.5 HA : p = 0.6 fA (x) = pA (x) = · 0.6x 0.410−x 10 x nicht 6.6. VERGLEICH VON 2 BEHANDLUNGEN f0 (x) fA (x) 5 x 6 = 56 5 10−x 4 4 x 6 Likelihood-Quotient = H0 , Wir verwerfen falls 5 10 4 X>7 f0 (x) fA (x) <k entspricht x>c c = 7, α0 = P (X > c|H0 ) = 0.055 ist. Dieser Test ist der beste Test vom Niveau 0.055. HA zusammengesetzt Ein Test, welcher für jede einfache alternative Hypothese in der Menge bester Test. A 2: HA p > 0.5 HA der beste ist, heisst ein gleichmässig Unser Test ist der gleichmässig beste Test. Bemerkung. • • Für einseitige Tests existiert manchmal ein gleichmässig bester Test . Für zweiseitige Tests existiert kein gleichmässig bester Test. 6.6. Vergleich von 2 Behandlungen T-Test: 2-Stichproben-Version (ungepaart) X1 , . . . Xn u.i.v. N (µ1 , σ 2 ) Y1 , . . . Ym u.i.v. N (µ1 , σ 2 ) H0 : µ1 = µ2 , µ1 − µ2 = 0 HA : µ1 6= µ2 , µ1 − µ2 6= 0 Beispiel. zufälliger Ordnung von 100 Testpatienten zu einer Grupp der Grösse 60 mit Medikamenten-Behandlung und zu einer anderen Gruppe der Grösse 40 mit einem Placebo behandelt. 2 2 X ∼ N (µ1 , σn ) Y ∼ N (µ2 , σm ) X − Y ∼ N (µ1 − µ2 , σ 2 ( n1 + (X−Y )−(µ1 −µ2 ) 1 m )) σ √1 1 n+m ∼ N (0, 1) Section 6.3 n P i=1 n P i=1 (Xi −X)2 σ2 ∼ χ2n−1 (Xi −X)2 σ2 + j=1 m P j=1 Schätzer für √1 1 n+m Teststatistik Unter H0 H0 (Yj −Y )2 σ2 σ:S= (X−Y )−(µ1 −µ2 ) S m P ist s n P ∼ χ2n+m−2 (Xi −X)2 + i=1 (X−Y ) √1 1 n+m (Yj −Y )2 j=1 n+m−2 ∼ tn+m−2 , S m P t-Verteilung = T (X, Y ) T (X, Y ) ∼ tn+m−2 wird verworfen falls Der gepaarte Test |T (X, Y )| > tn+m−2 α 2 (Yj −Y )2 σ2 ∼ χ2m−1 6.6. VERGLEICH VON 2 BEHANDLUNGEN 57 Beispiel. Vergleich zweier Reifentypen, wo bei jedem Testfahrzeug und jedem Fahrer beide Reifentypen verwendet werden. X1 , . . . , Xn u.i.v. N (µ1 , σ 2 ) Reifentyp 1 Y1 , . . . , Yn u.i.v. N (µ2 , σ 2 ) Reifentyp 2 Zi = Xi − Yi , i = 1, . . . , n δ = µ1 − µ2 : H0 : δ = 0 Wie haben wieder einen 1-Stichproben-Test. Z1 , . . . , Zn u.i.v. N (µ1 − µ2 , 2σ 2 ) HA : δ 6= 0