Jan Kallsen Stochastik für Lehramtsstudierende CAU Kiel, SS 2014, Stand 14. Juli 2015 Inhaltsverzeichnis 1 2 3 Grundbegriffe der beschreibenden Statistik 1.1 Grundgesamtheit, Merkmale, Stichproben . . . . . . . . . . . . 1.2 Empirische Verteilung von Merkmalen . . . . . . . . . . . . . . 1.3 Lage- und Streuungsmaße . . . . . . . . . . . . . . . . . . . . 1.3.1 Beschreibung des Zentrums der Daten . . . . . . . . . . 1.3.2 Beschreibung der Streuung der Daten . . . . . . . . . . 1.3.3 Weitere Maßzahlen für die Form der Daten . . . . . . . 1.3.4 Maßzahlen für gemeinsames Verhalten bivariater Daten . 1.4 Methode der kleinsten Quadrate (empirische Regression) . . . . Wahrscheinlichkeitsrechnung 2.1 Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . 2.1.1 Diskrete Wahrscheinlichkeitsräume . . . . . . . . . . 2.1.2 Kombinatorik . . . . . . . . . . . . . . . . . . . . . . 2.1.3 Allgemeine Wahrscheinlichkeitsräume . . . . . . . . . 2.1.4 Exkurs zur Maßtheorie . . . . . . . . . . . . . . . . . 2.1.5 Unabhängigkeit und bedingte Wahrscheinlichkeiten . . 2.2 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Zufallsvariablen im diskreten Fall . . . . . . . . . . . 2.2.2 Unabhängigkeit von Zufallsvariablen . . . . . . . . . 2.2.3 Erwartungswert und Momente . . . . . . . . . . . . . 2.2.4 Zufallsvariablen im allgemeinen Fall . . . . . . . . . 2.3 Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Konvergenzbegriffe . . . . . . . . . . . . . . . . . . . 2.3.2 Gesetze der großen Zahlen . . . . . . . . . . . . . . . 2.3.3 Verteilungsapproximation und zentraler Grenzwertsatz Schließende Statistik 3.1 Statistische Modellbildung . . . . . . . . . 3.2 Parameterschätzung . . . . . . . . . . . . . 3.2.1 Konstruktionsmethoden für Schätzer 3.3 Testen von Hypothesen . . . . . . . . . . . 3.4 Konfidenzintervalle . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 10 12 13 14 15 17 . . . . . . . . . . . . . . . 19 20 20 24 28 29 37 42 42 45 49 57 66 66 68 70 . . . . . 80 80 82 86 92 102 INHALTSVERZEICHNIS 3.5 Elemente der Bayesschen Statistik 3.5.1 Schätzen . . . . . . . . . 3.5.2 Konfidenzbereiche . . . . 3.5.3 Testen . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 106 107 108 4 INHALTSVERZEICHNIS Die Vorlesung besteht aus drei Teilen: 1. Beschreibende Statistik (kurz): (Nur) Erhebung und Darstellung von Daten, keine mathematische Theorie im engeren Sinne 2. Wahrscheinlichkeitsrechnung: Prognosen über zukünftige Ereignisse, Berechnung der Wahrscheinlichkeiten komplexerer Ereignisse auf Grundlage der Wahrscheinlichkeiten einfacher Ereignisse 3. Mathematische/Schließende Statistik: Bestimmung der für die Wahrscheinlichkeitsrechnung benötigten Wahrscheinlichkeiten auf Grundlage von Daten Kapitel 1 Grundbegriffe der beschreibenden Statistik Der Begriff Statistik“ stammt aus dem Staatswesen bzw. der Staatskunde. Die beschrei” bende (deskriptive) Statistik befasst sich mit der Erhebung und Darstellung von Daten, die schließende (beurteilende, induktive, inferentielle, mathematische) Statistik schließt auf Grundlage von Stichproben bzw. Daten auf die Grundgesamtheit bzw. den zu Grunde liegenden Zufallsmechanismus. 1.1 Grundgesamtheit, Merkmale, Stichproben Definition 1.1.1 Die Grundgesamtheit oder Population Ω ist die Menge aller denkbaren Beobachtungseinheiten, auf die sich die statistische Untersuchung bezieht. Die Elemente ω ∈ Ω heißen Merkmalsträger. Beispiel 1.1.2 Ω1 := {ω : ω Hörer der Vorlesung}, Ω2 := {ω : ω hat gültige Stimme bei letzter Landtagswahl abgegeben}. Von Interesse sind oft weniger die Merkmalsträger selbst, sondern bestimmte Eigenschaften (Merkmale): Definition 1.1.3 Ein Merkmal ist eine Abbildung X : Ω → R (oder allgemeiner X : Ω → M mit einer beliebigen Menge M ). X(Ω) heißt Menge der Merkmalsausprägungen. X heißt quantitatives Merkmal, falls X(Ω) ⊆ R, sonst qualitatives Merkmal. Ein quantitatives Merkmal heißt diskret, falls es nur isolierte Zahlenwerte annimmt, und stetig, falls es prinzipiell jeden Wert eines Intervalls annehmen kann. Beispiel 1.1.4 X1 : Ω1 → {männlich, weiblich}, ω 7→ Geschlecht von ω; qualitatives Merkmal. X2 : Ω1 → {sehr gut, gut, befriedigend, ausreichend}, ω 7→ Abiturnote von ω; qualitatives 5 6 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK Merkmal, aber äquivalent dazu: X3 : Ω1 → {1, 2, 3, 4}, ω 7→ Abiturnote von ω; diskretes quantitatives Merkmal. X4 : Ω1 → R, ω 7→ Körpergröße von ω; stetiges quantitatives Merkmal. X5 : Ω2 → {CDU, SPD, FDP, Grüne, Linke, SSW, Sonstige}, ω 7→ gewählte Partei (Zweitstimme); qualitatives Merkmal. Bemerkung 1.1.5 Unterscheidung nach Skalentypen: metrische/kardinale quantitative Merkmale: Zahlenwert X(ω) hat Bedeutung (vgl. X4 oben). ordinale Merkmale: Rang hat Bedeutung, (Zahlen-)Wert an sich nicht (vgl. X2 , X3 oben). nominale Merkmale: keine Struktur auf X(Ω) in obigem Sinne (vgl. X1 , X5 oben). Die vollständige Erhebung der Population Ω ist wünschenswert, aber aus praktischen Gründen oft nicht möglich. Daher erfolgt die Beschränkung auf eine Teilerhebung/Stichprobe. Definition 1.1.6 Sei n ∈ N. Teilmengen {ω1 , . . . , ωn } ⊆ Ω der Grundgesamtheit werden als (empirische) Stichprobe bezeichnet. Falls X : Ω → R (bzw. M ) ein Merkmal ist, nennt man auch (X(ω1 ), . . . , X(ωn )) (empirische) Stichprobe oder Messreihe, Urliste, Daten (des Merkmals X). Eine Stichprobe heißt zufällig, wenn jedes Element der Population die gleiche Aussicht hatte, in die Stichprobe aufgenommen zu werden. Bemerkung 1.1.7 1. Obwohl die Reihenfolge unerheblich ist, bezeichnen wir nicht {X(ω1 ), . . . , X(ωn )} als Stichprobe, da sonst Informationen über die Häufigkeit verloren gingen. 2. Repräsentative“ Stichprobe: Das soll andeuten, dass die Stichprobe die Population ” bezüglich des Merkmals X gut repräsentiert. Die konkrete Bedeutung des Begriffs ist aber nicht immer klar. 3. Schlüsse von (zufälligen) Stichproben auf die Population sind Aufgabe der schließenden Statistik. 1.2 Empirische Verteilung von Merkmalen Definition 1.2.1 Sei n ∈ N. Sei X : Ω → M ein Merkmal und (x1 , . . . , xn ) Stichprobe des Merkmals X. Für A ⊆ M heißen h(A) := n X 1A (xi ) absolute Häufigkeit von A und i=1 r(A) := 1 h(A) n relative Häufigkeit von A 1.2. EMPIRISCHE VERTEILUNG VON MERKMALEN 7 in der Stichprobe. Dabei sei 1A := ( 1 falls x ∈ A, 0 sonst. Die Abbildungen h : P(M ) → R bzw. r : P(M ) → R nennen wir empirische Häufigkeitsverteilung des Merkmals X in der Stichprobe, wobei P(M ) := {A : A ⊆ M } die Potenzmenge von M sei. Bemerkung 1.2.2 1. h(A): Wie oft taucht eine A-wertige Beobachtung in der Stichprobe auf? r(A): Anteil der A-wertigen Beobachtungen an der Stichprobe 2. Eigenschaften: r(∅) = 0 (da 1∅ (x) = 0 für alle x ∈ M ). r(M ) = 1 (da 1M (x) = 1 für alle x ∈ M ). r(A ∪ B) = r(A) + r(B), falls A, B ⊆ M disjunkt sind (da 1A∪B = 1A + 1B , falls A ∩ B = ∅). 3. Häufigkeiten sind bei stetigen Merkmalen (vgl. X4 in 1.1.4) wenig sinnvoll, da Werte in der Regel nur einmal auftreten. Stattdessen wird eine Bildung von Klassen vorgenommen, d. h. eine Partition von Ω in disjunkte Intervalle (ai−1 , ai ], i = 1, . . . , n. Faustregeln: konstante Intervalllänge, einfache“ Intervallgrenzen, Anzahl der Inter” √ valle m ≈ n falls 5 ≤ m ≤ 25. Bemerkung 1.2.3 (Darstellung von Häufigkeiten). Beispiel: Landtagswahl SchleswigHolstein. 1. Tabelle: Vergleiche Abbildung 1.1. 2. Stabdiagramm: Vergleiche Abbildung 1.2. 3. Kreisdiagramm: Vergleiche Abbildung 1.3. Beispiel: Körpergewicht von Schülern. 1. Histogramm: Vergleiche Abbildung 1.4. 2. Stamm- und Blattdarstellung: Vergleiche Abbildung 1.5. Bezeichnung 1.2.4 (Eigenschaften von Histogrammen/Verteilungen). Vergleiche Abbildung 1.6. 8 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK Abbildung 1.1: Tabelle. Abbildung 1.2: Stabdiagramm. Abbildung 1.3: Kreisdiagramm. 1.2. EMPIRISCHE VERTEILUNG VON MERKMALEN Abbildung 1.4: Histogramm. Abbildung 1.5: Stamm- und Blattdarstellung: Links befindet sich der Stamm, rechts das Blatt. Abbildung 1.6: Eigenschaften von Histogrammen: a) unimodal eingipflig; b) bimodal zweigipflig; c) linksschief, rechssteil; d) symmetrisch; e) rechtssteil, linksschief. 9 10 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK Definition 1.2.5 Sei n ∈ N. Seien X : Ω → R quantitative Merkmale und (x1 , . . . , xn ) eine Stichprobe von X. Die Funktion F : R → R mit n 1X F (x) := r((−∞, x]) = 1(−∞,x] (xi ) n i=1 heißt empirische Verteilungsfunktion des Merkmals in der Stichprobe. Satz 1.2.6 Sei F die empirische Verteilungsfunktion des Merkmals X in der Stichprobe (x1 , . . . , xn ). Dann gelten: 1. F ist monoton steigend, 2. F ist rechtsseitig stetig, 3. limx→∞ F (x) = 1, limx→−∞ F (x) = 0. Beweis. Klar. Bemerkung 1.2.7 (Darstellung von Häufigkeiten multivariater (= mehrdimensionaler) Merkmale) 1. Kontingenztabelle (für bivariate diskrete Merkmale) Beispiel: Ω = {ω : ω erwachsener Bundesbürger}, X : Ω → {überhaupt nicht, etwas, ziemlich, sehr} × {1, 2, 3, 4, 5}, ω 7→ (Beeinträchtigung durch Umweltschadstoffe, Schulabschluss)(ω), wobei 1“ = ungelernt, . . . , 5“ = Hochschulabschluss. ” ” (Vergleiche Abbildungen 1.7 und 1.8). 2. Streudiagramme (für bivariate stetige Merkmale) Beispiel: Ω = {ω : ω Kieler Mietwohnung}, X : Ω → R2 , ω 7→ (Fläche von ω, Nettomiete von ω). (Vergleiche Abbildung 1.9). 1.3 Lage- und Streuungsmaße Wir befassen uns nun mit Maßzahlen und Objekten zur Beschreibung der Lage bzw. Streuung der Daten auf der Zahlengeraden. Seien x1 , . . . , xn ∈ R Daten (Stichprobe eines quantitativen Merkmals). 1.3. LAGE- UND STREUUNGSMASSE Abbildung 1.7: Kontingenztabelle: Absolute Werte. Abbildung 1.8: Kontingenztabelle: Relative Werte. Abbildung 1.9: Streudiagramm. 11 12 1.3.1 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK Beschreibung des Zentrums der Daten Definition 1.3.1 n 1X x := xi n i=1 heißt arithmetisches Mittel von (x1 , . . . , xn ). Bemerkung 1.3.2 Schwerpunkteigenschaft: n X (xi − x) = 0. i=1 Das arithmetische Mittel ist eher instabil im Hinblick auf Ausreißer“, also extreme Beob” achtungen, die zufällig oder durch Erhebungsfehler im Datensatz auftreten. Robuster ist der Median: Definition 1.3.3 Seien (x(1) , . . . , x(n) ) die nach Größe aufsteigend geordneten Daten, also x(1) ≤ x(2) ≤ · · · ≤ x(n−1) ≤ x(n) . Der empirische Median (Zentralwert) x1/2 von (x1 , . . . , xn ) ist definiert als x1/2 := ( x( n+1 ) falls n ungerade, 2 1 (x( n2 ) 2 + x( n2 +1) ) falls n gerade. Bemerkung 1.3.4 Jeweils mindestens 50% der Daten sind größer oder gleich bzw. kleiner oder gleich dem empirischen Median. Für diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus interessant: Definition 1.3.5 Der Modus (Modalwert) xmod der Daten (x1 , . . . , xn ) ist der am häufigsten auftretende Wert (falls ein solcher existiert). Beispiel 1.3.6 Daten (beispielsweise Studiendauern in Semestern): (x1 , . . . , x10 ) = (11, 10, 8, 11, 30, 9, 13, 11, 10, 12). geordnete Daten: (x(1) , . . . , x(10) ) = (8, 9, 10, 10, 11, 11, 11, 12, 13, 30). arithmetisches Mittel: x = 12,5. empirischer Median: x1/2 = 21 (x(5) + x(6) ) = 11. Modus: xmod = 11. Bemerkung 1.3.7 Weitere Mittelwerte: Q 1 1. geometrisches Mittel: xg := ( ni=1 xi ) n , P 2. harmonisches Mittel: xh := n( ni=1 x1i )−1 , 1.3. LAGE- UND STREUUNGSMASSE 13 3. α-getrimmes Mittel: arithmetisches Mittel der Daten, die übrig bleiben, wenn zuvor die 100α% größten und kleinsten Werte entfernt wurden. Das α-getrimme Mittel ist also robuster gegen Ausreißer. Eine Verallgemeinerung des Medians stellen die Quantile dar: Definition 1.3.8 Seien (x(1) , . . . , x(n) ) wie in Definition 1.3.3. Für p ∈ (0, 1) wird das empirische p-Quantil xp von (x1 , . . . , xn ) definiert durch ( x([np+1]) falls np ∈ / N, xp := 1 (x(np) + x(np+1) ) falls np ∈ N, 2 wobei [y] := max{k ∈ N : k ≤ y}. Bemerkung 1.3.9 Mindestens 100p% der Daten sind kleiner oder gleich xp . Mindestens 100(1 − p)% der Daten sind größer oder gleich xp . Bezeichnung 1.3.10 x1/4 heißt unteres Quartil, x3/4 heißt oberes Quartil. Beispiel 1.3.11 Für die Daten aus Beispiel 1.3.6 gilt x1/4 = x(3) = 10, x3/4 = x(8) = 12. 1.3.2 Beschreibung der Streuung der Daten Definition 1.3.12 Sei n ∈ N. n 1 X (xi − x)2 s2 := n − 1 i=1 1 = n−1 n X !! x2i − nx2 i=1 heißt√empirische Varianz von (x1 , . . . , xn ). s = s2 heißt empirische Standardabweichung (Streuung) von (x1 , . . . , xn ). Bemerkung 1.3.13 1. Warum 1/n−1 und nicht 1/n? Diese Frage wird in Kapitel 3 thematisiert werden, vgl. Bemerkung 3.2.7. 2. s besitzt dieselbe Einheit“ wie die Daten (beispielsweise m, kg oder Semester), s2 ” hingegen nicht. Definition 1.3.14 Weitere Streuungsmaße: 1 n Pn 2. mittlere absolute Abweichung: sL := Pn 1 3. Interquartilsabstand: x3/4 − x1/4 4. Stichprobenspannweite/-variationsbreite: x(n) − x(1) 5. Variationskoeffizient (für positive Daten): s/x 1. mittlere lineare Streuung: n i=1 i=1 |xi − x1/2 | |xi − x| Bemerkung 1.3.15 (Graphische Darstellung). Kistendiagramm (Box-Plot): Vergleiche Abbildung 1.10. 14 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK Abbildung 1.10: Box-Plot: a) Extrem große Beobachtungen (Ausreißer), b) größte normale Beobachtung: max xi : xi ≤ x3/4 + c) oberes Quartil x3/4 , d) Median x1/2 , e) unteres Quartil x1/4 , f) kleinste normale Beobachtung: min xi : xi ≥ x1/4 − g) extrem kleine Beobachtungen (Ausreißer). 1.3.3 3 2 x3/4 − x1/4 3 2 x3/4 − x1/4 , , Weitere Maßzahlen für die Form der Daten Definition 1.3.16 n m3 1X b3 := 3 mit m3 := (xi − x)3 s n i=1 heißt Schiefe von (x1 , . . . , xn ). n m4 1X b4 := 4 − 3mit m4 := (xi − x)4 s n i=1 heißt Wölbung (Exzess, Kurtosis) von (x1 , . . . , xn ). Bemerkung 1.3.17 1. Die Schiefe beschreibt die Asymmetrie der Daten (Links/Rechtssteilheit): GRAFIK 2. Die Wölbung beschreibt, ob Randbereiche und Zentrum stark bzw. schwach besetzt sind. GRAFIK Das Teilen durch s3 , s4 führt dazu, dass es sich bei b3 , b4 um dimensionslose Zahlen handelt. Der Summand −3“ ist dadurch motiviert dass die ” Wölbung bei in diesem Sinne bei der Normalverteilung verschwindet, vgl. Bemerkung 2.3.26(2). 1.3. LAGE- UND STREUUNGSMASSE 1.3.4 15 Maßzahlen für gemeinsames Verhalten bivariater Daten Seien (x1 , y1 ), . . . , (xn , yn ) ∈ R2 Daten (Stichprobe eines R2 -wertigen Merkmals (X, Y )). Definition 1.3.18 n sXY 1 X := (xi − x)(yi − y) n − 1 i=1 heißt empirische Kovarianz von ((x1 , y1 ), . . . , (xn , yn )). Im Falle s2X 6= 0, s2Y 6= 0 heißt sXY τXY := p 2 2 sX sY empirische Korrelation von ((x1 , y1 ), . . . , (xn , yn )), wobei s2X , x2Y die empirischen Varianzen von (x1 , . . . , xn ) bzw. (y1 , . . . , yn ) seien. Bemerkung 1.3.19 Die empirische Korrelation beschreibt den linearen Zusammenhang von Daten: Vergleiche Abbildung 1.13. Eigenschaften (bewiesen in Satz 2.2.32): 1. −1 ≤ %XY ≤ 1, 2. %XY = ±1 gilt genau dann, wenn es a ∈ R, b ∈ (0, ∞) derart gibt, dass für alle i ∈ {0, . . . , n} gilt: yi = a ± bxi . 16 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK Abbildung 1.11: Schiefe: a) b3 > 0, b) b3 < 0. Abbildung 1.12: Wölbung: a) b4 > 0, b) b4 = 0, c) b4 < 0. Abbildung 1.13: Korrelation: a) r = 1; b) r ≈ 0,7; c) r ≈ 0; d) r ≈ 0; e) r = −1. 1.4. METHODE DER KLEINSTEN QUADRATE (EMPIRISCHE REGRESSION) 1.4 17 Methode der kleinsten Quadrate (empirische Regression) Seien (x1 , y1 ), . . . , (xn , yn ) ∈ R2 Daten (Stichprobe eines R2 -wertigen Merkmals (X, Y )). Vermutung: Zwischen den Komponenten besteht bis auf Messfehler, zufällige Störungen oder Ähnliches ein linearer Zusammenhang y = a + bx mit a, b ∈ R. Idee: Bestimme a, b zu den Daten so, dass die quadratische Abweichung Q(a, b) := n X (yi − a − bxi )2 i=1 minimiert wird. Dabei handelt es sich bisher um ein rein heuristisches Konzept. Weshalb bzw. unter welchen Annahmen es sich bei diesem Verfahren um eine gute Schätzung eines tatsächlichen linearen Zusammenhangs handelt, ist eine Frage, die von der mathematischen Statistik beantwortet wird, siehe Beispiel 3.2.27. Satz 1.4.1 Im Fall sX = 6 0 (d. h. wenn nicht alle xi identisch sind) wird Q(a, b) minimiert durch Pn (x − x)(yi − y) sXY ∗ Pn i b = i=1 = 2 und a∗ = y − b∗ x. 2 sX i=1 (xi − x) Beweis. Bei Q : R2 → R handelt es sich um eine stetig differenzierbare Funktion mit D1 Q(a, b) = −2 n X (yi − a − bxi ) = −2n(y − a − bx), i=1 ! n n n X X X D2 Q(a, b) = −2 (yi − a − bxi )xi = −2 xi yi − nax − b x2i . i=1 i=1 i=1 Diese Ableitungen werden genau dann 0, wenna a = y − bx und 0= = = n X i=1 n X i=1 n X xi yi − n(y − bx)x − b n X x2i i=1 xi yi − nx y − b ! n X (x2i − x2 ) i=1 (xi − x)(yi − y) − b i=1 n X ! (xi − x)2 , i=1 also für a = a∗ , b = b∗ wie oben. Die Hessematrix D11 Q(a, b) D12 Q(a, b) 1 H(a, b) = = 2n D21 Q(a, b) D22 Q(a, b) x 1 n x Pn i=1 x2i 18 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK ist positiv definit, denn 2n > 0 und n det H(a, b) = 2n 1X 2 xi − x2 n i=1 ! n X =2 (xi − x)2 > 0 i=1 (vgl. Heuser, Analysis 2, Satz 172.6). Es folgt, dass Q genau bei (a∗ , b∗ ) minimal wird. Abbildung 1.14: Streudiagramm mit Regressionsgerade. Kapitel 2 Wahrscheinlichkeitsrechnung Wir befassen uns jetzt mit der Betrachtung von Zufallsexperimenten. Ziel ist es, aus der Kenntnis der Grundgesamtheit oder einfacher Wahrscheinlichkeiten Aussagen über komplexe Wahrscheinlichkeiten in durchzuführenden Stichproben/Experimenten abzuleiten. Einige wichtige historische Stationen der Wahrscheinlichkeitsrechnung: • De Vetula (Richard de Fournival?,1201-1260): Wahrscheinlichkeiten von Augensummen dreier Würfel, • Cardano (1501-1576): Liber de Ludo Aleae, • Briefwechsel 1654 von Pascal (1623-1662) und Fermat (1601-1665): Geburtsstunde ” der Wahrscheinlichkeitsrechnung“, • Huygens (1629-1695): Tractatus de Rationiciis in Aleae Ludo, • Jakob Bernoulli (1655-1705): Ars Conjectandi, • De Moivre (1667-1754): The Doctrine of Chances, • Bayes (1702?-1761): An Essay towards solving a Problem in the Doctrine of Chances, • Laplace (1749-1827): Théorie Analytique des Probabilités, • ... • Kolmogorow (1903-1987): Grundbegriffe der Wahrscheinlichkeitsrechnung (1933) zweite Geburtsstunde der Wahrscheinlichkeitsrechnung“. ” • ... 19 20 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG 2.1 2.1.1 Wahrscheinlichkeitsräume Diskrete Wahrscheinlichkeitsräume Wir möchten Zufallsexperimente mathematisch modellieren. Es ist dabei unerheblich, ob das Experiment wirklich zufällig ist und ob es Zufall überhaupt gibt. Eine stochastische Modellierung kann auch bei Nichtwissen angemessen sein. Definition 2.1.1 Die Menge Ω aller möglichen Ausgänge eines Zufallsexperimentes nennen wir Ergebnisraum, Grundraum, Stichprobenraum. Die Elemente ω ∈ Ω heißen Ergebnisse. Teilmengen A ⊆ Ω heißen (vorläufig) Ereignisse. (Vergleiche Grundgesamtheit in Definition 1.1.1). Beispiel 2.1.2 1. Einmaliger Würfelwurf: Ω = {1, 2, 3, 4, 5, 6}, Ereignis Wurf ist gerade Zahl“: A = {2, 4, 6}. ” 2. n-maliger Würfelwurf: Ω = {1, 2, 3, 4, 5, 6}n = {(ω1 , . . . , ωn ) : ωi ∈ {1, . . . , 6} für i = 1, . . . , n}. Achtung: Anders als in Kapitel 1 wählt man zur Modellierung nicht Ω = {1, . . . , 6} und n Ergebnisse ω1 , . . . , ωn ∈ Ω, sondern einen großen“ Grundraum, aus dem man ” nur ein Ergebnis ω = (ω1 , . . . , ωn ) zieht. Bei der Wahl von Ω besteht oft große Freiheit. Falls beispielsweise nur die Anzahl der Einsen, Zweien usw. von Belang ist, könnte man alternativ wählen: P6 Ω0 = {(k1 , . . . , k6 ) ∈ N6 : i=1 ki = n}. 3. Unendlich viele Münzwürfe: Schreibe 0 für Kopf“ und 1 für Zahl“: ” ” ∗ Ω = {0, 1}N = Abb(N∗ , {0, 1}) = {(ωi )i∈N∗ : ωi ∈ {0, 1} für alle i ∈ N∗ }. (Bezeichnung: N := {0, 1, 2, . . . }, N∗ := {1, 2, . . . }) 4. Wartezeit auf den nächsten Bus: Ω = R+ oder auch Ω = [0, 10], falls der Bus alle zehn Minuten fährt. Von nun an sei Ω höchstens abzählbar, der allgemeine Fall folgt in Abschnitt 2.1.3. Definition 2.1.3 Sei Ω nichtleer und höchstens abzählbar. Eine Abbildung P : P(Ω) → [0, 1] heißt Wahrscheinlichkeitsmaß (Wahrscheinlichkeitsverteilung, Verteilung) auf Ω, falls die Kolmogorowschen Axiome gelten: 1. P (Ω) = 1 (Normiertheit) und S P∞ 2. P ( ∞ i=1 Ai ) = i=1 P (Ai ) für paarweise disjunkte A1 , A2 , . . . ⊆ Ω (d. h. falls Ai ∩ Aj = ∅ für i 6= j) (σ-Additivität). (Ω, P(Ω), P ) heißt (diskreter) Wahrscheinlichkeitsraum. 2.1. WAHRSCHEINLICHKEITSRÄUME 21 Beispiel 2.1.4 Seien M eine (nichtleere, vorerst höchstens abzählbare) Menge und x1 , . . . , xn ∈ M . Dann ist die relative Häufigkeit r : P(M ) → [0, 1] aus Definition 1.2.1 ein Wahrscheinlichkeitsmaß auf M , die empirische Verteilung von x1 , . . . , xn . Motivation 2.1.5 Warum verwenden wir diese Axiome? Was kann man sich unter Wahrscheinlichkeiten vorstellen? Was bedeutet P (A) = 0,3 eigentlich? 1. (Frequentistische Sichtweise). Wahrscheinlichkeiten werden interpretiert als idealisierte relative Häufigkeiten, d. h. P (A) steht für den Anteil an Versuchswiederholungen, in denen das Ereignis A einträte, wenn man das Experiment theoretisch bzw. im Geiste unendlich oft unter glei” chen Bedingungen“ ablaufen ließe. Nach dieser Sichtweise sind Wahrscheinlichkeiten ohne prinzipielle Wiederholbarkeit des Experiments sinnlos. Auch muss klar sein, worin die gleichen Bedingungen“ bestehen. ” Motivation der Axiome: Diese gelten für relative Häufigkeiten, wie sie in 1.2.1 definiert wurden. P (A) = 0,3 bedeutet also, dass das Ereignis A auf lange Sicht in 30% der Versuchswiederholungen eintreten würde. 2. (Verallgemeinerte Laplace-Wahrscheinlichkeiten und subjektive Deutung). Für endliches Ω definiere P (A) := |A| , |Ω| A ⊆ Ω. (2.1) P (A) beschreibt den Anteil der möglichen Versuchsergebnisse, die zum Ereignis A führen. Wenn wegen offensichtlicher oder naheliegender Symmetrie alle ω ∈ Ω gleich plausibel sind (Indifferenzprinzip, Prinzip des unzureichenden Grundes), ist P (A) ein natürliches Maß dafür, mit welchem Grad an Sicherheit A zu erwarten ist. (P (A) = 0 impliziert ein unmögliches, P (A) = 1 ein sicheres Ereignis usw.) Motivation der Axiome: Sie gelten offensichtlich für die LaplaceWahrscheinlichkeiten aus (2.1). In allgemeinen Situationen (in denen (2.1) nicht unbedingt gilt) lassen sich Wahrscheinlichkeiten durch Vergleich mit LaplaceWahrscheinlichkeiten interpretieren. In diesem Sinne bedeutet P (A) = 0,3, dass A so wahrscheinlich ist oder für man es für so wahrscheinlich hält wie eine dreielementige Menge in einem Zufallsexperiment mit zehn gleich wahrscheinlichen Ausgängen (z. B. drei Seiten eines zehnseitigen Würfels). Bei irrationalen Zahlen approximiere man. Diese eher subjektive Interpretation ist prinzipiell auch für einmalige Experimente möglich: P ( Gott existiert“) = 0,7? ” Bemerkung 2.1.6 1. Die Verbindung zwischen Wirklichkeit und mathematischem Modell wird vor allem durch Wahl eines geeigneten Wahrscheinlichkeitsmaßes P geschaffen. Diesen Vorgang nennt man Modellierung oder auch Modellbildung. Wie erhält man nun P ? Entweder (i) durch Kenntnis des Versuchsaufbaus bzw. mittels 22 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Annahmen über den Zufallsmechanismus (Symmetrien) oder (ii) mit Mitteln der mathematischen Statistik. Viele Fehler, scheinbare Paradoxien und Missverständnisse gerade auch in der Schule sind auf die falsche Wahl von P (falsche Modellierung) zurückzuführen. Die stochastische Modellierung ist eine eigenständige und nur teilweise mathematische Leistung. 2. Das Axiom der Additivität (A ∪ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)) kann über relative Häufigkeiten bzw. Laplace-Wahrscheinlichkeiten motiviert werden, die σ-Additivität (d. h. Additivität unendlicher statt endlicher Vereinigungen) hingegen nicht direkt. Bei der σ-Additivität handelt es sich zusätzlich zur Additivität um eine Art Stetigkeitsannahme, die das Arbeiten mit Wahrscheinlichkeiten erleichtert. Satz 2.1.7 Sei |Ω| < ∞. Es existiert genau ein Wahrscheinlichkeitsmaß P auf Ω derart, dass P ({ω}) für alle ω ∈ Ω gleich ist, nämlich die oben erwähnte Laplace-Verteilung (Gleichverteilung) mit P (A) = |A|/|Ω| für A ⊆ Ω. Beweis. Nachweis der Existenz durch Nachrechnen: P (A) = |A|/|Ω| ∈ [0, 1] sowie 1. P (Ω) = |Ω| |Ω| 2. | ∪∞ i=1 Ai | = = 1; P∞ i=1 |Ai | für disjunkte Vereinigungen ⇒ P (∪∞ i=1 Ai ) = P∞ i=1 P (Ai ). Eindeutigkeit: Für alle ω ∈ Ω gilt auf Grund der Additivität, dass X 1 = P (Ω) = P ({ω}) = |Ω|P ({ω}), ω∈Ω also P ({ω}) = 1/|Ω|. Es folgt P (A) = X P ({ω}) = |A| ω∈A 1 . |Ω| Beispiel 2.1.8 Würfelwurf: Ω = {1, . . . , 6}. Da alle Würfelseiten gleich“ sind, wählt man ” als Wahrscheinlichkeitsmaß P die Laplace-Verteilung. Satz 2.1.9 Sei (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum. Seien A, B, A1 , A2 , . . . ⊆ Ω. Dann gelten: 1. P (∅) = 0, 2. A1 , . . . , An paarweise disjunkt ⇒ P (∪ni=1 Ai ) = 3. P (A ∪ B) + P (A ∩ B) = P (A) + P (B), 4. A ⊆ B ⇒ P (A) ≤ P (B) (Monotonie), Pn i=1 P (Ai ) (endliche Additivität), 2.1. WAHRSCHEINLICHKEITSRÄUME 5. P (∪∞ i=1 Ai ) ≤ P∞ i=1 23 P (Ai ) (σ-Subadditivität), 6. An ↑ A (d. h. A1 ⊆ A2 ⊆ . . . und A = ∪∞ i=1 Ai ) ⇒ P (An ) → P (A) für n → ∞; An ↓ A (d. h. A1 ⊇ A2 ⊇ . . . und A = ∩∞ i=1 Ai ) ⇒ P (An ) → P (A) für n → ∞; (σ-Stetigkeit bzw. Stetigkeit von unten/oben), 7. P (AC ) = 1 − P (A), wobei AC := Ω \ A. Beweis. 1. P (∅) = P (∪∞ i=1 ∅) = P∞ i=1 P (∅), also P (∅) = 0 2. σ-Additivität mit ∅ = An+1 = An+2 = . . . 3. Aus 2. folgen P (A) = P (A \ B) + P (A ∩ B), P (B) = P (B \ A) + P (A ∩ B), P (A ∪ B) = P (A \ B) + P (B \ A) + P (A ∩ B). 2. 4. P (B) = P (A) + P (B \ A) ≥ P (A) | {z } ≥0 ∞ 5. ∪∞ i=1 Ai = ∪i=1 Bi , wobei Bi := Ai \ i−1 [ ! Aj ⊆ Ai . j=1 Da B1 , B2 , . . . paarweise disjunkt sind, folgt P (∪∞ i=1 Ai ) = σ-Add. P (∪∞ i=1 Bi ) = ∞ X 4. P (Bi ) ≤ i=1 2. 6. P (A) + P (AC ) = P (Ω) = 1. 7. Mit σ-Additivität gilt: P (A) = P (∪∞ i=1 (Ai \ Ai−1 )) ∞ X = P (Ai \ Ai−1 ) i=1 = lim n→∞ n X P (Ai \ Ai−1 ) i=1 2. = lim P (∪ni=1 (Ai \ Ai−1 )) n→∞ = lim P (An ). n→∞ ∞ X i=1 P (Ai ); 24 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG C Außerdem folgt aus An ↓ A schon AC n ↑ A und somit 6. (1. Teil) 6. C 1 − P (An ) = P (AC n ) → P (A ) = 1 − P (A). 2.1.2 Kombinatorik Motivation: Zur Berechnung von Laplace-Wahrscheinlichkeiten wie in 2.1.5 (d. h. mit P (A) = |A|/|Ω|) müssen Mengen abgezählt werden. Das geschieht mit Mitteln der Kombinatorik. Bemerkung 2.1.10 (Fundamentale Zählprinzipien) Seien A, B, A1 , A2 , . . . endliche Mengen. 1. (a) Falls eine Bijektion f : A → B existiert, gilt |A| = |B|. (b) A ∩ B = ∅ ⇒ |A ∪ B| = |A| + |B|. (c) A ⊆ B ⇒ |B \ A| = |B| − |A|. Begründung: (a) Definition der Gleichmächtigkeit: |A| = n bedeutet, dass eine Bijektion g gibt mit g : A → {1, . . . , n}. Da g ◦ f −1 : B → {1, . . . , n} eine Bijektion ist, folgt |B| = n = |A|. (b) Seien |A| = m, |B| = n. Dann existieren Bijektionen gA und gB mit gA : A → {1, . . . , m} und gB : B → {1, . . . , n}. Ebenso existiert eine Bijektion h : B → {m+1, . . . , m+n}. Also existiert eine Bijektion gA∪B : (A∪B) → {1, . . . , m+ n}, nämlich ( gA (x) falls x ∈ A, gA∪B (x) := h(x) falls x ∈ B. Somit ist |A ∪ B| = m + n. (c) B = A ∪˙ (B \ A) wobei der Punkt disjunkte Vereinigung symbolisiert. Die Behauptung folgt mit (b). 2. Kartesisches Produkt: |A × B| = |A||B| Q Allgemeiner |A1 × · · · × AN | = ni=1 |Ai |, insbesondere |An | = |A|n . Sm Begründung: Sei |B| = m, etwa B = {b1 , . . . , bm }. Aus |A × B| = ˙ i=1 A × {bi } 1(a) 1(b) Pm und |A × {bi }| = |A| folgt, dass |A × B| = i=1 |A| = m|A|. Induktion ergibt die zweite Aussage, denn A1 × · · · × An = (A1 × · · · × An−1 ) × An (bzw. es existiert eine natürliche Bijektion). 3. Funktionen: 2.1. WAHRSCHEINLICHKEITSRÄUME 25 (a) Beliebige Funktionen: Für B A := Abb(A, B) := {f : A → B} ist |B A | = |B||A| . |B|! . (|B|−|A|)! (b) Injektive Funktionen: |{f ∈ Abb(A, B) : f injektiv}| = (c) Spezialfall bijektive Funktionen für |A| = |B|: |{f ∈ Abb(A, B) : f bijektiv}| = |A|!, also beispielsweise |Sn | = n! für A = B = {1, . . . , n}. Begründung: (a) Sei A = {a1 , . . . , an }. Wir identifizieren die Funktion f : A → B mit dem Tupel (f (a1 ), . . . , f (an )) ∈ B × · · · × B = B n . 1(a) 2. Es folgt |{f : A → B}| = |B n | = |B|n = |B||A| . (b) Seien A = {a1 , . . . , an }, B = {b1 , . . . , bn }. Identifiziere injektive Funktionen f : A → B mit einem Tupel (x1 , . . . , xn ). Hierbei sei x1 ∈ {1 . . . , n} der Rangplatz von f (a1 ) in {b1 , . . . , bn }, | {z } n Elemente x2 ∈ {1, . . . , n − 1} der Rangplatz von f (a2 ) in {b1 , . . . , bn } \ {f (a1 )}, | {z } usw., xm ∈ {1, . . . , n − m + 1} der Rangplatz von f (am ) (n−1) Elemente in {b1 , . . . , bn } \ {f (a1 ), . . . , f (am−1 )}. | {z } (n−m+1) Elemente Es folgt 1(a) |{f ∈ Abb(A, B) : f injektiv}| = |{1, . . . , n} × · · · × {1, . . . , n − m + 1}| 2(a) = n(n − 1) · · · (n − m + 1) n! = . (n − m)! 4. (a) k-elementige Teilmengen: |{C ⊆ A : |C| = k}| = |A| für k ∈ N, wobei k n n(n − 1) · · · (n − k + 1) := k! k falls k≤n = n! (n − k)!k! für k, n ∈ N den Binomialkoeffizient bezeichnet. (b) Aufteilen auf Teilmengen gegebener Größe: P Seien n1 , . . . , nr ∈ N mit ri=1 ni = n = |A|. Dann gilt |{(A1 , . . . , Ar ) : A1 , . . . , Ar ⊆ A pw. disj., |Ai | = ni für i = 1, . . . , r}| n! = n1 ! · · · nr ! (Multinomialkoeffizient). 26 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG (c) Alle Teilmengen: |P(A)| = 2|A| Begründung: (b) Seien A = {a1 , . . . , an } und M := {(A1 , . . . , Ar ) : A1 , . . . , Ar ⊆ A pw. disjunkt, |Ai | = ni für i = 1, . . . , r}. Identifiziere die Bijektion f : A → A mit dem Tupel (α, π1 , . . . , πr } ∈ M × Sn1 × · · · × Snr via f (a1 ), . . . , f (an1 ), f (an1 +1 ), . . . , f (an1 +n2 ), . . . , f (aPar−1 ni +1 ), . . . , f (an ) , i=1 {z } | | {z } | {z } A1 Ar A2 denn eine Permutation von A entspricht der Aufteilung von A in r Mengen, zusammen mit der Festlegung der Reihenfolge auf den r einzelnen Teilmengen. Also 3(c) n! = |{f ∈ Abb(A, A) : f bijektiv}| 1(a) = |M × Sn1 × · · · × Snr | 2. = |M ||Sn1 | · · · |Snr | 3(b) = |M |n1 ! · · · nr ! und damit |M | = n!/(n1 ! · · · nr !). (a) Identifiziere die k-elementige Teilmenge C von A mit der Aufteilung von A in zwei Mengen A1 := C, A2 := A \ C. Dann gilt |A1 | = k, |A2 | = |A| − k, und es folgt |A|! 1(a), 4(b) |{C ⊆ A : |C| = k}| = . k!(|A| − k)! (c) 2n = (1 + 1)n (2.1.11) = Pn k n−k Pn 1 1 = k=1 n k=0 k |P(A)| = | 1(b) = [ ˙ |A| |A| X k=0 n k , also {C ⊆ A : |C| = k}| |{C ⊆ A : |C| = k}| k=0 = |A| X |A| k=0 |A| k = 2 . (Alternativ: Beachte, dass P(A)= b Abb(A, {0, 1}) und wähle die Abbildung 1(a) 3(a) C 7→ 1C , es folgt |P(A)| = |Abb(A, {0, 1})| = 2|A| .) 2.1. WAHRSCHEINLICHKEITSRÄUME 27 5. Äquivalenzklassen: Sei ∼ eine Äquivalenzrelation auf A derart, dass alle Äquivalenzklassen [x], x ∈ A, genau n Elemente haben. Dann gilt |{[x] : x ∈ A}| = |A| . n Begründung: Seien [x1 ], . . . , [xk ] die Äquivalenzklassen von ∼. Es ist A = P und nach 1(b) also |A| = ki=1 |[xi ]| = kn. Sk i=1 [xi ] Korollar 2.1.11 (Multinomialsatz) Für x1 , . . . , xn ∈ R, r ∈ N gilt X (x1 + · · · + xn )n = n1 ,...,nr ≥0 n1 +···+nr =n n! xn1 1 · · · xnr r . n1 ! · · · nr ! Für r = 2 und x, y ∈ R ergibt sich der Binomialsatz: n (x + y) = n X n k=0 k xk y n−k . Beweis. n X !n xi = i=1 X r Y |Ai | xi (A1 ,...,Ar ) Zer- i=1 legung von {1,...,n} = = X X r Y xni i n1 ,...,nr ≥0 (A1 ,...,Ar ) Zer- i=1 n1 +···+nr =n legung von {1,...,n} mit |Ai |=ni r X Y n! xni i . n ! · · · n ! 1 r i=1 n1 ,...,nr ≥0 n1 +···+nr =n Der Binomialsatz folgt direkt. Beachte dafür, dass n2 = n − n1 wegen n1 + n2 = n. Beispiel 2.1.12 Viele Zufallsexperimente entsprechen aus wahrscheinlichkeitstheoretischer Sicht einem Urnenmodell (Ziehen von Kugeln aus einem Krug). 1. (Ziehen mit Zurücklegen unter Beachtung der Reihenfolge). Hierbei handelt es sich um Anordnungen der Länge n aus N Elementen. Wiederholungen sind möglich, d. h. Elemente können mehrfach auftauchen. Ω := {(ω1 , . . . , ωn ) : ωi ∈ {1, . . . , N } für i = 1, . . . , n} = {1, . . . , N }n Nach 2.1.10 (3) gilt |Ω| = N n . Beispiele: n-maliges Würfeln mit einem N -seitigen Würfel; Ziehung der Lottozahlen mit Zurücklegen, aber ohne Sortieren. 28 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG 2. (Ziehen ohne Zurücklegen mit Beachtung der Reihenfolge). Hierbei handelt es sich ebenfalls um Anordnungen der Länge n aus N Elementen, bei denen allerdings kein Element mehr als einmal auftreten kann. Ω := {(ω1 , . . . , ωn ) ∈ {1, . . . , N }n : ωi 6= ωj für i 6= j} ! Nach 2.1.10 (1a, 3b) ist |Ω| = |{f : {1, . . . , n} → {1, . . . , N } : f injektiv}| = (NN−n)! . Beispiel: Ziehung der Lottozahlen ohne Sortieren. 3. (Ziehen ohne Zurücklegen ohne Beachtung der Reihenfolge). Kombinationen der Länge n aus N Elementen ohne Wiederholungen: Ω := {(ω1 , . . . , ωn ) ∈ {1, . . . , N }n : ω1 < ω2 < · · · < ωn } Nach 2.1.10 (1a) und (4a) ist |Ω| = |{C ⊆ {1, . . . , N } : |C| = n}| = Beispiel: Ziehung der Lottozahlen. N n . 4. (Ziehen mit Zurücklegen ohne Beachtung der Reihenfolge). Kombinationen der Länge n aus N Elementen mit Wiederholungen: Ω := {(ω1 , . . . , ωn ) ∈ {1, . . . , N }n : ω1 ≤ ω2 ≤ · · · ≤ ωn } Um |Ω| zu berechnen, betrachte e := {(ω1 , . . . , ωn ) ∈ {1, . . . , N + n − 1} : ω1 < · · · < ωn } und Ω e (ω1 , . . . , ωn ) 7→ (ω1 , ω2 + 1, . . . , ωn + n − 1). f : Ω → Ω, e = N +n−1 . f ist bijektiv, also gilt nach 2.1.10 (1a) und (3), dass |Ω| = |Ω| n Achtung: Die Elemente von Ω sind bei realen, dazu passenden“ Zufallsexperimen” ten (beispielsweise Wurf mit n Würfeln und Sortieren, Ziehung der Lottozahlen mit Zurücklegen) in aller Regel nicht gleichwahrscheinlich. Die zugehörige LaplaceVerteilung ist also unangemessen! Eine bemerkenswerte Ausnahme bilden zufällige Zustände von Bosonen (Elementarteilchen) in der statistischen Physik (Bose-EinsteinVerteilung). Beispiel 2.1.13 Würfeln mit 3 Würfeln. Ω = {1, . . . , 6}3 , P entspreche der Laplace-Verteilung auf Ω. A = { Gesamtaugenzahl ist 11“} := {(ω1 , ω2 , ω3 ) ∈ Ω : ω1 + ω2 + ω3 = 11}, ” B = { Gesamtaugenzahl ist 12“} := {(ω1 , ω2 , ω3 ) ∈ Ω : ω1 + ω2 + ω3 = 12}. ” Abzählen ergibt |A| = 27, |B| = 25, also P (A) = |A|/|Ω| = 27/216 = 0,125 und P (B) = |B|/|Ω| = 25/216 ≈ 0,116. Im Modell aus 2.1.12 (4) hätten beide Ergebnisse die gleiche Wahrscheinlichkeit, denn 11 lässt sich ohne Berücksichtigung der Reihenfolge darstellen als 146, 155, 236, 245, 335, 344, und 12 lässt sich darstellen als 156, 246, 255, 336, 345, 344. Das entspräche in beiden Fällen einer Wahrscheinlichkeit von 6/56 ≈ 0,1071. Bei Verwendung der Gleichverteilungsannahme ist also Vorsicht geboten! 2.1.3 Allgemeine Wahrscheinlichkeitsräume Motivation 2.1.14 Manchmal reicht ein abzählbares Ω (vgl. Definition 2.1.3) nicht aus, siehe Beispiele 2.1.2 (3, 4). Unser nächstes Ziel wird es daher sein, die Grundlagen aus 2.1. WAHRSCHEINLICHKEITSRÄUME 29 Abschnitt 2.1.1 auf beliebige Ω zu übertragen. Beispielsweise hätten wir gerne für Beispiel (4) eine Art Gleichverteilung auf Ω = [0, 1], d. h. P ([a, b]) = b−a für a, b ∈ [0, 1] und a ≤ b. Dies entspricht der Intuition, dass die Wahrscheinlichkeit einer Busankunft proportional zur Wartezeit an der Haltestelle wächst. Es ergibt sich aber folgendes Problem: Es ist nicht allzu schwer zu zeigen, dass es kein Wahrscheinlichkeitsmaß P auf ([0, 1], P[0, 1]) mit den oben geforderten Eigenschaften geben kann. Maßtheoretisch gesprochen heißt das, dass man nicht jeder Teilmenge von [0, 1] in sinnvoller Weise eine Länge zuordnen kann. Derselbe Sachverhalt in stochastischer Sprache: Wenn man an einer Gleichverteilung interessiert ist, kann man nicht jedem denkbaren Ereignis A ⊆ [0, 1] in sinnvoller Weise eine Wahrscheinlichkeit zuordnen. Ausweg: Wir beschränken uns auf eine Teilmenge F ⊆ P, eine sogenannte σ-Algebra. Nur Elementen dieser Teilmenge wird eine Wahrscheinlichkeit (oder in der Maßtheorie eine Länge, Fläche, ein Volumen, . . . ) zugeordnet. Daher muss man sich, wenn man Stochastik mathematisch sauber behandeln will, mit Maßtheorie auseinandersetzen. 2.1.4 Exkurs zur Maßtheorie Definition 2.1.15 Sei Ω 6= ∅. Ein Mengensystem F ⊆ P(Ω) heißt σ-Algebra auf Ω, falls 1. Ω ∈ F , 2. A ∈ F ⇒ AC := Ω \ A ∈ F und S 3. A1 , A2 , . . . ∈ F ⇒ ∞ i=1 Ai ∈ F . (Ω, F ) heißt messbarer Raum, Messraum, Ereignisraum. Die Elemente von F heißen Ereignisse oder messbare Mengen. Wahrscheinlichkeiten werden später nur für die Elemente von F definiert. Es wird also nicht jeder Menge wird eine Wahrscheinlichkeit zugeordnet, aber abzählbare Mengenoperationen führen nicht aus den in diesem Sinne messbaren Mengen heraus, wie an der folgenden Bemerkung sichtbar wird. Bemerkung 2.1.16 Aus den Axiomen folgt: 4. ∅ ∈ F (denn ∅ = ΩC ), T T∞ S∞ C C 5. A1 , A2 , · · · ∈ F ⇒ ∞ i=1 Ai ∈ F (denn i=1 Ai = ( i=1 Ai ) ), S S 6. A1 , . . . , An ∈ F ⇒ A1 ∪ · · · ∪ An ∈ F (denn ni=1 Ai = ∞ i=1 Ai mit Ai = ∅ für i > n), T T 7. A1 , . . . , An ∈ F ⇒ A1 ∩ · · · ∩ An ∈ F (denn ni=1 Ai = ∞ i=1 Ai mit Ai = Ω für i > n), 8. A, B ∈ F ⇒ A \ B ∈ F (denn A \ B = A ∩ B C ). 30 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Wie gewinnt man nun eine σ-Algebra? Definition 2.1.17 Seien Ω 6= ∅, G ⊆ P(Ω). \ σ(G ) := {F ⊆ P(Ω) : F ist σ-Algebra mit G ⊆ F } heißt von G erzeugte σ-Algebra. Bemerkung 2.1.18 σ(G ) ist tatsächlich eine σ-Algebra, und zwar die kleinste σ-Algebra in Ω, die G umfasst. (Nachrechnen) Beispiel 2.1.19 1. {∅, Ω} ist die kleinste σ-Algebra auf Ω. 2. P(Ω) ist eine σ-Algebra, nämlich die größte auf Ω. Falls Ω abzählbar ist, gilt P(Ω) = σ({{ω} : ω ∈ Ω}) (d. h. die Potenzmenge wird von den einelementigen Mengen erzeugt). Faustregel: Für höchstens abzählbares Ω wird immer die Potenzmenge verwendet. 3. Für Ω = Rn verwenden wir in aller Regel (Faustregel: immer) die Borel-σ-Algebra B n := σ({A ⊆ Rn : A offen}) = σ({A ⊆ Rn : A abgeschlossen}) = σ({[a1 , b1 ] × · · · × [an , bn ] ⊆ Rn : ai , bi ∈ Q mit ai < bi für i = 1, . . . , n}). Für n = 1 gilt B := B 1 = σ({(∞, c] : c ∈ R}). Nicht borel-messbare Mengen existieren, sofern wenn man das Auswahlaxiom der Mengenlehre akzeptiert, sind aber sehr exotisch. 4. Für nichtleeres Ω ⊆ Rn verwenden wir die Borel-σ-Algebra auf Ω: BΩn := {A ∩ Ω : A ∈ B n }. Nun können wir analog zu Definition 2.1.3 den Begriff des Wahrscheinlichkeitsmaßes einführen: Definition 2.1.20 Sei (Ω, F ) ein Ereignisraum. Eine Abbildung P : F → R+ (oder für Wahrscheinlichkeitsmaße äquivalent [0, 1] statt R+ ) heißt Wahrscheinlichkeitsmaß (Wahrscheinlichkeitsverteilung, Verteilung) auf (Ω, F ), falls 1. P (Ω) = 1 und 2. A1 , A2 , . . . ∈ F paarweise disjunkt ⇒ P ( S∞ i=1 Ai ) = (Ω, F , P ) heißt Wahrscheinlichkeitsraum. Falls 1. ersetzt wird durch das (schwächere) Axiom 1’. P (∅) = 0, P∞ i=1 P (Ai ). 2.1. WAHRSCHEINLICHKEITSRÄUME 31 heißt P Maß und (Ω, F , P ) Maßraum. Bemerkung 2.1.21 Satz 2.1.9 gilt weiterhin, falls P(Ω) durch F und ⊆ Ω“ durch ∈ F“ ” ” ersetzt wird. Ein wichtiges Resultat ist der Satz 2.1.22 (Eindeutigkeitssatz) Sei G ein ∩-stabiler Erzeuger des Ereignisraums (Ω, F ), d. h. F = σ(G ) und A ∩ B ∈ G für A, B ∈ G . Für Wahrscheinlichkeitsmaße P, Q auf (Ω, F ) mit P |G = Q|G gilt dann schon P = Q. Beweis. Maßtheorie Nun zur Charakterisierung, Konstruktion und Existenz von Verteilungen: P Satz 2.1.23 Sei Ω 6= ∅ abzählbar. Sei % : Ω → [0, 1] mit ω∈Ω %(ω) = 1. Dann existiert genau ein Wahrscheinlichkeitsmaß P auf (Ω, P(Ω)) mit P ({ω}) = %(ω) für alle ω ∈ Ω. In diesem Fall gilt X P (A) = %(ω), A ∈ P(Ω). (2.2) ω∈A % heißt Zähldichte oder Wahrscheinlichkeitsfunktion von P . Beweis. Existenz und (2.2): Sei P wie in (2.2) definiert. Dann ist P (Ω) = 1. Seien A1 , A2 , . . . ⊆ Ω paarweise disjunkt. Mit dem Doppelreihensatz aus der Analysis (Heuser, Analysis 1, Satz 45.1) folgt ! ∞ [ X P Ai = %(ω) S ω∈ ∞ i=1 Ai i=1 = = ∞ X X %(ω) i=1 ω∈Ai ∞ X P (Ai ). i=1 Eindeutigkeit: Sei P ein Maß, das die oben genannten Bedingungen erfüllt. Dann ist schon X X σ-Add. Vorauss. P (A) = P ({ω}) = %(ω) ω∈A ω∈A für alle A ∈ P(Ω). Beispiel 2.1.24 Seien Ω = N, λ > 0 und definiere für alle k ∈ N %(k) := e−λ λk . k! 32 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Wegen X %(k) = e−λ k∈Ω ∞ X λk k=0 = e−λ eλ = 1, k! gibt es nach obigem Satz genau ein Wahrscheinlichkeitsmaß P auf (N, P(N)) mit Zähldichte %. P heißt Poisson-Verteilung zum Parameter λ. Die Poisson-Verteilung wird genutzt, um beispielsweise die Anzahl von Telefonanrufen, Kunden, Versicherungsschäden usw. in einem festen Zeitintervall zu modellieren. Argumente hierfür werden wir später kennenlernen, siehe Bemerkung 2.3.18. Satz 2.1.25 Seien Ω = R, % : Ω → R+ (abschnittsweise) stetig mit existiert genau ein Wahrscheinlichkeitsmaß P auf (R, B) mit Z b %(x) dx P ((a, b]) = R∞ −∞ %(x)dx = 1. Dann a für alle −∞ ≤ a ≤ b < ∞. % heißt (Lebesgue-)Dichte von P . Beweis. Eindeutigkeit: G := {(−∞, c] : c ∈ R} ist ∩-stabiler Erzeuger von B, vgl. 2.1.19 (3). Aus dem Eindeutigkeitssatz 2.1.22 folgt, dass P damit durch P ((−∞, c]), c ∈ R, eindeutig festgelegt ist. R Existenz: Definiere P (A) := A %(x)dx für alle A ∈ B. Dann gilt: R 1. P (Ω) = R %(x)dx = 1. 2. Für paarweise disjunkte A1 , A2 , . . . ∈ B: ! Z ∞ [ P Ai = 1S ∞ Ai (x) %(x) dx |P i=1{z } i=1 ∞ i=1 Z = mon. Konv. = = = lim n→∞ Z lim 1Ai (x) n X i=1 n X n→∞ lim ∞ X 1Ai %(x) dx i=1 n Z X n→∞ 1Ai (x)%(x) dx 1Ai %(x) dx i=1 P (Ai ). i=1 3. P ((a, b]) = R %(x) dx = (a,b] Rb a %(x) dx für a ≤ b. Beispiel 2.1.26 Sei λ > 0 und definiere für x ∈ R %(x) := 1R+ (x)λe−λx . 2.1. WAHRSCHEINLICHKEITSRÄUME Wegen Z ∞ Z %(x) dx = −∞ 33 ∞ λe−λx dx = −e−λx |∞ x=0 = 0 − (−1) = 1 0 folgt nach obigem Satz die Existenz eines eindeutigen Wahrscheinlichkeitsmaßes P auf (R, B) mit Dichte %. Die Wahrscheinlichkeitsverteilung P heißt Exponentialverteilung zum Parameter λ. Die Exponentialverteilung wird genutzt, um beispielsweise die Wartezeit auf Telefonanrufe, Kunden, Versicherungsschäden, etc. oder die Lebensdauer von Bauteilen zu modellieren. Den Grund dafür werden wir später kennenlernen, siehe Satz 2.1.51. Beispiel 2.1.27 Seien a, b ∈ R mit a ≤ b und definiere für x ∈ R %(x) := 1 1[a,b] (x). b−a Wegen Z ∞ 1 %(x) dx = b−a −∞ Z b 1 dx = a b−a =1 b−a existiert ein eindeutiges Wahrscheinlichkeitsmaß P auf (R, B) mit Dichte %. Die Wahrscheinlichkeitsverteilung P heißt Gleichverteilung auf [a, b] und ist das in Vorbemerkung 2.1.14 gesuchte Analogon zur diskreten Gleichverteilung. Bemerkung 2.1.28 Ein Wahrscheinlichkeitsmaß auf Ω = N oder anderen abzählbaren (z. B. {1, . . . , n}, Z, Q) oder überabzählbaren (z. B. [a, b], R+ ) Teilmengen von R induziert in natürlicher Weise ein Wahrscheinlichkeitsmaß auf R, nämlich für A ∈ B via Pe(A) := P (A ∩ Ω). Definition 2.1.29 Sei P ein Wahrscheinlichkeitsmaß auf (Ω, F ) = (R, B). Die Funktion F : R → [0, 1] mit F (x) := P ((−∞, x]) heißt (kumulative) Verteilungsfunktion von P . Beispiel 2.1.30 1. Die Verteilungsfunktion der empirischen Verteilung von x1 , . . . , xn ∈ R (vgl. Beispiel 2.1.4) ist gerade die empirische Verteilungsfunktion aus Definition 1.2.5. 2. Die Exponentialverteilung zum Parameter λ > 0 hat die Verteilungsfunktion ( 0 für x < 0, F (x) = 1 − e−λx für x ≥ 0. 3. Die Gleichverteilung auf [a, b] hat die Verteilungsfunktion für x < a, 0 F (x) = x−a für a ≤ x < b, b−a 1 für x ≥ b. 34 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG 4. Die diskrete Gleichverteilung auf {1, . . . , n} (vgl. Satz 2.1.7) hat die Verteilungsfunktion für x < 1, 0 F (x) = 1 n 1 [x] für 1 ≤ x < n, für x ≥ n. Satz 2.1.31 Sei F die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes P auf (R, B). Dann gelten: 1. F ist monoton wachsend, 2. F ist rechtsseitig stetig, 3. limx→∞ F (x) = 1 und limx→−∞ F (x) = 0. Beweis. 1. Satz 2.1.9(4) (Monotonie von P ) 2. Satz 2.1.9(6) (Stetigkeit von oben) 3. Sei (xn )n eine wachsende Folge reeller Zahlen mit limn→∞ xn = ∞. Dann gilt nach Satz 2.1.9(6) n→∞ F (xn ) = P ((−∞, xn ]) −−−→ P (−∞, ∞) = 1. | {z } =R Analog für fallende Folgen mit limn→∞ xn = −∞. Satz 2.1.32 Sei eine Funktion F : R → [0, 1] mit den Eigenschaften 1–3 aus Satz 2.1.31 gegeben. Dann existiert genau ein Wahrscheinlichkeitsmaß P auf (R, B) mit Verteilungsfunktion F . Beweis. Eindeutigkeit: G := {(−∞, c] : c ∈ R} ist ∩-stabiler Erzeuger von B, vgl. 2.1.19 (3). Aus dem Eindeutigkeitssatz 2.1.22 folgt, dass P durch P ((−∞, c]), c ∈ R eindeutig festgelegt ist. Existenz: Maßtheorie. Satz 2.1.33 Sei P ein Wahrscheinlichkeitsmaß auf (R, B) mit Verteilungsfunktion F . Falls F stetig differenzierbar mit Ableitung f ist (oder allgemeiner: falls F (c) = Rc f (x) dx, c ∈ R für ein stückweise stetiges f : R → R+ ), dann ist f Lebesgue-Dichte −∞ von P . 2.1. WAHRSCHEINLICHKEITSRÄUME 35 Beweis. Für a ≤ b ist Z b Z b a f (x) dx − f (x) dx = a Z −∞ f (x) dx −∞ = F (b) − F (a) = P ((−∞, b]) − P ((−∞, a]) = P ((a, b]). Nun zu Produkräumen: Definition 2.1.34 Seien (Ω1 , F1 ), . . . , (Ωn , Fn ) messbare Räume und sei Ω := Ω1 × · · · × Ωn das kartesische Produkt. F := n O Qn i=1 Ωi = Fi := F1 ⊗ · · · ⊗ Fn := σ({A1 × · · · × An : Ai ∈ Fi für i = 1, . . . , n}) i=1 heißt Produkt-σ-Algebra und ist die Standard-σ-Algebra auf Ω. Satz 2.1.35 Seien (Ωi , Fi , Pi ), i = 1, . . . , n Wahrscheinlichkeitsräume und definiere Ω := Nn Qn := Ω und F i=1 Fi . Dann gibt es genau ein Wahrscheinlichkeitsmaß P auf (Ω, F ) i=1 mit n Y P (A1 × · · · × An ) = Pi (Ai ) i=1 für alle Ai ∈ Fi , i = 1, . . . , n. Man nennt P Produktmaß schreibt P =: Nn i=1 Pi . Beweis. Existenz: Maßtheorie. Eindeutigkeit: {A1 , × · · · × An : Ai ∈ Fi für i = 1, . . . , n} ist ∩-stabiler Erzeuger von F . Die Behauptung folgt mit dem Eindeutigkeitssatz 2.1.22. Q Bemerkung 2.1.36 1. Ω = ni=1 Ωi verwendet man für aus Einzelexperimenten mit Ergebnisraum Ωi zusammengesetzte Experimente. Warum bzw. wann das ProduktmaßP zur Modellierung angemessen ist, werden wir in Bemerkung 2.2.13 erfahren. 2. Satz 2.1.35 gilt auch für Maße anstelle von Wahrscheinlichkeitsmaßen. Betrachte beispielsweise (R, B, λ), wobei λ das Lebesguemaß, also das eindeutige Maß auf (R, B) sei mit λ((a, b]) = b − a N für a ≤ b, d. h. λ misst die Länge einer Menge. Das Produktmaß λn := ni=1 λ auf Q N (Rn , B n ) = ( ni=1 R, ni=1 B) heißt Lebesguemaß auf (Rn , B n ) und ist charakterisiert durch n Y n λ ((a1 , b1 ] × · · · × (an , bn ]) = (bi − ai ), i=1 d. h. λn misst die Fläche bzw. das Volumen usw. einer Menge. 36 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG 3. Produkt-σ-Algebren und Produktwahrscheinlichkeitsmaße gibt es auch für unendliche Q kartesische Produkte Ω = i∈I Ωi mit beliebiger Indexmenge I. Dabei ist ( Y ) ω: I → Ωi := i∈I F := Ωi : ω(i) ∈ Ωi für alle i ∈ I i∈I (insbesondere ΩI := O [ Fi := σ Q i∈I nn Ω = Abb(I, Ω)) und Y ω∈ i∈I o Ωi : ω(i1 ) ∈ A1 , . . . , ω(in ) ∈ An : i∈I n ∈ N : i1 , . . . , in ∈ I, Ak ∈ Ωik für k = 1, . . . , n N i∈I o . Pi ist das eindeutige Wahrscheinlichkeitsmaß P auf (Ω, F ) mit ( P ω∈ )! Y Ωi : ω(i1 ) ∈ A1 , . . . , ω(an ) ∈ An = i∈I n Y Pik (Ak ). k=1 für alle Rechteckmengen, also alle Mengen der Form auf der rechten Seite. Bemerkung 2.1.37 Seien (Ωi , P(Ωi ), Pi ), i = 1, . . . , n, endliche Wahrscheinlichkeitsräume mit Laplace-Verteilung Pi auf Ωi . N N Q Definiere (Ω, F , P ) := ( ni=1 Ωi , ni=1 P(Ωi ), ni=1 Pi ). Dann ist F = P(Ω) und P die Laplace-Verteilung auf Ω. Beweis. 1. Für ω = (ω1 , . . . , ωn ) ∈ Ω gilt {ω} = {(ω1 , . . . , ωn )} = {ω1 } × · · · × {ωn } ∈ n O P(Ωi ) = F i=1 und somit P(Ω) 2.1.19(2) = σ({ω} : ω ∈ Ω) ⊆ F ⊆ P(Ω). 2. Für alle ω = (ω1 , . . . , ωn ) ∈ Ω ist Def. P ({ω}) = P ({ω1 } × · · · × {ωn }) = n Y i=1 Pi ({ωi }) = Qn 1 i=1 somit folgt die Behauptung mit dem Eindeutigkeitssatz 2.1.22. 2.1.10 |Ωi | = 1 , |Ω| 2.1. WAHRSCHEINLICHKEITSRÄUME 2.1.5 37 Unabhängigkeit und bedingte Wahrscheinlichkeiten Definition 2.1.38 Seien (Ω, F , P ) ein Wahrscheinlichkeitsraum und B ∈ F mit P (B) > 0. Für A ∈ F heißt P (A ∩ B) P (A | B) := PB (A) := (2.3) P (B) die bedingte Wahrscheinlichkeit von A gegeben B. Satz 2.1.39 Seien (Ω, F , P ) und B wie in Definition 2.1.38. Dann ist PB : F → [0, 1] ein Wahrscheinlichkeitsmaß auf (Ω, F ) mit PB (B) = 1. Beweis. 1. PB (A) ∈ [0, 1] für alle A ∈ F 2. PB (Ω) = 3. PB P (B) P (B) [∞ ˙ i=1 =1 Ai S∞ P (( ˙ i=1 Ai ) ∩ B) = P (B) S ∞ P ( ˙ i=1 (Ai ∩ B)) = P (B) P∞ P (Ai ∩ B) = i=1 P (B) ∞ X = PB (Ai ) i=1 4. PB (B) = P (B∩B) P (B) =1 Motivation 2.1.40 Warum definiert man bedingte Wahrscheinlichkeiten durch die Formel in (2.3)? Analog zu 2.1.5 gibt es zwei Begründungen: 1. (Frequentistische Sichtweise) Sei (x1 , . . . , xn ) die Stichprobe eines Merkmals X : Ω → M . Für A ⊆ M ist die relative Häufigkeit r(A) = Zahl der xi ∈ A in Stichprobe (x1 , . . . , xn ) . Zahl der xi überhaupt in Stichprobe (x1 , . . . , xn ) Für festes B ∈ M entferne nun alle Beobachtungen aus der Stichprobe, die nicht in B liegen. Wir betrachten also eine kleinere Stichprobe (e x1 , . . . , x ek ), k ≤ n. Die relative Häufigkeit von A in der neuen Stichprobe ist Zahl der x ei ∈ A in neuer Stichprobe (e x1 , . . . , x en ) Zahl der x ei überhaupt in Stichprobe (e x1 , . . . , x en ) nr(A ∩ B) r(A ∩ B) = = . nr(B) r(B) rB (A) := 38 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Die frequentistische Interpretation von Wahrscheinlichkeiten als idealisierte relative Häufigkeiten motiviert somit die Definition (2.3) von bedingten Wahrscheinlichkeiten. Falls keine Beziehung“ zwischen A und B besteht, wird man ferner erwarten, dass ” der Anteil von A in der verminderten Stichprobe dem in der ursprünglichen Stichprobe ähnelt, d. h. rB (A) ≈ r(A). Beispiel: Seien (x1 , . . . , xn ) die Studenten an der CAU Kiel, A das Ereignis, dass ein Student weiblich ist und B das Ereignis, dass ein Student im Mai geboren wurde. Hier sollte man vermuten, dass rB (A) ≈ r(A) gilt. 2. (Verallgemeinerte Laplace-Wahrscheinlichkeiten) Für endliche Ω betrachte die Laplace-Verteilung P (A) = |A|/|Ω|, A ⊆ Ω. Für die Laplace-Verteilung PB auf B ⊆ Ω mit |B| > 0 gilt PB (A) = |A ∩ B| |A ∩ B| |Ω| P (A ∩ B) = = , |B| |Ω| |B| P (B) A ⊆ Ω. Die Interpretation von Wahrscheinlichkeiten als verallgemeinerten LaplaceWahrscheinlichkeiten motiviert somit ebenfalls (2.3). PB kann als Maß der Plausibilität angesehen werden, wenn man die zusätzliche Information die Tatsache ω ∈ ” B“erhält, aber nichts sonst, was die Plausibilität innerhalb von B neu gewichten würde. Wie im Beispiel aus 1. kann PB (A) ≈ P (A) so gedeutet werden, dass A durch Kenntnis von B nicht plausbiler/unplausibler wird. Beispiel 2.1.41 (Zweimaliger Würfelwurf) Ω = {1, . . . , 6}2 , P sei die Laplace-Verteilung auf Ω. A := { 2. Wurf ist eine 6“} = {1, . . . , 6} × {6}, P (A) = |A|/|Ω| = 1/6 ” B := { Augensumme ist 11 “} = {(5, 6)(6, 5)}, P (B) = |B|/|Ω| = 1/18 ” |A ∩ B| = {(5, 6)}, P (A ∩ B) = |A ∩ B|/|Ω| = 1/36 P (A | B) = P (A ∩ B)/P (B) = 1/2. Sei ab jetzt (Ω, F , P ) ein Wahrscheinlichkeitsraum. Satz 2.1.42 (Multiplikationsformel) Seien A1 , . . . , An ∈ F mit P (A1 ∩ · · · ∩ An ) > 0. Dann gilt P (A1 ∩ · · · ∩ An ) = P (A1 )P (A2 | A1 ) · · · P (An | A1 ∩ · · · ∩ An−1 ). Beweis. Vollständige Induktion: Der Induktionsanfang n = 1 ist trivial. Die Aussage gelte nun für (n − 1). Es folgt P (A1 ∩ · · · ∩ An ) = P (An ∩ (A1 ∩ · · · ∩ An−1 )) P (A1 ∩ · · · ∩ An−1 ) P (A1 ∩ · · · ∩ An−1 ) Ind.vor. = P (A1 )P (A2 |A1 ) · · · P (An |A1 ∩ · · · ∩ An−1 ). 2.1. WAHRSCHEINLICHKEITSRÄUME 39 S Satz 2.1.43 (Satz von der totalen Wahrscheinlichkeit) Sei Ω = i∈I Bi eine (höchstens) abzählbare Zerlegung von Ω in paarweise disjunkte Bi ∈ F . Dann gilt für alle A ∈ F : X P (A) = P (A | Bi )P (Bi ). i∈I mit P (Bi )>0 S ∩ Bi ) (paarweise disjunkt), also X X X P (A) = P (A ∩ Bi ) = P (A ∩ Bi ) = P (A | Bi )P (Bi ). Beweis. A = i∈I (A i∈I i∈I mit P (Bi )>0 i∈I mit P (Bi )>0 Satz 2.1.44 (Formel von Bayes) Sei (Bi )i∈I eine Zerlegung von Ω wie in Satz 2.1.43. Für alle A ∈ F mit P (A) > 0 und alle j ∈ I mit P (Bj ) > 0 gilt P (Bj | A) = P (A | Bj )P (Bj ) P . P (A | Bi )P (Bi ) i∈I mit P (Bi )>0 Beweis. P (Bj | A) = P (A ∩ Bj ) 2.1.43 = P (A) P (A | Bj )P (Bj ) P . P (A | Bi )P (Bi ) i∈I mit P (Bi )>0 Die Formel von Bayes kommt zur Anwendung, falls man nur die umgekehrten“ bedingten ” Wahrscheinlichkeiten kennt: Beispiel 2.1.45 Eine Krankheit K trete bei einer von 145 Personen auf. Somit tritt das Ereignis B = Sie haben K“ mit P (B) = 1/145 auf. Angenommen, es wurde ein Test zur ” Untersuchung auf das Vorliegen von K entwickelt. Sei A das Ereignis, dass der Test positiv ausfällt. Der Test sei relativ gut: P (A | B) = 0,96, P (AC | B C ) = 0,94. Dann ist 2.1.44 P (B | A) = 1 0,96 145 1 P (A | B)P (B) = . 1 144 = C C P (A | B)P (B) + P (A | B )P (B ) 10 0,96 145 + 0,06 145 Wenn der Test positiv ausfällt, sind Sie also nur mit 10%-iger Wahrscheinlichkeit tatsächlich an K erkrankt! Definition 2.1.46 Zwei Ereignisse A, B ∈ F heißen (stochastisch) unabhängig, falls P (A ∩ B) = P (A)P (B). Bemerkung 2.1.47 1. Im Falle P (B) > 0 ist dies äquivalent zu P (A | B) = P (A). 2. A und Ω sowie A und ∅ sind stets unabhängig. 40 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG 3. Unabhängigkeit hat nicht unbedingt etwas mit Kausalbeziehungen zu tun: Beispielsweise könnte die beobachtete stochastische Abhängigkeit der Zahl der Störche und der Zahl der Geburten auf eine Kausalbeziehung hindeuten, obwohl beide nur von einer dritten Größe abhängen. Dies ist hier die Zeit, da beide in den letzten dreißig Jahren allmählich zurückgingen. Das Auftreten von stochastischer Abhängigkeit bzw. Unabhängigkeit birgt also die Gefahr von Fehlinterpretationen. Umgekehrtes Beispiel (Unabhängigkeit trotz Kausalbeziehung): Betrachtet sei der zweifache Würfelwurf, Ω = {1, . . . , 6}2 mit Laplace-Verteilung P auf Ω. A := { 2. Wurf ist eine 6 “} = {1, . . . , 6} × {6}, P (A) = 1/6, ” B := { Augensumme ist 7 “} = {(1, 6), . . . , (6, 1)}, P (B) = 1/6, ” A ∩ B = {(1, 6)}, P (A ∩ B) = 1/36 = P (A)P (B), also sind A und B unabhängig, obwohl das Ergebnis des zweiten Würfelwurfs und die Summe der Augenzahlen natürlich kausal zusammenhängen. Allgemeiner: Definition 2.1.48 Seien I 6= ∅ eine Indexmenge, Ai ∈ F für alle i ∈ I. Die Familie (Ai )i∈I heißt unabhängig, falls für jede endliche, nichtleere Teilmenge J ⊆ I gilt: \ Y Ai = P (Ai ). P i∈J i∈J Bemerkung 2.1.49 1. Falls für (Ai )i∈I nur gilt, dass P (Ai ∩ Aj ) = P (Ai )P (Aj ) für i 6= j, dann heißt die Familie paarweise unabhängig. Diese Eigenschaft ist im Allgemeinen schwächer als Unabhängigkeit. Beispiel: Zweifacher Münzwurf, Ω = {0, 1}2 und P sei die Gleichverteilung auf Ω. A := { 1. Wurf ist 0“} = {0} × {0, 1}, P (A) = 1/2, ” B := { 2. Wurf ist 0“} = {0, 1} × {0}, P (B) = 1/2, ” C := { Beide Würfe sind gleich“} = {(0, 0), (1, 1)}, P (C) = 1/2. ” A ∩ B = B ∩ C = A ∩ C = A ∩ B ∩ C = {(0, 0)} haben die Wahrscheinlichkeit 1/4, somit sind die drei Mengen paarweise unabhängig. Aber P (A ∩ B ∩ C) = 1/4 6= (1/2)3 = P (A)P (B)P (C), also sind A, B, C nicht unabhängig. 2. Unabhängigkeit impliziert, dass alle bedingten Wahrscheinlichkeiten von A1 , . . . , An in der Multiplikationsformel 2.1.42 nicht von den Bedingungen abhängen. Satz 2.1.50 Sei (Ai )i∈I eine unabhängige Familie von Ereignissen. Dann ist auch (Ci )i∈I unabhängig, wobei Ci ∈ {Ai , AC i } für alle i ∈ I. Beweis. Sei J ⊆ I nichtleer und endlich. Beweis durch Induktion nach |{i ∈ J : Ci = AC i }| =: n. n = 0: \ \ Y Y Vor. P Ci = P Ai = P (Ai ) = P (Ci ) i∈J i∈J i∈J i∈J 2.1. WAHRSCHEINLICHKEITSRÄUME 41 n → n + 1: Sei dazu j ∈ J so gewählt, dass Cj = AC j . \ \ \ P Ci = P Ci \ Ci ∩ Aj i∈J i∈J\{j} = P \ i∈J\{j} Ci −P i∈J\{j} Ind.vor. Y = = i∈J\{j} = Y Ci ∩ Aj i∈J\{j} P (Ci ) − Y i∈J\{j} Y \ P (Ci ) P (Aj ) i∈J\{j} P (Ci ) (1 − P (Aj )) | {z } =P (Cj ) P (Ci ). i∈J Nun zur Motivation der Exponentialverteilung für Wartezeiten und Lebensdauern ohne ” Gedächtnis“: Satz 2.1.51 (Gedächtnislosigkeit und Exponentialverteilung) Eine Wahrscheinlichkeitsverteilung P auf (R, B) mit P (R+ ) = 1 und P ([t, ∞)) < ∞ für alle t ∈ R+ heißt gedächtnislos, falls P ((t + s, ∞) | (t, ∞)) = P ((s, ∞)) (2.4) für alle s, t ∈ R+ . Die in diesem Sinne gedächtnislosen Verteilungen sind genau die Exponentialverteilungen aus Beispiel 2.1.26. Beweis. 1. Sei P eine Exponentialverteilung zum Parameter λ. Dann gilt P ((t + s, ∞)) P ((t, ∞)) 1 − P ((−∞, t + s]) = 1 − P ((−∞, t]) −λ(t+s) ) 2.1.26 1 − (1 − e = −λt 1 − (1 − e ) P ((t + s, ∞) | (t, ∞)) = = e−λs 2.1.26 = 1 − P ((−∞, s]) = P ((s, ∞)). 2. Sei P gedächtnislos mit Verteilungsfunktion F . Sei ferner λ := − log P ((1, ∞)). Nach Satz 2.1.32 und Beispiel 2.1.30 reicht es zu zeigen, dass F (t) = 1 − e−λt für alle t > 0 (denn F (t) = 0 für alle t ≤ 0 ist klar). Äquivalent zeigen wir, dass für 42 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG G := 1 − F gilt, dass G(t) = e−λt , t > 0. Auf Grund der Monotonie und Stetigkeit genügt es, rationale t, etwa t = m/n für m, n ∈ N zu betrachten. Es gilt G(t)G(s) = P ((t, ∞))P ((s, ∞)) P ((t + s, ∞)) (2.4) = P ((t, ∞)) P ((t, ∞)) = P ((t + s, ∞)) = G(t + s) für alle t ∈ R. Mit Induktion folgt G(t1 + . . . + tk ) = k Y G(ti ) (2.5) i=1 für t1 , . . . , tk ≥ 0 und somit n 1 1 1 (2.5) −λ G = G(1) = e ⇒ G = e−λ n n n sowie m (2.5) 1 m m 1 m −λ n = G G = e = e−λ n . n n 2.2 Zufallsvariablen In vielen Situationen ist oft weniger das Ergebnis ω ∈ Ω eines Zufallsexperimentes von Interesse, als vielmehr quantitative Aspekte davon, vgl. Merkmale in Definition 1.1.3. 2.2.1 Zufallsvariablen im diskreten Fall Sei zunächst Ω höchstens abzählbar. Der allgemeine Fall folgt in Abschnitt 2.2.4. Definition 2.2.1 Sei (Ω, F , P ) ein (diskreter) Wahrscheinlichkeitsraum. Eine Abbildung X : Ω → R (oder allgemeiner X : Ω → Ω0 ) heißt Zufallsgröße bzw. im allgemeinen Fall Zufallsvariable. Bezeichnung 2.2.2 Wir definieren {X ∈ B} := {ω ∈ Ω : X(ω) ∈ B} = X −1 (B) sowie P (X ∈ B) := P ({X ∈ B}). Beispiel: P (X > 5) := P ({ω ∈ Ω : X(ω) > 5}), {X > 5} := {ω ∈ Ω : X(ω) > 5} Allgemein: P ((von ω ∈ Ω abhängige) Aussage) := P ({w ∈ Ω : Aussage gilt für ω}) 2.2. ZUFALLSVARIABLEN 43 Beispiel 2.2.3 n-facher Münzwurf, Ω = {0, 1}n (0 entspricht Kopf, 1 entspricht Zahl). P X : Ω → Ω0 := {0, . . . , n} (oder alternativ R), ω = (ω1 , . . . , ωn ) 7→ X(ω) := ni=1 ωi . steht für die Anzahl der Zahl“-Würfe. ” Satz 2.2.4 Seien (Ω, P(Ω), P ) ein (diskreter) Wahrscheinlichkeitsraum, X : Ω → Ω0 eine Zufallsvariable, wobei Ω0 abzählbar sei. Dann definiert P X (A0 ) := P (X −1 (A0 )) = P (X ∈ A0 ) für A0 ∈ Ω0 ein Wahrscheinlichkeitsmaß P X auf (Ω0 , P(Ω0 )). Beweis. 1. P X (A0 ) = P (X −1 (A0 )) ∈ [0, 1] 2. P X (Ω0 ) = P (X −1 (Ω0 )) = P (Ω) = 1 3. Seien A01 , A02 , . . . paarweise disjunkt. Dann sind auch X −1 (A01 ), X −1 (A02 ), . . . paarweise disjunkt und somit PX ∞ [ i=1 ! A0i =P X −1 ∞ [ !! A0i i=1 {z } S∞ = i=1 X −1 (A0i ) σ-Add. = ∞ X P (X −1 (A0i )) = i=1 ∞ X P X (A0i ). i=1 | Definition 2.2.5 1. P X in Satz 2.2.4 heißt Verteilung von X oder Bildmaß von P unter X. Schreibweisen: P X = PX = P ◦ X −1 = X(P ) = L(X; P ) = L(X). 2. Zufallsvariablen X, Y heißen identisch verteilt, falls P X = P Y . Beispiel 2.2.6 Ziehen mit Zurücklegen aus einer Urne mit schwarzen und weißen Kugeln, vgl. Definition 2.1.12(1). Sei Ω := {1, . . . , s + w}n , wobei 1, . . . , s einer schwarzen, s + 1, . . . , s + w einer weißen Kugel entspreche. P sei die Laplace-Verteilung auf Ω. Definiere X als die Anzahl der in n Durchgängen gezogenen schwarzen Kugeln, d. h. X : Ω → {0, . . . , n} mit X((ω1 , . . . , ωn )) = |{i ∈ {1, . . . , n} : ωi ∈ {1, . . . , s}}|. 44 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Was ist die Verteilung von X? P X ({k}) = P (X = k) [ = P {(ω1 , . . . , ωn ) ∈ Ω : ωi ∈ {1, . . . , s} für i ∈ I, ! I⊆{1,...,n} : |I|=k X = I⊆{1,...,n} : |I|=k 2.1.10(2) = ωi ∈ {s + 1, . . . , s + w} für i ∈ I C Y 1 Y {1, . . . , s} × {s + 1, . . . , s + w} |Ω| i∈I C X I⊆{1,...,n} : |I|=k i∈I sk wn−k (s + w)n k n−k n s w = k s+w s+w n k = p (1 − p)n−k , k ∈ {0, . . . , n} k 2.1.10(4) mit p := s . s+w Diese Verteilung auf {0, . . . , n} heißt Binomialverteilung zu Parametern n, p. Beispiel 2.2.7 Ziehen ohne Zurücklegen aus einer Urne mit schwarzen und weißen Kugeln, vgl. Beispiel 2.1.12 (2). Sei Ω := {(ω1 , . . . , ωn ) ∈ {1, . . . , s + w}n : ω1 < · · · < ωn }, wobei 1, . . . , s einer schwarzen, s + 1, . . . , s + w einer weißen Kugel entspreche. P sei die Laplace-Verteilung von X. Definiere wieder X als die Anzahl der in n ≤ s+w Durchgängen gezogenen schwarzen Kugeln, d. h. X : Ω → {0, . . . , n} mit X((ω1 , . . . , ωn )) 7→ |{i ∈ {1, . . . , n} : ωi ≤ s}|. Wieder interessiert uns die Verteilung von X. Für k = 0, . . . , n mit k ≤ s und n − k ≤ w gilt {X = k} = Ω0 × Ω00 mit s 0 k 0 Ω := (ω1 , . . . , ωn ) ∈ {1, . . . , s} : ω1 < · · · < ωn , |Ω | = , k w 00 n−k 00 Ω := (ωk+1 , . . . , ωn ) ∈ {s + 1, . . . , s + w} : ωk+1 < · · · < ωn , |Ω | = , n−k also |Ω0 × Ω00 | P X ({k}) = P (X = k) = |Ω| 2.1.12(3), 2.1.10(2) = s k w n−k s+w n . Diese Verteilung heißt hypergeometrisch. Nach Satz 2.2.4 handelt es sich tatsächlich um eine Wahrscheinlichkeitsverteilung. Definition 2.2.8 Seien n ∈ N \ {0}, Ω = {0, . . . , n} (oder N), s, w ∈ N mit (s + w) ≥ n. Die hypergeometrische Verteilung zu Parametern n, s, w auf (Ω, P(Ω)) ist definiert durch die Zähldichte w s %(k) := k n−k s+w n . 2.2. ZUFALLSVARIABLEN 45 Beispiel 2.2.9 Ziehung der Lottozahlen 6 aus 49“ im Urnenmodell aus Beispiel 2.2.7. ” s + w = 49, s = 6 (entspricht den angekreuzten Zahlen), n = 6 (entspricht den gezogenen Kugeln). Sei X wie oben, entspreche also den richtigen“ Kugeln, die sowohl angekreuzt ” als auch gezogen wurden. 6 43 P ( Genau 5 Richtige“) = P (X = 5) = ” 2.2.2 5 1 49 6 ≈ 1,8 · 10−5 . Unabhängigkeit von Zufallsvariablen Sei Ω weiterhin (höchstens) abzählbar. Definition 2.2.10 Seien I 6= ∅ eine Indexmenge und Xi : Ω → Ωi Zufallsvariablen für alle i ∈ I. Die Familie (Xi )i∈I heißt unabhängig, falls für jede endliche Teilmenge J ⊆ I mit J 6= ∅ und alle Bi ⊆ Ωi , i ∈ J gilt, dass \ Y P {Xi ∈ Bi } = P (Xi ∈ Bi ) i∈J i∈J (d. h. für alle Bi ∈ Ωi , i ∈ I ist die Familie ({Xi ∈ Bi })i∈I unabhängig). Satz 2.2.11 Seien Xi : Ω → Ωi , i = 1, . . . , n Zufallsvariablen, wobei für i = 1, . . . , n die Mengen Ωi höchstens abzählbar seien. Dann sind X1 , . . . , Xn genau dann unabhängig, wenn n Y P (X1 = ω1 , . . . , Xn = ωn ) = P (Xi = ωi ) i=1 für alle ω1 ∈ Ω1 , . . . , ωn ∈ Ωn gilt. Beweis. ⇒“: Setze J := {1, . . . , n}, Bi := {ωi } für i = 1, . . . , n. ” ⇐“: Seien J ⊆ I, Bi ⊆ Ωi wie in Definition 2.2.10. Ohne Beschränkung der Allgemeinheit ” sei J = {1, . . . , n} (sonst wähle Bi := Ωi für i ∈ / J). Dann gilt ! n \ X σ-Add. P {Xi ∈ Bi } = P (X1 = ω1 , . . . , Xn = ωn ) ω1 ∈B1 ,...,ωn ∈Bn i=1 X = n Y P (Xi = ωi ) ω1 ∈B1 ,...,ωn ∈Bn i=1 = σ-Add. = n Y i=1 n Y ! X P (Xi = ωi ) ωi ∈Bi P (Xi ∈ Bi ). i=1 46 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Satz 2.2.12 Seien Xi : Ω → Ωi , i = 1, . . . , n Zufallsvariablen, wobei für i = 1, . . . , n die Mengen Ωi höchstens abzählbar seien. Q Definiere X := (X1 , . . . , Xn ) : Ω → ni=1 Ωi , X(ω) = (X1 (ω), . . . , Xn (ω)). Dann gilt: X1 , . . . , Xn unabhängig ⇔ P X = n O P Xi i=1 (d. h. Unabhängigkeit gilt ganau dann, wenn die gemeinsame Verteilung gerade dem Produkt der Randverteilungen entspricht). Beweis. X1 , . . . , Xn unabhängig ! n n \ Y ⇔P {Xi ∈ Bi } = P (Xi ∈ Bi ) i=1 | für Bi ⊆ Ωi , i = 1, . . . , n i=1 {z } ⇔ P X (B1 × · · · × Bn ) = | n Y {z } P Xi (Bi ) für Bi ⊆ Ωi , i = 1, . . . , n i=1 ⇔P X = n O P Xi i=1 Bemerkung 2.2.13 Zurück zu Bemerkung 2.1.36 (1) über Wahrscheinlichkeitsmaße bei unabhängigen Versuchswiederholungen: Sei (Ω, P(Ω), P ) als (diskreter) Wahrscheinlichkeitsraum Modell für ein Zufallsexperiment. Wenn das zugehörige Experiment n-mal wiederholt wird, passt dazu der Grundraum Q Ωn = ni=1 Ω. Die i-te Projektion πi : Ωn → Ω, (ω1 , . . . , ωn ) 7→ ωi steht für das i-te Einzelexperiment. Frage: Welches Wahrscheinlichkeitsmaß Q auf (Ωn , P(Ωn )) passt zu dem Mehrfach- bzw. Gesamtexperiment? Nebenbedingungen: Wir möchten, dass das Einzelexperiment πi die Verteilung P besitzt und dass die Einzelexperimente stochastisch unabhängig sind, da dies der Anschauung einer unabhängigen Versuchswiederholung unter identischen Bedingungen entspricht. Antwort: Wenden wir Satz 2.2.12 auf X = (π1 , . . . , πn ) = id : Ωn → Ωn an, kommt nur das Produktmaß n O ⊗n P := P i=1 in Frage. Bei der unabhängigen Hintereinanderausführung verschiedener Experimente Nn (Ωi , P(Ωi ), Pi ), i = 1, . . . , n, führt analoges Vorgehen zum Produktmaß i=1 Pi auf Qn i=1 Ωi . 2.2. ZUFALLSVARIABLEN 47 Beispiel 2.2.14 n-maliger Wurf einer p-Münze mit p ∈ [0, 1]. Ωi = {0, 1}, Pi ({1}) = p = 1 − Pi ({0}), i = 1, . . . , n. N (Ω, P(Ω), P ) := ({0, 1}n , P({0, 1}n ), ni=1 Pi ) mit P ({(ω1 , . . . , ωn )}) = n Y Pi ({ωi }) i=1 Zahl der Einsen =p =p Pn i=1 ωi (1 − p)Zahl der Nullen (1 − p)n− Pn i=1 ωi . Diese Verteilung heißt Bernoulli-Verteilung. P Sei nun X : Ω → {0, . . . , n}, (ω1 , . . . , ωn ) 7→ ni=1 ωi die Zufallsgröße, die die Anzahl der Einsen wiedergibt. Die Verteilung von X ist charakterisiert durch P X ({k}) = P (X = k) = X n Y P ({(ωI )i }) wobei (ωI )i := I⊆{1,...,n} i=1 mit |I|=k = X ( 1 0 falls i ∈ I, sonst pk (1 − p)n−k I⊆{1,...,n} mit |I|=k n k = p (1 − p)n−k , k k = 0, . . . , n. Die Zufallsgröße ist also binomialverteilt, vgl. Beispiel 2.2.6. Definition 2.2.15 Seien n ∈ N∗ , Ω = {0, 1, . . . , n} (oder N), p ∈ [0, 1]. Die Binomialverteilung mit Parametern n, p auf (Ω, P(Ω), P ) ist definiert durch die Zähldichte n k %(k) := p (1 − p)n−k , k k ∈ {0, . . . , n} (bzw. N). Beispiel 2.2.16 Analog: n-maliges Werfen eines unfairen“ Würfels mit r Seiten und Wahr” scheinlichkeiten p1 , . . . , pr . Ωi = {1, . . . , r}, Pi ({k}) = pk mit k = 1, . . . , r und i = 1, . . . , n, N (Ω, P(Ω), P ) := ({1, . . . , r}n , P({1, . . . , r}n ), ni=1 Pi ). P Betrachte die Zufallsvariable X : Ω → {(n1 , . . . , nr ) : n1 , . . . , nr ∈ N mit ni=1 ni = n}, (ω1 , . . . , ωn ) 7→ (|{i ∈ {1, . . . , n} : ωi = 1}|, . . . , |{i ∈ {1, . . . , n} : ωi = r}|) = (Anzahl der Einsen, Anzahl der Zweien, . . . , Anzahl der r“-Würfe ). ” 48 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Die Verteilung von X ist charakterisiert durch P X ({(n1 , . . . , nr )}) = = P (X = (n1 , . . . , nr )) n X Y Pi ({ωA1 ,...,Ar }i ) i=1 (Ai )i=1,...,r Zerlegung von {1,...,n} | mit |Ai |=ni für i=1,...,r 2.1.10(4b) = {z mit (ωA1 ,...,Ar )i := k für i ∈ Ak } n r =p1 1 ···pn r n! pn1 · · · pnr r n1 ! · · · nr ! 1 für n1 , . . . , nr ∈ N mit n X ni = n. i=1 Diese Verteilung heißt Multinomialverteilung. Pr Definition 2.2.17 Seien n, r ∈ N∗ , Ω = {(n1 , . . . , nr ) ∈ Nr : i=1 ni = n} sowie Pr p1 , . . . , pr ∈ [0, 1] mit i=1 pi = 1. Die Multinomialverteilung auf (Ω, P(Ω), P ) mit Parametern n, r, p1 , . . . , pr ist definiert durch die Zähldichte %((n1 , . . . , nr )) = n! pn1 1 · · · pnr r . n1 ! · · · nr ! Nun zu Summen unabhängiger Zufallsgrößen: Definition 2.2.18 Seien X, Y unabhängige Zufallsvariablen und S := X + Y . Die Verteilung P S heißt Faltung von P X und P Y . Schreibweise: P X ∗ P Y := P S . Satz 2.2.19 Seien X, Y unabhängige Zufallsgrößen mit Werten in Z und %X , %Y : Z → [0, 1] die zu P X , P Y gehörigen Zähldichten. Dann ist X %S := Z → [0, 1], %S (k) := %X (`)%Y (k − `) `∈Z die Zähldichte von P X ∗ P Y . Schreibweise: %X ∗ %y := %S (Faltung von %X und %Y ). Beweis. %S (k) = P X+Y ({k}) = P (X + Y = k) X = P (X = `, Y = k − `) `∈Z Unabh. = X P (X = `)P (Y = k − `) `∈Z = X %X (`)%Y (k − `). `∈Z 2.2. ZUFALLSVARIABLEN 2.2.3 49 Erwartungswert und Momente Der Erwartungswert einer Zufallsgrößen ist das Mittel ihrer Werte, gewichtet mit den Wahrscheinlichkeiten ihres Auftretens. Was bedeutet diese Zahl, denn bei einem Würfelwurf wird man alles mögliche erwarten“, aber sicher nicht, eine 3,5 zu würfeln? ” Interpretation gemäß Motivation 2.1.5: 1. (Frequentistische Sichtweise). Der Erwartungswert ist das Stichprobenmittel einer unendlich großen“ Stichprobe. ” 2. (Verallgemeinerte Laplace-Wahrscheinlichkeiten). Der Erwartungswert ist das arithmetische Mittel der Werte von X bezogen auf eine Grundgesamtheit gleichwahrscheinlicher Ergebnisse. Sei Ω weiterhin höchstens abzählbar. Definition 2.2.20 Sei X : Ω → R eine Zufallsgröße. Der Erwartungswert von X ist definiert als X X(ω)P ({ω}), E[X] := ω∈Ω falls dies sinnvoll ist, genauer: falls X ≥ 0 (dann gilt möglicherweise E[X] = ∞) oder falls X ∈ L 1 :⇔ E[ |X| ] < ∞. |{z} ≥0 Beispiel 2.2.21 Einfacher Würfelwurf Ω = {1, . . . , 6}, P sei die Laplace-Verteilung auf Ω, X : Ω → R, ω 7→ ω. P P E[X] = 6ω=1 X(ω)P ({ω}) = 6ω=1 ω 61 = 3,5. Satz 2.2.22 (Transformationssatz) Sei X : Ω → R eine Zufallsgröße. Dann gilt X E[X] = xP (X = x), x∈X(Ω) falls der Ausdruck sinnvoll ist, d. h. falls X ≥ 0 oder X X ∈ L1 ⇔ |x|P (X = x) < ∞. x∈X(Ω) Allgemeiner: Für f : R → R gilt E[f (X)] = X f (x)P (X = x), x∈X(Ω) falls f ≥ 0 oder f (X) ∈ L 1 ⇔ X x∈X(Ω) |f (x)|P (X = x) < ∞. 50 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Beweis. X f (X(ω))P ({ω}) = ω∈Ω X X f (x) x∈X(ω) X P ({ω}) = ω∈{X=x} f (x)P (X = x) x∈X(Ω) sowie s.o. f (X) ∈ L 1 ⇔ E[|f (X)|] < ∞ ⇔ X |f (x)|P (X = x) < ∞. x∈X(Ω) Bemerkung 2.2.23 1. E[X] hängt nicht direkt von X als Abbildung ab, sondern nur von dessen Verteilung P X auf X(Ω). 2. Für A ⊆ Ω ist E[1A ] = 0P (1A = 0) + 1P (1A = 1) = P (A). 3. Wenn P X die empirische Verteilung von x1 , . . . , xn ∈ R ist (vgl. Definition 2.1.4), ist der Erwartungswert E(X) gerade deren arithmetisches Mittel, vgl. Definition 1.3.1. Satz 2.2.24 (Rechenregeln) Seien X, Y, X1 , X2 , . . . : Ω → R Zufallsgrößen in L 1 , c ∈ R. Dann gelten: 1. Monotonie: X ≤ Y ⇒ E[X] ≤ E[Y ], 2. Linearität: X + Y ∈ L 1 und E[X + Y ] = E[X] + E[Y ] sowie cX ∈ L 1 und E[cX] = cE[X] (insbesondere E[c] = c), 3. monotone Konvergenz: 0 ≤ Xn ↑ X für n → ∞ ⇒ E[Xn ] ↑ E[X] für n → ∞, 4. Produktregel bei Unabhängigkeit: X, Y unabhängig ⇒ XY ∈ L 1 und E[XY ] = E[X]E[Y ]. Beweis. P X(ω) P ({ω}) ≤ | {z } P |(X + Y )(ω)| P ({ω}) ≤ | {z } P 1. E[X] = ω∈Ω ω∈Ω Y (ω)P ({ω}) = E[Y ] ≤Y (ω) 2. P ω∈Ω ω∈Ω |X(ω)|P ({ω}) + P ≤|X(ω)|+|Y (ω)| Bei Weglassen der Betragsstriche gilt Gleichheit und damit E[X + Y ] = E[X] + E[Y ]. Die zweite Aussage folgt analog. ω∈Ω |Y (ω)|P ({ω}) < ∞. 2.2. ZUFALLSVARIABLEN 51 3. Aus der Monotonie folgt, dass E[Xn ] ↑ c ≤ E[X] für ein c ∈ R+ . Sei nun ε > 0. Sei P A ⊆ Ω mit |A| < ∞ so groß, dass E[X] − ω∈A X(ω)P ({ω}) < ε (existiert wegen Konvergenz). Sei n so groß, dass X(ω) − Xn (ω) < ε für alle ω ∈ A. Dann folgt X X 0 ≤ E[X] − E[Xn ] ≤ X(ω)P ({ω}) + (X(ω) − Xn (ω)) P ({ω}) | {z } C ω∈A ω∈A ≤ε ≤ ε + P (A)ε ≤ 2ε. 4. X |z|P (XY = z) = z∈XY (Ω) z |z| P X = x, Y = x} {z | z∈XY (Ω), X z 6=0 nur falls y:= x ∈Y (Ω) 06=x∈X(Ω) X = |xy| P (X = x, Y = y) {z } |{z} | y∈Y (Ω) x∈X(Ω) =|x||y| X = Unabh. = P (X=x)P (Y =y) |x|P (X = x) x∈X(Ω) X |y|P (Y = y) < ∞. y∈Y (Ω) Die gleiche Rechnung ohne Betragsstriche ergibt, dass E[XY ] = E[X]E[Y ]. Beispiel 2.2.25 Sei X binomialverteilt mit Parametern n, p (vgl. Definition 2.2.6). Dann ist n X n k E[X] = kP (X = k) = k p (1 − p)n−k k k=0 k∈X(Ω) n X n − 1 k−1 binom. Lehrs. = np p (1 − p)(n−1)(k−1) = np(p + (1 − p))n−1 = np. k − 1 k=1 X Definition 2.2.26 Seien X : Ω → R eine Zufallsgröße und p ∈ [1, ∞). Man schreibt X ∈ L p , falls |X|p ∈ L 1 (d. h. falls E[|X|p ] < ∞). Für X ∈ L p heißt E[X p ] p-tes Moment von X. 0 0 Bemerkung 2.2.27 Für p ≤ p0 gilt L p ⊆ L p , denn |X|p ≤ 1 + |X|p . Definition 2.2.28 Seien X, Y ∈ L 2 . 1. Var(X)p:= E[(X − E[X])2 ] heißt Varianz von X, σX := Var(X) heißt Streuung oder Standardabweichung von X. 2. Kov(X, Y ) := E[(X − E[X])(Y − E[Y ])] heißt Kovarianz von X und Y . 3. Im Falle σX , σY 6= 0 heißt %X,Y = Kov(X,Y ) σX σY Korrelationskoeffizient von X, Y . 4. X, Y heißen unkorreliert, falls Kov(X, Y ) = 0. 52 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Bemerkung 2.2.29 1. Kov(X, Y ) ist definiert, denn für X, Y ∈ L 2 E[|(X − E[X])(Y − E[Y ])|] ≤ E[|XY |] + E[|E[X]Y |] + E[|XE[Y ]|] + E[|E[X]E[Y ]|] ≤ E [ |XY | ] + 3E[|X|]E[|Y |] < ∞. | {z } ≤X 2 +Y 2 2. Varianz und Streuung beschreiben, wie dicht die Zufallsgröße am Erwartungswert liegt. Kovarianz und Korrelation beschreiben die lineare Abhängigkeit von Zufallsgrößen. 3. Empirische Varianz, Streuung, Kovarianz und Korrelation von Daten x1 , . . . , xn in Kapitel 1 sind fast“ Varianz, Streuung, Kovarianz und Korrelation einer Zufalls” größen, deren Verteilung die empirische Verteilung der Daten x1 , . . . , xn ist. Der einzige Unterschied besteht im Vorfaktor 1/(n − 1) anstelle von 1/n in der Definition von empirischer Varianz, Streuung und Kovarianz. Ein Grund dafür wird in Bemerkung 3.2.7 genannt. 4. Var(X) und σX hängen nur von P X ab, vgl. Bemerkung 2.2.23. Satz 2.2.30 (Rechenregeln) Seien X, Y, X1 , . . . , Xn ∈ L 2 und a, b, c ∈ R. 1. Var(X) = E[X 2 ] − (E[X])2 2. Kov(X, Y ) = E[XY ] − E[X]E[Y ] 3. Die Abbildung (X, Y ) 7→ Kov(X, Y ) ist bilinear und symmetrisch, d. h. (a) Kov(X1 + X2 , Y ) = Kov(X1 , Y ) + Kov(X2 , Y ), (b) Kov(cX, Y ) = cKov(X, Y ), (c) Kov(Y, X) = Kov(X, Y ). 4. Kov(X + b, Y ) = Kov(X, Y ) 5. Var(aX + b) = a2 Var(X) 6. (E[XY ])2 ≤ E[X 2 ]E[Y 2 ] (Cauchy-Schwarzsche Ungleichung), insbesondere (Kov(X, Y ))2 ≤ Var(X)Var(Y ) Pn 2 7. i=1 Xi ∈ L und ! n n n X X X Var Xi = Var(Xi ) + Kov(Xi , Xj ) i=1 i=1 i,j=1 i6=j Sind X1 , . . . , Xn paarweise unkorreliert, gilt ! n n X X Var Xi = Var(Xi ) (Gleichung von Bienaymé). i=1 i=1 2.2. ZUFALLSVARIABLEN 53 8. X, Y unabhängig ⇒ X, Y unkorreliert. Beweis. 1. Folgt aus 2. 2. Kov(X, Y ) = E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X]E[Y ] − E[X]E[Y ] + E[X]E[Y ] = E[XY ] − E[X]E[Y ]. 3. Kov(X1 + X2 , Y ) = E[(X1 + X2 )Y ] − E[X1 + X2 ]E[Y ] 2. = E[X1 Y ] + E[X2 Y ] − E[X1 ]E[Y ] − E[X2 ]E[Y ] E[·] linear = Kov(X1 , Y ) + Kov(X2 , Y ). Analog für Kov(cX, Y ). Symmetrie ist klar. 4. Kov(X + b, Y ) = E[(X + b − E[X + b])(Y − E[Y ])] = Kov(X, Y ). | {z } =X−E[X] 4. 5. Var(aX + b) = Kov(aX + b, aX + b) = Kov(aX, aX) 3. = a2 Kov(X, X) = a2 Var(X). 6. Fall 1: E[X 2 ] = 0. Dann P (|X| > ε) = 0 für ε > 0, denn ε2 1{|X|>ε} ≤ |X|2 ⇒ ε2 P (|X| > ε) = E[ε2 1{|X|>ε} ] ≤ E[X 2 ] = 0, also P (X 6= 0) = 0 (Stetigkeit von unten) und somit E[XY ] = 0. Fall 2: E[X 2 ] 6= 0. Für beliebige λ ∈ R gilt 0 ≤ E[(λX − Y )2 ] = λ2 E[X 2 ] − 2λE[XY ] + E[Y 2 ] und mit λ := 0≤ E[XY ] E[X 2 ] somit (E[XY ])2 (E[XY ])2 − 2 + E[Y 2 ] ⇒ (E[XY ])2 ≤ E[X 2 ]E[Y 2 ]. 2 2 E[X ] E[X ] 7. Wegen 4. können wir o. B. d. A. annehmen, dass E[Xi ] = 0. Also ! !2 n n X X Var Xi = E Xi i=1 i=1 = n X i=1 = n X i=1 E[Xi2 ] + n X E[Xi Xj ] i,j=1 i6=j n X Var(Xi ) + i,j=1 i6=j Kov(Xi , Xj ). 54 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG 8. Satz 2.2.24(4) Beispiel 2.2.31 Sei X binomialverteilt mit Parametern n, p, vgl. Definition 2.2.15. n X 2 2 n E[X ] = k pk (1 − p)n−k k k=0 n X n − 1 k−1 = np k p (1 − p)n−k k − 1 k=1 n−1 X n−1 k = np (k + 1) p (1 − p)n−k−1 k k=0 ! n−1 n−1 X X n − 1 n−1 k pk (1 − p)n−1−k = np k p (1 − p)n−1−k + k k k=0 k=0 {z } | {z } | =1 =(n−1)p (Bsp. 2.2.25) = np((n − 1)p + 1), 2.2.25 also Var(X) = E[X 2 ] − (E[X])2 = (np)2 − np2 + np − (np)2 = np(1 − p). Satz 2.2.32 Seien X, Y ∈ L 2 mit σX , σY 6= 0. Dann gelten: 1. %XY ∈ [−1, 1], 2. %XY = ±1 genau dann, wenn es a ∈ R, b ∈ (0, ∞) gibt mit P (Y = a ± bX) = 1. Beweis. 1. Satz 2.2.30(6). 2.2.30(4) 2. ⇐“: Kov(X, Y ) = Kov(X, a ± bX) = ±bKov(X, X) = ±bVar(X) und ” p 2.2.30(5) p Var(X)Var(Y ) = Var(X)b2 Var(X) = bVar(X). e := X − E[X], Ye := Y − E[Y ] gilt (E[X e Ye ])2 = E[X e 2 ]E[Ye 2 ]. Analog ⇒“. Für X ” zum Beweis von 2.2.30(6) folgt ee e − Ye )2 ] für λ = E[X Y ] = %XY σY 0 = E[(λX e 2] σX E[X e − Ye 6= 0) = 0. und somit P (Y 6= λX − λE[X] + E[Y ]) = P (λX Bemerkung 2.2.33 Achtung: Aus der Unkorreliertheit von X, Y folgt nicht, dass X, Y unabhängig sind! Seien beispielsweise P (X = −1) = P (X = 0) = P (X = 1) = 1/3, Y := X 2 . P (X = 1, Y = 1) = P (X = 1) = 1/3 6= 2/9 = (1/3)(2/3) = P (X = 1)P (Y = 1), also sind X, Y nicht unabhängig. Aber Kov(X, Y ) = E[XY ] − E[X]E[Y ] = 1/3 + 0 − 1/3 − 0(2/3) = 0, also sind X, Y unkorreliert. 2.2. ZUFALLSVARIABLEN 55 Nun zum mehrdimensionalen Fall: Definition 2.2.34 Sei X = (X1 , . . . , Xn ) eine Rn -wertige Zufallsvariable. 1. Im Fall X1 , . . . , Xn ∈ L 1 heißt E[X] = (E[X1 ], . . . , E[Xn ]) ∈ Rn Erwartungswertvektor von X. 2. Im Fall X1 , . . . , Xn ∈ L 2 ist die Kovarianzmatrix Kov(X) ∈ Rn×n definiert durch Kov(X)ij := Kov(Xi , Xj ). Satz 2.2.35 Seien X eine Rn -wertige Zufallsvariable, A ∈ Rm×n , b ∈ Rm . Dann gelten: 1. X1 , . . . , Xn ∈ L 1 ⇒ E[AX + b] = AE[X] + b, 2. X1 , . . . , Xn ∈ L 2 ⇒ Kov(AX + b) = AKov(X)AT , 3. X1 , . . . , Xn ∈ L 2 ⇒ Kov(X) ist symmetrisch und positiv semidefinit. Beweis. 1. Satz 2.2.24(2). P P 2. Kov(AX + b)ij = Kov( nk=1 Aik Xk + bi , nl=1 Ajl Xl + bj ) 2.2.30 Pn T = k,l=1 Aik Ajl Kov(Xk , Xl ) = (A Kov(X)A )ij . 2. 3. Symmetrie ist klar. Für a ∈ Rn gilt aT Kov(X)a = Kov(aT X, aT X) = Var(aT X) ≥ 0, also ist Kov(X) auch positiv semidefinit. Nützlich für konkrete Berechnungen: Definition 2.2.36 Sei P ein Wahrscheinlichkeitsmaß auf (N, P(N)) mit Zähldichte %. Die Funktion ϕP : [0, 1] → R mit ∞ X ϕP (s) := %(k)sk k=0 heißt erzeugende Funktion von P . Bemerkung 2.2.37 renzierbar. P∞ k=0 %(k) = 1 < ∞ ⇒ ϕP endlich und auf [0, 1) unendlich oft diffe- Beispiel 2.2.38 1. P Gleichverteilung auf {1, . . . , n}: 1 ϕP (s) = n (s + s2 + · · · + sn ) 2. P Binomialverteilung mit Parametern n, p: P ϕP (s) = nk=0 nk pk (1 − p)n−k sk = (ps + (1 − p))n 56 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG 3. P Poissonverteilung mit Parameter λ: P −λ k ϕP (s) = ∞ (λ /k!)sk = e−λ(1−s) k=0 e Bezeichnung 2.2.39 Ist X eine N-wertige Zufallsgröße, nennt man ϕX := ϕP X erzeugende Funktion von X. Bemerkung 2.2.40 ϕX (s) = Satz 2.2.41 P∞ k=0 P (X = k)sk = E[sX ] für s ∈ [0, 1]. 1. Sei P Wahrscheinlichkeitsverteilung auf N mit Zähldichte %. Dann gilt 1 (k) ϕ (0), k! P %(k) = k ∈ N, (k) wobei ϕP die k-te Ableitung sei. Insbesondere ist P durch ϕP eindeutig bestimmt. 2. Sei X eine N-wertige Zufallsgröße. Dann gelten (a) X ∈ L 1 ⇔ ϕ0X (1−) := lims↑1 ϕ0X (s) existiert ⇔ ϕ0X (1) existiert; (b) X ∈ L 2 ⇔ ϕ00X (1−) := lims↑1 ϕ00X (s) existiert . In diesem Fall Var(X) = ϕ00X (1) − (E[X])2 + E[X]. Beweis. 1. Analysis, z. B. Heuser, Analysis I, 64.2. 2. (a) (ϕ0X (1) ϕX (1) − ϕX (s) =) lim s↑1 1−s ∞ X = lim s↑1 = sup n∈N = lim s↑1 k=0 n X k=0 ∞ X %(k) k−1 X s i ∞ X 1 − sk = lim %(k) s↑1 1−s k=0 = sup sup s<1 n∈N j=0 %(k)k = ∞ X n X k=0 %(k) k−1 X sj j=0 %(k)k (= E[X]) k=0 %(k)ksk−1 k=0 = lim ϕ0X (s). s↑1 (b) Analog zu (a): ∞ ϕ0 (1) − ϕ0X (s) X lim X = %(k)k(k − 1) s↑1 1−s k=1 = lim s↑1 ∞ X k=1 %(k)k(k − 1)sk−2 = lim ϕ00 (s), s↑1 insbesondere im Fall X ∈ L 2 : ϕ00X (1) = E[X 2 − X] = Var(X) + (E[X])2 − E[X] = lims↑1 ϕ00X (s). 2.2. ZUFALLSVARIABLEN 57 Beispiel 2.2.42 Sei X Poissonverteilt mit Parameter λ. ∂ −λ(1−s) ∂ 2 −λ(1−2) Dann sind E[X] = ∂s e |s=1 = λ und Var(X) = ∂s |s=1 − λ2 + λ = λ. 2e Satz 2.2.43 Seien X, Y unabhängige N-wertige Zufallsgrößen. Dann gilt ϕX+Y (s) = ϕX (s)ϕY (s), Beweis. ϕX+Y (s) = E[sX+Y ] = E[sX sY ] 2.2.24(4) = s ∈ [0, 1]. E[sX ]E[sY ] = ϕX (s)ϕY (s). Korollar 2.2.44 Seien P1 , P2 Verteilungen auf N. Dann gilt ϕP1 ∗P2 (s) = ϕP1 (s)ϕP2 (s), s ∈ [0, 1]. Beweis. Definition der Faltung 2.2.18. Beispiel 2.2.45 1. Sind P1 , P2 binomialverteilt mit Parametern m, p bzw. n, p, ist auch P1 ∗ P2 binomialverteilt mit Parametern (m + n), p (nach Beispiel 2.2.38 (2) und Korollar 2.2.44). 2. Sind P1 , P2 poissonverteilt mit Parametern λ1 bzw. λ2 , ist auch P1 ∗ P2 poissonverteilt mit Parameter (λ1 + λ2 ) (nach Beispiel 2.2.38 (3) und Korollar 2.2.44). 2.2.4 Zufallsvariablen im allgemeinen Fall Wir möchten unsere Theorie nun auf überabzählbare Ω übertragen. Dabei ergeben sich folgende Probleme: • P (X ∈ B) = P (X −1 (B)) ist eventuell nicht definiert für das Wahrscheinlichkeitsmaß P : F → R+ , denn im Allgemeinen ist F 6= P(Ω); • E[X] = P ω∈Ω X(ω)P ({ω}) ergibt für überabzählbares Ω keinen Sinn. Auf maßtheoretische Beweise verzichten wir in dieser Einführung. Definition 2.2.46 (vgl. Definition 2.2.1) Seien (Ω, F ), (Ω0 , F 0 ) Ereignisräume. X : Ω → Ω0 heißt (F -F 0 )-messbar, falls X −1 (A0 ) ∈ F für alle A0 ∈ F 0 (Urbilder messbarer Mengen sind messbar). Falls (Ω, F , P ) ein Wahrscheinlichkeitsraum ist, heißen messbare X Zufallsvariablen, falls zusätzlich (Ω0 , F 0 ) = (R, B), auch Zufallsgrößen. Bemerkung 2.2.47 zeigen. 1. Es reicht, X −1 (A0 ) ∈ F für alle A0 aus dem Erzeuger von F 0 zu 58 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG 2. A ∈ F ⇒ 1A : Ω → R ist messbar. Summen, Produkte, inf, sup, lim inf, lim sup und Hintereinanderausführungen messbarer Abbildungen sind messbar. Stetige Abbildungen sind Borel-messbar (d. h. messbar bezüglich der Borel-σAlgebra). Faustregel: Messbarkeit ist kein kritischer Punkt. Satz 2.2.48 (vgl. Satz 2.2.4) Sei X : (Ω, F , P ) → (Ω0 , F 0 ) eine Zufallsvariable, d. h. (Ω, F , P ) ist ein Wahrscheinlichkeitsraum, (Ω0 , F 0 ) ein Ereignisraum, und X ist messbar. Dann definiert P X (A0 ) := P (X −1 (A0 )) = P (X ∈ A0 ), A0 ∈ F 0 ein Wahrscheinlichkeitsmaß P X auf (Ω0 , F 0 ) (allgemeiner: ein Maß P X , falls P ein Maß ist). Beweis. Die Funktion ist wohldefiniert, da X −1 (A0 ) ∈ F . Rest wie in Satz 2.2.4. Definition 2.2.49 (vgl. Definition 2.2.5) Die Verteilung von X, das Bildmaß von P unter X (auch falls P nur Maß) und identisch verteilt werden genau wie im abzählbaren Fall definiert. Definition 2.2.50 (vgl. Definition 2.2.10) Seien I 6= ∅ eine Indexmenge und Xi : (Ω, F , P ) → (Ωi , Fi ) Zufallsvariablen für alle i ∈ I. (Xi )i∈I heißt unabhängig, falls ! \ Y P {Xi ∈ Bi } = P (Xi ∈ Bi ) i∈J i∈J für alle nichtleeren, endlichen J ⊆ I und alle Bi ∈ Fi , i ∈ J. Bemerkung 2.2.51 1. (vgl. Satz 2.2.11) Statt aller Bi ∈ Fi reicht es, alle Bi aus einem ∩-stabilen Erzeuger von Fi zu betrachten. Beispielsweise sind Zufallsgrößen X1 , . . . , Xn genau dann unabhängig, wenn P (X1 ≤ c1 , . . . , Xn ≤ cn ) = n Y P (Xi ≤ ci ) i=1 für alle c1 , . . . , cn ∈ [−∞, ∞]. (Es reichen sogar c1 , . . . , cn ∈ R). 2. Ist (Xi )i∈I unabhängig, ist auch (fi (Xi ))i∈I unabhängig, falls fi messbare Funktionen sind. Ferner sind auch Kombinationen“ der Xi unabhängig. Beispielsweise folgt aus √ ” der Unabhängigkeit von X1 , . . . , X5 , dass auch (X1 + X2 , X3 , X4 X5 ) unabhängig ist. 2.2. ZUFALLSVARIABLEN 59 Satz 2.2.52 (vgl. Satz 2.2.12) Seien Xi : (Ω, F , P ) → (Ωi , Fi ), i ∈ I Zufallsvariablen. Definiere X := (Xi )i∈I : Ω → Q i∈I Ωi , vgl. Bemerkung 2.1.36(3). Dann gilt: O (Xi )i∈I unabhängig ⇔ P X = P Xi . i∈I (P X , i∈I P Xi 2.1.36(3)) N Q N sind Wahrscheinlichkeitsmaße auf ( i∈I Ωi , i∈I Fi ), vgl. Bemerkung Bemerkung 2.2.53 Bemerkung 2.2.13 (unabhängige Versuchswiederholung) gilt entsprechend. Sie ist auch für unendliche Versuchswiederholungen sinnvoll. Die Modellierung erQ N N folgt via ( i∈I Ωi , i∈I Fi , i∈I Pi ), wobei (Ωi , Fi , Pi ) das Einzelexperiment mit Nummer i beschreibt. Beispiel 2.2.54 (vgl. Beispiel 2.2.14) Folge unendlich vieler Würfe einer p-Münze mit p ∈ [0, 1]. Ωi = {0, 1}, Pi ({1}) = p = 1 − Pi ({0}), i = 1, 2, . . . Die 0 wird als Misserfolg, die 1 als Erfolg interpretiert. N∞ N∞ Q P({0, 1}), {0, 1}, (Ω, F , P ) := ( ∞ i=1 Pi ) i=1 Q∞ i=1 N∗ Hierbei ist i=1 {0, 1} =: {0, 1} die Menge aller Abbildungen N∗ → {0, 1}. Die Zufallsgröße Xr beschreibe für r ∈ N die Zahl der Misserfolge bis zum r-ten Erfolg, d. h. ( ) k X Xr : Ω → N, ω 7→ inf k ∈ N : ωi = r − r i=1 (insbesondere ist X1 die Wartezeit bis zum ersten Erfolg). Dann gilt ! k+r−1 X P (Xr = k) = P ω ∈ Ω : ωk+r = 1, ωi = r − 1 i=1 X = P ({ω ∈ Ω : ωi = 1 für i ∈ A ∪ {k + i}, A⊆{1,...,k+r−1} |A|=r−1 Unabh. X = ωi = 0 für i ∈ {1, . . . , k + r − 1} \ A}) pr (1 − p)(k+r−1)−(r−1) A⊆{1,...,k+r−1} |A|=r−1 = k+r−1 r p (1 − p)k , r−1 k ∈ N. Diese Verteilung heißt negative Binomialverteilung und für r = 1 geometrische Verteilung. Definition 2.2.55 Seien p ∈ (0, 1), r ∈ N∗ . Die negative Binomialverteilung oder PascalVerteilung mit Parametern r, p auf (N, P(N)) ist definiert durch die Zähldichte k+r−1 r %(k) := p (1 − p)k , k ∈ N. r−1 Für r = 1 heißt die Verteilung geometrische Verteilung mit Parameter p. 60 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Beispiel 2.2.56 Sei P die negative Binomialverteilung mit Parametern r, p. 1. Erzeugende Funktion: ∞ X k+r−1 ϕP (s) = pr (1 − p)k sk r − 1 k=0 | {z } k+r−1 −r =( k )=( k )(−1)k ∞ X −r r =p (−s(1 − p))k k k=0 r p = . 1 − (1 − p)s k P α (Binomische Reihe: (1 + x)α = ∞ k=0 k x ) 2. Folgerung: Seien P1 , P2 negative Binomialverteilungen mit Parametern r1 , p bzw. r2 , p. Dann ist P1 ∗ P2 eine negative Binomialverteilung mit Parametern r1 + r2 , p (nach Korollar 2.2.44). 3. Sei X negativ binomialverteilt mit Parametern r, p. Dann gelten r p 2.2.41 ∂ E[X] = ∂s 1 − (1 − p)s s=1 −r−1 r = r(1 − p)p (1 − (1 − p)s) |s=1 1−p 1 = r =r −1 , p p r 2 2 2 p 2.2.41 ∂ − r (1 − p) + r(1 − p) Var(X) = ∂s2 1 − (1 − p)s s=1 p2 p 2 r (1 − p)2 r(1 − p) + = r(r + 1)(1 − p)2 pr (1 − (1 − p)s)−r−2 s=1 − p2 p | {z } =r(r+1) (1−r)2 p2 1−p . p2 Man beachte, dass Erwartungswert und Varianz proportional zu r sind. Dies ist auch zu erwarten, wenn man die Wartezeit auf den r-ten Erfolg als unabhängige Summe von r Wartezeiten jeweils auf den nächsten Erfolg versteht. = r Nun zum Erwartungswert mittels Lebesgue-Integration: Definition 2.2.57 (vgl. Definition 2.2.20) Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum (oder allgemeiner ein Maßraum). X : Ω → R heißt elementar, falls n X X= ai 1Ai i=1 mit a1 , . . . , an ∈ R+ , A1 , . . . , An ∈ F . (Die Mengen A1 , . . . , An können in diesem Fall disjunkt gewählt werden.) 2.2. ZUFALLSVARIABLEN 61 1. Definiere das Integral für solche X als gewichteten Mittelwert: Z n X X X dP := ai P (Ai ) = xP (X = x) . i=1 x∈X(Ω) 2. Sei X : Ω → R eine Zufallsgröße (bzw. messbar) mit X ≥ 0. Definiere das Integral Z Z X dP := sup Y dP : Y elementar mit Y ≤ X . R 3. Sei X : Ω → R eine Zufallsgröße (bzw. messbar) mit X + dP < ∞ oder R − X dP < ∞ im Sinne von 2., wobei X + := max{0, X}, X − := max{0, −X}. Definiere das Integral Z Z Z + X dP := X dP − X − dP. R R X heißt integrierbar, falls |X| dP < ∞ (oder äquivalent dazu, falls X + dP < ∞ R und X − dP < ∞). Schreibweise: X ∈ L 1 4. Seien X : Ω → R eine Zufallsgröße (bzw. messbar) wie in 2. oder 3. und A ∈ F . Definiere das Integral Z Z X dP := X1A dP. A R R 1. Man schreibt auch X dP := X(ω) P (dω). R R 2. Im Fall P = λ (Lebesguemaß) sei A f (x) dx := A f dλ. Dieses Lebesgue-Integral stimmt mit dem (eigentlichen) Riemann-Integral überein, falls letzteres existiert. R 3. Für Wahrscheinlichkeitsmaße P schreibt man E[X] := X dP und nennt das Integral Erwartungswert von X, vgl. Definition 2.2.20 und Satz 2.2.22. Bezeichnung 2.2.58 Eigenschaften 2.2.59 (vgl. Satz 2.2.24) 1. Für höchstens abzählbares Ω entspricht der Erwartungswert dem Erwartungswert aus Definition 2.2.20. Begründung für endliches Ω und X ≥ 0: Z X X 2.2.57(1) X= X(ω)1{ω} ⇒ X dP = X(ω)P ({ω}) ω∈Ω ω∈Ω oder X= X x1{X=x} x∈X(Ω) 2. R X dP ist wohldefiniert. 2.2.57(1) ⇒ Z X dP = X x∈X(Ω) xP (X = x). 62 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG 3. X 7→ R X dP ist linear und monoton. 4. Falls X, X1 , X2 , . . . messbar und nichtnegativ sind mit Xn ↑ X für n → ∞, gilt Z Z Xn dP ↑n→∞ X dP (monotone Konvergenz). 5. Falls X, X1 , X2 , . . . messbar sind mit Xn → X für n → ∞ (punktweise) und R supn |Xn | dP < ∞, gilt Z Z n→∞ Xn dP −−−→ X dP (majorisierte Konvergenz). Satz 2.2.60 (Transformationssatz) (vgl. Satz 2.2.22) Seien X : (Ω, F , P ) → (Ω0 , F 0 ) und die Funktion f : (Ω0 , F 0 ) → (R, B) messbar. Dann gilt Z Z f dP X , f (X) dP = falls der Ausdruck definiert ist, d. h. f ≥ 0 oder R |f (X)| dP < ∞ (⇔ R |f | dP X < ∞). Bemerkung 2.2.61 (vgl. Bemerkung 2.2.23(1)) R R Insbesondere gilt E[X] = X dP = x P X (dx), d. h. der Erwartungswert hängt nur von P X ab. Satz 2.2.62 (vgl. Satz 2.2.22) Sei P ein Wahrscheinlichkeitsmaß auf (R, B) mit Lebesgue-Dichte %, vgl. Satz 2.1.25. Dann gilt Z %(x) dx, P (B) = B ∈ B. B mit dem Integral aus Bemerkung 2.2.58(2). Allgemeiner: Z Z f dP = f (x)%(x) dx für f : (R, B) → (R, B) mit f ≥ 0 oder R |f | dP < ∞ (⇔ R |f (x)|%(x) dx < ∞). Beispiel 2.2.63 1. Sei X eine auf [a, b] gleichverteilte Zufallsgröße, d. h. P X ist die Gleichverteilung auf [a, b]. Dann ist Z Z 1 2.2.61 2.2.62 X E[X] = x P (dx) = x%(x) dx mit %(x) = 1[a,b] (x) b−a Z Z b 1 1 = x dx = x dx b−a a [a,b] b − a b 1 x2 b 2 − a2 = = b − a 2 x=a 2(b − a) a+b = . 2 2.2. ZUFALLSVARIABLEN 63 2. Sei X eine exponentialverteile Zufallsgröße mit Parameter λ, d. h. P X ist exponentialverteilt mit Parameter λ. Dann ist Z Z 2.2.61 2.2.62 X E[X] = x P (dx) = x%(x) dx mit %(x) = 1R+ (x)λe−λx Z ∞ xλe−λx dx = 0 Z ∞ −λx ∞ e−λx dx = −xe + x=0 ∞ 0 1 −λx = 0− e λ x=0 1 = . λ 3. Allgemein also: Ist X eine Zufallsgröße, deren Verteilung Lebesgue-Dichte % hat und ist f : R → R messbar, gilt Z E[f (X)] = f (x)%(x) dx, falls der Erwartungswert existiert, denn Z Z Z Def. 2.2.60 X 2.2.62 E[f (X)] = f (X) dP = f dP = f (x)%(x) dx. Vergleiche im Diskreten: 2.2.22 E[f (X)] = X f (x)P (X = x) = x∈X(Ω) X f (x)%(x), x∈X(Ω) falls % die Zähldichte der Verteilung von X ist. Bemerkung 2.2.64 L p , p-te Momente, Varianz, Streuung, Standardabweichung, Kovarianz, Korrelationskoeffizient, Unkorreliertheit, Erwartungswertvektor und Kovarianzmatrix werden wie in Definitionen 2.2.26, 2.2.28, 2.2.34 definiert. Die Rechenregeln und Bemerkungen 2.2.23, 2.2.24, 2.2.27, 2.2.29, 2.2.30, 2.2.32, 2.2.33, 2.2.35 gelten mit denselben Beweisen auch allgemein. Beispiel 2.2.65 Sei X exponentialverteilt mit Parameter λ. Dann ist Z ∞ Z ∞ 2 2.2.63(3) 2 −λx 2 −λx ∞ E[X ] = x λe dx = −x e + 2xe−λx dx x=0 0 0 Z 2 ∞ 2 1 2.2.63(2) = 0+ xλe−λx dx = λ 0 λλ 2 = 2 λ und somit Var(X) = E[X 2 ] − (E[X])2 2.2.63(2) = 2 1 1 − = . λ2 λ2 λ2 64 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Zur Integration von Produktmaßen: Satz 2.2.66 (Satz von Fubini) Seien (Ω1 , F1 , P1 ), (Ω2 , F2 , P2 ) Wahrscheinlichkeitsräume und f : Ω1 × Ω2 → R mit f ≥ 0 oder f ∈ L 1 (P1 ⊗ P2 ). Dann gilt Z Z Z f d(P1 ⊗ P2 ) = f (ω1 , ω2 )P2 ( dω2 )P1 ( dω1 ) Z Z = f (ω1 , ω2 )P1 ( dω1 )P2 ( dω2 ). Insbesondere für A ∈ F1 ⊗ F2 : Z Z (P1 ⊗ P2 )(A) = 1A (ω1 , ω2 )P2 ( dω2 )P1 ( dω1 ) Z Z = 1A (ω1 , ω2 )P1 ( dω1 )P2 ( dω2 ). Bemerkung 2.2.67 Satz 2.2.66 gilt nicht nur für Wahrscheinlichkeitsmaße, sondern auch für die meisten anderen Maße, beispielsweise das Lebesguemaß, d. h. Z Z Z Z Z f (x) dx = f (x1 , x2 ) dx1 dx2 = f (x1 , x2 ) dx2 dx1 . R2 Beispiel 2.2.68 1. Sie schalten zwei Glühbirnen ein, deren Lebensdauern unabhängig exponentialverteilt sind mit Parametern λ1 , λ2 . Mit welcher Wahrscheinlichkeit ist die erste Glühbirne zuerst defekt? Seien X1 , X2 die Lebensdauer der jeweiligen Glühbirne. Dann gilt P (X1 ≤ X2 ) = P ((X1 , X2 ) ∈ {x ∈ R2 : x1 ≤ x2 }) = P (X1 ,X2 ) ({x ∈ R2 : x1 ≤ x2 }) Unabh. = (P X1 ⊗ P X2 )({x ∈ R2 : x1 ≤ x2 }) Z Z (2.2.66) = 1{x∈R2 : x1 ≤x2 } (x1 , x2 )P X1 ( dx1 )P X2 ( dx2 ) Z ∞ Z x2 (2.2.61) 1R+ (x1 )λ1 e−λ1 x1 dx1 1R+ (x2 )λ2 e−λ2 x2 dx2 = 0 0 Z ∞ = .(−e−λ1 x1 )|xx21 =0 λ2 e−λ2 x2 dx2 Z0 ∞ = (1 − e−λ1 x2 )λ2 e−λ2 x2 dx2 0 λ2 e−(λ1 +λ2 )x2 )|∞ x2 =0 λ1 + λ2 λ2 λ1 = 1− = . λ1 + λ2 λ1 + λ2 = 1 − .( 2. Seien X1 , X2 unabhängige Zufallsgrößen mit Verteilungsdichten %1 , %2 und sei f : R2 → R (vgl. Beispiel 2.2.63 (3)). Dann gilt Z Z E[f (X1 , X2 )] = f (x1 , x2 )%1 (x1 ) dx1 %2 (x2 ) dx2 . 2.2. ZUFALLSVARIABLEN 65 Insbesondere für A ⊆ R2 : Z Z P ((X1 , X2 ) ∈ A) = 1A (x1 , x2 )%1 (x1 ) dx1 %2 (x2 ) dx2 . Für diskrete Zufallsgrößen mit Zähldichten %1 , %2 vereinfacht sich dies zu X E[f (X1 , X2 )] = f (x1 , x2 ) P ((X1 , X2 ) = (x1 , x2 )) | {z } (x1 ,x2 )∈(X1 ,X2 )(Ω) X = Unabh. = P (X1 =x1 )P (X2 =x2 )=%1 (x1 )%2 (x2 ) X f (x1 , x2 )%1 (x1 )%2 (x2 ). x2 ∈X2 (Ω) x1 ∈X1 (Ω) Zur Faltung bei Dichten: Satz 2.2.69 (vgl. Satz 2.2.19) Seien X, Y unabhängige Zufallsgrößen mit zugehörigen Verteilungsdichten %X , %Y : R → R+ . Dann ist %S : R → R+ mit Z %S (x) = %X (z)%Y (x − z) dz die Dichte von P X ∗ P Y . Schreibweise: %X ∗ %Y := %S (Faltung von %X und %Y ). Beweis. Seien X, Y unabhängig, S := X + Y . Sei F die Verteilungsfunktion von P X ∗ P Y = P X+Y = P S . Dann gilt F (t) P (S ≤ t) = P (X + Y ≤ t) = P ((X, Y ) ∈ {(x, y) ∈ R2 : x + y ≤ t}) Z Z 2.2.68(2) = 1{x+y≤t} %Y (y) dy %X (x) dx Z ∞ Z t−x = %Y (y) dy %X (x) dx −∞ −∞ Z t Z ∞ = %Y (z − x)%X (x) dx dz, = −∞ also −∞ ∂ HDI %S (t) = F (t) = ∂t 2.1.33 Z ∞ %Y (t − x)%X (x) dx. −∞ Definition 2.2.70 Sei F : R → [0, 1] die Verteilungsfunktion einer Verteilung auf (R, B) (z. B. der Verteilung einer Zufallsgröße X). Dann heißt F ← : (0, 1) → R mit p 7→ inf{x ∈ R : F (x) ≥ p} verallgemeinerte Inverse oder Quantilfunktion von F . 66 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Bemerkung 2.2.71 1. F ← ist linksseitig stetig; 2. F ← = F −1 |(0,1) falls F streng monoton und stetig; 3. F ← (p) ≤ t ⇔ p ≤ F (t) für alle t ∈ R, p ∈ (0, 1). Definition 2.2.72 Sei F die Verteilungsfunktion einer Verteilung P auf (R, B), etwa die Verteilung einer Zufallsgröße X. 1. Jede Zahl m ∈ [F ← ( 21 ), F ← ( 12 +)] heißt Median von P bzw. X, wobei F ← (p+) := limq↓p F ← (q). 2. Für p ∈ (0, 1) heißt jede Zahl q ∈ [F ← (p), F ← (p+)] p-Quantil von P bzw. X. Bemerkung 2.2.73 1. q ist ein p-Quantil von X genau dann wenn P (X ≤ q) ≥ p und P (X ≥ q) ≥ 1 − p. 2. Der Median ist gerade das 1/2-Quantil, 1/4- und 3/4-Quantile heißen untere bzw. obere Quartile. Beispiel 2.2.74 1. Wenn F die empirische Verteilungsfunktion von x1 , . . . , xn ∈ R ist, entsprechen Median und p-Quantil bis auf die spezielle Wahl denen aus den Definitionen 1.3.3 und 1.3.8. 2. Sei X exponentialverteilt mit Parameter λ > 0 (beispielsweise Lebensdauer eines radioaktiven Teilchens). X hat die Verteilungsfunktion F (t) = P (X ≤ t) 2.1.30(1) = 1 − e−λt , also F ← (p) = − λ1 log(1 − p). Der eindeutige Median (Halbwertszeit) von X ist somit 1 1 1 1 m = − log 6= = E[X] . = log(2) λ 2 λ λ Definition 2.2.75 Sei X eine Zufallsgröße, deren Verteilung die Zähldichte oder LebesgueDichte % hat. Falls % ein eindeutiges Maximum bei x0 ∈ R hat, heißt x0 Modus oder Modalwert von X. 2.3 2.3.1 Grenzwertsätze Konvergenzbegriffe Frage: Wie verhalten sich stochastische Experimente im Limes, z. B. wenn Versuche oft wiederholt werden? Gesetze der großen Zahlen etwa besagen, dass bei häufiger Versuchswiederholung das arithmetische Mittel gegen den Erwartungswert konvergiert (bzw. die relative Häufigkeit gegen die entsprechende Wahrscheinlichkeit). Allerdings ist nicht von vornherein klar, in welchem Sinne Konvergenz bei Folgen von Zufallsgrößen zu verstehen ist. 2.3. GRENZWERTSÄTZE 67 Definition 2.3.1 Seien X, X1 , X2 , . . . : (Ω, F , P ) → (R, B) Zufallsgrößen. 1. (Xn )n∈N∗ konvergiert stochastisch (oder in Wahrscheinlichkeit) gegen X, falls für alle ε>0 n→∞ P (|Xn − X| ≤ ε) −−−→ 1. P (Schreibweise: Xn − → X). 2. (Xn )n∈N∗ konvergiert P -fast sicher gegen X, falls P (Xn → X für n → ∞) = 1. Bemerkung 2.3.2 1. Fast sichere Konvergenz impliziert stochastische Konvergenz. Wir betrachten in dieser Vorlesung nur stochastische Konvergenz. 2. Es gibt weitere Begriffe, wie z. B. n→∞ Xn → X in L p :⇔ E[|Xn − X|p ] −−−→ 0. Diese betrachten wir in dieser Vorlesung nicht. Definition 2.3.3 Seien X, X1 , X2 , . . . Zufallsgrößen mit zugehörigen Verteilungsfunktionen FX , FX1 , FX2 , . . . Die Folge (Xn )n∈N∗ konvergiert in Verteilung gegen X (bzw. (P Xn )n∈N∗ konvergiert schwach gegen P X ), falls n→∞ FXn (c) −−−→ FX (c) für alle c ∈ R, in denen FX stetig ist. L d D Schreibweisen: Xn − → X, Xn → − X, Xn − → X für n → ∞. Bemerkung 2.3.4 1. Verteilungskonvergenz hängt nur von der Folge der Verteilungen X1 X2 P , P , . . . ab. Die Zufallsgrößen selbst brauchen in keiner Beziehung zueinander zu stehen. 2. Man kann zeigen: Xn → X in Verteilung ⇔ E[f (Xn )] → E[f (X)] für alle stetigen, beschränkten Funktionen f : R → R. Satz 2.3.5 Seien X, X1 , X2 , . . . N-wertige Zufallsgrößen mit Verteilungsfunktionen FX , FX1 , FX2 , . . . . Die folgenden Aussagen sind äquivalent: 1. Xn → X in Verteilung, n→∞ 2. FXn (c) −−−→ FX (c) für alle c ∈ R, n→∞ 3. P (Xn = k) −−−→ P (X = k) für alle k ∈ N (d. h. punktweise Konvergenz der Zähldichten von P Xn ). 68 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Beweis. 2 ⇒ 1: klar 1 ⇒ 3: 1 1 1 1 k − ,k + P (Xn = k) = P = FXn k + − FXn k − 2 2 2 2 1 1 n→∞ − FX k − = P (X = k), k ∈ N −−−→ FX k + 2 2 Xn 3 ⇒ 2: FXn (c) = [c] X n→∞ P (Xn = k) −−−→ k=0 [c] X P (X = k) = FX (c) k=0 P Satz 2.3.6 Falls Xn − → X, dann auch Xn → X in Verteilung. Beweis. Seien η > 0 und c ein Stetigkeitspunkt von FX . Dann gilt FXn (c) − FX (c) = P (Xn ≤ c) − P (X ≤ c) ≤ P (X ≤ c + ε) − P (X ≤ c) + P (|Xn − X| > ε) < η {z } | {z } | < η2 für kleines ε < η2 für großes n(ε) für großes n. Analog: FXn (c) − FX (c) > −η für großes n. 2.3.2 Gesetze der großen Zahlen Nun zur eingangs erwähnten Konvergenz: Satz 2.3.7 (Markow-Ungleichung) Seien X eine Zufallsgröße und f : R+ → R+ monoton wachsend mit f (x) > 0 für x > 0. Dann gilt P (|X| ≥ ε) ≤ E[f (|X|)] , f (ε) ε > 0. Beweis. E[f (|X|)] ist definiert, da f (|X|) ≥ 0. Weiter ist f (ε)1{|X|≥ε} ≤ f (|X|) und somit f (ε)P (|X| ≥ ε) = E[f (ε)1{|X|≥ε} ] ≤ E[f (|X|)]. Korollar 2.3.8 (Tschebyschow-Ungleichung) Für X ∈ L 2 und ε > 0 gilt P (|X − E[X]| ≥ ε) ≤ Var(X) . ε2 Beweis. Satz 2.3.7 für X 0 := X − E[X] und f (x) := x2 . 2.3. GRENZWERTSÄTZE 69 Satz 2.3.9 (Schwaches Gesetz der großen Zahlen) Seien X1 , X2 , . . . unabhängige, identische verteilte Zufallsgrößen in L 2 . Dann gilt n 1X P Xi − → E[X1 ] n i=1 für n → ∞. Beweis. Für Yn := 1 n Pn i=1 gilt n 1X E[Xi ] = E[X1 ], E[Yn ] = n i=1 n 1 X 1 Var(Yn ) = 2 Var(Xi ) = Var(X1 ), n i=1 n 2.2.30 also folgt P ! n 1 X 2.3.8 Var(X1 ) 1 Xi − E[X1 ] > ε = P (|Yn − E[Yn ]| > ε) ≤ →0 n ε2 n i=1 für n → ∞. Korollar 2.3.10 Seien X1 , X2 unabhängige, identisch verteilte Zufallsgrößen und A ∈ B. Dann gilt n 1X P 1A (Xi ) − → P X1 (A) n i=1 | {z } | {z } rel. Häufigkeit Wahrscheinlichkeit für n → ∞. Beweis. P X1 (A) = P (X1−1 (A)) = E[1X −1 (A) ] = E[1A (X1 )] Beispiel 2.3.11 Seien X1 , X2 , . . . unabhängig und auf {1, . . . , 6} gleichverteilt (Würfelwürfe). Dann gelten n 1X P Xi − → E[X1 ] = 3,5 n i=1 sowie n 1X 1 P 1{k} (Xi ) − → P (X1 = k) = , n i=1 6 k = 1, . . . , 6. Bemerkung 2.3.12 1. In 2.3.9 und 2.3.10 genügt es, statt Unabhängigkeit nur paarweise Unkorreliertheit zu fordern. Der Beweis bleibt gleich. 2. 2.3.9 und 2.3.10 gelten sogar mit fast sicherer anstelle von stochastischer Konvergenz. Satz 2.3.9 heißt dann starkes Gesetz der großen Zahlen. 70 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG 3. Konkrete Abschätzungen erhält man beispielsweise mit der TschebyschowUngleichung. Diese sind jedoch oft sehr grob. 4. Das Gesetz der großen Zahlen ist einer der wichtigsten Sätze der Stochastik. Es sorgt dafür, dass man trotz Zufall oft ohne Stochastik auskommt, da mit Erwartungswerten gerechnet werden kann. 2.3.3 Verteilungsapproximation und zentraler Grenzwertsatz Motivation 2.3.13 Die hypergeometrische Verteilung steht für die Zahl der Erfolge bei Ziehen ohne Zurücklegen aus einer Urne, die Binomialverteilung für Ziehen mit Zurücklegen, vgl. Beispiele 2.2.6, 2.2.7. Ist die Urne im Vergleich zur Stichprobe groß, ist das Zurücklegen nahezu irrelevant für die Wahrscheinlichkeiten. N →∞ Satz 2.3.14 Seien (KN )N ∈N eine Folge in N, n ∈ N und p ∈ (0, 1) mit KNN −−−→ p. Sei XN hypergeometrisch verteilt mit Parametern n, kN , N − KN (vgl. Definition 2.2.8). Sei ferner X binomialverteilt mit Parametern n, p. Dann konvergiert (XN )N ∈N in Verteilung gegen X für N → ∞. N →∞ Beweis. Satz 2.3.5: Zu zeigen ist P (XN = k) −−−→ P (X = k) für alle k ∈ N (bzw. k = 0, . . . , n). N −KN KN P (XN = k) = k n = k N n n−k ! KN − k + 1 K N KN − 1 ··· N N −1 N −k+1 |{z} | {z } | {z } →p →p →p | {z } k Stück ! N − KN N − K N − 1 N − KN − (n − k) + 1 ··· N −k N −k−1 N −n+1 | {z } | {z } | {z } →1−p →1−p →1−p | {z } (n−k) Stück n k N →∞ −−−→ p (1 − p)n−k = P (X = k). k Beispiel 2.3.15 Von 10 000 Glühbirnen sind 200 defekt. Der Kunde weist die Sendung zurück, falls in einer Stichprobe von 20 Glühbirnen mindestens eine defekt ist. Wie hoch ist die Wahrscheinlichkeit hierfür? Die Zufallsgröße X beschreibe die Zahl der defekten Glühbirnen in der Stichprobe. Beispiel 2.2.7: X ist hypergeometrisch verteilt mit Parametern 20 (Größe der Stichprobe), 200 2.3. GRENZWERTSÄTZE 71 (defekte Glühbirnen), 9 800 (heile Glühbirnen). Also ist 200 9 800 P (X 6= 0) = 1 − P (X = 0) = 1 − 0 20 10 000 20 =1− 9 800 · · · 9 781 ≈ 0,3327. 10 000 · · · 9 981 Approximation durch die Binomialverteilung mit n = 20, p = 200 10 000 = 0,02: 9 800 · · · 9 800 20 P (X = 6 0) = 1 − P (X = 0) ≈ 1 − 0,020 0,9820 = 1 − ≈ 0,3324. 0 10 000 · · · 10 000 | {z } =1 Motivation 2.3.16 Für Anrufe in einer Telefonzentrale wird eine plausible Wahrscheinlichkeitsverteilung für die Anzahl der Anrufe in einer Stunde gesucht, wenn im Mittel 20 Anrufe pro Stunde eingehen. Intuition: Münzwurfexperiment mit einem Münzwurf pro Sekunde, die Wahrscheinlichkeit für Kopf (entspricht einem Anruf) ist p = 20/3 600. Man erhält eine Binomialverteilung mit Parametern 3 600, 20/3 600. Alternativ: Betrachte Millisekunden statt Sekunden. Man erhält eine Binomialverteilung mit Parametern 3 600 000, 20/3 600 000. Was passiert im Limes verschwindender Zeitintervalle? Satz 2.3.17 ( Gesetz der kleinen Zahlen“) Sei Xn binomialverteilt mit Parametern n, pn , ” n→∞ wobei npn −−−→ λ ∈ (0, ∞). Sei ferner X poissonverteilt mit Parameter λ. Dann konvergiert Xn für n → ∞ in Verteilung gegen X. n→∞ Beweis. Satz 2.3.5: Zu zeigen ist P (Xn = k) −−−→ P (X = k) für alle k ∈ N. Für λn := npn gilt n k P (Xn = k) = p (1 − p)n−k k n −k n(n − 1) · · · (n − k + 1) λkn λn λn = 1− 1− nk k! n n n k 1 1 λn λn k−1 = 1 1− 1− ··· 1 − n n n (1 − λnn )k k! {z } | {z } |{z} | |{z} | {z } | {z } =1 n→∞ −−−→ →1 →1 λk −λ e = P (X = k), k! →1 k → λk! →e−λ , da λn →λ (Analysis) k ∈ N. Bemerkung 2.3.18 2.3.16 und 2.3.17 liefern die fehlende Motivation der Poissonverteilung in Beispiel 2.1.24. 72 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Beispiel 2.3.19 Wir betrachten noch einmal die Situation aus Beispiel 2.3.15 und approximieren die Binomialverteilung nun durch die Poissonverteilung mit Parameter λ = np = 20 · 0,02 = 0,4: P (X 6= 0) = 1 − P (X = 0) ≈ 1 − e−0,4 0,40 = 1 − e−0,4 ≈ 0,3297. 0! Motivation 2.3.20 1. Für die Approximation der Binomialverteilung durch die Poissonverteilung in Satz 2.3.17 muss p klein sein (wegen np → λ). Was passiert für großes n und festes p? P 2. Seien X1 , X2 , . . . unabhängig identisch verteilte Zufallsgrößen, Sn := ni=1 Xi (z. B. Würfe einer p-Münze wie in 2.2.14, d. h. die Xi sind Bernoulli-verteilt und Sn ist – nach Beispiel 2.2.45 und Induktion – binomialverteilt mit Parametern n, p). Frage: Was ist die Verteilung von Sn für große n? Konvergiert die Verteilung? P → E[X1 ] für n → ∞, Wir wissen: Nach dem Gesetz der großen Zahlen gilt Sn /n − d. h. der Zufall verschwindet bei Teilen durch n im Limes. Ferner gilt E[Sn ] = Pn Pn i=1 Var(Xi ) = nVar(X1 ), d. h. ohi=1 E[Xi ] = nE[X1 ] sowie Var(Sn ) = ne Reskalierung kann die Folge in keinem vernünftigen Sinne konvergieren, da Erwartungswert und Varianz divergieren. Um überhaupt nichttriviale Konvergenz zu ermöglichen, müssen wir die Sn zunächst geeignet standardisieren. Bezeichnung 2.3.21 Seien X1 , X2 , . . . Zufallsgrößen in L 2 . Dann heißt Sn − E[Sn ] Sn∗ := p Var(Sn ) standardisierte Summe(nvariable), wobei Sn := Bemerkung 2.3.22 Var(Sn∗ ) = √ 1. E[Sn∗ ] = √ 1 2 Var(Sn ) Var(Sn ) Pn i=1 1 (E[Sn ] Var(Sn ) Xi . − E[Sn ]) = 0 =1 2. Falls X1 , X2 , . . . unabhängig und identisch verteilt sind, ist Sn − nE[X1 ] . Sn∗ = p nVar(X1 ) Falls X1 , X2 , . . . zudem Bernoulli-verteilt sind mit Parameter p (d. h. binomialverteilt mit Parametern 1, p), dann ist Sn − np Sn∗ = p . np(1 − p) 2.3. GRENZWERTSÄTZE 73 Satz 2.3.23 (Lokale Approximation der Binomialverteilung) Sei p ∈ (0, 1), q := 1 − p und c > 0. Sei Sn binomialverteilt mit Parametern n, p. Dann gilt P (Sn = k) lim max − 1 : n→∞ ϕnp,npq (k) k − np √ npq ≤ c = 0 für (x − µ)2 ϕµ,σ2 (x) := √ exp − . 2σ 2 2πσ 2 1 √ Beweis. Hilfsmittel aus der Analysis: n! ∼ 2πn nn e−n für n → ∞ (Stirlingsche Formel), z. B. Heuser, Analysis I, §96. ∼“ bedeutet hier, dass der Quotient für n → ∞ gegen 1 ” konvergiert. Definiere xn (k) := k−np √ . npq Sei (kn )n eine beliebige Folge in N mit |xn (kn )| = | k√n −np | ≤ c. npq n ⇒ | knn − p| → 0, | n−k − (1 − p)| → 0 n ⇒ kn → ∞ und (n − kn ) → ∞ für n → ∞ ⇒ n! pkn q n−kn kn !(n − kn )! kn n−kn r 1 n np nq ∼√ n − kn 2π kn (n − kn ) kn P (Sn = kn ) = Es ist kn np =1+ xn (kn ) √ n q q p und n−kn nq =1− xn (kn ) kn (m − kn ) = npq 1 + √ n n | {z →0 xn (kn ) √ n q p q für n → ∞. also r ! r ! q xn (kn ) p 1− √ ∼ npq p q n } | {z } →0 für n → ∞. 74 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Ferner folgt mit der Taylorentwicklung log(1 + x) = x − x2 2 + O(x3 ), dass k n−kn ! kn n n − kn log np nq n − kn kn + (n − kn ) log = kn log np nq r r xn (kn ) q xn (kn ) q = np 1 + √ log 1 + √ p p n n r r xn (kn ) p xn (kn ) p log 1 − √ + nq 1 − √ q q n n ! r r 2 3 q q x (k ) x (k ) x (k ) q Taylor n n n n n √ n = np 1 + √ − + O n− 2 p p 2n p n n ! r r 3 xn (kn ) p xn (kn ) p xn (kn )2 p + nq 1 − √ − √ − + O n− 2 q q 2n q n n ! r 2 3 x (k ) q x (k ) q Ausmult. n n n √ n = np + + O n− 2 p 2n p n ! r 3 xn (kn ) p xn (kn )2 p + nq − √ + + O n− 2 q 2n q n 1 (xn (kn ))2 + O n− 2 , = 2 p )| eine beschränkte Folge ist. Zusammen wobei O(np ) für eine Folge derart steht, dass |O(n np folgt 1 1 (xn (kn ))2 P (Sn = kn ) ∼ √ √ exp − = ϕnp,npq (kn ). 2 2π npq Wählt man kn so, dass das Maximum in Satz 2.3.23 bei kn angenommen wird, folgt die Behauptung. Bemerkung 2.3.24 Satz 2.3.23 bedeutet P (Sn = k) ≈ ϕnp,npq (k) für große n. Gehört ϕµ,σ2 auch zu einer Wahrscheinlichkeitsverteilung? Ja, in folgendem Sinne: Definition 2.3.25 Seien µ ∈ R, σ 2 > 0. Die Normalverteilung oder Gauß-Verteilung N (µ, σ 2 ) auf (R, B) ist definiert durch die Lebesgue-Dichte (x − µ)2 exp − ϕµ,σ2 (x) := √ , 2σ 2 2πσ 2 1 N (0, 1) heißt Standard-Normalverteilung. x ∈ R. 2.3. GRENZWERTSÄTZE Bemerkung 2.3.26 75 1. ∞ Z 2 2 − x2 e Z dx ∞ Z ∞ e− = −∞ Subst.-regel = = −∞ Z 2π −∞ Z ∞ x2 +y 2 2 dy dx r2 re− 2 dr dp 0 0 ∞ r2 = 2π −2π e− 2 r=0 und somit Z ∞ ϕµ,σ2 (x) dx −∞ y= x−µ σ Z ∞ = −∞ y2 1 √ e− 2 dy = 1. 2π Also ist ϕµ,σ2 tatsächlich eine Dichte im Sinne von Satz 2.1.25. 2. Sei XN (µ, σ 2 )-verteilt. Dann gilt Z ∞ E[X] = xϕµ,σ2 (x) dx −∞ Z ∞ 1 (x − µ)2 =√ x exp − dx 2σ 2 2πσ 2 −∞ Z ∞ y2 1 y=x−µ y exp − 2 dy = √ 2σ 2πσ 2 −∞ {z } | =0, da Integrand ungerade Z ∞ 1 (x − µ)2 +µ√ exp − dx 2σ 2 2πσ 2 −∞ {z } | =1 = µ, Var(X) = E[(X − µ)2 ] Z ∞ = (x − µ)2 ϕµ,σ2 (x) dx −∞ Z ∞ y= x−µ y2 1 σ2 σ 2 y 2 e− 2 dy = √ 2π −∞ ! ∞ Z ∞ 2 y2 y2 part. Int. σ = √ ye− 2 + e− 2 dy 2π −∞ y=−∞ | {z } | {z } √ =0 = 2π 2 =σ . Ähnlich erhält man E[(X − µ)3 ] = 0 und E[(X − µ)4 ] = 3σ 4 . Aus dem lokalen Grenzwertsatz erhalten wir den folgenden Zentralen Grenzwertsatz für Bernoulli-Folgen. 76 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Korollar 2.3.27 (Satz von de Moivre-Laplace) Sei X1 , X2 , . . . eine Folge unabhängiger, identisch verteilter Zufallsgrößen mit P (X1 = 1) = p = 1 − P (X1 = 0) für ein p ∈ (0, 1). Seien Sn∗ die zugehörigen standardisierten Summen, vgl. 2.3.22(2). Sei ferner S standard-normalverteilt, d. h. P S = N (0, 1). Dann konvergiert Sn∗ in Verteilung gegen S für n → ∞, d. h. n→∞ P (a ≤ Sn∗ ≤ b) −−−→ Φ(b) − Φ(a) für [a, b] ∈ [−∞, ∞] mit a ≤ b, wobei Z x Φ(x) := −∞ x2 1 √ e− 2 dx. 2π Beweis. Fall 1: −∞ < a < b < ∞. Seien c := max{|a|, |b|} und ε > 0. Nach Satz 2.3.23 existiert ein N ∈ N derart, dass für alle k > N ϕnp,npq (k) − 1 : |xn (k)| ≤ c < ε max P (Sn = k) und somit X ϕ0,1 (xn (k)) P (a ≤ Sn∗ ≤ b) − √ npq k mit a≤xn (k)≤b X X ϕ0,1 (xn (k)) P (Sn = k) − = √ npq k mit k mit a≤xn (k)≤b a≤xn (k)≤b X ϕnp,npq (k) |P (Sn = k)| 1 − ≤ P (Sn = k) k mit ≤ ε. a≤xn (k)≤b | {z ≤1 }| {z ≤ε } Ferner gilt Z b ϕ0,1 (x) dx − a X k mit a≤xn (k)≤b ϕ0,1 (xn (k)) n→∞ −−−→ 0, √ npq da es sich um die Riemann-Approximation des Integrals handelt. (Beachte, dass 1 xn (k + 1) − xn (k) = √npq ). Mit der Dreiecksungleichung folgt die Behauptung. Fall 2: a = −∞ (b = ∞ folgt analog). p Sei ε > 0. Da limc→−∞ Φ(c) = 0, muss es ein c > 3/ε derart geben, dass Φ(−c) < ε/3. Nach Fall 1 gibt es weiter ein N ∈ N derart, dass für alle n > N ε |P (−c ≤ Sn∗ ≤ b) − Φ(b) − Φ(−c)| < . 3 2.3. GRENZWERTSÄTZE 77 Also gilt |P (Sn∗ ≤ b) − Φ(b)| ≤ |P (Sn∗ ≤ b) − P (−c ≤ Sn∗ ≤ b)| + |P (−c ≤ Sn∗ ≤ b) − Φ(b) + Φ(−c)| + |Φ(−c)| ε ε < P (|Sn∗ | > c) + + . | {z } 3 3 ≤ ∗) Var(Sn < 3ε nach c2 2.3.8 Bemerkung 2.3.28 1. Seien X1 , X2 , . . . wie in Korollar 2.3.27. Für ganzzahlige k, l ist offenbar P (k ≤ Sn ≤ l) = P (k − 21 ≤ Sn ≤ l + 12 ). Die Approximation in Korollar 2.3.27 wird besser, wenn man mit a := und b = l−np √ npq k− 12 −np √ npq und b := l+ 12 −np √ npq anstelle von a = k−np √ npq arbeitet. 2. Faustregel: Für npq ≥ 9 ist die Approximation gut. Für großes n und kleines np eignet sich die Poisson-Verteilung aus Satz 2.3.17 besser. Beispiel 2.3.29 Betrachte die Situation aus Beispiel 2.3.15. Approximation der Binomialverteilung durch den zentralen Grenzwertsatz mit np = 0,9, npq = 0,392: P (X 6= 0) = 1 − P (X = 0) ≈ 1 − ϕnp,npq (0) = 1 − √ 1 ≈ 0,3628. 2π0,392 Das Beispiel ist für die Anwendung des zentralen Grenzwertsatzes schlecht geeignet, da npq ≈ 0,4 deutlich kleiner als 9 ist. Beispiel 2.3.30 (Qualitätskontrolle) Betrachte Kartons mit jeweils 1 000 Glühbirnen. Mit welcher Wahrscheinlichkeit sind nicht mehr als 1% der Glühbirnen in einem Karton defekt, wenn im Mittel 1% der Glühbirnen defekt sind? (Annahme: Es gibt keine Serienfehler). Seien dazu X1 , X2 , . . . , X100 unabhängig Bernoulli-verteilt mit Parameter 0,01, wobei die 0 für eine heile, die 1 für eine kaputte Glühbirne stehe. P 000 Gesucht ist P (S ≤ 10) mit S := 1i=1 Xi . Als Summe ist S mit Parametern 1 000 und 0,01 binomialverteilt. 1. Exakte Wahrscheinlichkeit (mühsame Rechnung): 10 X 1 000 P (S ≤ 10) = 0,01k 0,991 000−k ≈ 0,583. k k=0 78 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG 2. Mit Korollar 2.3.27 ( quick and dirty“): ” E[S] = 1 000 · 0,01 = 10 Var(S) = 1 000 · 0,01 · 0,99 = 9,9 S − 10 1 √ P (S ≤ 10) = P ≤ 0 ≈ Φ(0) = . 2 9,9 3. Etwas besser mit Bemerkung 2.3.28: P (S ≤ 10) = P (S ≤ 10,5) = P S − 10 √ ≤ 0,159 ≈ Φ(0,159) ≈ 0,563. 9,9 Äußerst wichtig und bemerkenswert: Satz 2.3.27 gilt auch für beliebige Verteilungen: Satz 2.3.31 (Zentraler Grenzwertsatz von Lindeberg-Lévy) Sei X1 , X2 , . . . eine Folge unabhängiger, identisch verteilter Zufallsgrößen in L 2 mit Var(X1 ) > 0. Seien Sn∗ die zugehörigen standardisierten Summen, vgl. 2.3.21. Sei ferner S standard-normalverteilt, d. h. P S = N (0, 1). Dann konvergiert Sn∗ in Verteilung gegen S für n → ∞. Beweis. nicht in dieser Vorlesung Bemerkung 2.3.32 1. Die Grenzverteilung hängt magischerweise nicht von der Verteilung der Xi ab. (Bitte staunen!) 2. Satz 2.3.31 macht die Normalverteilung zur wichtigsten Verteilung überhaupt, obwohl vermutlich so gut wie nichts exakt normalverteilt ist. Achtung: Trotz ihrer Universalität ist die Normalverteilung nicht immer zur Modellierung von Zufallsexperimenten angemessen, warum sollte sie auch? Bemerkung 2.3.33 1. Was tun, wenn X1 , X2 , . . . > 0 unabhängig und identisch verteilt Qn sind, aber Zn := i=1 Xi von Interesse ist (multiplikative Effekte)? Betrachte dann n X Sn := log Zn = log(Xi ). {z } | i=1 unabh., ident. verteilt ⇒ Sn ist approximativ normalverteilt (im Sinne von Satz 2.3.31). 2. Was ist die Verteilung von Z = eS , falls S normalverteilt ist mit N (µ, σ 2 )? Sei FZ die Verteilungsfunktion von Z und % die zugehörige Dichte. Dann gelten Z log(t) ϕµ,σ2 (x) dx, t ≥ 0, 1 1 (log(t) − µ)2 0 %(t) = Fz (t) = ϕµ,σ2 (log t) = √ exp − , t 2σ 2 2πσ 2 t Fz (t) = P (Z ≤ t) = P (S ≤ log t) = 0 t ≥ 0. 2.3. GRENZWERTSÄTZE 79 Definition 2.3.34 Die Verteilung auf R+ mit Lebesguedichte 1 (log(t) − µ)2 %(x) := 1(0,∞) (x) √ exp − 2σ 2 2πσ 2 t heißt Lognormalverteilung (Gallon-McAlister-Verteilung, Cobb-Douglas-Verteilung) mit Parametern µ ∈ R, σ 2 > 0. Kapitel 3 Schließende Statistik Bisher haben wir uns mit Wahrscheinlichkeitsrechnung beschäftigt, in der es darum ging, Schlussfolgerungen aus einem gegebenen stochastischen Modell (Ω, F , P ) zu ziehen. Woher aber bekommt man dieses Modell, insbesondere P , sofern nicht gerade der Versuchsaufbau die Laplace-Verteilung nahelegt? In der Statistik geht es darum, mit Hilfe von Beobachtungen/Daten auf das unbekannte Wahrscheinlichkeitsmaß P , das diesen Daten zugrunde liegt, zu schließen. Wegen der Stochastik der Daten werden Aussagen über P aber in der Regel mit mehr oder minder großer Unsicherheit behaftet sein. Fragestellungen in der Statistik laufen daher oft auf ein Entscheiden unter Unsicherheit hinaus. 3.1 Statistische Modellbildung Beispiel 3.1.1 Eine p-Münze werde 100 mal geworfen, vgl. Beispiel 2.2.14. p ist unbekannt. 1. (Schätzen). Was ist p? Idee: Seien x1 , . . . , x100 die Ergebnisse der hundert Würfe. Man könnte p durch die P100 1 relative Häufigkeit p̂ := 100 i=1 xi schätzen. Ist das vernünftig? 2. (Testen). Ist die Münze fair, d. h. ist p = 1/2? Idee: Vermutlich ja, falls |p̂ − 1/2| klein. Vermutlich nein, falls |p̂ − 1/2| groß. Was heißt in diesem Zusammenhang klein und groß? 3. (Konfidenzintervalle). Ergänzung zur ersten Frage: Schätzung von p mit Genauigkeitsaussage, d. h. in der Form p̂ ± Toleranz. Welche Toleranz? Bemerkung 3.1.2 Stochastische Modellbildung (Ω, F , P ) ist ein Wahrscheinlichkeitsraum, X : Ω → R eine Zufallsgröße. Berechne dann P (X ∈ B), E[X], Var(X) etc. Genauer: Oft ist nur P X bekannt (nicht aber der Raum (Ω, F , P ) und die Abbildung X selbst), dies reicht aber für Berechnungen aus. 80 3.1. STATISTISCHE MODELLBILDUNG 81 Statistik: Wir wollen Aussagen über das unbekannte P X mit Hilfe von Daten x1 , . . . , xn treffen, vgl. 3.1.1. Achtung: Wir modellieren Beispiel 3.1.1 nicht mit einer einzelnen Zufallsgrößen X : Ω → R, die den einfachen Münzwurf repräsentiert, und 100 zufällig gezogenen Ergebnissen ω1 , . . . , ω100 , die zur Stichprobe (x1 , . . . , x100 ) = (X(ω1 ), . . . , X(ω100 )) führen. Sondern: Wir betrachten 100 Zufallsgrößen Xi : Ω → R, i = 1, . . . , 100, und fassen die Stichprobe (x1 , . . . , x100 ) = (X1 (ω), . . . , X100 (ω)) = X(ω) als in einem nur einmal durchgeführten Experiment erhaltenen Wert der vektorwertigen Zufallsvariable X = (X1 , . . . , X100 ) : Ω → R100 auf. In der obigen Situation wissen wir, dass X1 , . . . , X100 unabhängig und Bernoulli-verteilt N Xi sind, allerdings mit unbekanntem Parameter p. Somit ist P X = P (X1 ,...,X100 ) = 100 i=1 P mit P Xi ({1}) = 1 − P Xi ({0}) = p die Bernoulli-Verteilung im Sinne von Beispiel 2.2.14 auf {0, 1}100 bzw. R100 . Mathematischer Rahmen 3.1.3 Wir betrachten folgendes statistisches Ausgangsmodell: Seien (Ω, F ) ein messbarer Raum und (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf Ω. Seien weiter X1 , . . . , Xn : Ω → R Zufallsgrößen und X = (X1 , . . . , Xn ). Interpretation: X1 , . . . , Xn sind die vorliegenden Beobachtungen (die Stichprobe). Bekannt ist die Verteilung von (X1 , . . . , Xn ) unter Pϑ für alle ϑ ∈ Θ (Parameterraum). Unbekannt (und gesucht) ist der Parameter ϑ (bzw. Eigenschaften davon). Gegeben sind die Daten (x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω)), die man Realisierungen der Zufallsgrößen X1 , . . . , Xn nennt. Das Modell heißt parametrisch, falls Θ ⊆ Rd für ein d ∈ N (insbesondere einparametrig für d = 1), andernfalls nichtparametrisch. Das Modell heißt diskret, falls die Zufallsvariablen X1 , . . . , Xn höchstens abzählbar viele Werte annehmen können, und stetig, falls die Verteilungen der Xi eine Lebesguedichte besitzen. Bemerkung 3.1.4 1. Meistens nehmen wir X1 , . . . , Xn unter allen Pϑ als unabhängig und identisch verteilt an (unabhängige Versuchswiederholung), z. B. als exponentialverteilt mit Parameter ϑ ∈ Θ := (0, ∞), wenn es sich um Lebensdauern handelt. Beispiel einer Ausnahme: Seien X1 , . . . , Xn Ergebnisse beim Ziehen ohne Zurücklegen aus einer Urne mit ϑ ∈ {n, n + 1, . . .} durchnummerierten Kugeln. Dann ist (X ,...,Xn ) Pϑ 1 die Gleichverteilung auf M := {(x1 , . . . , xn ) ∈ Nn : xi ∈ {1, . . . , ϑ} und xi 6= xj für i 6= j}. Die Xi sind hier nicht unabhängig. 2. Die Beschränkung auf die Familie möglicher Pϑ erfolgt z. B. durch theoretische Überlegungen. Diese Auswahl (Modellbildung) kann schon hochgradig nicht-trivial sein. Beispiel 3.1.5 vgl. Beispiel 3.1.2: Münzwürfe mit unbekanntem Erfolgsparameter ϑ (beispielsweise Werfen einer Heftzwecke): X1 , . . . , Xn sind unter allen Pϑ unabhängig und identisch verteilt mit P (X1 = 1) = ϑ = 1 − P (X1 = 0), wobei Θ = [0, 1]. 82 KAPITEL 3. SCHLIESSENDE STATISTIK 3.2 Parameterschätzung Gesucht ist ein vernünftiger Schätzwert für den unbekannten Parameter ϑ oder eine Funktion τ (ϑ) davon. Definition 3.2.1 Eine Zufallsvariable der Form T = t(X1 , . . . , Xn ) mit t : Rn → R (oder allgemeiner Rd , . . . ) nennen wir Statistik. Sei τ : Θ → R (oder allgemeiner Rd , . . . ) eine Abbildung (Kenngröße). Eine Statistik T heißt auch Schätzer für τ . Beispiel 3.2.2 n-facher Münzwurf wie in Beispiel 3.1.5. Sei τ : Θ → R, τ (ϑ) = ϑ (d. h. ϑ soll voll geschätzt werden). P Wähle beispielsweise T := n1 ni=1 Xi als Schätzer für τ , d. h. t(x1 , . . . , xn ) = (arithmetisches Mittel). Weitere Beispiele: Median, getrimmtes Mittel, . . . 1 n Pn i=1 xi Wünschenswerte Eigenschaften: Definition 3.2.3 Ein Schätzer T = t(X1 , . . . , Xn ) für τ : ϑ → R heißt erwartungstreu (unverfälscht, unverzerrt), falls Eϑ [T ] = τ (ϑ), ϑ ∈ Θ. Allgemein heißt Bϑ (T ) := Eϑ [T ] − τ (ϑ) Verzerrung (Bias, systematischer Fehler) von T . Beispiel 3.2.4 siehe Beispiel 3.2.2: n 1X 1 Eϑ [T ] = Eϑ (Xi ) = nϑ = ϑ = τ (ϑ) n i=1 n T ist also erwartungstreu. Beispiel 3.2.5 Seien X1 , . . . , Xn unter allen Pϑ unabhängig und identisch verteilt derart, dass der Erwartungswert m(ϑ) := Eϑ (X1 ) und die Varianz v(ϑ) := Varϑ (X1 ) existieren und endlich sind. P 1. Sei T ein linearer Schätzer für m, d. h. T = ni=1 αi Xi mit α1 , . . . , αn ∈ R. Dann gilt n n X X Eϑ [T ] = αi Eϑ [Xi ] = m(ϑ) αi , i=1 i=1 Pn d. h. T ist genau dann erwartungstreu, wenn i=1 αi = 1. Das ist beispielsweise der Fall, wenn αi = 1/n für i = 1, . . . , n. 2. Schätzer für die Varianz v: 3.2. PARAMETERSCHÄTZUNG 83 (a) m(ϑ) sei bekannt, d. h. m(ϑ) = m ∈ R für alle ϑ ∈ Θ. P Wähle T := ni=1 αi (Xi − m)2 . Dann gilt n X Eϑ [T ] = 2 αi Eϑ [(Xi − m) ] = v(ϑ) i=1 n X αi . i=1 T ist genau dann erwartungstreu, wenn Pn i=1 αi = 1. (b) m(ϑ) sei unbekannt. P Idee: Ersetze m durch den Schätzer X := n1 ni=1 Xi . P Wähle T := ni=1 n1 (Xi − X)2 . Dann gilt Eϑ [T ] n h X 2 i 1 = E ϑ Xi − X n i=1 n X 1 Varϑ Xi − X n i=1 Eϑ [Xi −X]=0 = ! n−1 1X Xi − Xj n n j6=i X ! n X 1 1 n − 1 Unabh. Varϑ Xi + Xj = Varϑ n i=1 n n j6=i ! 2 1 n−1 n−1 = v (ϑ) + n n n2 n 1X = Varϑ n i=1 = n−1 v (ϑ) . n T ist nicht erwartungstreu für v. n Stattdessen ist n−1 T erwartungstreu für v. Korollar 3.2.6 Seien X1 , . . . , Xn wie in Beispiel 3.2.5. Dann ist das Stichprobenmittel n X := 1X Xi n i=1 ein erwartungstreuer Schätzer für m. Ferner ist die Stichprobenvarianz n S 2 := 1 X (Xi − X)2 n − 1 i=1 ein erwartungstreuer Schätzer für v. Bemerkung 3.2.7 Korollar 3.2.6 motiviert die Definition der empirischen Varianz in Definition 1.3.12. 84 KAPITEL 3. SCHLIESSENDE STATISTIK Es gibt viele weitere erwartungstreue Schätzer, beispielsweise ist auch T := X1 erwartungstreu für m. Interessant ist daher auch z. B. die mittlere Abweichung des Schätzers: Definition 3.2.8 Sei T = t(X1 , . . . , Xn ) Schätzer für die Kenngröße τ : Θ → R. 1. Der mittlere quadratische Fehler von T (bei ϑ) ist definiert als Fϑ (T ) := Eϑ [(T − τ (ϑ))2 ] = Varϑ (T ) + (Bϑ (T ))2 . 2. Sei T zudem erwartungstreu. T heißt varianzminimierender/gleichmäßig bester/ UMVU-Schätzer (für uniform minimum variance unbiased), falls für alle erwartungstreuen Schätzer S gilt: Varϑ (T ) ≤ Varϑ (S), ϑ ∈ Θ. Bemerkung 3.2.9 Zwei Schätzer S, T sind im Allgemeinen nicht direkt vergleichbar, d. h. im Allgemeinen ist Fϑ (S) < Fϑ (T ) für manche ϑ und Fϑ (S) > Fϑ (T ) für andere ϑ. Insbesondere ist es in 2. sinnlos, einen Schätzer mit allen denkbaren (also auch nicht erwartungstreuen) Schätzern zu vergleichen, da z. B. S := ϑ0 bei ϑ0 optimal schätzt und bei anderen ϑ schlecht. Beispiel 3.2.10 Achtung: • Es gibt nicht immer einen gleichmäßig besten Schätzer. • Es lässt sich nicht immer klären, ob es einen gleichmäßig besten Schätzer gibt. • Es kann vorkommen, dass ein nicht erwartungstreuer Schätzer einen gleichmäßig kleineren mittleren quadratischen Fehler hat als jeder erwartungstreue Schätzer. • Das Stichprobenmittel ist nicht immer UMVU für den Erwartungswert (z. B. in Beispiel 3.2.11(5) mit m(ϑ) = ϑ/2). Beispiel 3.2.11 Seien X1 , . . . , Xn unabhängig und identisch verteilt unter allen Pϑ . 1. Sei PϑX1 Bernoulli-verteilt mit Parameter ϑ ∈ Θ := [0, 1]. Dann ist X UMVU für ϑ (vgl. Beispiel 3.2.2). 2. Sei PϑX1 Poisson-verteilt mit Parameter ϑ ∈ Θ := (0, ∞). Dann ist X UMVU für ϑ. 3. Sei PϑX1 N (µ, σ 2 )-verteilt für ϑ = (µ, σ 2 ) ∈ Θ := R × (0, ∞). Dann ist X UMVU für µ und S 2 ist UMVU für σ 2 . 4. Sei PϑX1 exponentialverteilt mit Parameter ϑ ∈ Θ := (0, ∞). Dann ist X UMVU für ϑ1 . 3.2. PARAMETERSCHÄTZUNG 85 5. Sei PϑX1 gleichverteilt mit Parameter ϑ ∈ Θ := (0, ∞). Dann ist n+1 max(X1 , . . . , Xn ) UMVU für ϑ. n Beispiel 3.2.12 zurück zu Beispiel 3.2.5(1): P Wegen T = ni=1 αi Xi , gilt n X Fϑ (T ) = Eϑ [(T − m(ϑ))2 ] = Varϑ (T ) = ! αi2 Varϑ (X1 ). i=1 Außerdem n 1 X 2 1.3.12 α ≥ n i=1 i n 1X αi n i=1 !2 n 1 1X = 2 = n n i=1 2 1 . n Der Fehler wird also minimal für αi = 1/n für i = 1, . . . , n. Unter den linearen erwartungstreuen Schätzern des Erwartungswerts ist das Stichprobenmittel also der beste (der BLUE – best linear unbiased estimator). Ein weiteres alternatives Gütekriterium betrifft die Konvergenz für wachsenden Stichprobenumfang. Definition 3.2.13 Seien X1 , . . . , Xn unter allen Pϑ unabhängig und identisch verteilt. Sei τ : ϑ → R eine Kenngröße, und für alle n ∈ N sei Tn = tn (X1 , . . . , Xn ) ein (nur von den ersten n Beobachtungen abhängiger) Schätzer für τ . Die Schätzfolge (Tn )n∈N für τ heißt konsistent, falls P ϑ Tn −→ τ (ϑ), ϑ ∈ Θ, n→∞ d. h. für alle ϑ ∈ Θ und alle ε > 0 gilt Pϑ (|Tn − τ (ϑ)| ≤ ε) −−−→ 1. Satz 3.2.14 Seien (Xn )n∈N , (Yn )n∈N Folgen von Zufallsgrößen. P P 1. Falls Xn − → 0, dann auch Xn2 − → 0. P P P 2. Falls Xn − → 0 und Yn − → 0, dann auch Xn + Yn − → 0. Beweis. √ n→∞ 1. Für ε > 0 gilt P (|Xn2 | ≤ ε) = P (|Xn | ≤ ε) −−−→ 1. ε ε n→∞ 2. Für ε > 0 gilt P (|Xn + Yn | > ε) ≤ P |Xn | > + P |Yn | > −−−→ 0. 2 2 | {z } | {z } →0 →0 Satz 3.2.15 In der Situation aus 3.2.5 ist (X n )n konsistent für m und (Sn2 )n konsistent für v. Beweis. 86 KAPITEL 3. SCHLIESSENDE STATISTIK 1. Schwaches Gesetz der großen Zahlen (Satz 2.3.9): (X n )n ist konsistent. 2. Sei ϑ ∈ Θ. Für n X f2 := 1 S (Xi − m(ϑ))2 n n i=1 gilt nach dem schwachen Gesetz der großen Zahlen (das auch für Folgen in L 1 anPϑ f2 − stelle von L 2 gilt), dass S n → v(ϑ) für n → ∞. Mit Satz 2.3.9 und Satz 3.2.14(1) Pϑ 0 für n → ∞. Wegen folgt außerdem, dass (X n − m(ϑ))2 −→ n 1X n−1 2 f2 − (X n − m(ϑ))2 1.3.12 = (Xi − X n )2 = Sn S n n i=1 n P n−1 2 Sn n ϑ − v(ϑ) −→ 0 und somit, dass n n−1 2 1 Pϑ 2 Sn − v(ϑ) + v(ϑ) −→ 0. Sn − v(ϑ) = n−1 n n−1 | {z } | {z } →0 Pϑ −→0 folgt aus Satz 3.2.14(2), dass 3.2.1 Konstruktionsmethoden für Schätzer Maximum-Likelihood-Prinzip Bemerkung 3.2.16 Sei ein diskretes oder stetiges statistisches Modell gegeben. Wir nennen %ϑ : Rn → R die zugehörige Dichte, falls 1. im diskreten Fall (d. h. (X1 , . . . , Xn )(Ω) ist höchstens abzählbar), falls Pϑ ((X1 , . . . , Xn ) = (x1 , . . . , xn )) = %ϑ (x1 , . . . , xn ) (x1 , . . . , xn ) ∈ Rn , 2. im stetigen Fall, falls Z Z ··· Pϑ ((X1 , . . . , Xn ) ∈ B1 × · · · × Bn ) = B1 %ϑ (x1 , . . . , xn ) dxn · · · dx1 Bn für alle Intervalle (oder allgemeiner Borelmengen) Bi ⊆ R, i = 1, . . . , n. (Verallgemeinerung des Dichtebegriffs auf Rn ). Falls (wie meistens) X1 , . . . , Xn unter allen Pϑ , ϑ ∈ Θ unabhängig und identisch verteilt sind, dann ist Q 1. %ϑ (x1 , . . . , xn ) = ni=1 %eϑ (xi ), wobei %eϑ : R → R die Zähldichte von PϑX1 ist, Q 2. %ϑ (x1 , . . . , xn ) = ni=1 %eϑ (xi ), wobei %eϑ : R → R die Lebesguedichte von PϑX1 ist. 3.2. PARAMETERSCHÄTZUNG 87 (X ,...,X ) Unabh. n Begründung: In diesen Fällen ist Pϑ 1 = Qn Pϑ (X1 ∈ B1 , . . . , Xn ∈ Bn ) = i=1 Pϑ (X1 ∈ B1 ). Nn i=1 PϑXi = Nn i=1 PϑX1 und somit Definition 3.2.17 Sei ein diskretes oder stetiges statistisches Modell mit zugehörigen Dichten %ϑ : Rn → R gegeben. i) Die Funktion % : Rn × ϑ → R+ mit %(x, ϑ) := %ϑ (x) heißt Likelihood- oder Plausibilitätsfunktion. Die Abbildung %x : Θ → R+ , ϑ 7→ %(x, ϑ) heißt Likelihood-Funktion zum Beobachtungswert x ∈ Rn . ii) Ein Schätzer T = t(X1 , . . . , Xn ) für ϑ (d. h. für die Identität τ : ϑ 7→ ϑ) heißt Maximum-Likelihood-Schätzer (ML-Schätzer), falls %(x, t(x)) = max %(x, ϑ), ϑ∈Θ x ∈ Rn (d. h. %x wird bei t(x) maximal). Bemerkung 3.2.18 1. Idee: Zufallsexperimente bringen in der Regel Ergebnisse x mit großer Wahrscheinlichkeitsdichte %(x) hervor. Man glaubt daher eher an Parameter ϑ, für die die Beobachtung x eine große Wahrscheinlichkeit %ϑ (x) besitzt. Das bedeutet nicht, dass ϑ große Wahrscheinlichkeit besitzt, denn auf Θ ist kein Wahrscheinlichkeitsmaß gegeben (außer in der Bayesschen Statistik). 2. ML-Schätzer sind in der Regel konsistent (ohne Beweis) und oft auch in anderer Hinsicht gut. 3. Statt %x maximiert man meistens log %x , da das viele Rechnungen vereinfacht. 4. Falls T ML-Schätzer für ϑ ist, heißt τ (T ) ML-Schätzer für eine Kenngröße τ . Beispiel 3.2.19 Seien X1 , . . . , Xn wie in Beispiel 3.1.5, d. h. mit Parameter ϑ Bernoulliverteilt (Münzwürfe). Nach Beispiel 2.2.19 ist die zugehörige Zähldichte gegeben durch Pn %ϑ (x1 , . . . , xn ) = ϑ i=1 xi (1 − ϑ)n− Pn i=1 xi =: %(x1 , . . . , xn ; ϑ). Maximiere ϑ 7→ log %(x1 , . . . , xn ; ϑ) = n X i=1 xi log ϑ + n− n X ! xi i=1 Ermitteln eines Kandidaten: ∂ log %(x1 , . . . , xn ; ϑ) ∂ϑ ! n n X 1X 1 = xi − n− xi , ϑ i=1 1−ϑ i=1 0= log(1 − ϑ). 88 KAPITEL 3. SCHLIESSENDE STATISTIK P P d. h. ni=1 xi = ϑn, wähle also ϑ̂ := n1 ni=1 xi . Nachrechnen liefert, dass ϑ̂ tatsächlich eine globale Maximalstelle ist. Der ML-Schätzer für ϑ ist also n 1X T = xi , n i=1 also die relative Häufigkeit, vgl. Beispiele 3.1.1, 3.2.2, 3.2.11. Beispiel 3.2.20 Seien X1 , . . . , Xn unter allen Pϑ unabhängig und identisch N (µ, σ 2 )verteilt, wobei ϑ = (µ, σ 2 ) ∈ Θ := R × (0, ∞) (ein übliches Modell etwa bei wiederholten, fehlerbehafteten physikalischen Messungen). Dann gilt n 1 (xi − µ)2 3.2.16(2) Y √ %x (ϑ) = %(x, ϑ) = exp − 2 2σ 2 2πσ i=1 ! n X (xi − µ)2 1 − = n exp 2σ 2 (2πσ 2 ) 2 i=1 für x ∈ Rn , ϑ = (µ, σ 2 ) ∈ Θ. Somit ist n n 1 X 2 2 := `x (µ, σ ) log %x (µ, σ ) = − log(2πσ ) − 2 (xi − µ)2 2 2σ i=1 2 und n n 1 X 2 X (xi − µ) = 2 ( xi − nµ), D1 `x (µ, σ ) = 0 + 2 2σ i=1 σ i=1 2 D2 `x (µ, σ 2 ) = − n 1 X n 2π + (xi − µ)2 . 2 2πσ 2 2σ 4 i=1 P P Beide Ableitungen werden null für µ̂ := n1 ni=1 xi und σˆ2 := n1 ni=1 (xi − µ̂)2 . Untersuchen der Hesse-Matrix und Grenzbetrachtungen zeigen, dass es sich tatsächlich um eine globale Maximalstelle handelt. Der ML-Schätzer für (µ, σ 2 ) ist also ! n n 1X n−1 2 1X 2 T = Xi , (Xi − X) = X, S . n i=1 n i=1 n (Beachte, dass T2 = n−1 2 S n nicht erwartungstreu für σ 2 ist.) Beispiel 3.2.21 Schätzen von Tierpopulationen (beispielsweise Fische in einem Teich). Vorgehen: 1. fangen, zählen, kennzeichnen, freilassen (beispielsweise n1 = 213), 2. später an ggf. anderer Stelle erneut fangen und zählen (beispielsweise n2 = 104, davon k = 13 schon gekennzeichnet). 3.2. PARAMETERSCHÄTZUNG 89 Gesucht ist die Anzahl der Fische im Teich. Idee: nk2 ≈ nn1 , wähle also n̂ ≈ n1kn2 als Schätzer (hier: n̂ = (213 · 104)/13 = 1 704). Stochastisches Modell: Urnenmodell wie in 2.2.7, Ziehen ohne Zurücklegen. Seien X die Zahl der gefangenen, markierten Fische unter den n2 gezogenen (eine Beobachtung) und PϑX die hypergeometrische Verteilung auf N (bzw. R) mit Parametern n2 (gezogen), n1 (markiert) und ϑ − n1 (nicht markiert). Sei weiter Θ = {n ∈ N : n ≥ n1 ∨ n2 }. Die Zähldichte ist gegeben durch n1 ϑ−n1 %ϑ (k) = Pϑ (X = k) = k n2 −k n2 k . Betrachte den Quotienten %ϑ (k)/%ϑ (k − 1): %ϑ (k) (ϑ − n1 )!(ϑ − n2 )! (ϑ − 1 − n1 − n2 + k)!(ϑ − 1)! = %ϑ (k − 1) (ϑ − n1 − n2 + k)!ϑ! (ϑ − 1 − n1 )!(ϑ − 1 − n2 )! (ϑ − n1 )(ϑ − n2 ) = . (ϑ − n1 − n2 + k)n Es gilt %ϑ (k) ≥ 1 ⇔ (ϑ − n1 )(ϑ − n2 ) ≥ ϑ(ϑ − n1 − n2 + k) %ϑ (k − 1) ⇔ ϑ2 − ϑn2 − ϑn1 + n1 n2 ≥ ϑ2 − ϑn1 − ϑn2 + ϑk ⇔ n1 n2 ≥ ϑk, d. h. ϑ 7→ %ϑ (k) wächst für ϑ ≤ ein Maximum in [ n1kn2 ] an, und n1 n2 k und fällt für % > n1 n2 . k Die Zähldichte nimmt somit hn n i 1 2 X ist der ML-Schätzer für die unbekannte Anzahl ϑ (= n). T := Momentenmethode und Substitutionsprinzip Idee: Schätze unbekannte Parameter so, dass empirische und theoretische Momente übereinstimmen. Definition 3.2.22 Seien X1 , . . . , Xn unter allen Pϑ unabhängig und identisch verteilt. Sei Θ ⊆ Rd . Für alle ϑ ∈ ϑ sei |X1 |d ∈ L 1 . Ein Schätzer T = t(X1 , . . . , Xn ) für ϑ (d. h. für τ : ϑ → ϑ) heißt Momentenschätzer, falls n 1X k X = mk (T ), n i=1 i wobei mk (ϑ) := Eϑ [X1k ] das k-te Moment sei. k = 1, . . . , d 90 KAPITEL 3. SCHLIESSENDE STATISTIK Bemerkung 3.2.23 Unter gewissen Voraussetzungen sind Momentenschätzer konsistent. (ohne Beweis) Beispiel 3.2.24 Situation aus Beispielen 3.1.5 und 3.2.20: m2 (ϑ) = Varϑ (X1 ) + (Eϑ [X1 ])2 = σ 2 + µ2 . m1 (ϑ) = µ, Wähle T = (T1 , T2 ) so, dass n 1X Xi = m1 (T1 , T2 ) = T1 , n i=1 n 1X 2 X = m2 (T1 , T2 ) = T12 + T2 . n i=1 i Das ist der Fall, wenn T1 = X und n n 1X 2 1X n−1 2 2 S . T2 = Xi − X = (Xi − X)2 = n i=1 n i=1 n Also ist T = n−1 2 S X, n auch Momentenschätzer für ϑ = (µ, σ 2 ). (Dies gilt offensichtlich auch für jede andere Verteilungsfamilie mit Erwartungswert µ und Varianz σ 2 .) Die Momentenmethode beruht auf folgendem Substitutionsprinzip: Bemerkung 3.2.25 Seien X1 , . . . , Xn unter allen Pϑ unabhängig und identisch verteilt. Sei τ : Θ → R (oder allgemeiner Rd ) eine Kenngröße, die nur von PϑX1 abhängt, z. B. das k-te Moment Z τ (ϑ) := mk (ϑ) = Eϑ (X1k ) = xk PϑX1 (dx). für ein k ∈ N. Nach dem Substitutionsprinzip schätzt man τ (ϑ), indem man die unbekannte Verteilung PϑX1 in der Definition von τ durch die empirische Verteilung der Daten X1 (ω), . . . , Xn (ω) ersetzt (vgl. Beispiel 2.1.4), also das Wahrscheinlichkeitsmaß P̂(X1 ,...,Xn ) auf R der Form n 1X P̂(X1 ,...,Xn ) (A) := 1A (Xi ), A ∈ B. (3.1) n i=1 Für τ wie oben führt dies zum Schätzer Z n 2.2.59(1) 1 X k Xik T := x P̂(X1 ,...,Xn ) (dx) = n i=1 3.2. PARAMETERSCHÄTZUNG 91 Beispiel 3.2.26 (Value at risk) Im Risikomanagement des Finanzwesens ist der sogenannte Value at risk zum Niveau α ∈ (0, 1) von Interesse, z. B. für α = 0,99. Darunter versteht man das α-Quantil einer Zufallsgrößen X, die den zukünftigen Verlust etwa einer Bank innerhalb der folgenden zehn Tage bezeichnet, vgl. Definition 2.2.72. Dieses mit VaRα (X) bezeichnete Quantil steht also für die Verlusthöhe, die mit Wahrscheinlichkeit α nicht überschritten werden wird. In der Praxis ist die Verteilung von X unbekannt, aber es stehen möglicherweise Daten x1 , . . . , xn über vergangene 10-Tages-Verluste zur Verfügung, die als Realisierungen unabhängiger, nach P X identisch verteilter Zufallsgrößen X1 , . . . , Xn angenommen werden können. Nach dem Substitutionsprinzip ist dann das α-Quantil der empirischen Verteilung (vgl. Beispiel 2.1.4) ein naheliegender Schätzer für VaRα (X), Dieses stimmt nach Beispiel 2.2.74(1) im Wesentlichen mit dem empirischen Quantil der beobachteten Verluste x1 , . . . , xn überein. Kleinste-Quadrate-Methode Idee: Schätze Parameter so, dass die mittlere quadratische Abweichung der Daten zum Erwartungswert minimal wird. Beispiel 3.2.27 Einfache lineare Regression, vergleiche Abschnitt 1.4: Seien X1 , . . . , Xn unter allen Pϑ unabhängig und identisch N (a + bti , σ 2 )-verteilt, i = 1, . . . , n. Seien ϑ = (a, b, σ 2 ) ∈ Θ = R2 × (0, ∞) und t1 , . . . , tn ∈ R gegeben. T = t(X1 , . . . , Xn ) heißt Kleinste-Quadrate-Schätzer für τ (ϑ) = (a, b), falls n n X X 2 2 (Xi − T ) = min Xi − Eϑ [Xi ] . ϑ∈Θ | {z } i=1 i=1 =a+bti Nach Satz 1.4.1 ist also StX T = X − b̂t, 2 St Kleinste-Quadrate–Schätzer, wobei n 1X t := ti , n i=1 n StX 1 X := (ti − t)(Xi − X), n − 1 i=1 n St2 := 1 X (ti − t)2 , n − 1 i=1 Man kann zeigen: T ist BLUE für (a, b). Bayes-Schätzer Diese werden in Abschnitt 3.5 behandelt. b̂ := StX . St2 92 KAPITEL 3. SCHLIESSENDE STATISTIK 3.3 Testen von Hypothesen In der Praxis laufen statistische Probleme häufig auf eine Ja-Nein-Entscheidung hinaus, die davon abhängt, ob eine Hypothese über den unbekannten Sachverhalt wahr ist oder nicht. Soll ein Patient behandelt werden oder nicht? Soll eine neue Methode eingeführt werden oder nicht? Soll man einer neuen wissenschaftlichen Theorie glauben oder nicht? Ob die Hypothese stimmt, kann oft nur indirekt aus Daten erschlossen werden, die einem zufälligen Einfluss unterliegen. Beispiel 3.3.1 Es gebe ein neues Verfahren, das angeblich das Geschlechterverhältnis bei Rindergeburten beeinflusst: Angeblich werden mehr (wertvollere) Kuhkälber als Stierkälber geboren. Soll der Landwirt/Züchter das Verfahren kaufen oder nicht? Als Entscheidungsgrundlage dient die Beobachtung von aus Zeitgründen nicht zu vielen Geburten. Definition 3.3.2 Sei ein statistisches Modell wie in 3.1.3 gegeben. Ein Testproblem besteht aus einer disjunkten Zerlegung Θ = Θ0 ∪ Θ1 in eine (Null-)Hypothese Θ0 und eine Alternative (Gegenhypothese) Θ1 . Ein Test von Θ0 gegen Θ1 ist eine Statistik ϕ(X1 , . . . , Xn ) mit ϕ : Rn → {0, 1}. Die Menge K := {x ∈ Rn : ϕ(x) = 1} heißt Ablehnungsbereich, Verwerfungsbereich oder kritischer Bereich des Tests. Bemerkung 3.3.3 1. Interpretation: Die Hypothese ist der erwartete/angenommene Normalfall, die Alternative die Abweichung von der Norm, die wir gegebenenfalls entdecken möchten. ϕ(x) = 1 bedeutet, dass wir uns auf Grund der Daten x für die Alternative entscheiden. 2. Zwei Arten von Fehlern sind möglich: Fehler 1. Art. Fälschliches Ablehnen der Hypothese: ϕ(x) = 1, obwohl ϑ ∈ Θ0 . Fehler 2. Art. Fälschliches Akzeptieren der Hypothese: ϕ(x) = 0, obwohl ϑ ∈ Θ1 . Ziel ist es, die Wahrscheinlichkeit für beide Fehler klein zu halten. 3. Schätztheorie: Bestimmung von ϑ ∈ Θ. Testtheorie: (nur) Entscheidung, ob ϑ ∈ Θ0 oder ϑ ∈ Θ1 . Beispiel 3.3.4 zu Beispiel 3.3.1: Beobachtet seien n = 20 Geburten, davon X Kuhkälber (Erfolge). X (nur eine Beobachtung) sei unter Pϑ binomialverteilt mit Parametern n, ϑ, wobei Θ = [1/2, 1]. Hypothese: Θ0 = {1/2} (kein Effekt) Alternative: Θ1 = (1/2, 1] (Das Verfahren wirkt.) Definition 3.3.5 Fortsetzung von Definition 3.3.2 1. Der maximale Fehler 1. Art, d. h. sup Pϑ ((X1 , . . . , Xn ) ∈ K) ϑ∈Θ0 3.3. TESTEN VON HYPOTHESEN 93 heißt Umfang oder effektives Niveau von ϕ. Wir bezeichnen ϕ als Test zum (Irrtums-, Signifikanz-)Niveau α, falls supϑ∈Θ0 Pϑ ((X1 , . . . , Xn ) ∈ K) ≤ α. 2. Die Funktion Gϕ : Θ → [0, 1] mit Gϕ (ϑ) := Pϑ ((X1 , . . . , Xn ) ∈ K) (= Eϑ [ϕ(X)]) heißt Gütefunktion des Tests. Für ϑ ∈ Θ1 heißt Gϕ (ϑ) Macht, Stärke oder Schärfe von ϕ bei ϑ. Bemerkung 3.3.6 Für ϑ ∈ Θ0 ist Gϕ (ϑ) die Wahrscheinlichkeit eines Fehlers 1. Art. Für ϑ ∈ Θ1 ist βϕ (ϑ) := 1 − Gϕ (ϑ) die Wahrscheinlichkeit eines Fehlers 2. Art. Problem: Eine Verringerung der Wahrscheinlichkeit des Fehlers 1. Art bewirkt meist eine Erhöhung der Wahrscheinlichkeit des Fehlers 2. Art. Eine gleichzeitige Minimierung ist also nicht möglich. Ausweg: Asymmetrische Betrachtung der Fehler. Man wählt ein Niveau α ∈ (0, 1) (oft α = 0,05) und sucht unter allen Tests zum Niveau α (d. h. Tests mit einer Irrtumswahrscheinlichkeit 1. Art ≤ α.) einen Test mit maximaler Macht Gϕ (ϑ) für alle ϑ ∈ Θ1 (d. h. mit einer möglichst kleinen Irrtumswahrscheinlichkeit 2. Art für alle ϑ ∈ Θ1 ). Definition 3.3.7 Fortsetzung von Definitionen 3.3.2, 3.3.4 1. Ein Test ϕ von Θ0 gegen Θ1 heißt (gleichmäßig) bester Test zum Niveau α, falls er ein α-Niveau-Test ist und Gϕ (ϑ) ≥ Gψ (ϑ), ϑ ∈ Θ1 für alle anderen α-Niveau-Tests ψ. 2. Ein Test ϕ heißt unverfälscht zum Niveau α, falls Gϕ (ϑ0 ) ≤ α ≤ Gϕ (ϑ1 ), ϑ0 ∈ Θ0 , ϑ1 ∈ Θ1 (d. h. die Entscheidung für die Alternative ist wahrscheinlicher, wenn sie wahr ist, als wenn sie falsch ist). Bemerkung 3.3.8 1. Die Zuordnung von Hypothese und Alternative hängt von der Anwendung, dem Interesse bzw. den Folgen eines Irrtums ab. Die Hypothese ist das, wofür man sich entscheidet, wenn aus Mangel an Daten kein Urteil möglich ist. 2. Asymmetrische Sprechweise: ϕ(x) = 1: Man lehnt die Hypothese ab (entspricht Entscheidung für die Alternative). ϕ(x) = 0: Man lehnt die Hypothese nicht ab. Dies bedeutet nicht unbedingt, dass man die Alternative für falsch hält, sondern vielleicht nur, dass die Daten nicht ausreichen, um die Hypothese zu verwerfen (d. h. in dubio pro reo, wobei der Angeklagte hier die Hypothese ist). 94 KAPITEL 3. SCHLIESSENDE STATISTIK 3. Achtung: Wenn ein Test ϕ das Niveau 0,05 hat, bedeutet das nicht, dass im Fall ϕ(x) = 1 die Alternative oder im Fall ϕ(x) = 0 die Hypothese mit Wahrscheinlichkeit 0,95 wahr sind. Hypothese und Alternative sind nicht zufällig (außer in der Bayesschen Statistik, vgl. Abschnitt 3.5)! 4. Gleichmäßig beste Tests müssen nicht existieren. Manchmal existieren immerhin gleichmäßig beste unverfälschte Tests. Aber auch diese müssen nicht immer existieren oder bestimmbar sein. Beispiel 3.3.9 zu Beispiel 3.3.1, 3.3.4: Wähle beispielsweise das Niveau α = 0,05 (falls das Verfahren nutzlos ist, soll es höchstens mit 5% Wahrscheinlichkeit gekauft werden). Idee: Wähle ϕ(x) = 1(c,∞) (x), d. h. K = {c + 1, c + 2, . . . , n} für ein c ∈ {0, . . . , n}. P20 20 1 20 Fehler 1. Art: P1/2 (X ∈ K) = P1/2 (X > c) = k=c+1 k ( 2 ) . Dieser Wert beträgt 0,0207 für c = 14 und 0,0577 für c = 13. Für c ≥ 14 wird das Niveau α eingehalten. k P 20 (20−k) Macht bei ϑ ∈ Θ1 : Pϑ (X ∈ K) = 20 . Diese fällt monoton in c. k=c+1 k ϑ (1 − ϑ) Wähle also c = 14, d. h. das Verfahren wird gekauft, wenn mehr als 14 der 20 geborenen Tiere Kuhkälber sind. Angenommen, ϑ = 0,7. Das Verfahren wäre also schon wirtschaftlich interessant. Die Macht bei ϑ = 0,7 ist P0,7 (X ∈ K) ≈ 0,417, d. h. mit Wahrscheinlichkeit 1−0,417 = 0,583 wird ein solches Verfahren nicht entdeckt. Der Fehler 2. Art ist hier also unbefriedigend groß. Möglicher Ausweg: Betrachtung einer größeren Stichprobe n zur Erhöhung der Trennschärfe. Bemerkung 3.3.10 zur Konstruktion von Tests: Wir betrachten zunächst den sehr einfachen Fall von einfachen Hypothesen, d. h. Θ0 , Θ1 sind einelementig. Sei im Folgenden ein diskretes oder stetiges stochastisches Modell mit zugehörigen Dichten %ϑ gegeben, vergleiche Bemerkung 3.2.16. Seien Θ = {ϑ0 , ϑ1 }, Θ0 = {ϑ0 }, Θ1 = {ϑ1 }. Idee: Ist die Wahrscheinlichkeit der Beobachtung x unter ϑ1 groß und unter ϑ0 klein, entscheiden wir uns für Θ1 . Im umgekehrten Fall entscheiden wir uns für Θ0 . Definition 3.3.11 1. Die Funktion R : Rn → [0, ∞] mit ( %ϑ (x) 1 falls %ϑ0 (x) > 0, R(x) := %ϑ0 (x) ∞ sonst heißt Likelihood-Quotient (LQ) oder Dichte-Quotient. 2. Ein Likelihood-Quotienten-Test (LQT) von ϑ0 gegen ϑ1 ist ein Test ϕ(X1 , . . . , Xn ) der Form ( 1 falls R(x) > c, ϕ(x) = 0 falls R(x) < c für ein c ≥ 0. 3.3. TESTEN VON HYPOTHESEN 95 Solche Tests sind tatsächlich optimal. Satz 3.3.12 (Neyman-Pearson-Lemma) In obigem Rahmen ist jeder LQT ϕ(X1 , . . . , Xn ) bester Test zu seinem effektiven Niveau α. Beweis. Wir beweisen nur den Fall diskreter Dichten. Stetige Dichten werden analog behandelt. Sei ψ ein weiterer Test zum Niveau α und x ∈ Rn . Für %ϕ1 (x) − c%ϕ0 (x) > 0 ist ϕ(x) = 1, für %ϕ1 (x) − c%ϕ0 (x) < 0 ist ϕ(x) = 0. Es folgt, dass (ϕ(x) − ψ(x))(%ϕ1 (x) − c%ϕ0 (x)) ≥ 0 und damit auch X (ϕ(x) − ψ(x))(%ϕ1 (x) − c%ϕ0 (x)) ≥ 0. x∈Rn Also ist Eϕ1 [ϕ(X1 , . . . , Xn )] − Eϕ1 [ψ(X1 , . . . , Xn )] X X 2.2.22 = ϕ(x)%ϕ1 (x) − ψ(x)%ϕ1 (x) x∈Rn ≥ c( X x∈Rn ϕ(x)%ϕ0 (x) − ψ(x)%ϕ0 (x)) x∈Rn = c Eϕ0 [ϕ(X1 , . . . , Xn )] − Eϕ0 [ψ(X1 , . . . , Xn )] {z } | {z } | ≤α =α ≥ 0, d. h. Eϕ1 [ϕ(X1 , . . . , Xn )] ≥ Eϕ1 [ψ(X1 , . . . , Xn )]. Dieser einfache Fall ist eher selten. Jetzt werden daher mit der obigen Idee zusammengesetzte (d. h. mehrelementige) Hypothesen bzw. Alternativen betrachtet. Definition 3.3.13 Sei ein diskretes oder stetiges stochastisches Modell mit zugehörigen Dichten %ϑ gegeben, vgl. Bemerkung 3.2.16. Sei Θ = Θ0 ∪ Θ1 eine disjunkte Zerlegung. 1. Die Funktion R : Rn → [0, ∞] mit sup % (x) ϑ ϑ∈Θ1 sup %ϑ (x) R(x) := ϑ∈Θ 0 ∞ falls der Nenner > 0 ist, sonst heißt (verallgemeinerter) Likelihood-Quotient. 2. Ein Likelihood-Quotienten-Test (LQT) von Θ0 gegen Θ1 ist ein Test ϕ(X1 , . . . , Xn ) der Form ( 1 falls R(x) > c, ϕ(x) = 0 falls R(x) < c für ein c ≥ 0. 96 KAPITEL 3. SCHLIESSENDE STATISTIK Bemerkung 3.3.14 1. LQ-Tests haben nicht immer, aber zumindest oft gewisse Optimalitätseigenschaften (vgl. ML-Schätzer). 2. Falls T0 = t0 (X1 , . . . , Xn ) ML-Schätzer von ϑ bezüglich Θ0 (anstelle von Θ) und T1 = t1 (X1 , . . . , Xn ) ML-Schätzer von ϑ bezüglich Θ1 (anstelle von Θ) ist, dann ist R(x) = %T1 (x) (x) %T0 (x) (x) für alle x ∈ Rn , für die der Nenner positiv ist. Beispiel 3.3.15 Welche Gestalt haben LQ-Tests in Beispiel 3.3.1, 3.3.4, 3.3.9? Es ist %ϑ (x) = nx ϑx (1 − ϑ)n−x , also ∂ n x−1 %ϑ (x) = ϑ (1 − ϑ)n−x−1 (x(1 − ϑ) − (n − x)ϑ) . ∂ϑ x | {z }| {z } >0 =x−nϑ Wegen x − nϑ > 0 für ϑ < x/n und x − nϑ < 0 für ϑ > x/n ist sup %ϑ (x) = %max{ 1 , x } (x), ϑ∈(1/2,1] 2 n und der Likelihood-Quotient hat somit die Form n x x x n−x ( ) (1− ) %max{ 1 , x } (x) (x) n n 1 nn = (2κk (1 − κ)1−k )n 2 n (x)( 2 ) = R(x) = %1/2 (x) 1 falls κ := falls x n x n > 12 , ≤ 12 . ∂ k ∂ log(κk (1 − κ)1−k ) = ∂κ (k log(k) + (1 − κ) log(1 − k)) = log( 1−k ) > 0 für k > 12 , Es ist ∂κ also ist x 7→ R(x) monoton wachsend und LQ-Tests sind von der Form ( 1 falls x ≥ c, ϕ(x) = 0 falls x < c für ein c, wie in Beispiel 3.3.9 angesetzt. Beispiel 3.3.16 Normalverteilung, einseitiger Test bei bekannter Varianz: Seien X1 , . . . , Xn unter Pϑ unabhängig und N (µ, σ 2 )-verteilt, wobei σ 2 > 0 gegeben sei. Gesucht ist ϑ = µ. Hypothese Θ0 = (−∞, µ0 ], Alternative Θ1 = (µ0 , ∞) für ein µ0 ∈ R. Welche Gestalt haben die LQ-Tests? Es ist n Y 1 (xi − µ)2 √ %ϑ (x) = exp − 2σ 2 2πσ 2 i=1 !! n X 1 2 −n 2 2 = (2πσ ) 2 exp − 2 (xi − x) + n(x − µ) 2σ i=1 3.3. TESTEN VON HYPOTHESEN mit x := 1 n Pn i=1 97 xi . Also ist sup %ϑ (x) = %min{x,µ0 } (x) und sup %ϑ (x) = %max{x,µ0 } (x), ϑ∈Θ0 ϑ∈Θ1 und der Likelihood-Quotient hat die Form ( exp(− 2σ1 2 n(x − µ0 )2 ) %max{x,µ0 } (x) R(x) = = %min{x,µ0 } (x) exp( 1 2 n(x − µ0 )2 ) 2σ falls x ≤ µ0 , falls x > µ0 . Also ist x 7→ R(x) eine in x monoton wachsende Funktion und LQ-Tests haben die Form ϕ(x) = ( 1 falls x > c, 0 falls x < c für ein c ∈ R. Was ist das effektive Niveau α von ϕ? Nach Satz 3.3.19 ist X unter Pϑ gerade N (µ, σ2/n)verteilt. Also gilt α := sup Pϑ (ϕ(X1 , . . . , Xn ) = 1) = sup N(µ,σ2/n) ((c, ∞)) µ≤µ0 ϑ∈Θ0 c−µ c−µ = sup N(0,1) ,∞ = sup 1 − Φ σ √ σ/√n / n µ≤µ0 µ≤µ0 c − µ0 =1−Φ σ √ , / n −1 0 (1 − α), um da Φ monoton wachsend ist. Zu gegebenem Niveau α wähle also c−µ σ/√n = Φ das Niveau voll auszuschöpfen, d. h. den Test q 1 falls x > µ + σ2 Φ−1 (1 − α), 0 n ϕ(x) = 0 sonst. Die Gütefunktion des Tests ist X −µ µ0 − µ µ0 − µ −1 −1 Gϕ (ϑ) = Pϑ > Φ (1 − α) + σ √ = 1 − Φ Φ (1 − α) + σ √ . σ/√n / n / n | {z } N (0,1)-vert. unter Pϑ Bemerkung 3.3.17 Der einseitige Gaußtest in Beispiel 3.3.16 ist gleichmäßig bester Test zu seinem Niveau (ohne Beweis). Beispiel 3.3.18 Normalverteilung, zweiseitiger Test bei bekannter Varianz: Sei das stochastische Modell wie in Beispiel 3.3.16. Hypothese Θ0 = {µ0 }, Alternative Θ1 = R \ {µ0 } für ein µ0 ∈ R. 98 KAPITEL 3. SCHLIESSENDE STATISTIK Welche Gestalt haben die LQ-Tests? Analog gilt, dass sup %ϑ (x) = %x (x) und sup %ϑ (x) = %µ0 (x) ϑ∈Θ1 und %x (x) = exp R(x) = %µ0 (x) ϑ∈Θ0 1 2 n(x − µ0 ) . 2σ 2 Weiter ist x 7→ R(x) eine streng monotone Funktion von |x − µ0 |. Die LQ-Tests sind von der Form ( 1 falls |x − µ0 | > c, ϕ(x) = 0 falls |x − µ0 | < c, für ein c ∈ R. Was ist das effektive Niveau? α := sup Pϑ (ϕ(X1 , . . . , Xn ) = 1) = N (µ0 , σ2/n) [µ0 − c, µ0 + c]C ϑ∈Θ0 √ √ √ C ! √ c n −c n c n c n , =1− Φ −Φ − = N (0, 1) − σ σ σ σ √ c n =2 1−Φ , σ da Φ symmetrisch ist. √ Zu gegebenem Niveau wähle also c σ n = Φ−1 (1 − α2 ), d. h. den Test q 1 falls |x − µ | > σ2 Φ−1 (1 − α ), 0 n 2 ϕ(x) = 0 sonst. Ergänzungen zur Normalverteilung (zum Teil ohne Beweis): Satz 3.3.19 1. Seien X1 , X2 unabhängig und N (µ1 , σ12 )- bzw. N (µ2 , σ22 )-verteilt. Dann ist S := X1 + X2 gerade N (µ1 + µ2 , σ12 + σ22 )-verteilt (d. h. N (µ1 , σ12 ) ∗ N (µ2 , σ22 ) = N (µ1 + µ2 , σ12 + σ22 )). 2. Seien X1 , . . . , Xn unabhängig und N (µ, σ 2 )-verteilt. Dann ist X gerade N (µ, σ2/n)-verteilt. Beweis. 1. Die Verteilungsfunktion von S ist Z 2.2.69 %S (x) = ϕµ1 ,σ12 (z)ϕµ2 ,σ22 (x − z) dz Z 1 (z − µ1 )2 (x − z − µ2 )2 = exp − − dz 2πσ1 σ2 2σ12 2σ22 (x − µ)2 = c exp − 2σ 2 3.3. TESTEN VON HYPOTHESEN 99 1 für c ∈ R, µ ∈ R, σ 2 ∈ R+ . Da %S eine Dichte ist, muss c = √2πσ gelten, S ist 2 2 also N (µ, σ )-verteilt. Aus E[S] = E[X1 ] + E[X2 ] folgt µ = µ1 + µ2 , und aus Var(S) = Var(X1 ) + Var(X2 ) folgt σ 2 = σ12 + σ22 . P P 2. Induktion: ni=1 Xi ist N (nµ, nσ 2 )-verteilt. Es folgt sofort, dass n1 ni=1 Xi dann N (µ, σ2/√n)-verteilt ist. Satz 3.3.20 Seien X1 , . . . , Xn unabhängig und N (0, 1)-verteilt. Dann hat die Verteilung von T := √ 1 PXn 2 für alle x ∈ R die Dichte n i=1 Xi n+1 2 − 2 ) Γ( n+1 x 2 1+ . %n (x) = n √ n Γ( 2 ) nπ R∞ Γ ist die Gammafunktion, d. h. Γ(x) := 0 e−t tx−1 dt für x > 0 √ (insbesondere Γ(1) = 1, Γ(x + 1) = xΓ(x), Γ(n + 1) = n!, Γ(1/2) = π). (ohne Beweis) Definition 3.3.21 Die Verteilung tn mit Dichte %n wie in Satz 3.3.20 heißt Studentsche tVerteilung mit n Freiheitsgraden. Satz 3.3.22 Seien X1 , . . . , Xn unabhängig, N (µ, σ 2 )-verteilt. Dann ist X −µ T := p S 2 /n tn−1 -verteilt, wobei X := 1 n Pn i=1 Xi , S 2 := 1 n−1 Pn i=1 (Xi − X)2 . (ohne Beweis) In praktischen Anwendungen ist die Varianz in den Beispielen 3.3.16, 3.3.18 meist unbekannt. Beispiel 3.3.23 Normalverteilung, einseitiger Test bei unbekannter Varianz: Seien X1 , . . . , Xn unter Pϑ unabhängig und N (µ, σ 2 )-verteilt, wobei ϑ = (µ, σ 2 ) ∈ R × (0, ∞). Hypothese: Θ0 = (−∞, µ0 ] × (0, ∞), Alternative Θ1 = (µ0 , ∞) × (0, ∞) für ein µ0 ∈ R. Welche Gestalt haben die LQ-Tests? Es gilt ! n Y (xi −µ)2 1 √ e− 2σ2 log %ϑ (x) = log 2 2πσ i=1 n n 1 X 2 = − log(2πσ ) − 2 (xi − µ)2 2 2σ i=1 100 KAPITEL 3. SCHLIESSENDE STATISTIK und somit n ∂ n 1 1 X log(%ϑ (x)) = − 2 + (xi − µ)2 . ∂(σ 2 ) 2σ 2(σ 2 )2 i=1 P Der Ausdruck ist größer null für σ 2 < vµ := n1 ni=1 (xi − µ)2 und kleiner null für σ 2 > vµ . Also ist sup %ϑ (x) = sup %(µ,σ2 ) (x) = sup %(µ,vµ ) (x) µ≤µ0 µ≤µ0 σ 2 >0 ϑ∈Θ0 und analog sup %ϑ (x) = sup %(µ,vµ ) (x). µ>µ0 ϑ∈Θ1 Also ist sup %(µ,vµ ) (x) R(x) = µ>µ0 sup %(µ,vµ ) (x) µ≤µ0 n sup (2πvµ )− 2 exp(− 2v1µ nvµ ) = µ>µ0 n sup (2πvµ )− 2 exp(− 2v1µ nvµ ) µ≤µ0 −n 2 sup vµ = µ>µ0 −n 2 . sup vµ µ≤µ0 Da n n 1X 1X vµ = (xi − µ)2 = (xi − x)2 + n i=1 n i=1 {z } | =:σ̂ 2 (x − µ)2 , | {z } wachsend in |x−µ| folgt ( σ̂2 ) n2 vµ0 R(x) = ( vµ20 ) n2 σ̂ Ferner gilt vµ0 σ̂ 2 =1+ (x−µ0 )2 σ̂ 2 =1+ τµ0 τµ20 n−1 falls x < µ0 , falls x ≥ µ0 . mit √ (x − µ0 ) n := q . Pn 1 2 (x − x) i=1 i n−1 R ist eine streng monoton wachsende Funktion von τµ0 (sofern x ≥ µ0 ), und der LQ-Test hat die Form ( 1 falls τµ0 > c, ϕ(x) = 0 falls τµ0 < c für ein c ∈ R. 3.3. TESTEN VON HYPOTHESEN 101 Was ist das effektive Niveau? Unter Pϑ ist τµ (X1 , . . . , Xn ) gerade tn−1 -verteilt nach Satz 3.3.22. Da √ (µ0 − µ) n τµ0 = τµ − q , Pn 1 2 i=1 (xi − x) n−1 {z } | ≥0 ist Pϑ (ϕ(X1 , . . . , Xn ) = 1) auf Θ0 maximal für µ = µ0 . Also α := sup Pϑ (ϕ(X1 , . . . , Xn ) = 1) = tn−1 ((c, ∞)) = 1 − tn−1 ((−∞, c]). ϑ∈Θ0 Zum Niveau α wähle also c = tn−1,1−α , wobei tn−1,1−α das (1 − α)-Quantil der tn−1 Verteilung sei, d. h. ( 1 falls τµ0 > tn−1,1−α , ϕ(x) = 0 sonst. Beispiel 3.3.24 Normalverteilung, zweiseitiger Test bei unbekannter Varianz: Sei das Modell wie in Beispiel 3.3.23. Hypothese Θ0 = {µ0 } × (0, ∞), Alternative Θ1 = (R \ {µ0 }) × (0, ∞). Analog zu Beispiel 3.3.23 ergibt sich sup %ϑ (x) = %(µ0 ,vµ0 ) (x) und sup %ϑ (x) = %(x,σ̂2 ) (x) ϑ∈Θ0 ϑ∈Θ1 und somit R(x) = v n2 µ0 σ̂ 2 = τµ20 1+ n−1 n2 . R ist eine streng monoton wachsende Funktion von |τµ0 |. Analog zu den Beispiel 3.3.18 und 3.3.23 hat dann der LQ-Test zum Niveau α die Form ( 1 falls |τµ0 | > tn−1,1−α , ϕ(x) = 0 sonst. Bemerkung 3.3.25 Die ein- bzw. zweiseitigen t-Tests in den Beispielen 3.3.23, 3.3.24 sind gleichmäßig beste unverfälschte Tests zum Niveau α, aber nicht gleichmäßig beste Tests (ohne Beweis). Bemerkung 3.3.26 In den bisherigen Beispielen wurden Familien von Tests mit kritischem Bereich Kα , α ∈ (0, 1) berechnet, wobei Kα ⊆ Kα0 für α ≤ α0 , etwa Kα = {t(x) > t1−α } für eine feste Statistik T = t(X1 , . . . , Xn ). Für x ∈ Rn definiert man den p-Wert als p(x) := inf{α ∈ (0, 1) : x ∈ Kα }, d. h. das kleinste Niveau α derart, dass die Hypothese bei Beobachtung von x durch den zu α gehörigen Test der Testfamilie abgelehnt wird. 102 KAPITEL 3. SCHLIESSENDE STATISTIK Bemerkung 3.3.27 zu sauberem und unsauberem Vorgehen: 1. Man sollte in der folgenden Reihenfolge arbeiten: (a) Wahl des statistischen Modells, (b) Wahl von Hypothese und Alternative, (c) Wahl des Niveaus, (d) Wahl des Tests, (e) Erhebung der Daten, (f) Entscheidung. 2. In der Medizinstatistik geht man noch weiter (good clinical practice): (a) Kontrollgruppe: Es wird mit ununterscheidbarem Medikament ohne Wirkstoff verglichen, um einen Placebo-Effekt auszuschließen; (b) Doppel-Blind: Weder Arzt noch Patient wissen, ob Medikament oder Placebo verabreicht werden; (c) Randomisieren: Die Zuordnung Placebo/Wirkstoff erfolgt zufällig. 3. Mögliche Fehler (→ publication bias): • Hypothese an denselben Daten bilden und testen, • Niveau dem Ergebnis anpassen (p-Werte!), • mehrere Tests nacheinander, bis Ablehnung erfolgt, • und viele andere mehr . . . 3.4 Konfidenzintervalle Problem: Schätzer liefern in aller Regel nicht genau den wahren“ Wert der Kenngröße, ” sondern weichen mehr oder weniger stark davon ab. Ausweg: Angabe eines ganzen Intervalls, in dem man den wahren Wert mit hoher Wahrscheinlichkeit vermutet. Definition 3.4.1 Sei ein statistisches Modell wie in Definition 3.1.3 gegeben. Seien τ : Θ → R (bzw. Rd , . . . ) eine Kenngröße, α ∈ (0, 1). Eine Abbildung C = c(X1 , . . . , Xn ) mit c : Rn → P(R) (bzw. P(Rd ), . . . ) heißt Bereichsschätzer für τ zum Irrtumsniveau α (oder Sicherheitsniveau (1 − α)), falls inf Pϑ (τ (ϑ) ∈ C) ≥ 1 − α. ϑ∈Θ Für x ∈ Rn heißt c(x) Konfidenzintervall für τ (bzw. bei Rd -wertigem τ Konfidenz- oder Vertrauensbereich). 3.4. KONFIDENZINTERVALLE 103 Bemerkung 3.4.2 Das bedeutet anschaulich, dass der wahre Parameter höchstens mit Wahrscheinlichkeit α nicht im Konfidenzbereich liegt. Achtung: Zufällig (da von Daten X1 , . . . , Xn abhängig) ist hier die Menge C = c(X1 , . . . , Xn ), nicht aber der Parameter ϑ. Satz 3.4.3 Sei ein statistisches Modell wie in Definition 3.1.3 gegeben. Seien τ : Θ → R (bzw. Rd , . . . ) eine Kenngröße, α ∈ (0, 1). 1. Ist für alle ϑ0 ∈ Θ ein α-Niveau-Test ϕϑ0 (X1 , . . . , Xn ) von H0 = {ϑ0 } gegen H1 = Θ \ {ϑ0 } gegeben, definiert c(x) := {τ (ϑ) : ϑ ∈ Θ mit ϕϑ (x) = 0} einen Bereichsschätzer τ zum Niveau α. 2. Ist C = c(X1 , . . . , Xn ) ein Bereichsschätzer für τ zum Niveau α, dann definiert für ϑ0 ∈ Θ0 ϕ(x) := 1 − 1c(x) (τ (ϑ0 )) einen α-Niveau-Test von Θ0 = {ϑ ∈ Θ : τ (ϑ) = τ (ϑ0 )} gegen Θ1 = Θ \ Θ0 . Beweis. 1. Sei ϑ0 ∈ Θ. Dann gilt Pϑ0 (τ (ϑ0 ) ∈ c(X1 , . . . , Xn )) ≥ Pϑ0 (ϕϑ0 (X1 , . . . , Xn ) = 0) α-Niv.-Test ≥ 1 − α. 2. Sei ϑ0 ∈ Θ, sei ϑ ∈ Θ mit τ (ϑ) = τ (ϑ0 ). Dann gilt Pϑ (ϕ(X1 , . . . , Xn ) = 0) = Pϑ (τ (ϑ) ∈ c(X1 , . . . , Xn )) ≥ 1 − α. Beispiel 3.4.4 Seien X1 , . . . , Xn unter Pϑ unabhängig und N (µ, σ 2 )-verteilt, wobei σ 2 > 0 gegeben und ϑ = µ seien, vgl. Beispiel 3.3.18. Zu schätzen sei ϑ = µ (d. h. τ (ϑ) = ϑ). Sei α ∈ (0, 1). Nach Beispiel 3.3.18 ist der α-Niveau-Test für Θ0 = {µ0 } gegen Θ1 = R\Θ0 ϕ(X1 , . . . , Xn ) = 1 |X−µ0 |> q σ 2 −1 Φ (1− α ) n 2 . Satz 3.4.3: Wähle als Konfidenzbereich beispielsweise C = c(X1 , . . . , Xn ) mit σ −1 α σ −1 α c(x) = x − √ Φ ,x + √ Φ . 1− 1− 2 2 n n 104 KAPITEL 3. SCHLIESSENDE STATISTIK Beispiel 3.4.5 Realistischere Situation: Auch σ 2 ist unbekannt, wie in Beispiel 3.2.20 bzw. 3.3.24. Für ϑ := (µ, σ 2 ) sei τ (ϑ) = µ zu schätzen. Sei α ∈ (0, 1) gegeben. Nach Beispiel 3.3.24 ist der α-Niveau-Test für Θ0 = {µ0 } × (0, ∞) = {ϑ ∈ Θ : m(ϑ) = µ0 } gegen Θ1 = Θ \ Θ0 gegeben durch ϕ(X1 , . . . , Xn ) = 1 (X−µ0 )√n √ S2 >tn−1,1−α/2 , wobei X das Stichprobenmittel, S 2 die Stichprobenvarianz und tn−1,1−α/2 das (1 − α/2)Quantil der tn−1 -Verteilung sei. Nach Satz 3.4.3 wähle als Konfidenzbereich daher z. B. ! √ √ S2 S2 C = c(X1 , . . . , Xn ) = X − √ tn−1,1−α/2 , X + √ tn−1,1−α/2 . n n Bemerkung 3.4.6 1. Die Länge des Konfidenzintervalls ist proportional zu 1/√n. Um die Genauigkeit zu verdoppeln, muss man n vervierfachen. 2. Die Konfidenzintervalle in 3.4.4 und 3.4.5 sind asymptotisch auch für andere Verteilungen anwendbar, da X nach dem zentralen Grenzwertsatz auch dann approximativ normalverteilt ist, wenn das für die Xi nicht der Fall ist. Beispiel 3.4.7 Produktion von Schrauben mittlerer Länge µ (Maschineneinstellung) und Varianz σ 2 (Maschinenkonstante): Schätzung von µ durch Vermessen von 100 Schrauben 1. X = 115 mm, σ 2 = (15,4 mm)2 , n = 100, α = 0,05: Dann ist √σn Φ−1 (1 − α/2) ≈ 2,6, also C = (112,4 mm, 117,6 mm), falls σ 2 bekannt. 2. Wie oben, aber S 2 = (15,4 mm)2 geschätzt: √ 2 √S tn−1,1−α/2 ≈ 2,65, also C = (112,35 mm, 117,65 mm). n 3.5 Elemente der Bayesschen Statistik Motivation 3.5.1 Idee der Bayesschen Statistik: Man betrachtet den Parameter als zufällig. Hierzu hat man eine Vorbewertung (Vorinformation, Erfahrung, Vorurteil), die dann auf Grund von Beobachtungen konkretisiert wird. Vorteile: Man erhält Verteilungsaussagen über den Parameter. Das Verfahren entspricht auch eher der menschlichen Vorgehensweise, aus Erfahrung zu lernen. Nachteil: Abhängigkeit der Resultate von der oft subjektiven Wahl der Vorbewertung Mathematischer Rahmen 3.5.2 Seien X1 , . . . , Xn unter allen Pϑ , ϑ ∈ Θ unabhängig und identisch verteilt. Sei zunächst ein diskretes Modell mit (Zähl-)Dichten %ϑ und abzählbarem Θ betrachtet. Der unbekannte Parameter wird als Zufallsgröße U : Ω → Θ aufgefasst, d. h. nun sind sowohl der unbekannte und nicht beobachtbare Parameter ϑ (genauer: die zugehörige Zufallsgröße U ), als auch die Beobachtungen X1 , . . . , Xn zufällig. 3.5. ELEMENTE DER BAYESSCHEN STATISTIK 105 Gegeben seien die Verteilung P U (Vorbewertung) mit Zähldichte α : Θ → R, d. h. α(ϑ) = P (U = ϑ). P U heißt auch a priori-Verteilung, α heißt a priori-Dichte. Die Pϑ werden nunmehr als bedingte Wahrscheinlichkeiten interpretiert, d. h. %ϑ (x) := Pϑ ((X1 , . . . , Xn ) = x) := P ((X1 , . . . , Xn ) = x | U = ϑ) für x ∈ Rn , ϑ ∈ Θ. Gesucht ist die a posteriori-Dichte πx (ϑ) := P (U = ϑ | (X1 , . . . , Xn ) = x), (3.2) ϑ ∈ Θ, x ∈ (X1 , . . . , Xn )(Ω), also die (Zähl-)Dichte der a posteriori-Verteilung A 7→ P (U ∈ A | (X1 , . . . , Xn ) = x), also der Verteilung des unbekannten Parameters unter Berücksichtigung der beobachteten Daten x = (x1 , . . . , xn ) Interpretation: Neubewertung der Einschätzung über ϑ auf Grund der Beobachtungen. Berechnung: = P (U = ϑ | (X1 , . . . , Xn ) = x) πx (ϑ) Bayessche Formel = P P ((X1 , . . . , Xn ) = x | U = ϑ)P (U = ϑ) e (U = ϑ) e P ((X1 , . . . , Xn ) = x | U = ϑ)P e ϑ∈Θ =P %ϑ (x)α(ϑ) e ϑ∈Θ e %ϑe(x)α (ϑ) . (3.3) Falls das Modell stetig ist (d. h. %ϑ ist Lebesgue-Dichte), wird analog vorgegangen, auch wenn die rechte Seite von (3.2) wegen P ((X1 , . . . , Xn ) = x) = 0 mathematisch sinnlos scheint. Für eine saubere Definition ist mehr Maßtheorie erforderlich. Falls Θ ⊆ R und P U stetig ist (d. h. α ist Lebesgue-Dichte statt Zähldichte), ist die a posteriori-Dichte analog zu (3.3) definiert durch %ϑ (x)α(ϑ) πx (ϑ) := R . (3.4) e dϑe % e(x)α (ϑ) Θ ϑ Beispiel 3.5.3 n-facher Münzwurf, vgl. 3.1.5, 3.2.2, 3.2.19 Vorbewertung: Gleichverteilung auf Θ = [0, 1], d. h. P U hat die Dichte α : [0, 1] → R, α(ϑ) = 1, also ein gemischter Fall: P U hat eine stetige Dichte, Pϑ hingegen eine Zähldichte. A posteriori-Dichte in Analogie zu (3.3, 3.4): πx (ϑ) = R %ϑ (x)α(ϑ) e dϑe % e(x)α (ϑ) A ϑ = R1 0 ϑk (1 − ϑ)n−k e n−k dϑe ϑek (1 − ϑ) k n−k ϑ (1 − ϑ) B(k + 1, n − k + 1) (n + 1)! k = ϑ (1 − ϑ)n−k k!(n − k)! = mit k := n X i=1 xi 106 KAPITEL 3. SCHLIESSENDE STATISTIK R1 mit B(x, y) := 0 tx−1 (1 − t)y−1 dt = (x−1)!(y−1)! für x, y ∈ N \ {0}. (x+y−1)! πx ist die Dichte einer Beta-Verteilung mit Parametern k + 1, n − k + 1. 3.5.1 Schätzen Definition 3.5.4 Ein Schätzer T = t(X1 , . . . , Xn ) für eine Kenngröße τ : Θ → R heißt Bayes-Schätzer, falls er den erwarteten quadratischen Fehler E[(T − τ (U ))2 ] unter allen Schätzern minimiert. Satz 3.5.5 Der Bayes-Schätzer in Beispiel 3.5.3 ist gegeben durch (P t(x) = ϑ∈Θ R τ (ϑ)πx (ϑ) falls πx Zähldichte, τ (ϑ)πx (ϑ) dϑ falls πx Lebesgue-Dichte, d. h. T ist der Erwartungswert von τ unter der durch πx gegebenen a posteriori-Verteilung auf dem Parameterraum Θ. Beweis. Hier für den diskreten Fall, der stetige Fall wird ähnlich bewiesen. Sei %(x) := P ((X1 , . . . , Xn ) = x). Dann ist %(x)πx (ϑ) = P (U = ϑ | (X1 , . . . , Xn ) = x)P ((X1 , . . . , Xn ) = x) = P ((X1 , . . . , Xn ) = x, U = ϑ). Sei S = s(X1 , . . . , Xn ) ein weiterer Schätzer. Dann gilt E[(S − τ (ϑ))2 ] − E[(T − τ (ϑ))2 ] X = P ((X1 , . . . , Xn ) = x, U = ϑ) (s(x) − τ (ϑ))2 − (t(x) − τ (ϑ))2 | {z } ϑ∈Θ x∈(X1 ,...,Xn )(Ω) X = x∈(X1 ,...,Xn )(Ω) =s(x)2 −2s(x)τ (ϑ)−t(x)2 +2t(x)τ (ϑ) X X %(x) s(x)2 πx (ϑ) −2s(x) πx (ϑ)τ (ϑ) ϑ∈Θ | ϑ∈Θ {z } X πx (ϑ) +2t(x) =1 − t(x)2 | ϑ∈Θ | X = {z } =t(x) X πx (ϑ)τ (ϑ) ϑ∈Θ {z =1 } | {z =t(x) } %(x)(s(x) − t(x))2 x∈(X1 ,...,Xn )(Ω) ≥ 0. 3.5. ELEMENTE DER BAYESSCHEN STATISTIK 107 Beispiel 3.5.6 n-facher Münzwurf, vgl. 3.1.5, 3.2.2, 3.2.19, 3.5.3, zur Notation siehe Beispiel 3.5.3. Betrachte τ (ϑ) = ϑ, d. h. ϑ soll geschätzt werden. Der Bayes-Schätzer ist gegeben durch Z t(x) = ϑπx (ϑ) dϑ Z (n + 1)! = ϑk+1 (1 − ϑ)n−k dϑ k!(n − k)! (n + 1)! B(k + 2, n − k + 1) = k!(n − k)! (n + 1)! (k + 1)!(n − k)! = k!(n − k)! (k + 2)! k+1 = n+2 Pn für k = i=1 xi . (Vgl. mit t(x) = nk in 3.2.2 bzw. 3.2.19.) 3.5.2 Konfidenzbereiche Definition 3.5.7 Seien eine Kenngröße τ : Θ → R und α ∈ (0, 1) gegeben. Eine Abbildung C = c(X1 , . . . , Xn ) mit c : Rn → P(R) heißt Bereichsschätzer für τ zum Irrtumsniveau α, falls P (τ (U ) ∈ c(X1 , . . . , Xn )) > 1 − α. Bemerkung 3.5.8 Achtung: Anders als in Definition 3.4.1 sind nun beide Seiten zufällig, also neben X1 , . . . , Xn auch der unbekannte Parameter U . Idee zur Konstruktion, hier nur im Fall Θ ⊆ R und τ (ϑ) = ϑ: Wähle ϑ ∈ c(x) genau dann, wenn πx (ϑ) > q(x), wobei q(x) derart beschaffen sei, dass Z X πx (ϑ) > 1 − α. bzw. πx (ϑ) dϑ > 1 − α c(x) ϑ∈c(x) Es wird also ein möglichst kleiner Konfidenzbereich gewählt, da er gerade die ϑ mit größter a-posteriori Wahrscheinlichkeit enthält. C = c(X1 , . . . , Xn ) ist dann ein Konfidenzbereich, denn X X P (U ∈ c(X1 , . . . , Xn )) = P ((X1 , . . . , Xn ) = x, U = ϑ) x∈(X1 ,...,Xn )(Ω) ϑ∈c(x) = X %(x) x∈(X1 ,...,Xn )(Ω) X ϑ∈c(x) | X > (1 − α) πx (ϑ) {z >1−α %(x) x∈(X1 ,...,Xn )(Ω) = (1 − α). (Im Fall von Lebesgue-Dichten argumentiert man analog.) } 108 KAPITEL 3. SCHLIESSENDE STATISTIK 3.5.3 Testen Definition 3.5.9 Seien Θ = Θ0 ∪ Θ1 eine disjunkte Zerlegung in die Hypothese Θ0 und die Alternative Θ1 sowie c0 , c1 > 0. Ein Test (vgl. Definition 3.3.2) ϕ(X1 , . . . , Xn ) von Θ0 gegen Θ1 heißt Bayes-Test zu Kosten c0 , c1 , falls E[c0 ϕ(X1 , . . . , Xn )1Θ0 (U ) + c1 (1 − ϕ(X1 , . . . , Xn ))1Θ1 (U )] minimal wird unter allen Tests. Bemerkung 3.5.10 In Definition 3.5.9 stehen c0 für die Kosten des Fehlers 1. Art und c1 für die Kosten des Fehlers 2. Art. Der Bayes-Test minimiert die erwarteten Fehlerkosten, insbesondere die Wahrscheinlichkeit einer Fehlentscheidung für c0 = c1 = 1. Satz 3.5.11 Wähle ϕ(x) := ( 1 falls 0 P (U ∈Θ1 |(X1 ,...,Xn )=x) P (U ∈Θ0 |(X1 ,...,Xn )=x) > c0 , c1 sonst (wobei P (U ∈ Θi | (X1 , . . . , Xn ) = x) = Dann definiert ϕ einen Bayes-Test. P ϑ∈Θi πx (ϑ) für i ∈ {0, 1}). Beweis. Wir betrachten den abzählbaren Fall (sonst analog): E[c0 ϕ(X1 , . . . , Xn )1Θ0 (U ) + c1 (1 − ϕ(X1 , . . . , Xn ))1Θ1 (U )] X = P ((X1 , . . . , Xn ) = x) c0 ϕ(x)P (U ∈ Θ0 | (X1 , . . . , Xn ) = x) x∈R + c1 (1 − ϕ(x))P (U ∈ Θ1 | (X1 , . . . , Xn ) = x) =: X P ((X1 , . . . , Xn ) = x)`(x). x∈R Es ist `(x) = ( c0 p0 (x) c1 (1 − p0 (x)) mit p0 (x) = P (U ∈ Θ0 | (X1 , . . . , Xn ) = x). c0 p0 (x) < c1 (1 − p0 (x)), gilt genau dann, wenn definierte ϕ den Ausdruck `(x) für alle x. falls ϕ(x) = 1, falls ϕ(x) = 0 c0 c1 < 1−p0 (x) . p0 (x) Also minimiert das im Satz Bemerkung 3.5.12 Im Fall c0 = c1 = 1 kann ϕ(x) aus Satz 3.5.11 so interpretiert werden, dass man sich für diejenige der beiden Hypothesen entscheidet, die die größere a posterioriWahrscheinlichkeit besitzt.