Statistik für Naturwissenschaftler Günther Sawitzki StatLab Heidelberg 20. Januar 2005 private version noch in Vorbereitung E-mail address: [email protected] URL: http://www.statlab.uni-heidelberg.de/ Key words and phrases. Angewandte Statistik, Einführung in die Statistik 20. Januar 2005. Inhaltsverzeichnis Kapitel 0. Statnat formats 0.1. Construction 0.2. Geschlossene Darstellung 0.2.1. Modell 0.2.2. Parameterabhängigkeit 0.2.3. Praktische Berechnung 0.3. Grundprobleme 0.3.1. Schätzung 0.3.2. Test 0.3.3. Prognose 0.3.4. Stichprobenumfang 0.3.5. Vergleichstest 0.4. Spezielle Anwendungen 1 1 1 1 1 1 1 1 1 1 1 1 2 Kapitel 1. Einführung 1.1. Beispiele 1.2. Statistische Problemstellungen 1.2.1. Testen von Hypothesen 1.2.2. Parameterschätzung, Prognose 1.2.3. Prognoseprobleme, Modellrechungen, Versuchsplanung 1.3. Ausblick 1-1 1-1 1-4 1-4 1-6 1-8 1-9 Kapitel 2. Modell: Auswahl aus einer endlichen Grundgesamtheit 2-1 2.1. Einführung 2-1 2.2. Maßzahlen für Wahrscheinlichkeit 2-1 2.2.1. Elementare Ansätze: erster Schritt 2-2 2.3. Laplace-Ansatz 2-4 2.4. Elementare Ansätze: Schritt i 2-8 2.4.1. Zusammenfassung von Folgeschritten 2-9 2.4.2. Zusammenfassung von Pfade nach Endpunkten 2-11 2.5. Analytische Darstellung 2-13 2.5.1. Binomialkoeffizient 2-14 2.5.2. Geschlossene Darstellung 2-14 2.5.3. Zahlenbeispiel: 2-15 2.6. Rückblick 2-16 Kapitel 3. Das Grundmodell der Wahrscheinlichkeitsrechnung 3.1. Rückblick i 3-1 3-1 ii INHALTSVERZEICHNIS 3.2. Axiome 3.2.1. Erste allgemeine Eigenschaften 3.3. Beispiele 3.3.1. Ausgewogener Würfel 3.3.2. Logische Wahrscheinlichkeit 3.3.3. Gezinkter Würfel 3.3.4. Empirische Wahrscheinlichkeit 3.3.5. Auswahl aus einer endlichen Grundgesamtheit 3.3.6. Bedingte Wahrscheinlichkeit 3.3.7. Stetige Verteilungen 3.3.8. Bezeichnung zur formalen Unterscheidung 3.3.9. Konventionen 3.4. Verteilungsfunktion und Quantile 3.4.1. Allgemeine Eigenschaften von Verteilungsfunktionen: 3.4.2. Umkehrung von Verteilungsfunktionen 3.4.3. Allgemeine Eigenschaften von Quantilen 3.4.4. Spezielle Quantile: 3.5. Stochastische Ordnung 3-3 3-5 3-6 3-6 3-6 3-6 3-7 3-7 3-7 3-8 3-8 3-9 3-10 3-11 3-11 3-12 3-13 3-13 Kapitel 4. Hypergeometrische Verteilung 4.1. Das Modell der hypergeometrischen Verteilung 4.1.1. Formale Beschreibung des Modells 4.1.2. Modell: Stichprobe in einer endlichen Menge 4.1.3. Ziehen ohne Zurücklegen 4.1.4. Praktische Berechnung 4.2. Tests bei hypergeometrischer Verteilung 4.2.1. Stichproben: 4.2.2. Standardisierte Formulierung des Problems: 4.3. Schätzprobleme bei hypergeometrischer Verteilung 4.4. Capture–Recapture–Methode 4.5. Prognoseproblem 4-1 4-1 4-1 4-2 4-2 4-3 4-6 4-6 4-7 4-9 4-14 4-16 Kapitel 5. Grundbegriffe: Test, Schätzung, Prognose 5.1. Test 5.1.1. Konstruktion von Verwerfungsbereichen. 5.2. Schätzung 5.2.1. Zusammanhang zwischen Tests und Schätzbereichen 5.3. Prognose 5.3.1. Einfache Prognose 5.3.2. Allgemeine Prognose und Toleranzbereiche 5.4. Einseitige Fragestellung bei Monotonie 5.4.1. Testproblem bei Monotonie 5.4.2. Schätzproblem bei Monotonie 5.4.3. Einfaches Prognoseproblem bei Monotonie 5-1 5-1 5-3 5-6 5-7 5-8 5-8 5-9 5-10 5-11 5-11 5-12 Kapitel 6. Binomialverteilung 6-1 INHALTSVERZEICHNIS iii 6.1. Konstruktion einer Maßzahl 6.2. Zusammenfassung des Modells 6.3. Geschlossene Darstellung 6.3.1. Praktische Berechnung 6.4. Parameterabhängigkeit bei der Binomialverteilung 6.4.1. Auswirkung des Parameters p: 6.4.2. Auswirkung des Parameters n: 6.5. Grundprobleme bei Binomialverteilung 6.5.1. Testproblem: Niveau α 6.5.2. Schätzproblem 6.5.3. Vergleich Binomialverteilung / Hypergeometrische Verteilung 6.6. Spezielle Anwendungen 6.6.1. Binomialverteilung beim Zeichentest auf Symmetrie 6.7. Tests für den Parameter p der Binomialverteilung 6.8. Weitere Grundprobleme 6.8.1. Schätzung des Parameters p bei Binomialverteilung 6.8.2. Prognose bei Binomialverteilung 6.9. Vergleich zweier Binomialverteilungen 6.9.1. Fisher’s exakter Test 6.10. Kontingenztafeln 6-1 6-3 6-3 6-5 6-7 6-7 6-8 6-9 6-9 6-9 6-9 6-11 6-11 6-12 6-18 6-18 6-20 6-21 6-21 6-22 Kapitel 7. Abhängigkeit, Unabhängigkeit, Bayes-Formel 7.1. Stochastische Unabhängigkeit 7.2. Abhängigkeit, Bayes-Formel 7-1 7-1 7-4 Kapitel 8. Erwartungswert und Varianz 8.1. Erwartungswert 8.2. Varianz 8.3. Rechnen mit Erwartungswerten und Varianz 8.4. Kovarianz 8.5. Qualitätsmerkmale von Punktschätzern 8.5.1. 8.6. Fehlerfortpflanzung durch Addition 8.6.1. 8-1 8-1 8-2 8-5 8-6 8-7 8-8 8-9 8-9 Kapitel 9. Poisson-Verteilung 9.1. Beispiel für die Problemstellung: 9.2. Modell: Auftreten seltener Ereignisse 9.2.1. Erwartungswert und Varianz 9.2.2. Praktische Berechnung 9.3. Grundprobleme 9.3.1. Schätzproblem 9.3.2. Testprobleme 9.3.3. Vergleichstest 9-1 9-1 9-2 9-3 9-3 9-4 9-4 9-5 9-5 Literaturverzeichnis Appendix-1 iv Index INHALTSVERZEICHNIS Appendix-3 KAPITEL 1 Einführung 1.1. Beispiele Wir benötigen zu Anfang einige Beispiele, um für die Diskussion konkretere Ausgangspunkte zu haben. Die Beispiele hier sind künstlich, und mit Absicht so einfach gewählt, dass sie noch vollständig überschaubar sind. Sie sind aber hinreichend komplex, um einige grundlegende Aspekte zu illustrieren. Beispiel 1.1. Population von zwei Arten. In einem abgegrenzten Biotop leben zwei miteinander konkurrierende Arten. Bei einer Zählung werden n0 Individuen der ersten Art und n1 der zweiten festgestellt. Bei einer erneuten Zählung nach drei Jahren zählt man n0 − k0 Individuen der ersten Art und n1 + k1 der zweiten. Kann man aufgrund dieser Daten sagen, dass sich das Biotop in der Zwischenzeit für Art 0 zugunsten von Art 1 verschlechtert hat? Sind k0 , k1 klein im Vergleich zu n0 , n1 , etwa n0 = 5000, n1 = 4600 und k0 = 20, k1 = 15, so sicherlich nicht. Anders wenn die Werte z.B. n0 = 5000, k0 = 3000 bzw. n1 = 4600, k1 = 2000, die neuen Populationszahlen also n00 = n0 − k0 = 2000, n01 = n1 + k1 = 6600 sind. Ab wann soll man die Veränderung als auffällig betrachten? Ein vereinfachtes Modell zeigt, was passieren kann: Stellen wir uns das Biotop in feste Parzellen aufgeteilt vor, jede bewohnt von genau einem vermehrungsfähigen Individuum mit höchstens einem Nachkommen pro Zeiteinheit. Nehmen wir 36 Parzellen, so können wir auswürfeln, wer sich ”vermehren” soll: Mit zwei Würfen ist eine Parzelle und damit ein Individuum festgelegt. Zwei weitere Würfe bestimmen das Feld, das nun vom Nachkommen ”erobert” wird (Siehe 1.1). Eine Folge von Würfen kann z.B. ergeben; (3, 2) (d.h. ein ◦ vermehrt sich), (1, 5) (d.h. der ◦ nimmt den Platz eines × ein). (Abb. (1.2)) Wir führen das “Experiment” eine Zeit lang, z. B. 100 mal durch: Ganz zufällig hat Art 1 sich um 1/3 auf Kosten von Art 0 vermehrt und ist jetzt fast doppelt so häufig wie Art 0 (Abb. 1.4). Beispiel 1.2. Messreihe 1-1 1-2 1. EINFüHRUNG 4 1 2 3 2. Wurf 5 6 n[0] = 18; n[1] = 18 1 2 3 4 5 6 1. Wurf Abbildung 1.1: Zu Beispiel 1.1: Start: n0 = 18, n1 = 18. Codierung: ◦ für Art 0 , × für Art 1. 1. Schritt: (2, 3) 1 2 3 4 5 6 n[0] = 17; n[1] = 19 1 2 3 4 5 6 ( 3 , 2 ) >> ( 1 , 5 ) Abbildung 1.2: Zu Beispiel 1.1: Schritt 1: (3, 2) → (1, 5) Aus einer Zellkultur werden 10 Zellen entnommen und der DNAGehalt der Kerne bestimmt; die Messwerte sind in 10−8 mg: 2.56, 2.58, 2.60, 2.54, 2.57, 2.60, 2.59, 2.57, 2.58, 2.61. Im Mittel also (2.56 + 2.58 + . . . + 2.61) / 10 = 2.58. Um diesen Wert liegen die Messwerte. Mit welchem DNA-Gehalt kann man für weitere Untersuchungen rechnen? Mit den extremen Messwerten 2.54 oder 2.61? Mit dem mittleren Messwerte 21 · (2.54 + 2.61) = 2.575? Mit dem Mittel 2.58? Mit 2.58 ± 10 % ? Beispiel 1.3. Fortpflanzung Ein dominant-rezessiv vererbtes Merkmal mit den Ausprägungen a, A soll bei Individuen vom Phänotyp a (also Genotyp aa) untersucht werden. Dazu kreuzt man in der nur aus Aa-Individuen bestehenden Elterngeneration n Paare, die je einen Nachkommen haben. Für 1.1. BEISPIELE 1-3 1. Schritt Würfe: (3, 2)(1, 5) (4, 3)(6, 6) 5 4 3 2 1 1 2 3 4 5 6 n[0] = 16; n[1] = 20 6 n[0] = 17; n[1] = 19 1 2 3 4 5 6 1 2 ( 3 , 2 ) >> ( 1 , 5 ) 3 4 5 6 ( 4 , 3 ) >> ( 6 , 6 ) 4. Schritt (2, 5), (6, 3) (1, 4)(2, 2) 5 4 3 2 1 1 2 3 4 5 6 n[0] = 18; n[1] = 18 6 n[0] = 17; n[1] = 19 1 2 3 4 5 6 1 2 ( 1 , 4 ) >> ( 2 , 2 ) 3 4 5 6 ( 2 , 5 ) >> ( 6 , 3 ) Abbildung 1.3: Zu Beispiel 1.1: Schritte 1 − 4 100. Schritt 1 2 3 4 5 6 n[0] = 19; n[1] = 17 1 2 3 4 5 6 ( 4 , 6 ) >> ( 2 , 3 ) Abbildung 1.4: Zu Beispiel 1.1: Nach 100 Schritten die weitere Untersuchung will man k aa-Individuen. Wie groß muß n gewählt werden? n = k ist sicher nicht richtig; die meisten der Nachkommen werden Aa- oder AA-Individuen sein, also muß n > k sein. Nach den Mendel’schen Regeln ist im Mittel zu erwarten, dass 14 der Nachkommen den Genotyp AA, 12 den Genotyp Aa = aA , und 41 den gewünschten Genotyp aa hat. Im Mittel: manchmal mehr, manchmal weniger. Soll man also n = 4 · k wählen? Oder n = 4 · k + 10 % ? Oder n=2·4·k ? 1-4 1. EINFüHRUNG 1.2. Statistische Problemstellungen Testprobleme Schätzproblem Prognose Versuchsplanung Im folgenden werden Methoden entwickelt, mit denen diese und ähnliche Probleme behandelt werden können. Probleme wie (Beispiel 1.1) werden Testprobleme genannt: gesucht ist hier eine Entscheidungsregel, die aufgrund beobachteter Daten sagt, ob man sich für oder gegen eine bestimmte Hypothese entscheiden soll. (Beispiel 1.2) kann man als ein Schätzproblem auffassen: aufgrund der beobachteten Daten soll ein den Beobachtungen zugrunde liegender Parameter möglichst genau geschätzt werden. Eine genauere Überlegung führt jedoch darauf, dass hier eigentlich nach einer Prognose gefragt ist: aufgrund der beobachteten Daten in einem Experiment soll für das weitere Vorgehen (voraussichtlich nicht mit den gegebenen Proben, sondern in neuen Experimenten) geschlossen werden. Bei (Beispiel 1.3) ist die Anzahl der eingesetzten Einheiten (hier: Eltern) festzulegen. Die Fragestellung fällt hier in den Bereich der Versuchsplanung. Die angegebenen Beispiele sind an biologischen Fragestellungen orientiert; die im Folgenden vorgestellten Ansätze jedoch sind nicht an diesen Bereich gebunden. Wie können für die Beispielprobleme Lösungen aussehen? Hypothese Parameter 1.2.1. Testen von Hypothesen. Beim Testproblem geht man von einer bestimten Hypothese aus. Etwa, (Beispiel 1.1), von der Hypothese: Beide Arten sind gleich fruchtbar. Hinzu kommen Vor-Informationen über Versuchsparameter. In Beispiel 1.1: die Information, dass n0 = 5000, n1 = 4000 die Anfangsgrößen der Populationen sind. Sind beide Arten exakt gleich fruchtbar, so ist damit zu rechnen, dass n0 : n1 = n00 : n01 . D.h. das Verhältnis der Populationsgrößen zueinander ändert sich nicht (Abb. 1.5). Abbildung 1.5: n0 0 : n1 0 = n0 : n1 Doch nur in einem idealisierten Fall ist n0 : n1 = n00 : n01 . Realistischer ist es - selbst bei der Annahme gleicher Fruchtbarkeit - mit einer 1.2. STATISTISCHE PROBLEMSTELLUNGEN 1-5 Schwankung um dieses Verhältnis zu rechnen. Selbst große Abweichungen sind im Prinzip nicht ausgeschlossen, auch wenn sie bei gleicher Fruchtbarkeit beider Arten recht unwahrscheinlich sind (Abb. 1.6). Abbildung 1.6: Abweichungen vom idealisierten Fall Eine Lösung des Testproblems sieht nun so aus, dass ein Bereich abgegrenzt wird, von dem man sagen kann: Unter der Annahme gleicher Fruchtbarkeit ist es so unwahrscheinlich, ein Ergebnis in diesem Bereich zu bekommen, dass man das Eintreten dieser Ergebnisse im Versuch als Grund genug ansieht, die Hypothese zu verwerfen. Der so abgegrenzte Bereich heißt Verwerfungsbereich oder kritischer Bereich (Abb. Verwerfungsbereich 1.7). kritischer Bereich Abbildung 1.7: Zweiseitiger Verwerfungsbereich Um die Fragestellung genauer zu fassen, stellt man der Hypothese eine Gegenhypothese oder Alternative gegenüber: Gegenhypothese— see Alternative Hypothese: Beide Arten sind gleich fruchtbar. Alternative Gegenhypothese: Die Fruchtbarkeit unterscheidet sich. Dabei reicht es für manche Fragestellungen, die kritische Region nach einer Seite hin abzugrenzen. Etwa, wenn als Alternative zur Hypothese gleicher Fruchtbarkeit nur zur Diskussion steht: Art 1 ist fruchtbarer als Art 0, so ist nur die obere Grenze interessant (Abb. 1.8). 1-6 1. EINFüHRUNG Hypothese: Gegenhypothese: Beide Arten sind gleich fruchtbar. Art 1 ist fruchtbarer als Art 0 Abbildung 1.8: Einseitiger Verwerfungsbereich Ist nur die Abgrenzung zu einer Seite hin in der Diskussion, so einseitig!Problemstellung spricht man von einseitiger Problemstellung, sonst von zweiseitiger. zweiseitig!Problemstellung Eine feste Grenze zu ziehen beinhaltet immer eine gewisse Willkür. Fehler!1. Art Irrtumswahrscheinlichkeit Fehler!2. Art Selbst bei im Prinzip gleicher Fruchtbarkeit können bei einer Zählung die beobachteten Werte zufällig einmal außerhalb der gezogenen Grenze liegen. Mit gewisser Wahrscheinlichkeit wird die Hypothese dann fälschlicherweise verworfen. Dies bezeichnet man als einen Fehler 1. Art. Ein Problem der nächsten Kapitel wird es sein, ein Maß für diese Wahrscheinlichkeit, genannt Irrtumswahrscheinlichkeit, zu entwickeln. Es ist ein weitverbreiteter Irrtum zu glauben: Wenn ein Beobachtungsergebnis nicht im Verwerfungsbereich liegt, dann ist die Hypothese richtig. Das muß nicht sein. Es kann auch sein, dass die Gegenhypothese wahr ist und nur zufällig die Beobachtung nicht im Verwerfungsbereich liegt. Dann spricht man von einem Fehler 2. Art. Oder die gesamte Modellvorstellung, Hypothese und Gegenhypothese, kann unangemessen sein; ein Fehler der dritten Art, über den man manchmal gar nicht erst spricht. 1.2.2. Parameterschätzung, Prognose. Ähnlich ist die Situation beim Schätzproblem, bei dem ausgehend von Beobachtungen ein Parameter zu schätzen ist. Der erste Lösungstyp sieht so aus, dass mit einer Rechenformel aus den Beobachtungswerten ein Schätzwert für den Parameter errechnet wird. Etwa (Beispiel 1.2): Aus den Messwerten wird das Mittel gebildet, und man schätzt, dass dieser Wert dem typischen DNA-Gehalt in der Zellkultur entspricht. Das Rechenverfahren selbst ist eindeutig festgelegt, jedoch die Eingangsdaten, die Messwerte, sind mit allerlei Zufälligkeiten behaftet. Zum Beispiel: Hätten wir nur den DNA-Gehalt bei fünf Zellen bestimmt und dabei die ersten 1.2. STATISTISCHE PROBLEMSTELLUNGEN 1-7 fünf aus Beispiel 1.2 herausgegriffen, so hätten wir als Mittel (2.56 + . . . + 2.57)/5 = 2.57 erhalten; hätten wir zufällig die letzten fünf herausgegriffen, so wäre das Ergebnis 2.5. Die bessere Lösung des Schätzproblems sieht so aus, da man einen Bereich abgrenzt, in dem, nach den Messergebnissen zu urteilen, der gesuchte Parameter vermutlich liegt. Dieser abgegrenzte Bereich heißt Schätzbereich oder Konfidenzbereich. Wieder unterscheidet man Schätzbereich zweiseitige Problemstellungen, wenn der Schätzbereich nach beiden Sei- Konfidenzbereich ten hin abgegrenzt werden soll Abbildung 1.9: Zweiseitiges Konfidenz-Intervall und einseitige Problemstellungen, wenn nur eine Abschätzung zu einer Seite, nach oben oder nach unten hin, gefragt ist. Abbildung 1.10: Einseitiges Konfidenz-Intervall Ein Verfahren zur Bestimmung des Schätzbereichs, ein Bereichsschätzer, kann zu einer Fehlschätzung führen, wenn etwa die im Ver- Bereichsschätzer such gemessenen Werte zufällig besonders extrem sind. Mit einer gewissen Wahrscheinlichkeit liegt dann der unbekannte wahre Wert nicht im Schätzbereich; diese Wahrscheinlichkeit heißt wieder Irrtumswahrscheinlichkeit. Unter der Sicherheitswahrscheinlichkeit (Konfidenzniveau, IrrtumswahrVertrauensniveau) eines Bereichsschätzers versteht man umgekehrt scheinlichkeit die Wahrscheinlichkeit, dass der abgegrenzte Bereichs den wahren Pa- Sicherheitswahrscheinlichkeit rameter einschließt. Konfidenzniveau In diesem Detail unterscheidet sich die Prognose von der (rückwärts- Vertrauensniveau gewandten) Parameterschätzung. Bei der Prognose geht es nicht um abstrakte Parameter, sondern um zukünftige Beobachtungen. Das Ziel ist es nun, weitere Beobachtungen mit guter Sicherheit zu prognostizieren. Die für diesen Zweck geeigneten Bereichsschätzer heiße Toleranzbereiche. Toleranzbereiche 1-8 1. EINFüHRUNG 1.2.3. Prognoseprobleme, Modellrechungen, Versuchsplanung. Für Toleranzbereiche wird von einer Reihe von Beobachtungen auf weitere geschlossen (bzw. diese prognostiziert). Beim einfachen Prognoseproblem schließlich geht man von bekannten Parametern aus; die Modellvorstellungen sind nicht mehr hypothetisch, sondern gelten als gesichert, wie etwa die Mendel’schen Regeln in Beispiel 1.3. Diese Modellvorstellungen erlauben es uns, das Ergebnis eines Versuches vorauszusagen. Etwa (Beispiel 1.3) 14 der Nachkommen einer Aa × Aa-Kreuzung hat den Genotyp aa. Dies ist eine idealisierte Prognose; in der Praxis haben wir eine Schwankung um diesen Wert Prognosebereich zu erwarten. Deshalb gibt man einen Prognosebereich an, in dem Beobachtungswerte zu erwarten sind. Berücksichtigt man alle Eventualitäten, so muß man extrem große Prognosebereiche zulassen. So können zufällig auch bei einer Aa × Aa-Kreuzung alle Nachkommen zum Genotyp aa gehören oder alle zu AA; ein sicherer Prognosebereich für die Anzahl der aa-Nachkomen muß von O bis n (= alle) reichen. Will man den Prognosebereich enger fassen, so muß man in Kauf nehmen, dass mit einer gewissen Wahrscheinlichkeit auch extreme Ereignisse auftreten können, die nicht im Prognosebereich erfaßt sind. Die TrefferTrefferwahrscheinlichkeit gibt an, mit welcher Wahrscheinlichkeit wahrscheinein Messwert innerhalb des abgegrenzten Prognosebereichs zu erwarlichkeit ten ist. Auch hier spricht man von einseitigen Problemen, wenn eine einseitig!Problemstellung Abgrenzung nur zu einer Seite hin gefragt ist, sonst von zweiseitigen Problemen. Beispiel 1.3 ist ein einseitiges Problem: Nur nach einer zweiseitig!Problemstellung unteren Grenze ist für die Anzahl der aa-Nachkommen aus n Kreuzungen gefragt; mindestens k sollen es sein. Stichprobenplanung Versuchsplanung Bei der Versuchsplanung nun ist die Fragerichtung nun genau umgekehrt: die Frage (oder die Entscheidungsmöglichkeit) bezieht sich auf die Ausgangspopulation. Deren Größe können wir wählen. Dies ist eine Aufgabe der Stichprobenplanung. In komplexeren Situationen kommt die Frage hinzu, wie die vorhandenen Beobachtungseinheiten in unterschiedlichen Versuchszweigen eingesetzt werden sollen. Dies zu beantworten ist Aufgabe der Versuchsplanung. Stichproben- und Versuchsplanungsfragen treten häufig auch Statistik-intern auf. Zum Testen von Problemen (Abschnitt 1.2.1) z.B. können allgemeine Verfahren angegeben werden. Um eine geforderte Irrtumswahrscheinlichkeit nicht zu überschreiten und gleichzeitig Unterschiede verlässlich zu erkennen ist in der Regel ein Mindestumfang von Beobachtungen nötig. Das Testproblem führt hier wieder auf Fragen der Stichproben- und Versuchsplanung. 1.3. AUSBLICK 1-9 1.3. Ausblick Test Entscheidungsverfahren Versuchsplanung, Stichprobenplanung Prognose Schätzung Statistische Problemklassen Für jede dieser Problemklassen gibt es eine Reihe von mehr oder weniger naheliegenden Lösungsansätzen. Wir werden versuchen, ein paar Beispiele zu geben und die dahinter stehenden gemeinsamen Ideen herauszuarbeiten. Wenn es immer nur einen Lösungsansatz gäbe, wäre die Aufgabe mit der ersten treffenden Idee gelöst. Aber schon bei den einfachen Beispielen haben wir gesehen, dass es konkurrierende Ansätze geben kann. Es wird eine weitere Aufgabe sein, Kriterien zum rationalen Vergleich konkurrierender Ansätze zu finden und die Anwendung dieser Kriterien zur Auswahl zwischen diesen Ansätzen zu illustrieren. Dies führt in Bereiche der mathematischen Statistik. Das Herausarbeiten der treffenden Problemklasse bestimmt die weitere Arbeit. Die offensichtlich erscheinende erste Einordnung ist nur ein Ausgangspunkt. Wie in den Beispielen führt eine genauere Betrachtung jedoch oft zu anderem Urteil. Die Problemklassen sind miteinander verwandt, und eine Lösung für eine Klasse führt oft zu einem Ansatz für verwandte Klassen. Dieser “plug in”-Ansatz ist jedoch nur ein Kandidat und muss sich in Konkurrenz mit anderen Vorschlägen messen. Oft kann zum Beispiel eine Parameter-Schätzung zur Prognose benutzt werden, indem man so tut, als sei der geschätzte Wert der wahre. Aber Schätzung und Prognose können zu ganz unterschiedlichen Optimalitätskriterien führen, und die treffende Wahl der Problemklasse kann entscheidend für die Resultate sein. Dies führt uns zu Fragen, die in den Bereich der statistischen Modellierung gehören. Immer wieder werden wir dabei Maßzahlen für Wahrscheinlichkeiten benutzen müssen. Dazu müssen wir eine tragbaren Ansatz für diese Wahrscheinlichkeitsrechnung entwickeln. Dies wird zunächst unser vordringliches Thema sein. KAPITEL 2 Modell: Auswahl aus einer endlichen Grundgesamtheit 2.1. Einführung Wahrscheinlichkeiten sind keine geheimnisvollen Größen, sondern konkret definierte Maßzahlen. An einem einfachen Beispiel wollen wir einmal im Detail nachvollziehen, wie Wahrscheinlichkeiten konstruiert werden können. Beispiel 2.1. In einem abgegrenzten Biotop leben N0 = 6 Paare der Art 0 und N1 = 8 Paare der Art 1, die pro Jahr je höchstens ein Nachkommen haben. In einem Jahr bekommen 5 der 6 Paare von Art 0 und 4 der 8 Paare von Art 1 je ein Nachkommen. Ist es sinnvoll, aufgrund dieser Beobachtung zu sagen, dass Art 1 weniger fruchtbar ist als Art 0? 2.2. Maßzahlen für Wahrscheinlichkeit Angenommen, die beiden Arten in Beispiel 2.1 sind gleich fruchtbar. Dann kann es immer noch zufällig in einem speziellen Beobachtungszeitraum eintreffen, dass die eine Art sich stärker vermehrt als die andere. Bezeichnet n0 die Anzahl der Nachkommen von Art 0, n1 die von Art 1, so würde man bei gleicher Fruchtbarkeit erwarten, dass die Anzahl der Nachkommen proportional zur Stärke der Elterngeneration ist. Also n0 = c·N0 , n1 = c·N1 , wobei c die gemeinsame “Fruchtbarkeit” ist. Etwa bei einer Fruchtbarkeitsrate von c = 12 : n0 = 12 ·6 = 3, n1 = 12 ·8 = 4. Eine Schwankung um eine Anzahl von eins ist nicht unwahrscheinlich, also n0 = 2 oder 4, n1 = 3 oder 5. Viel unwahrscheinlicher wäre z.B. n0 = 0, n1 = 8, oder n0 = 6, n1 = 0. Wie ist es mit dem beobachteten Ergebnis n0 = 5, n1 = 4? Ist diese Beobachtung schon Grund genug, eine unterschiedliche Fruchtbarkeit anzunehmen? Um dies zu entscheiden, gehen wir folgendermaßen vor: Wir führen eine Modellrechnung durch, bei der wir annehmen, dass kein Unterschied der Fruchtbarkeit vorliegt. Unter dieser Modellannahme kann 2-1 2-2 2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT ein bestimmtes Beobachtungsergebnis mehr oder weniger wahrscheinlich eintreten, und wir definieren eine Maßzahl, die diese Wahrscheinlichkeit ausdrücken soll. Diese Definition wird den großen Teil dieses Kapitels ausfüllen. Wie können wir diese Maßzahl später benutzen? In Beispiel 2.1 zeigte die Beobachtung das Ergebnis n0 = 5 bzw. n1 = 4 Nachkommen. Wird die zu definierende Maßzahl für dieses Ergebnis sehr klein, so bedeutet das: bei Annahme gleicher Fruchtbarkeit beider Arten ist das beobachtete Ergebnis sehr unwahrscheinlich. Wir werden die Beobachtung dann als Grund genug ansehen, eine unterschiedliche Fruchtbarkeit anzunehmen. Ist die Maßzahl dagegen groß, so müssen wir annehmen, dass das beobachtete Ergebnis durchaus zufällig zustande gekommen sein kann und mit der Gültigkeit der Annahme noch vereinbar ist. Um eine geeignete Maßzahl dafür zu definieren, machen wir ein Gedankenexperiment (Abb. 2.1). Wir lassen die Nachkommen (samt Elternpaar) der Reihe nach an uns vorbeiziehen und notieren uns - die laufende Nummer i = 1, . . . , n - die Art des Nachkommens. Abgekürzt mit Yi , Yi = 0 für Art 0; Yi = 1 für Art 1. Abbildung 2.1: Zählprozess: Anfang Wenn Sie wollen, können Sie sich anstelle der zeitlichen Reihenfolge auch eine Sequenz vorstellen. Anstelle von zwei Arten können Sie sich auch mehrere Arten vorstellen (wenn Sie wollen, z.B. vier Arten, die Sie A, C, G, U nennen können, um nur ein Beispiel zu geben). Die folgenden Überlegungen gelten entsprechend. Für uns soll hier dies einfache Beispiel reichen. 2.2.1. Elementare Ansätze: erster Schritt. Erstes Problem: Der erste anlysierte Nachkomme stammt mit einer gewissen Wahrscheinlichkeit aus Art 1. Welche Größe kann als Maßzahl für diese 2.2. WAHRSCHEINLICHKEIT 2-3 Wahrscheinlichkeit genommen werden? Falls beide Arten gleich fruchtbar sind, kommen etwa folgende Ansätze in Frage (Abb. 2.2): Abbildung 2.2: Ansätze für einen Schritt Dabei ist N = N0 + N1 . Eine Reihe von Ansätzen scheiden aus, weil sie zu inkonsistenten oder nur schwer interpretierbaren Maßzahlen führen. Nur zwei bleiben übrig: Als Ansatz für die Wahrscheinlichkeit, 1 dass der erste untersuchte Nachkomme aus Art 1 stammt, sind N N0 und NN1 gleichermaßen geeignet. In der Tat sind sie austauschbar: Die eine Maßzahl läßt sich ohne weitere Informationen aus der anderen berechnen und umgekehrt N1 N1 = N N1 , N0 1− N N 1 N1 N0 = . 1 N 1+ N N0 Weil es heute so üblich ist, nehmen wir NN1 als Ansatz. Wir erhalten also eine Maßzahl zwischen 0 und 1; speziell: 0 für den Fall, da wir sicher keine Nachkommen der Art 1 erhalten; 1 für den Fall, dass mit Sicherheit die Nachkommen zur Art 1 gehören; 21 falls N0 = N1 , d.h. beide Arten gleich stark vertreten sind und somit die gleiche Chance haben, gezogen zu werden. (In der englischen Wett-Tradition ist der andere Ansatz durchaus üblich: “die Wett-Chancen stehen N1 : N0 ”). Für das Weitere brauchen wir Abkürzungen. Die Maßzahl, die wir definieren wollen (genauer: die “Vorschrift” zur Berechnung der Maßzahl wird im folgenden mit P (“probabilité”, “probability”, . . . ) bezeichnet; wenn nötig fügen wir zusätzliche Angaben in Klammern hinzu 2-4 2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT in der Form: P(hEreignis, für das die Wahrscheinlichkeit bestimmt werden solli; hzusätzliche Informationen, Voraussetzungen, Annahmeni). 1 Mit dieser Abkürzung schreiben wir also (2.1) P (Y1 = 1; N0 , N1 ) = N1 N1 = N N0 + N1 und entsprechend für die Wahrscheinlichkeit, dass der erste Nachkomme zu Art 0 gehört N0 N0 P (Y1 = 0; N0 , N1 ) = . = N N0 + N1 2.3. Laplace-Ansatz 2.3.0.1. Bemerkung zur Geschichte: Für das Ereignis ein “ausgezeichnetes Element”, d.h. einen Nachkommen der Art 1 (Y1 = 1) zu erhalten, ist jede “Ziehung” eines der Art 1 günstig. Den Ansatz aus (1.2) kann man auch so lesen: P (Y1 = 1; N0 , N1 ) = Anzahl der für {Y1 = 1} günstigen Ereignisse Anzahl der möglichen Ereignisse N1 = . N0 + N1 = (2.2) Entsprechend für Y1 = 0. Dieser Ansatz eine Maßzahl für die Wahrscheinlichkeit zu begründen wurde von Laplace um 1795 entwickelt. Er ist dann sinnvoll, • wenn für ein Zufallsexperiment (hier: das Herausgreifen eines Nachkommens) eine fest definierte Anzahl von Ausgängen möglich ist (hier: N0 + N1 mögliche Ausgänge, entsprechend den N0 + N1 Elternpaaren, die in Frage kommen); • wenn davon eine fest definierte Anzahl vom zum betrachteten Ereignis (hier: der Nachkomme gehört zur Art 1) führt, und • wenn in Bezug auf die Auswahl des tatsächlich auftretenden Ereingnisses die Möglichkeiten nicht unterschieden sind, d.h. alle die gleiche Chance haben. Die letzte Bedingung ist klar im Beispiel (2.1): Wenn die Nachkommen in der Reihenfolge ihrer Geburt registriert werden, kann es zu einem Fehler kommen, wenn Art 0 und Art 1 zu unterschiedlicher Jahreszeit ihre Jungen bekommen. Wird nicht darauf geachtet, erst auszuwerten, nachdem beide Arten ihre Jungen bekommen haben, liegt also der Untersuchungszeitpunkt etwa vor Ende der Tragzeit von Art 1, so wäre (2.2) kein adäquater Ansatz. 1Eine andere übliche Konvention benutzt Indizes, also die Schreibweise Phzus.Inf ormationen,V oraussetzungen,Annahmeni (hEreignis, für das die Wahr- scheinlichkeit bestimmt werden soll i) 2.3. LAPLACE-ANSATZ 2-5 Laplace-Ansatz Anzahl der für E günstigen Ereignisse P (E) = Anzahl der möglichen Ereignisse Nur, angemessen, falls alle Fälle die gleiche Chance haben! Übung 2.2. Übung zum Laplace-Ansatz: Erbgang Aa × Aa (dominantrezessive Vererbung) Wenn Genotyp dann Phänotyp AA A Aa = aA A aa a Berechne die Laplace-Wahrscheinlichkeiten für: Phänotyp A, a Genotyp AA, Aa bei Aa × Aa-Kreuzung! Bsp. E := {Genotyp = aa} mögliche Genotypen Mutter Vater A a A a A A a a Anz. der mögl. Fälle 4 günstige Genotypen Mutter Vater a a Anz. d. günst. Fälle: 1 P (E) = 1/4 Für die anderen Genotypen/Phänotypen erhält man die Lösung: E = {Genotyp G} P (E) aa 1/4 AA 1/4 Aa 2/4 2-6 2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT Phänotyp P A P (P h = A) = P (G = AA oder G = Aa) = a P (P h = a) = P (G = aa) = 1/4 1 4 + 1 2 = 3 4 Übung 2.3. Übung zum Laplace-Ansatz: Erbgang AB × AB; intermediärer Erbgang Wenn dann Genotyp Phänotyp AA A AB = BA AB BB B Berechne die Laplace-Wahrscheinlichkeiten für alle Typen. Lösung: Genotyp Phänotyp P AA A 1/4 AB AB 2/4 BB B 1/4 Übung 2.4. Übung zum Laplace-Ansatz: Beispiel genetischer Code bei RNA als Informationsträger (z.B. Tabakmosaikvirus). Codebuchstaben: U Uracil C Cytosin A Adenin G Guanin Je eine Dreiergruppe (Triplett) von Nukleodidbasen codiert eine Aminosäure; die Nukleotidbasen sind auf der Matritzen-RNA in einer Reihe angeordnet; die Codierung geschieht wie in folgender Tabelle (siehe Abb. 2.3): [Czihak e.a.(ed.): Biologie, Springer 1976] 2.3. LAPLACE-ANSATZ 2-7 Abbildung 2.3: Der genetische Code, die Entsprechung von Aminosäuren und Basentripletts. Der erste Buchstabe des Codons steht in der linken Spalte, der zweite in der obersten Zeile, der dritte in der Spalte ganz rechts. Phe = Phenylalanin, Leu = Leucin, Ser = Serin, Pro = Prolin, Arg = Arginin, Asp = Asparagin, Trp = Tryptophan. Berechne die Laplace-Wahrscheinlichkeit dafür, dass in freier Kombination der Nukleodidbasen die folgenden Aminosäuren codiert werden: Phenylalanin, Lencin, Arginin, Asparagin, Tryptophan. Lösung: Anz. der mögl. Fälle = Anz. der Codemöglichkeiten = 43 = 64 Anz. der günstigen Falle = Anz. der Codierungen für die Aminosäure Aminosäure Anz. der z. Vergleich: rel. Codierungen Häufigkeit der Aminosäure bei E. Coli [Mol %] Leucin Arginin Phenylalanin Aparagin Tryptophan 6 6 43 = 6 2 2 1 2 43 = 3 32 3 32 1 32 1 32 1 64 ∧ = 9.375 % ∧ = 9.375 % ∧ = 3.125 % ∧ = 3.125 % ∧ = 1.563 % 8% 5% 3.5 % ≈10 % 1% 2-8 2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT (Laplace-Wahrscheinlichkeit für die freie Kombination und beobachtbare Häufigkeit im lebenden Organismus - und auch im Labor-Kombinationsexperiment fallen bisweilen auseinander. Die Voraussetzungen der Gleichwahrscheinlichkeit Vertauschbarkeit in Bezug auf die Kombinierbarkeit) ist eben nicht erfüllt; der Laplace-Ansatz ist hier nicht adäquat. 2.4. Elementare Ansätze: Schritt i Zurück zum Beispiel 1.1 Zweites Teilproblem: haben wir schon i Nachkommen untersucht und dabei insgesamt Xi viele der Art 1 gefunden, so stammt der nachste (i + 1). Nachkomme wieder mit einer gewissen Wahrscheinlichkeit aus der Art 1. Welche Größe sollen wir als Maßzahl für die Wahrscheinlichkeit nehmen? LaplaceAnsatz—see Ansatz Nehmen wir an, der erste untersuchte Nachkomme gehörte zur Art 1. Nach der Untersuchung haben wir folgende Situation: (Abb 2.4). Im Prinzip haben wir zur Bestimmung von Y2 die gleiche Situation wie bei der Bestimmung von Y1 - nur mit einer anderen Zusammensetzung der Population. Deshalb setzen wir P (Y2 = 1; N0 , N1 , Y1 = 1) = P (Y1 = 1; N0 ; N10 = N1 − 1) N1 − 1 = N0 + (N1 − 1) N1 − 1 = . N −1 Allgemeiner: Haben wir schon i Nachkommen untersucht und dabei insgesamt Xi viele der Art 1 gefunden, so ist die Situation wie in Abb. 2.5. Abbildung 2.4: Zählprozess: zweiter Schritt 2.4. SCHRITT I 2-9 Als Maßzahl für die Wahrscheinlichkeit, dass Yi+1 = 1, setzen wir (2.3) P (Yi+1 = 1; N0 , N1 , Xi ) = P (Y1 = 1; N0 − (i − Xi ), N1 , −Xi ) N1 − X1 = N0 − (i − Xi ) + (N1 − Xi ) N1 − Xi = N −i und entsprechend P (Yi+1 = 0; N0 , N1 , Xi ) = P (Y1 = 0; N0 − (i − Xi ), N1 − Xi ) N0 − (i − Xi ) = N0 − (i − Xi ) + (N1 − Xi ) N0 − (i − Xi ) = . N −i Mit dieser Formel konnen wir also für Beispiel 2.1 berechnen: Ist N0 = 6, N1 = 8 so ist P (Y1 = 1; N0 = 6, N1 = 8) = 8 = 0.571. 6+8 Beide Arten sind gleich fruchtbar, aber die Art 1 hat einen größeren Anteil an der Population. Deshalb bekommt die Wahrscheinlichkeit, einen Nachkommen der Art 1 zu sehen, eine Maßzahl, die größer ist als 12 . Gehörte der erste Nachkomme zur Art 1, so scheidet dessen Elternpaar als mögliche Eltern für den zweiten Nachkommen aus, und wir haben P (Y2 = 1; N0 = 6, N1 = 8, Y1 = 1) = P (Y2 = 1; N0 = 6, N1 = 8, X1 = 1) = P (Y1 = 1; N00 = 6, N100 = 7) 7 = = 0.538. 6+7 Analog: Der zweite Nachkomme gehört zu Art 0 mit Wahrscheinlichkeit 0.462 und so weiter. 2.4.1. Zusammenfassung von Folgeschritten. Beim i. Schritt können wir aus den Angaben über die ursprüngliche Population und aus unserem bereits vorliegenden Zählergebnis eine Maßzahl für die Wahrscheinlichkeit berechnen, dass der nächste zu untersuchende Nachkomme zur Art 0 (bzw. zur Art 1) gehört. Nur: das wollten wir nicht wissen. Wir wollten eine Maßzahl für die Wahrscheinlichkeit haben, ein bestimmtes Zählergebnis zu erhalten. Dazu wollen wir die bis hierhin konstruierten Maßzahlen kombinieren. Das ist das dritte Teilproblem: Wie sollen die Maßzahlen für die einzelnen Schritte zusammengefaßt werden? 2-10 2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT Stellen wir die Situation graphisch dar. Wir beginnen mit einem Zählerstand X0 = 0. Fur den ersten Nachkommen gibt es zwei Möglichkeiten: Art 0 oder Art 1. (Abb. 2.6) Abbildung 2.5: Zählprozess: i+1. Schritt Für den Zweiten gibt es wieder zwei Möglichkeiten. Die Wahrscheinlichkeit, mit der der zweite Nachkomme zur Art 0 bzw. Art 1 gehört, hängt von der Zusammensetzung der noch verbleibenden Population ab - und damit vom Ergebnis des ersten Schrittes. (Abb. ??) Abbildung 2.6: Erster Schritt Um eine Maßzahl für die Wahrscheinlichkeit einer bestimmten Folge von Schritten zu bekommen, multiplizieren wir die entsprechenden Maßzahlen für die einzelnen Schritte:2 (Abb. 2.8) 2Abkürzung: (Y2 = 1)”. “∧” für “und”. Z.B. “(Y1 = 1) ∧ (Y2 = 1)” für “(Y1 = 1) und 2.4. SCHRITT I 2-11 Abbildung 2.8: Folge von Schritten 2.4.2. Zusammenfassung von Pfade nach Endpunkten. Fur einen bestimmten Zählerstand addieren wir die Maßzahlen für alle Wege, die zu diesem Zählerstand führen. (Abb. 2.9) Abbildung 2.9: Pfade mit selbem Resultat Allgemein setzen wir für die Aufeinanderfolge in einem Pfad (2.4) P (Xi−1 = k ∧ Yi = 1) = P (Xi−1 = k 0 ) · P (Yi = 1; Xi−1 = k 0 ) P (Xi−1 = k ∧ Yi = 0) = P (Xi−1 = k 0 ) · P (Yi = 0; Xi−1 = k 0 ) 2-12 2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT und für die Zusammenfassung von Pfade mit derselben Summe (2.5) P (Xi = k) = P (Xi−1 = k − 1) · P (Yi = 1; Xi−1 = k − 1) +P (Xi−1 = k) · P (Yi = 0; Xi−1 = k). Wendet man diese Regeln formal an, so tauchen bisweilen Ausdrücke auf, die keinen Sinn machen, wie P (X0 = −1). Für diese Ereignisse, die sicher nicht auftreten, also unmöglich sind, setzen wir die Maßzahl 0 P (X0 = −1) = 0; P (Xi = k) = 0 für k > N1 , . . . . Für Ereignisse, die sicher eintreten, setzen wir die Maßzahl 1, also z.B. P (X0 = 0) = 1. Beispiel 2.5. Rechenbeispiel N0 = 6, N1 = 8, N = N0 + N1 = 14 2.5. ANALYTISCHE DARSTELLUNG 2-13 Was sagen diese Maßzahlen für das Beispiel (2.1) aus? Das beobachtete Ereignis, nur 4 der 9 Nachkommen bei der zunächst häufigeren Art 1 zu sehen, bekommt die Maßzahl P (X9 = 4) ≈ 0.210. Also? Wir haben eine Modellrechnung unter der Annahme gleicher Fruchtbarkeit beider Arten gemacht, Das Ergebnis, die Maßzahl 0.210, kann nur durch einen Vergleich mit unserem ersten Ansatz interpretiert werden: 0.210 ≈ 0.20, entspricht also ungefähr der Maßzahl P (Y1 = 1; N0 = 4, N1 = 1) = 0.20. Von der Modellrechnung her hat folgende Situation eine vergleichbare Wahrscheinlichkeit: Unter 5 Paaren befindet sich nur eines der Art 1. Ein Paar wird herausgegriffen, und ”zufällig” ist es das der Art 1. In Beispiel (2.1) kann sogar das noch extremere Ergebnis X9 = 3 auftreten. dass Art 1 nur 4 oder sogar nur 3 Nachkommen hat, hätte die ”Wahrscheinlichkeit” 0.028 + 0.210 = 0.238, also etwa vergleichbar dem Ereignis P (Y1 = 1; N0 = 3, N1 = 1) = 0.25 bei einer Auswahl eines von 4 Paaren zufällig das einzige der Art 1 darunter zu treffen. Die Beobachtung in Beispiel (2.1) ist nach diesem Vergleich nicht so unwahrscheinlich, dass man sie als Widerlegung der Annahme gleicher Fruchtbarkeit betrachten könnte. Wie sind wir vorgegangen? Wir haben zunächst für besonders einfach überschaubare Situationen die Maßzahlen festgesetzt (2.2.1). Dann haben wir Rechenregeln aufgestellt, mit denen wir daraus auch für weniger überschaubare Situationen unsere Maßzahlen berechnen konnten (2.5 - 2.6). Um die Ergebnisse zu interpretieren, mußten wir als Vergleich wieder unsere ersten Ansätze hinzuziehen. Was wir hier an einem Beispiel diskutiert haben, enthält eine allgemeine Methode, mit der Maßzahlen für Wahrscheinlichkeiten definiert werden. Die Rechenregeln dazu werden im nächsten Kapitel genauer untersucht. 2.5. Analytische Darstellung Die Wahrscheinlichkeitsmaßzahl in (2.2) wurde algorithmisch über ein schrittweises Rechenverfahren definiert. Das Ergebnis dieses Rechenverfahrens kann auch in eine Formel zusammengefaßt werden. Übung 2.6. Überprüfe, dass P (X4 = 4; N0 = 6, N1 = 8) = 8·7·6·5 . 14 · 13 · 12 · 1 Berechne P (X5 = 5; N0 = 6, N1 = 8) P (X5 = 0; N0 = 6, N1 = 8) P (X6 = 6; N0 = 6, N1 = 8). 2-14 2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT Gibt es eine ähnliche einfache Produktdarstellung? 2.5.1. Binomialkoeffizient. Wir führen einige Abkürzungen ein: n! := n · (n − 1) · . . . · 1 (lies: n Fakultät ) Für n = 0 setze 0! := 1 = 1!, n n · (n − 1) · . . . · (n − k + 1) = (lies : n über k). k k · (k − 1) · . . . 1 Setze 00 := 1; setze n0 = 1 für alle n und nk = 0, falls k < 0 oder k > n. 2.5.2. Geschlossene Darstellung. Für N = N0 + N1 , n = n0 + n1 mit N0 ≥ n0 ≥ 0, N1 ≥ n1 ≥ 0 gilt: N0 N 1 (2.6) P (Xn = n1 ; N0 , N1 ) = n0 n N n 1 und P (Xn = n1 ; N0 , N1 ) = 0, falls n0 > N0 oder n1 > N1 . Beweis. mit vollständiger Induktion über n: Für n = 0 ist n0 = n1 = 0. Formal erhält man N0 N 1 1·1 0 = 1. P (X0 = 0; N0 , N1 ) = 0 = N 1 0 Ist n = 1, so ist n1 = 0 oder n1 = 1, und die Formel ergibt N 0 N1 N0 1 P (X0 = 0; N0 , N1 ) = 0 = N N 1 N 0 N1 N1 0 P (X0 = 1; N0 , N1 ) = 0 = N N 1 in Übereinstimmung mit (2.1). Wir machen nun den Induktionsschritt: Zu zeigen ist: Liefert die Formel (2.6) für einen Wert (n − 1) dieselben Ergebnisse wie (2.5), so auch für n. Dies müssen wir für jeden Wert n1 , 0 ≤ n1 ≤ n nachweisen. Sei also n1 ein Wert zwischen 0 und n und n0 = n − n1 . Nach (2.4.2) ist P (Xn = n1 ) = P (Xn−1 = n1 − 1) · P (Yn = 1; Xn−1 = n − 1) +P (Xn−1 = n1 ) · P (Yn = 0; Xn−1 = n), wobei wir, wie in (2.4.2), mit festen Parametern N0 , N1 rechnen. Die rechte Seite dieser Gleichung kann nach Induktionsvoraussetzung mit der Formel 2.5. ANALYTISCHE DARSTELLUNG 2-15 (2.6) berechnet werden. Also ist N0 N1 (n−1)−(n1 −1) n1 −1 · N n−1 N1 N0 N0 (n−1)−n1 n1 + · N n−1 P (Xn = n1 ) = = 1 N n−1 · N1 − (n1 − 1) + N − (n − 1) − ((n − 1) − n1 ) N − (n − 1) N N 0 1 N1 − (n1 − 1) + n1 − 1 n0 · (N − (n − 1)) N1 N0 N0 − (n0 − 1) + n1 n0 − 1 (n − 1)!(N − (n − 1))!N0 !N1 ! = N !(N − (n − 1)) (N1 − (n1 − 1)) · n0 !(N0 − n0 )!(n1 − 1)! N1 − (n1 − 1) ! (N0 − (n0 − 1)) + (n0 − 1)! N0 − (n0 − 1) !n1 !(N1 − n1 )! (n − 1)!(N − n)!N0 !N1 ! 1 (n1 + n0 ) = · · n! (N1 − n1 )!(N0 − n0 )! n0 !n1 ! N0 N 1 = n0 n N n 1 Nach dem Prinzip der vollständigen Induktion gilt die Formel damit für alle n. 2.5.3. Zahlenbeispiel: Für N0 = 6, N1 = 8 haben wir die Maßzahlen in (2.2) schrittweise berechnet. Zum Vergleich hier die Berechnung nach Formel (2.6): 2-16 2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT Die Berechnung nach Formel (2.6) erweist sich als wesentlich einfacher als die schrittweise Berechnung. Sie setzt jedoch voraus, dass wir wissen, dass diese Formel anwendbar ist. Um das zu überprüfen, muß nicht jedesmal die gesamte Herleitung (2.2.1) - (2.4.2) durchgegangen werden, wenn es uns gelingt, die in (2.2) gemachten Annahmen kurz zu kennzeichnen. Die theoretische Vorbereitung dazu wird in Kapitel 3 gemacht; die Kennzeichnung folgt in Kapitel 4. Ein analoges Vorgehen ist auch bei anderen Zählprozessen möglich. Beispiele dazu werden in Kapitel 6 und Kapitel ?? gegeben. 2.6. Rückblick Wir haben (hier über den Laplace-Ansatz) ad-hoc-Definitionen für die Wahrscheinlichkeiten einzelner elementarer Ereignisse (Übergänge) getroffen. Die so gewonnenen Maßzahlen für die elementaren Ereignisse haben wir zu Wahrscheinlichkeiten für einzelne Pfade zusammengefaßt, und schließlich aus den Pfadwahrscheinlichkeiten Maßzahlen für die Wahrscheinlichkeiten von einzelnen “Zuständen” abgeleitet. Diese Konstruktion ist verallgemeinerbar: wann immer wir ein System mit endlich vielen Zuständen haben, und wenn wir eine Reihenfolge haben, in der wir die Zustandsveränderungen analysieren, können wir wie in diesem Kapitel vorgehen, um Wahrscheinlichkeiten explizit zu berechnen. Für 2.6. RÜCKBLICK 2-17 Systeme mit bekannter Struktur können analytische Resultate vorliegen, die uns diese explizite Rechnung ersparen. KAPITEL 3 Das Grundmodell der Wahrscheinlichkeitsrechnung In diesem Abschnitt wird ein allgemeiner Begriff eines Wahrscheinlichkeitsmaßes eingeführt. Im folgenden reservieren wir das Wort “Wahrscheinlichkeit” für Maßzahlen, die diesem allgemeinen Begriff entsprechen. Diese “Wahrscheinlichkeiten”generalisieren die im letzten Kapitel getroffenen adhoc-Konstruktionen. Aus der zu treffenden Definition von Wahrscheinlichkeitsmaßes folgt eine Reihe von Eigenschaften, die für alle Maßzahlen garantiert sind, die diesem Begriff entsprechen. Viele ad-hoc-Überlegungen können damit in der Folge durch allgemeinere Resultate ersetzt werden. 3.1. Rückblick Die Maßzahl P für die Wahrscheinlichkeit eines Ereignisses sollte nicht davon abhängen, wie das Ereignis beschrieben ist. Mit den Abkürzungen von (2.2) ist “Y1 = 1”gleichbedeutend mit “X1 = 1” , und es ist “Y1 = 1∧Y2 = 1” gleichbedeutend mit “Y2 = 2”. Also sollte gelten: P (Y1 = 1) = P (X1 = 1), P (Y1 = 1 ∧ Y2 = 1) = P (X2 = 2). Dies ist eine Konsistenzforderung. Entsprechende Argumente werden häufig gebraucht. Sie werden einfacher durch folgende Hilfskonstruktion: Sei Ω := {0, 1}n = {(0, 0, . . . , 0, 0), (0, 0, . . . , 0, 1), . . . , (1, 1, . . . , 1)}, also die Menge aller möglichen Codierungsfolgen für unsere Beobachtungsergebnisse. Jedem möglichen Ergebnis entspricht über die in (2.2) gewählte Codierung genau ein Element ω aus Ω, jedem Ereignis entspricht eine Teilmenge aus Ω. Zum Beispiel dem Ereignis {Y1 = 1} 3-1 Ereignis 3-2 3. DAS GRUNDMODELL DER WAHRSCHEINLICHKEITSRECHNUNG entspricht {ω ∈ Ω : 1. Stelle von ω ist1} = = {(1, 0, . . . , 0, 0), . . . , (1, 0, . . . , 0, 1), . . . , (1, 1, . . . , 1, 1)} i = ω. ∈ Ω : ω = . . . , 1, . . . . Dem Ereignis {Yi = 0} entspricht ω. ∈ Ω : ω = i . . . , 0, . . . . Gleichbedeutenden Beschreibungen von Ereignissen entsprechen dabei gleiche Teilmengen. Die Konsistenzforderung wird erfüllt, wenn jeder Teilmenge jeweils nur eine Maßzahl zugeordnet wird. Diese Maßzahl darf nur von der Teilmenge selbst abhängen - nicht davon, wie die Menge beschrieben wird. Zum Beispiel gilt für die Mengen die Gleichheit {(0, 0, 0, 0, . . . , 0, 0), (0, 0, 0, 0, . . . , 0, 1), . . . , (0, 0, 1, 1, . . . , 1, 1)} = {Y1 = 0 ∧ Y2 = 0} = {X2 = 0}, also sollte für die Wahrscheinlichkeits-Maßzahl gelten P (ω ∈ {(0, 0, 0, 0, . . . , 0, 0), (0, 0, 0, 0, . . . , 0, 1), (0, 0, 1, 1, . . . , 1, 1)}) = P (Y1 = 0 ∧ Y2 = 0) = P (X2 = 0). Ergebnismenge Ereignismenge Ω wird Ergebnismenge genannt. Die Menge derjenigen Ereignisse, für die wir eine Wahrscheinlichkeitsmaßzahl definieren, wird mit A bezeichnet und heißt Ereignismenge. Im Beispiel (??) also A = {{Yi = 0}, {Yi = 1}, {Yi+1 = 1 . . . , Xi = k}, . . . : i, k = 1, . . . , n} . Die einzelnen Ereignisse, wie {Yi = 0}, werden auch mit Großbuchstaben A, A0 , A0 , B, . . . ∈ A bezeichnet. Wir notieren noch einige Eigenschaften der in (2.2) definierten Maßzahl, die in die allgemeine Definition mit aufgenommen werden sollen: (0) (i) (ii) (iii) (iv) 0 ≤ P (Xi = k) ≤ 1. P (Xi = k) = 0 , falls Xi = k sicher nicht eintritt. P (Xi = k) = P (XP i−1 = k ∧ Yi = 0) + P (Xi−1 = k − 1 ∧ Yi = 1). P (Xi = k) = 1 − k0 6=k P (Xi = k 0 ). P (Xi−1 = k ∧ Yi = 1) = P (Xi−1 = k) · P (Yi = 1; Xi−1 = k). 3.2. AXIOME 3-3 3.2. Axiome Wir reservieren nun den Namen “Wahrscheinlichkeitsmaß” für Maßzahlenvorschriften mit diesen Eigenschaften, indem wir definieren: Definition 3.1. Eine Abbildung P : A → [0, 1] heißt Wahrscheinlichkeitsmaß, wenn sie folgende Eigenschaften hat: i) P (∅) = 0.P ii) P (A0 ) = k P (A0 ∩ Ak ), wenn A0 , Ak ∈ A,S Ak ∩ Ak0 = ∅ für k 6= k 0 , k, k 0 > 0 und A0 ⊂ k Ak , iii) P (A) = 1 − P (Ac ) für A ∈ A . 1 Wahrscheinlichkeitsmaß Zu ii) Abbildung 3.1: Zu Def. 3.1 ii): P (A0 ) = P (A0 ∩ A1 ) + P (A0 ∩ A2 ). Definition 3.2. Ist P : A → [0, 1] Wahrscheinlichkeitsmaß und A0 ∈ A , so heißt P ( · | A0 ) : A → [0, 1] bedingte Wahrscheinlichkeit unter der Bedingung A0 , wenn iv) P (A ∩ A0 ) = P (A0 ) · P (A | A0 ) 1Ac = {ω ∈ Ω :∈ / A} für alleA ∈ A . bedingte Wahrscheinlichkeit—see Wahrscheinlichkeit 3-4 3. DAS GRUNDMODELL DER WAHRSCHEINLICHKEITSRECHNUNG Bemerkung 3.3. Ist P (A0 ) 6= 0 , so ist P (A | A0 ) = P (A ∩ A0 ) . P (A0 ) Die Hilfskonstruktionen (Ω, A ) aus (??) benutzen wir auch hier, um Ausdrücke wie (A ∩ Ak0 ), Ac , . . . genauer zu fassen. Wir definieren formal: Definition 3.4. Ein System A von Teilmengen einer Ergebnismenge Ω heißt Ereignisalgebra2 , wenn i) ∅ ∈ A , ii) mit A, A0 ∈ A ist auch A ∩ A0 ∈ A , iii) mit Ai ∈ A ist auch S iA ∈A, iv) mit A ∈ A ist auch Ac := Ω \ A ∈ A . Ereignis(Sigma)algebra Wahrscheinlichkeitsraum Ergebnismenge Dieses Mengensystem heißt Ereignis-(Sigma)algebra . Diese Definitionen faßt man zusammen zur Definition eines Wahrscheinlichkeitsraumes. Dazu gehören drei Bestandteile. Definition 3.5. Ein Wahrscheinlichkeitsraum ist gegeben durch i) eine Ergebnismenge Ω, ii) eine Ereignis-(Sigma-) Algebra A im Sinne von (3.4), die aus Teilmengen von Ω besteht, Wahrscheinlichkeitsmaß iii) eine Abbildung P : A → [0, 1], die ein Wahrscheinlichkeitsmaß im Sinne von (3.1) ist. Diese Definition - das Kolmogoroff’sche Axiomensystem der Wahrscheinlichkeitstheorie - ist die mathematische Basis, auf der eine weitere Untersuchung erfolgen kann. Dieses allgemeine Modell erweist sich in der Praxis oft als brauchbar. Eine Beweismethode oder ein Experiment, um die Existenz oder die genaue Größe von P (A) zu ermitteln, gibt es jedoch nicht. So sind bei jeder Anwendung spezielle Ansätze zu machen, die ein als Modell für die Erfahrungswelt geeignetes Wahrscheinlichkeitsmaß definieren. Bei der Definition legen wir zunächst “typische” Ereignisse fest, für die wir dann Wahrscheinlichkeiten (Wahrscheinlichkeitsmaßzahlen) angeben. In einem zweiten Schritt betrachten wir dann auch daraus zusammengesetzte Ereignisse (Def. 3.4 i - iv) und versuchen, auch für diese Ereignisse Maßzahlen so zu definieren, dass die Rechenregeln (Def. 3.1 i - iii) noch gelten. 2Genauer: Betrachtet man bei iii) nur endliche Indexmengen, d.h. i = 1, . . . , n, so heißt A Ereignisalgebra. Läßt man auch Folgen zu, d.h. i = 1, . . . , n, . . . , so heißt A Ereignis-Sigmaalgebra 3.2. AXIOME 3-5 3.2.1. Erste allgemeine Eigenschaften. Aus den Rechenregeln (3.1 i - iii) folgen die allgemeinen Eigenschaften von Wahrscheinlichkeitsmaßen: i) P (Ω) = 1, denn P (Ω) = P (∅c ) = = 1 − P (∅) nach (Def. 3.1 iii) = 1 − 0 = 1 nach (Def. 3.1 i) S P ii) P ( k Ak ) = k P (Ak ), falls (Ai ∩ Aj ) = ∅ für i 6= j . (Additionssatz). Folgt aus (2.1.2 ii). iii) P (A ∪ B) = P (A) + P (B) − P (A ∩ B), denn P (A ∪ B) = P ((A) ∪ (B \ A)) = P (A) + P (B \ A) nach (Def. 3.1 ii) = P (A) + (P (B) − P (A ∩ B)) nach (Def. 3.1 ii). Wir reservieren im folgenden den Ausdruck “Zufallsvariable” für Abbildungen, die Ereignisse im Sinne von (3.5) definieren: Definition 3.6. Ist X Abbildung mit Wertebereich X ⊂ R, so heißt X : Ω → X ⊂ R (reellwertige) Zufallsvariable, wenn {ω ∈ Ω : X(ω) ≤ x} ∈ A , {ω ∈ Ω : X(ω) ≥ x} ∈ A Zufallsvariable {ω ∈ Ω : X(ω) = x} ∈ A , für alle x ∈ X. Allgemeiner: ist X eine Menge und B eine Sigma-Algebra von Teilmengen von X, so heisst eine Abbildung X : Ω → X eine Zufallsvariable, wenn X −1 (B) ∈ A für alle B ∈ B. Andere Bezeichnungen für Zufallsvariable sind: Statistik, meßbare Abbildung, Observable, . . .. Definition 3.7. Ist X : Ω → X ⊂ R eine Zufallsvariable, so wird durch PX ({x0 ∈ X : x0 ≤ x}) := P ({ω ∈ Ω : X(ω) ≤ x}), PX ({x}) = P ({ω ∈ Ω : X(ω) = x}), ... ein Wahrscheinlichkeitsmaß auf dem Wertebereich definiert. Dieses Maß heißt Verteilung der Zufallsvariablen X. Verteilung Kurzbezeichnung: X ∼ PX für “X ist verteilt nach PX ”. Wahrscheinlichkeitsmaße bzw. Verteilungen sind als auf Mengensystemen definierte Funktionen nicht einfach zu handhaben. Für den Spezialfall, dass die zu Grunde liegende Menge Ω bzw. X streng geordnet ist und das Mengensystem A bzw. B mit dieser Ordnung verträglich ist, reicht es, sich auf “Intervalle” zu konzentrieren. In der Anwendung werden oft dafür spezielle Begriffe eingeführt. In dem hier benötigten Fall spricht man von ordinal-skalierte Variablen3. Für un- Skala!ordinal 3-6 3. DAS GRUNDMODELL DER WAHRSCHEINLICHKEITSRECHNUNG sere Zwecke reicht es, sich auf reellwertige Variable zu beschränken. Definition 3.8. Die Funktion x 7→ FX (x) := PX (x0 ∈ X : x0 ≤ x) = P (X ≤ x) Verteilungsfunktion heißt Verteilungsfunktion von X. 3.3. Beispiele 3.3.1. Ausgewogener Würfel. Die Ergebnismenge ist Ω = {1, 2, 3,4, 5, 6}. Es ist Ω = {{1} ∪ . . . ∪ {6}}. Nach (Def 3.1, ii) ist 1 = P (Ω) = P ({1}) + . . . + P ({6}). Beim fairen Würfel soll jeder der 6 Augenzahlen die gleiche Wahrscheinlichkeit zugeordnet werden: P ({1}) = . . . = P ({6}). P6 Also ist 1 = P (Ω) = i=1 P ({i}) = 6 · P ({1}) für allle i und damit P ({1}) = . . . = P ({6}) = 61 . Übung 3.9. Berechne die Wahrscheinlickeit dafür, dass bei einem Wurf a) die Augenzahl höchstens 3 ist, b) die Augenzahl gerade ist, c) die Augenzahl gerade und mindestens 3 ist. [ geometrische Wahrscheinlichkeit 3.3.2. Logische Wahrscheinlichkeit. In 3.3.1 haben wir nicht die Laplace-Argumentation wie in 2.3.0.1 benutzt. Wir haben vielmehr eine logische bzw. eine Symmetriebedingung benutzt, um anhand von Definition (3.1) eine Wahrscheinlichkeit zu berechnen. Dieser Ansatz heisst logische WahrscheinlichkeitWahrscheinlichkeit!logische] oder, bei entstprechendem Zusammenhang lgeometrische WahrscheinlichkeitWahrscheinlichkeit!logische. In unserem Beispiel führt der logische Ansatz wieder auf die LaplaceWahrsheinlichkeit. 3.3.3. Gezinkter Würfel. Die Ergebnismenge istP Ω = {1, 2, 3, 4, 5, 6} und es muß immer noch gelten 1 = 6i=1 P ({i}). Aber es muß nicht gelten, dass P ({1}) = . . . = P ({6}). Können wir den Würfel nicht vorher untersuchen, so können wir für P ({i}) nur irgendwelche (willkürlichen) Annahmen machen. Können wir ihn untersuchen, so können wir z.B. seine Massenverteilung ausmessen und darauf irgendwelche Ansätze für P ({i}) stützen. Oder, einfacher, wir können eine ganze Reihe “Probewürfe” machen. Ist hi die relative Häufigkeit von i bei diesen Probewürfen, so können wir den Ansatz P ({i}) = hi machen, i = 1, . . . , 6: Wir nehmen als Maßzahl für die Wahrscheinlichkeit gerade die beobachtete relative Häufigkeit. 3Von intervall-skalierten Variablen hingegen spricht man, wenn arithmetische Operationen wie Differenzen verträglich definiert sind. 3.3. BEISPIELE 3-7 3.3.4. Empirische Wahrscheinlichkeit. Allgemeiner: Relative Häufigkeiten genügen den Regeln von (Def. 3.1), dh.h. sie definieren ein Wahrscheinlichkeitsmaß im Sinne dieser Definition. Dieses Wahrscheinlichkeitsmaß heißt empirische Wahrscheinlichkeit. Die Strategie, Wahrscheinlichkeiten so zu definieren, wird als frequentistischer Ansatz bezeichnet. empirische Wahrscheinlichkeit—see 3.3.5. Auswahl aus einer endlichen Grundgesamtheit. Wir ha- Wahrscheinlichben dieses Beispiel in Kapitel 2 diskutiert: Eine Grundgesamtheit von N keit Elementen besteht aus n0 Elementen der Art 0 und n1 Elementen der Art Ansatz!frequentistisch 1. Es werden der Reihe nach n Elemente “blind” gezogen. ToDo: Beispiel Wir nehmen wieder die Codierung mit einer 0 für Art 0, 1 für Art 1. Die Reissnagel: geom W’keit Ergebnismenge ist dann die Menge der möglichen Code-Folgen Ω = {0, 1}n = {0, 0, . . . , 0, 0), (0, 0, . . . , 0, 1), , . . . , (1, 1, . . . , 1, 1)}. Die Elemente von Ω schreiben wir ω = (ω1 , . . . , ωn ). Die Indikatorabbildungen Yi := Ω → {0, 1} ( 0 falls ωi = 0 . Yi (ω) = 1 falls ωi = 1 und die Zählvariablen Xj : Ω → N Xj (ω) = j X 1 ≤ i, j ≤ n Yi i=1 sind Zufallsvariablen, deren Verteilung im nächsten Paragraphen untersucht wird. Xj (ω) gibt an, wieviel mal 1 in der Code-Folge ω bis zur j. Stelle einschließlich auftritt. Nach (??) ist die Verteilung von Xn berechenbar: n0 n1 P (Xn = n1 ; n0 , n1 ) = n0 n N n 1 mit n0 = n − n1 . Diese Verteilung heißt in der Literatur hypergeometrische Verteilung. 3.3.6. Bedingte Wahrscheinlichkeit. Bedingte Wahrscheinlichkeiten heißen nicht nur so, sie sind auch Wahrscheinlichkeiten, d.h. sie genügen den Bedingungen von (3.1). Übung 3.10. Zeigen Sie: Ist (Ω, A , P ) ein Wahrscheinlichkeitsraum und A ∈ A eine Menge mit P (A) > 0, so ist P (A) ein Wahrscheinlichkeitsmaß im Sinne von (Def. 3.1). hypergeometrische Verteilung 3-8 3. DAS GRUNDMODELL DER WAHRSCHEINLICHKEITSRECHNUNG 3.3.7. Stetige Verteilungen. Verteilungen aus Zählprozessen sind die einfachsten Beispiele. Das Konzept ist jedoch weit allgemeiner gültig. Ist f eine Funktion f : R 7→ R R mit f ≥ 0, f 6= 0, f dx < ∞, so definiert R f dx P (A) = RA Ω f dx ein Wahrscheinlichkeitsmaß. Die Funktion x 7→ p(x) := Dichte R f (x) Ω f dx heisst die (Lebesgue-)Dichte von P . Die Probleme sind hier wieder in den Details versteckt. Es muss genauer definiert werden, was unter einem Integral zu verstehen ist. Die in der Analysis übliche Vorstellung einer Stammfunktion mit Ableitung f hilft nur eingeschränkt weiter. Vielmehr wird ein Integralbegriff benötigt, der die anschauliche Vorstellung der Fläche unter einer Kurve präzisiert und verallgemeinert. Die entsprechende Theorie der Lebesgue-Integration geht über den Rahmen dieser Vorlesung hinaus. Wir beschränken uns auf Spezialfälle; die mathematische Diskussion muss hier lückenhaft bleiben. Beispiel 3.11. Sei a < b und ( c f (x) = 0 für x ∈ [a, b] sonst mit einer Konstanten c > 0. Dann ist uniform für alle c die Dichte ( 1 für x ∈ [a, b] p(x) = b−a 0 sonst und die zugehörige Verteilungsfunktion hat die Werte für x ≤ a 0 x−a F (x) = b−a für x ∈ (a, b] 1 für x > b uniform Die so definierte Verteilung heisst uniforme Verteilung auf [a, b]. Wir bezeichnen das Wahrscheinlichkeitsmaß mit Punif [a,b] . Im Spezialfall [a, b] = [0, 1] sprechen wir kurz von der uniformen Verteilung Punif . Beispiel 3.12. Sei f (x) = 1für alle x ∈ R. Diese Funktion definiert kein Wahrscheinlichkeitsmass. 3.3.8. Bezeichnung zur formalen Unterscheidung. P ( |{z} A ; B |{z} ) Ereignis P arameter A ist Ereignis. Hierfür müssen die Eigenschaften aus 3.1 i) - iii) gelten. 3.3. BEISPIELE 3-9 B ist ein Parameter. Hierfür muß 3.1 i) - iii) nicht gelten. z.B. 4 P (Xi = k ; N0 = 6, N1 = 8) | {z } | {z } Ereignis P arameter aber auch z.B. P ( Yi = 1 ; | {z } X =k | i−1 {z } ). hierEreignis hierP arametergenannt Speziell können also Variable sowohl in der Definition von Ereignissen als auch als Parameter auftauchen. In der Anwendung ist der Wahrscheinlichkeitsraum nicht vorgegeben. Ihn geeignet zu definieren ist oft ein wesentlicher Schritt in der Modellbildung. Eine zentrale Frage dabei ist, welche beobachtbaren Größen als Zufallsvariable modelliert werden, und welche als nicht-zufällige Parameter modelliert werden. Parameter können in formalen Modell berücksichtigt werden, in dem wir das Wahrscheinlichkeitsmaß P (oder, falls notwendig, auch die anderen Bestandteile des Wahrscheinlichkeitsraums (Ω, A , P )) parametrisieren. Oft gibt es einen unter den Parametern, der die “beobachtete Systemgröße” repräsentiert. In den bisherigen Beispielen hat der Stichprobenumfang n diese Rolle gespielt. Falls angebracht werden wir die Rolle des Stichprobenumfangs getrennt von den anderen Parametern diskutieren. Um die Situation zu vereinfachen: Die Zufallsvariable, die uns interessiert, heiße X; ihre Werte x und ihr Wertebereich heiße X (z.B. X = Xn ; X = {0, 1, 2, . . . , n}). Für Parameter (wie N, n1 , n) steht als allgemeiner Stellvertreter ϑ und schreiben z.B. Phyp (x; ϑ) anstellen von Phyp (x; N, n1 , n) . Wenn wir die Rolle des Stichprobenumfangs getrennt diskutieren wollen, benutzen wir den Stellvertreter ϑ nur für die übrigen Parameter, setzen also z.B. (N, n1 , n) = (ϑ, n). Ist das Wahrscheinlichkeitsmaß konsistent definiert, so ergibt die nach 3.2 berechnete bedingte Wahrscheinlichkeit genau die als Ansatz gewählte parametrisierte Wahrscheinlichkeit z.B. P (A | A0 ) = P (A; A0 ) P (Yi = 1 | Xi−1 = k 0 ) = P (Yi = 1; Xi−1 = k 0 ) wegen (Def. 3.1 iv). 3.3.9. Konventionen. Wir führen hier zwei weitere Konventionen ein, die später häufig benutzt werden. Bedingung 3.2.1 i) ist eine Normierungsbedingung und führt dazu, dass entsprechende Konstanten eingeführt werden. Bisweilen können Darstellungen vereinfacht werden, wenn diese Konstanten erst dann eingesetzt werden, 4Der Einfachheit halber steht hier Xi = k für {ω ∈ Ω : Xi (ω) = k}. Um formal exakt zu sein, müßte man schreiben: P ({ω ∈ Ω : Xi (ω) = k}; n0 = 6, n1 = 8). Parameter 3-10 3. DAS GRUNDMODELL DER WAHRSCHEINLICHKEITSRECHNUNG proportional wenn es notwendig ist. So ist z.B. für die hypergeometrische Verteilung aus (2.6) n1 n0 P (Xn = n1 ; n0 , n1 ) ∝ n1 n0 (lies: proportional zu). Die Proportionalitätskonstante zur Normierung N n ist dabei durch 3.2.1 i) eindeutig bestimmt. Wo es hilfreich ist, werden wir diese Proportional-Notation benutzen. Genau genommen müsste man kennzeichnen, welcher Term ausintegriert wird. n1 n0 P (Xn = n1 ; n0 , n1 ) ∝N1 n1 n0 Diese Kennzeichnung ist nicht üblich, aber oft nützlich, um den Kontexkt deutlich zu machen. Die zweite Konvention ist hilfreich, wenn im Detail zu analysieren ist, wie Zufallsereignissse einerseits und Parameter anderseits eine Wahrscheinlichkeit bestimmen. Wenn es möglich ist, werden wir dazu Wahrscheinlichkeiten (oder Dichten) entsprechend faktorisieren. Abstrakt: Ist (x, ϑ) 7→ P (X = x; ϑ) zu untersuchen, so versuchen wir, eine Zerlegung der Form P (X = x; ϑ) = C(ϑ) · h(x) · Pe(X = x; ϑ) kanonische Zerlegung zu finden, so dass C die Anteile enthält, die ereignisunabhägig sind, h den Anteil, der vom Parameter unabhägig ist, und Pe die gemischten Anteile. Eine Zerlegung dieser Art heisst kanonische Zerlegung. Übung 3.13. Am Beispiel der hypergeometrischen Verteilung: Seien N und n gegeben und sei N1 = ϑ der interessierende Parameter. Geben Sie eine kanonische Zerlegung für Phyp (X = x; N, N1 , n) an. 3.4. Verteilungsfunktion und Quantile Der Kompliziertheit praktischer Probleme in der Statistik sind keine Grenzen gesetzt. Um so wichtiger ist es, einige Grundklassen von Modellen so zu beherrschen, dass sie als gebrauchsfertige Versatzstücke zu handeln sind. Die allereinfachste Klasse von Modellen (endlicher Ergebnisraum, endlich viele zugelassene Parameter) teilt sich sofort in so komplexe Teilmodelie auf, dass sie den Rahmen dieser Ausarbeitung sprengt5. Die nächste Klasse ist etwas komplizierter: Ergebnisraum Ω und zugelassene Parametermenge Θ können irgendwelche Teilmengen der reellen Zahlen sein. Dies schließt zunächst einmal alle endliche Modelle ein. Wir beschränken uns jetzt auf Modelle, die die Anordnung von Zahlen nach ihrer 5Siehe: S. Kotz: Urn models and their application. Wiley, New York 1977. 3.4. VERTEILUNGSFUNKTION UND QUANTILE 3-11 Größe respektieren. Diese Einschränkung muß genauer gefaßt werden, und dazu brauchen wir einige Vorbereitung. Für reelle Zahlen bezeichnen wir mit sup : Supremum inf : Infimum die kleinste obere Schranke die größte untere Schranke. Beispiel: sup{x ∈ R : x ≤ x0 } = x0 = inf{x ∈ R : x ≥ x0 }, aber auch sup{x ∈ R : x < x0 } = x0 = inf{x ∈ R : x > x0 }. Das wesentliche Hilfsmittel werden Verteilungsfunktionen sein. Ist X Zufallsvariable mit Wertebereich X ⊂ R, so ist die Verteilungsfunktion nach (??) gegeben durch x 7→ F (x) = PX ({x ∈ X : x0 ≤ x}) = P (X ≤ x). Wenn wir mit Parametern arbeiten, so kennzeichnen wir diese auch bei der Verteilungsfunktion F (x; ϑ) = P (X ≤ x; ϑ) ϑ ∈ Θ,x ∈ X, und um es uns einfacher zu machen, betrachten wir die Verteilungsfunktion auf ganz R : F (x; ϑ) = P (X ≤ x; ϑ) ϑ ∈ Θ, x ∈ R. Beispiel 3.14. Ist X hypergeometrisch verteilt mit Parameter ϑ = (N, n1 , n), so ist 0 für x < 0 P (0; N, n , n) für 0 ≤ x < 1 1 hyp F (x; ϑ) = P P (i; N, n , n) für [x] ≤ x < [x] + 1 1 0≤i≤[x] hyp 1 für x > n. 3.4.1. Allgemeine Eigenschaften von Verteilungsfunktionen: Ist F Verteilungsfunktion einer R-wertigen Zufallsvariablen X, so gilt 0) 1) 2) 3) 0 ≤ F (x) ≤ F (x0 ) ≤ 1 < F (x) ∀x ≤ x0 (Monotonie), limx→−∞ F (x) = 0, limx→∞ F (x) = 1, limx↓x0 F (x) = F (x0 ) (Stetigkeit von rechts), P (F (X) ≤ α) ≤ α ∀α ∈ [0, 1]. 3.4.2. Umkehrung von Verteilungsfunktionen. Bei der hypergeometrischen Verteilung haben wir schon gesehen, dass eine Verteilungsfunktion stückweise konstant sein kann (und auch Sprünge zeigen kann). Deshalb gibt es nicht immer eine eindeutige Umkehrungsfunktion. Man behilft sich: Definition 3.15. x ∈ R heißt p-Quantil von X, wenn FX (x) ≥ p und FX (x0 ) ≤ p für alle x0 < x . Quantil 3-12 3. DAS GRUNDMODELL DER WAHRSCHEINLICHKEITSRECHNUNG Abbildung 3.2: Fhyp Bezeichnungen xp : x ist ein p-Quantil von X inf xp = inf{x : x ist p-Quantil } sup xp = sup{x : x ist p-Quantil } 3.4.3. Allgemeine Eigenschaften von Quantilen. 0) 1) 2) 3) 4) P (X < xp ) ≤ p ≤ P (X ≤ xp ). x, x0 p − Quantil ⇒ x00 p − Quantil für alle x00 : x ≤ x00 ≤ x0 . inf xp , sup xp sind Quantile. P (X ≤ x) < p ⇒ x < xp für jedes p-Quantil xp von X. P (X ≤ x) = p ⇒ x p-Quantil. 3.5. STOCHASTISCHE ORDNUNG 3-13 3.4.4. Spezielle Quantile: x0.5 x.25 x.75 x.1 x.9 x.75 − x.25 x.9 − x.1 Median von X unteres Quantil von X oberes Quantil von X unteres Dezil von X oberes Dezil von X Quantilabstand von X Dezilabstand von X 3.5. Stochastische Ordnung Mit Hilfe der Verteilungsfunktion können wir Ordnungsrelationen auf dem Wertebereich in Ordnungsrelationen für Zufallsvariablen übersetzen. Die hypergeometrischen Verteilungen können wieder als Beispiel dienen: sind V und W zwei Zufallsvariable mit hypergeometrischer Verteilung, V hypergeometrisch verteilt mit Parametern N, NV , n und W mit Parametern N, NW , n, NV < NW , so wird V “eher” kleinere Werte annehmen als W . Dies bedeutet nicht, dass stets V < W gelten muss. Aber “statistisch gesehen” ist V eher kleiner. Definition 3.16. Sind V, W zwei Zufallsvariable mit Werten in X und ist ≤ eine Ordnungsrelation auf X, so heisst V stochastisch kleiner W , wenn FV (x) ≥ FW (x) für alle x ∈ X und FV 6= FW . Bezeichnung: V W . Analog werden definiert: “stochastisch kleiner”, “stochastisch größergleich”, “stochastisch größer”. stochastisch kleiner ToDo: Add exercises KAPITEL 4 Hypergeometrische Verteilung 4.1. Das Modell der hypergeometrischen Verteilung In Kapitel 2 haben wir ein Modell entwickelt, das wir nun mit den Begriffen aus Kapitel 3, Abschnitt 2.2 und Abschnitt 3.3.4 systematisch darstellen können: 4.1.1. Formale Beschreibung des Modells. Parameter des Modells sind N0 , N1 , n. Es ist n ≤ N := N0 + N1 . Ergebnisraum ist Ω := {0, 1}n = {ω = (0, 0, . . . , 0), . . . , ω = (1, 1, . . . , 1)}. Typische Ereignisse1 sind {Yi = 0}, {Yi = 1}, {Xi = x}, i = 1, . . . , n, wobei Yi : Ω → {0, 1} ( 0 Yi (ω) = 1 falls ω = (. . . , 0, . . .) falls ω = (. . . , 1, . . .) und Xi : Ω → {0, 1, 2, . . . , k} Xi (ω) = i X Yj (ω). j=0 Yi beschreibt die i–te Beobachtung; Xi gibt den Zählerstand nach der i–ten Beobachtung an. Das Wahrscheinlichkeitsmaß P ist definiert durch i) P (Xn > N1 ) = 0; ii) P (Yi = 0) = P (Yi = 1) = 1Hier N0 N N1 N P (X0 = 0) = 1. ( “Laplace-Ansatz” für die einzelnen Züge). steht wieder {Xi = 0} für {ω ∈ Ω : Xi (ω) = 0} etc. 4-1 4-2 4. HYPERGEOMETRISCHE VERTEILUNG iii) P (Yi | Y1 , . . . , Yi−1 ) = P (Yi | Xi−1 ) und 1 −x für x : 0 ≤ x ≤ N1 − 1 P (Yi = 1 | Xi−1 = x) = NN−(i−1) P (Yi = 1 | Xi−1 = N1 ) = 0. Die formale Beschreibung (4.1.1) bestimmt das Wahrscheinlichkeitsmaß P eindeutig. Die Zufallsvariable Xn hat die Verteilung N0 N 1 P (Xn = n1 ) = n n0 N n 1 mit n0 = n–n1 . Wir formulieren das Modell noch einmal etwas anders: 4.1.2. Modell: Stichprobe in einer endlichen Menge. N N1 n x Umfang der Grundgesamtheit Anzahl ausgezeichneten2 Elemente in der Grundgesamtheit, N1 ≤ N Umfang der Stichprobe, n ≤ N Anzahl der ausgezeichneten Elemente n der Stichprobe, x ≤ N1 , n Das Wahrscheinlichkeitsmaß mit N −N1 N1 n−x n N n P (x; N, N1 , n) = heißt Maß der Hypergeometrischen Verteilung (kurz: Verteilung!hypergeometrisch hypergeometrische Verteilung). Um die Verteilungsfamilie “hypergeometrisch” zu kennzeichnen schreiben wir auch Phyp (x; N, N1 , n) 4.1.3. Ziehen ohne Zurücklegen. In der Statistik gibt es eine kleine Reihe von Grundmodellen, die historisch entwickelt worden sind und heute als leitende Beispiele benutzt werden. Eine wichtige Klasse sind die “Urnenmodelle”. Diese modellieren das Ziehen von Losen aus einer Urne unter den unterschiedlichsten Bedingungen. Die hypergeometrische Verteilung finden wir dabei in folgender Variante: gelost wird durch Ziehung von Kugeln. Die Urne enthält N0 scharze und N1 weisse Kugeln. Gezogen werden n Kugeln (ohne Zurücklegen); gezählt wird die Anzahl n1 der weissen Kugeln in der Ziehung. Die Anzahl der weissen Kugeln in der Ziehung ist hypergeometrisch verteilt: Phyp (x = n1 ; N, N1 , n) = 2Im N −N1 N1 n−x n N n . Beispiel (??): ausgezeichnet vor den anderen Elementen durch die Eigenschaft, zur Art I zu gehören. 4.1. DAS MODELL DER HYPERGEOMETRISCHEN VERTEILUNG 4-3 Übung 4.1. Anhand des Urnenmodells überlege man, dass die folgenden Symmetrien gelten sollten, und verifiziere dies mit der Formel für die hypergeometrisch Verteilung: • Die Rollen der weissen und der schwarzen Kugeln können ausgetauscht werden: Phyp (x; N, N1 , n) = Phyp (n − x; N, N − N1 , n) • Die Rollen der gezogenen Kugeln und der nicht-gezogenen Kugeln können ausgetauscht werden. Phyp (x; N, N1 , n) = Phyp (N1 − x; N, N1 , N − n) 4.1.4. Praktische Berechnung. Software: Die hypergeometrische Verteilung ist in Statistik- und Tabellen-Kalkulationsprogrammen weit verbreitet. Die Qualität der Implementierung ist jedoch sehr unterschiedlich, so dass zumindest Plausibilitätskontrollen nötig sind. In R stehen unter anderem folgende Funktionen für die hypergeometrische Verteilung zur Verfügung: R-Aufruf Funktion dhyper(x, m, n, k) Phyp (X = x, m + n, n, k) dhyper(x, m, n, k, log=TRUE) ln(Phyp (x, m + n, n, k)) phyper(q, m, n, k) Phyp (X ≤ x, m + n, n, k) qhyper(q, m, n, k) minx : Phyp (X ≤ x, m + n, n, k) ≥ q rhyper(nn, m, n, k) erzeugt nn Zufallszahlen Phyp ( · ; m + n, n, k) aus Die Argumente der R-Funktionen sind nach folgender Tabelle in die Bezeichnungen dieses Skripts zu übersetzen: R entspricht hier entspricht im Urnenmodell x x schwarze Kugeln in der Stichprobe m N − N1 weisse Kugeln in der Urne n N1 schwarze Kugeln in der Urne k n Umfang der Stichprobe 4-4 4. HYPERGEOMETRISCHE VERTEILUNG Tabellen: Liebermann, G.J., Owen, D.B.: Tables of the hypergeometric probability distribution. Stanford University Press, Stanford 1961 Symmetrie – Beziehungen: Phyp (x; N, N1 , n) = Phyp (n − x; N, N − N1 , n) = Phyp (x; N, n, N1 ) Näherungsformeln: n √ n! ≈ ne · 2πn (Stirling-Näherung) q n n n n k ≈ kk (n−k)n−k · (n−k)·k·2π P (x, N, N1 , n) ≈ nx px (1 − p)n−x p := NN1 für n N, x N1 . Beispiel 4.2. Ein gut im Gleichgewicht befindliches abgeschlossenes Gewässer (mittlerer Fischteich) beherbergt N1 Kleinfische in einer Gesamtpopulation von N Fischen. In einer Stichprobe vom Umfang n finden sich extrem wenige (Xn = n1 ) Kleinfische. Ab wann kann man eindeutig sagen, dass das ökologische Gleichgewicht gestört ist? Zahlenbeispiel: N = 2400, N1 = 1200, n = 1200. Bei gleichmäßiger Durchmischung wären NN1 · n = 600 in der Stichprobe anzunehmen. Ab wann kann von einer Störung gesprochen werden? Ab Xn < 500? Oder Xn < 200? Xn > 800? Die Frage nach dem Auftreten einer Störung ist eine Sachfrage, die nicht mit statistischen Mitteln gelöst werden kann. Als Entscheidungshilfe jedoch kann man fragen: Ist die Beobachtung eine besonders extreme Beobachtung, oder hält sie sich im Rahmen der Schwankungen, die allein durch das Stichprobenziehen auftreten? Standardisierte Formulierung des Problems: Teste die Hypothese {N1 = 660} gegen die Gegenhypothese {N1 6= 600}. Das Problem ist ein zweiseitiges Testproblem. (Abweichungen zu beiden Seiten des hypothetischen Werts, nach oben und nach unten, sind bedeutsam.) Die Gegenhypothese grenzt die Hypothese nach beiden Seiten ab. Gegenhypothese . & N1 < 600 N1 > 600 N1 = 600 (Hypothese) Verzerrung der Stichprobe Das Beobachtungsergebnis kann von der Art bestimmt sein, wie die Stichprobe genommen worden ist: durch die Fangmethode kann ein ganzer Teil eines Schwarms gleichzeitig in den Fang geraten sein; Wassertiefe, Ufernähe, Tageszeit etc. können eine Verzerrung der Stichprobe bewirkt 4.1. DAS MODELL DER HYPERGEOMETRISCHEN VERTEILUNG 4-5 haben. Ist darauf geachtet, dass diese Einflüsse keine Rolle spielen, so können wir mit dem Modell der hypergeometrischen Verteilung arbeiten. Sofort zeigt sich die nächste Schwierigkeit: Nach dem Modell der hypergeometrischen Verteilung berechnet sich die Wahrscheinlichkeit, in einer Stichprobe vom Umfang n = 1200 genau n1 Kleinfische zu erhalten als: P (n1 ; N = 2400, N1 = 1200, n = 1.200) = 1200 n1 1200 1200−n1 2400 1200 . Die praktische Berechnung von z.B. 2400 1200 =? stellt uns vor Schwierigkeiten. Wir werden später Näherungsformeln kennenlernen, um die Wahrscheinlichkeit zu berechnen. Für den Augenblick müssen wir uns mit mit kleinen Zahlen begnügen. Beispielrechnung: Mit N = 24, N1 = 12, n = 12 ist n1 P (X12 = n1 ) P (X12 ≤ n1 ) 0 0.0000 0.0000 1 0.0001 0.0001 2 0.0016 0.0017 3 0.0179 0.0196 4 0.0906 0.1102 5 0.2320 0.3421 6 0.3157 0.6579 7 0.2320 0.8898 8 0.0906 0.9804 9 0.0179 0.9983 10 0.0016 0.9999 11 0.0001 1.0000 12 0.0000 1.0000 Tabelle 4.1: Hypergeometrische Verteilung N = 24, N1 = 12, n = 12 Hypothese {N1 = 12}, Gegenhypothese {N1 6= 12}. Sowohl sehr große als auch sehr kleine Werte von X12 widersprechen der Hypothese im Sinne der Gegenhypothese (zweiseitiges Problem). Aus der Tabelle können wir ablesen: Bei Gültigkeit der Hypothese {N1 = 12} wäre also P (X12 < 3; N1 = 12) = P (X12 ≤ 2, N1 = 12) = 0.0017, P (X12 > 9, N1 = 12) = 1 − P (X12 ≤ 9; N1 = 12) = 0.0017, P (X12 < 3 ∨ X12 > 9; N1 = 12) = 0.0017 + 0.0017 = 0.0034. 4-6 4. HYPERGEOMETRISCHE VERTEILUNG Mit einer Wahrscheinlichkeit von nur 0.34 % kann also bei Gültigkeit der Hypothese “zufällig” ein Ergebnis auftreten, das im Bereich {X12 < 3 ∨ X12 > 9} liegt. Ergebnisse in diesem Bereich können damit als deutlicher Hinweis angesehen werden, dass N1 nicht die hypothetische Größe N1 = 12 hat: Die Hypothese N1 = 12 kann verworfen werden. 4.2. Tests bei hypergeometrischer Verteilung “Test” ist ein statistischer Fachausdruck für Entscheidungsregeln, die festlegen, bei welchen Beobachtungen für oder gegen eine bestimmte Hypothese entschieden werden soll. 4.2.1. Stichproben: Bei einer Sendung von 1000 Einmal–Pipetten garantiert der Hersteller, dass höchstens 4 % insteril sind. Diese Garantie kann nicht bei allen Pipetten untersucht werden, da die Geräte bei der Sterilitätsprüfung evtl. insteril und damit unbrauchbar werden. Deshalb wird eine Stichprobe von 25 Pipetten genommen; die Sendung wird nicht angenommen, falls unter der Stichprobe mehr als eine (= 4 % von 25) insterile Pipetten sind. Ist das Verfahren angemessen? Lösung: Das Problem ist ein Testproblem (Entscheidungsproblem). Nach Liefervereinbarung ist die Sendung gerade noch anzunehmen, wenn (4 % von 1000 =) 40 Pipetten insteril sind. Ist N1 die Anzahl der tatsächlich insterilen Pipetten, so muß bestimmt werden: Wie wahrscheinlich ist es, in der Stichprobe genau N1 insterile anzutreffen? Mit der Codierung 0 falls das i. Element der Stichprobe nicht defekt ist, Yi = 1 falls das i. Element der Stichprobe defekt ist, kann das formale Modell (4.1.1) angewandt werden. Xn zählt dann die Anzahl der defekten Stücke in der Stichprobe. Xn ist hypergeometrisch verteilt; 1000−N1 N1 P (Xn = n1 ) = P (n1 ; N = 1000, N1 , n = 25) = 25−N1 n1 1000 25 Für N1 = 40 erhält man: n1 P (X25 = n1 ) 0 0.3558 1 0.3801 2 .1899 3 0.0590 4 0.0128 Nach (3.1 iii, iv) ist P (X25 > 1) = 1–P (X25 ≤ 1) = 1–(P (X25 = 0) + P (X25 = 1)) ≈ 1 − (0.3558 + 0.3801) = 0.2641. . 4.2. TESTS BEI HYPERGEOMETRISCHER VERTEILUNG 4-7 Die gerade noch zu akzeptierende Sendung mit N1 = 40 würde bei dem vorgeschlagenen Verfahren also mit einer Wahrscheinlichkeit von 0.2641 nicht akzeptiert werden - das Prüfverfahren ist zu scharf im Vergleich mit der ausgehandelten Garantie. Selbst eine Prüfgrenze, die zwei insterile Pipetten erlaubt, würde im Extremfall nur mit einer Wahrscheinlichkeit von 0.3558 + 0.3801 + 0.1899 = 0.9259 eine noch vertragsgemäße Sendung akzeptieren. Um mit mindestens fünf-prozentiger Sicherheit keinen “Vertragsbruch” zu begehen, muß man sich noch auf 3 insterile Elemente in der Stichprobe einlassen. 4.2.2. Standardisierte Formulierung des Problems: Teste die Hypothese {N1 ≤ 40} gegen die Alternative {N1 > 40}. Das Problem ist ein einseitiges Testproblem. Hypothese: N1 liegt im Rahmen der vereinbarten Grenze Gegenhypothese: N1 liegt über der vereinbarten Grenze Die Entscheidungsregel (4.2.1) (“der Test”) hat als Verwerfungsbereich: {X25 > 1}. Die Irrtumswahrscheinlichkeit dieser Entscheidungsregel ist die Wahrscheinlichkeit, zufällig ein Ergebnis X25 im Verwerfungsbereich zu erhalten, obwohl. die Hypothese noch wahr ist. Sie beträgt P (X25 > 1; N1 = 40) = 0.2641, Test Verwerfungsbereich Irrtumswahrscheinlichkeit also 26.41 %. Einen Test der Hypothese {N1 ≤ 40} gegen die Gegenhypothese {N1 > 40} mit einer Irrtumswahrscheinlichkeit von weniger als 5 % erhält man, wenn als Verwerfungsbereich {X25 > 3} gewählt wird. Die Irrtumswahrscheinlichkeit bei diesem Test beträgt P (X25 > 3; N1 = 40) = 0.0152, also 1.52 %. In (??) ist schon darauf hingewiesen worden, dass eine der Hypothese nicht widersprechende Beobachtung noch nicht bedeutet, dass die Hypothese richtig ist. Die Gegenhypothese kann richtig sein, und nur zufällig liegt die Beobachtung außerhalb des Verwerfungsbereichs. Die Wahrscheinlichkeit, dass bei zutreffender Gegenhypothese die Beobachtung auch tatsächlich im Verwerfungsbereich liegt, heißt die Güte des Tests. Diese Güte ist besser, wenn der Parameterwert N1 weit von der Hypothese entfernt ist und wird schlecht, wenn N1 nahe am Bereich der Hypothese liegt. Wir können diese Gütefunktion für verschiedene N1 berechnen. Für den Test mit Verwerfungsbereich {X25 > 3} hat sie an der Parameterstelle N1 den Wert P (X25 > 3; N1 ) Güte 4-8 4. HYPERGEOMETRISCHE VERTEILUNG N1 P (X25 > 3; N1 ) 41 0.0165 42 0.0179 50 0.0321 75 0.1109 Gütefunktion P (X25 > 3; N1 ) 100 0.2347 150 0.5306 200 0.7694 ToDo: plot 250 0.9066 Die Sicherheit, eine akzeptable Sendung (N1 ≤ 40) mit einer Wahrscheinlichkeit von mehr als 95 % auch anzunehmen (d.h. Irrtumswahrscheinlichkeit von weniger als 5 % ) erkauft man mit dem Nachteil, eine nicht akzeptable Sendung z.B. mit N1 = 100 nur mit 23.47 % Wahrscheinlichkeit auch abzulehnen, d.h. mit 76.53 % Wahrscheinlichkeit fälschlicherweise zu behalten. Bei einem Stichprobenumfang von n = 25 gibt es keine Möglichkeit zu garantieren, dass z.B. eine Sendung mit N1 = 50 einigermaßen sicher abgelehnt wird, ohne dass man gleich jede Sendung ablehnt. Übung 4.3. Der Stichprobenumfang sei n = 50; die Entscheidungsregel: Verwerfe die Hypothese, falls X50 > 4 . Berechne die Irrtumswahrscheinlichkeit, und berechne die Gütefunktion an den Stellen N1 = 41, 50, 75. Erst bei einem Stichprobenumfang n von ca. 100 und ca. N1 = 150 insterilen Pipetten wird die Sendung verläßlich zurückgewiesen. Verwerfungsbereich: (Y100 > 7) N1 P (X100 > 7; N1 ) 40 0.0386 Irrtumswahrscheinlichkeit Gegenhypothese 41 0.0441 Güte 50 0.1166 75 0.4816 Hypothese 100 0.8079 150 0.9909 200 0.9998 ToDo: figure 250 1.0000 Irrtumswahrscheinlichkeit und Güte bei unterschiedlichem Stichprobenumfang. Irrtumsschranke 5 %. Hypothese {N1 ≤ 40}. Gegenhypothese {N1 > 40}. 4.3. SCHÄTZPROBLEME BEI HYPERGEOMETRISCHER VERTEILUNG 4-9 Links: n = 25 Rechts: n = 100 Verwerfungsbereich: (X25 > 3). Verwerfungsbereich: (X100 > 7) Um bei einem Stichprobenumfang von n = 100 zumindestens Sendungen mit N1 ≥ 50 insterilen zurückweisen zu können, kann man folgendermaßen vorgehen: Man wähle als Verwerfungsbereich (X100 > 2). Dann ist P (X100 > 2; N1 = 50) = 1 − 2 X Phyp (x; N = 1000, N1 = 50, n = 100) x=0 = 0.9692. Mit 96.92 % Wahrscheinlichkeit wird eine Sendung mit N1 = 50 tatsächlich abgelehnt (Güte bei N1 = 50 : 96.22 %) . Für kleine Werte N1 erhält man als Ablehnungswahrscheinlichkeit N1 P (Y100 > 2; N1 ) 10 0.0702 9 .0522 8 .0374 7 .0252 6 0.0155 5 .0083. Man vereinbare mit dem Lieferanten also, dass höchstens 8 von 1000 insteril sind. Eine Sendung, die diesem Kriterium genügt, wird mit einer Wahrscheinlichkeit von weniger als 5 % fälschlich zurückgewiesen, und gleichzeitig wird eine unbrauchbare Sendung (N1 = 50) mit mehr als 95 % Sicherheit zurückgewiesen. 4.3. Schätzprobleme bei hypergeometrischer Verteilung Bei Schätzproblemen gehen wir von der Beobachtung einer Realisation der Zufallsvariablen X aus. Gesucht ist ein Schätzwert oder ein Schätzbereich für unbekannte Parameter der Verteilung. 4-10 4. HYPERGEOMETRISCHE VERTEILUNG Beispiel 4.4. Von bestimmten Pflanzen, z.B. Salat (Latuca sativa) weiß man, dass sie nur keimen, wenn sie im gequollenen Zustand Licht erhalten. Dabei genügen Lichteinwirkungen von Minuten oder sogar Sekunden, um die eigentliche Keimung auszulösen. Um zu bestimmen, wie stark der Effekt einer bestimmten Bestrahlung ist, läßt man das Licht auf im Dunkeln vorgequollene Saatkörner einwirken. Einen Tag später wird die Anzahl der gekeimten Saatkörner ausgezählt. Die Keimung kann aber nur ausgelöst werden bei Saatkörnern, die zum Zeitpunkt der Bestrahlung bereits gequollen sind; deren Anzahl muß man kennen, um die Stärke des Effekts zu beurteilen. Die Schwierigkeit dabei ist, dass die gequollenen Saatkörner nicht einfach ausgezählt werden können - der Lichteinfall bei der Auszählung würde sie für den folgenden Versuch unbrauchbar machen. Eine Lösungsmöglichkeit ist: nach einem Tag werden n der insgesamt N Saatkörner aus dem Anzuchtsschrank herausgenommen und untersucht. Die Gesamtanzahl N1 der gequollenen Saatkörner wird aufgrund der unter den n gezählten Anzahl X = N1 geschätzt. Oberer Pfeil: Insgesamt N , davon N1 gequollen. Unterer Pfeil: n Saatkörner untersucht, darunter n1 gequollene gefunden. Stichprobe Für die Schätzung können wir zum Beispiel den folgenden Ansatz machen: Wäre der Anteil der gequollenen in der Stichprobe gleich dem Anteil der gequollenen an der Grundgesamtheit, also n1 N1 n1 = , so wäre N1 = N · . n N n Daher der Vorschlag: man nehme als Schätzwert N · dieses Schätzverfahren? n1 n . Wie gut ist Das Problem ist ein Schätzproblem. Wir interpretieren die Untersuchung wieder als Zählprozess: sind die n vielen Stichprobenelemente alle aus einem engen Bereich des Anzuchtsschrankes, in dem sie nebeneinander standen, herausgenommen worden, so können wir kaum etwas über die Qualität des Schätzverfahrens aussagen: 4.3. SCHÄTZPROBLEME BEI HYPERGEOMETRISCHER VERTEILUNG 4-11 standen etwa alle diese Stichprobenelemente nahe der Tür, so wird man mit etwas anderen Feuchtigkeits- und Temperaturverhältnissen rechnen müssen als im übrigen Teil des Schrankes, und man kann aus der Beobachtung kaum auf die Gesamtheit schließen. Sind die Stichprobenelemente dagegen zufällig gestreut aus der Grundgesamtheit herausgegriffen, so können wir einen Ansatz wie oben machen. Die Anzahl Xn der gekeimten Saaten in der Stichprobe ist dann hypergeometrisch verteilt - jedoch mit einem uns unbekannten Parameter N1 . b1 = Xn · N, Xn der in der Geschätzt haben wir N1 durch den Schätzer N n Stichprobe ausgezählte Wert. Für z.B. N = 24, n = 12 und einem Zählergebnis Xn = n1 = 9 schätzen 9 wir nn1 · N = 12 : 24 = 18; aber über die Genauigkeit unserer Schätzung können wir noch nichts aussagen. Wir hätten auch n1 = 8 oder n1 = 10 erb1 = 8 ·24 = 16 bzw. N b1 = 10 ·24 = 20 geschätzt: halten können, und dann N 12 12 das Schätzergebnis hängt vom Ergebnis n1 der Stichprobenauszählung ab, und die Auswahl der Stichprobe ist zum Teil willkürlich (Fachausdruck: n1 ist Realisierung der Zufallsvariablen Xn ). Sachgemäßer ist es, einen Schätzbereich anzugeben, in dem wir nach unserer Beobachtung den wahren Wert vermuten (Fachausdruck: Bereichsschätzer, Mutungsbereich, Konb1 ). fidenzbereich; im Gegensatz dazu: Punktschätzer N Nach der Beobachtung Xn = n1 = 9 steht fest: N1 ≥ n1 = 9, N − N1 ≥ n − n1 = 12 − 9 = 3 , d.h. N1 ≤ 21 . Unwahrscheinlich sind Werte wie N1 = 9, 10; wahrscheinlich sind Werte wie N1 = 17, 18, 19. Diese Wahrscheinlichkeit wollen wir genauer ausdrücken. Wäre das wahre N1 = 9 oder 10 , so würden wir kleine Werte für Xn erwarten. Zur Kontrolle berechnen wir für verschiedene Werte von N1 die Wahrscheinlichkeit, den beobachteten Wert n1 oder noch einen extremeren Wert für Xn zu erhalten. Dazu können wir Formel (4.1.2) verwenden: P (Xn ≥ n1 ) = = n X x=n1 n X x=n1 P (Xn = x) = n X x=n1 N −N1 N1 n−x x N n . PHyp (x; N, N1 , n) Realisierung Bereichsschätzer Punktschätzer 4-12 4. HYPERGEOMETRISCHE VERTEILUNG 1.0 Hypergeom. Vert. N=24, n=12 ● ● ● ● ● 0.8 ● 0.6 0.4 ● 0.2 ● ● ● ● 0.0 P(X>=9) ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 5 10 15 20 N1 Abbildung 4.1: Gütefunktion N1 P (X12 ≥ 9; N = 24, N1 , n = 12) 9 0.0002 10 0.0014 11 0.0061 12 0.0196 13 0.0498 14 0.1069 15 0.2002 16 0.3334 17 0.5000 18 0.6798 19 0.8416 20 0.9534 21 1.0000 P (X12 ≥ 9; N = 24, N1 , n = 12) 4.3. SCHÄTZPROBLEME BEI HYPERGEOMETRISCHER VERTEILUNG 4-13 Danach können wir die Werte 9, 10, 11 für die meisten Anwendungen aus dem Schätzbereich ausschließen: bei diesen Werten für N1 hätte das beobachtete Ergebnis n1 = 9, oder noch extremere Ergebnisse, zusammen eine Wahrscheinlichkeit von weniger als 1% = 0.01. Bei N1 = 12 und N1 = 13 bleibt die Wahrscheinlichkeit noch immer unter 5% = 0.05 ; es ist eine Ermessensfrage, ob diese Wahrscheinlichkeit als hinreichend klein angesehen wird, diese Werte für N1 auszuschließen, oder ob man sicher gehen will und diese Werte bei nachfolgenden Rechnungen berücksichtigt. Bei N1 von 13 oder mehr liegt diese Wahrscheinlichkeit über 10 %. Für die meisten Anwendungen ist das Grund genug, diese Werte in den Schätzbereich einzubeziehen. Mit entsprechenden Überlegungen kann N1 nach oben abgegrenzt werden. Für große Werte von N1 sind große Werte für Xn zu erwarten. Das “kritische Ereignis” ist nun, dass Xn = n1 oder ein kleinerer Wert eintritt; die kritische Wahrscheinlichkeit ist P (Xn ≤ n1 ; N, N1 ) = n1 X P (x; N, N1 , n). x=0 N1 P (X12 ≤ 9; N = 24, N1 , n = 12) 18 0.6798 19 0.5000 20 0.2950 21 0.1087 22 0.0 23 .0 24 .0 Hier liegt schon bei einem Parameterwert von N1 = 21 die Wahrscheinlichkeit um 10 %, bei allen kleineren Parameterwerten also noch darüber. Wir haben hier mit einem Ausschlußverfahren gearbeitet und nur diejenigen Parameter aus dem Schätzbereich ausgeschlossen, bei denen das beobachtete Ereignis (oder ein noch extremeres) zu unwahrscheinlich sind. Der gewonnene Schätzbereich hängt dann immer davon ab, bei welcher Wahrscheinlichkeit wir etwas als “zu unwahrscheinlich” bezeichnen. Bezeichnen wir schon eine Wahrscheinlichkeit von 5 % als zu unwahrscheinlich, so können wir mehr Werte ausschließen, als wenn wir die Grenze bei 1 % ziehen: Schätzbereich bei einer Grenze von 5 %: 14 ≤ N1 ≤ 21 Schätzbereich bei einer Grenze von 1 %: 12 ≤ N1 ≤ 21. 4-14 4. HYPERGEOMETRISCHE VERTEILUNG Allgemein: Setzen wir die Grenze bei α , so erhalten wir allgemein einen Schätzbereich mit N1 ≤ N1 ≤ N 1 N 1 = min{N1 : P (Xn ≥ n1 ; N1 ) ≥ α} N 1 = max{N1 : P (Xn ≤ n1 ; N1 ) ≥ α}. Ist n1 der wahre Parameter, so erhalten wir nach diesem Verfahren mit einer Wahrscheinlichkeit von höchstens α eine untere Grenze N 1 , die N1 fälschlicherweise überschätzt, und mit Wahrscheinlichkeit von höchstens α wird N1 durch N 1 noch unterschätzt: Die Irrtumswahrscheinlichkeit für das zweiseitige Problem N1 nach oben und nach unten abzuschätzen, ist höchstens 2 · α . Interessiert uns nur eine einseitige Abschätzung, so können wir mit Wahrscheinlichkeit α garantieren, dass N 1 ≤ N1 . (Bzw. mit Wahrscheinlichkeit α : N1 ≤ N 1 ). 4.4. Capture–Recapture–Methode Bei der Anwendung statistischer Verfahren ist man nicht darauf eingeschränkt, für eine gegebene Situation ein Modell zu entwicklen. Viel häufiger wird ein Experiment vielmehr so entworfen, dass statistische Standardverfahren auf die Ergebnisse anwendbar sind. Dazu ein Beispiel: Beispiel 4.5. Ein Teich enthält eine unbekannte Anzahl N von Fischen. Um N zu schätzen, werden N1 Fische gefangen, markiert und wieder freigelassen. Bei der nächsten Fangperiode werden n Fische gefangen, darunter befinden sich n1 markierte, und man schätzt aufgrund der Überlegung N : N1 = n : n1 , dass nn1 · N1 Fische im Teich sind. Wie gut ist diese Schätzung? Mit wieviel Fischen ist mindestens zu rechnen? Das Problem ist ein Schätzproblem. Zu schätzen ist der Umfang N der Grundgesamtheit. Hat zwischen den beiden Zeitpunkten eine vollständige Durchmischung in der Population stattgefunden, so ist das Modell (4.1) der hypergeometrischen Verteilung anwendbar. Für die Anzahl Xn der markierten Fische in einer Stichprobe gilt in Abhängigkeit vom unbekannten Wert 4.4. CAPTURE–RECAPTURE–METHODE 4-15 N: N −N1 N1 n−x x N n P (Xn ) = (x) = PHyp (x; N, N1 , n) = . In dieser Situation ist N1 fest und bekannt. Mit Sicherheit ist N ≥ N1 und N ≥ n. Bei sonst festgelegten Werten sind mit wachsendem N weniger markierte Fische in der Stichprobe zu erwarten; die Anzahl der nicht markierten nimmt zu. Ein Wert kann als zu niedrig für N angesehen werden, falls die Wahrscheinlichkeit P (Xn ≤ n1 ) zu klein ist. Soll unsere (einseitige) Schätzung eine Irrtumswahrscheinlichkeit von höchstens α haben, so setzen wir N = min{N : P (Xn ≤ n1 ; ) ≥ α}. Dann gilt mit einer Sicherheit von mindestens (1–α), dass N ≤ N. Zu berechnen ist also P (Xn ≤ n1 ) = n1 X PHyp (x; N, N1 , n) x=0 in Abhängigkeit von N . Zahlenbeispiel: N1 = 20, n = 20, n1 = 5. Mit Sicherheit ist N ≥ N1 + (n–n1 ) = 35 - mindestens 20 markierte und 15 unmarkierte Fische. N < 35 P (X20 ≤ 5; N, N1 = 20) 0 35 < 0.0001 ... ... 40 .0019 41 0.0035 42 0.0059 43 0.0092 44 0.0138 45 0.0195 46 .0266 47 0.0352 48 0.0451 49 0.0564 50 0.0692 ... ... 55 0.1508 4-16 ToDo: EckenTest ergänzen ToDo: 2 ∗ 2 Kontingenztafeln ergänzen 4. HYPERGEOMETRISCHE VERTEILUNG Wir müssen eine Grenze festlegen, ab wann wir das kritische Ereignis als hinreichend unwahrscheinlich bezeichnen. Legen wir die Grenze bei 1 % fest, so erhalten wir als Schätzbereich: N ≥ 44. Legen wir die Grenze auf 5 % fest, so erhalten wir den Bereich N ≥ 49. 4.5. Prognoseproblem Eine Population vom Umfang N sei bereits ausgezählt. Man weiß, dass N1 Individuen einer bestimmten Art darin vorhanden sind. Eine Teilpopulation vom Umfang n wird willkürlich abgetrennt. Wieviele Individuen der oben besonders betrachteten Art sind in dieser Teilpopulation zu erwarten? Oder: Innerhalb welcher Spanne wird sich diese Anzahl Xn bewegen? Der Unterschied zum Schätzproblem: nun ist nach dem Ausgang des Auswahlexperiments gefragt. Beim Schätzproblem war dieser Ausgang bekannt; das Ziel war es, auf die Grundgesamtheit zurückzuschließen. Der Lösungsansatz ist analog den bisherigen: Ist die Population gleichmäßig durchmischt und tritt durch die Art der Stichprobenauswahl keine besondere Verzerrung auf, so ist Xn hypergeometrisch verteilt. P (Xn = x) = PHyp (x; N, N1 , n). en für Xn zu bekommen, können wir wieder einen Um einen Prognosewert X Proportionalansatz machen: N1 : N = Xn : n, und daraus eine Prognose en = N1 · n ableiten. X N Eine andere Prognose: man wählt den wahrscheinlichsten Wert als Prognose: en = x, so dass PHyp (x; N, N1 , n) maximal. X (“maximum probability”-Prognose). Bei der hypergeometrischen Verteilung sind beide Prognoseverfahren nahezu gleichwertig. Prognosebereich Einen Prognosebereich I für Xn können wir bilden, indem wir diejenigen Werte x zusammenfassen, für die P (Xn = x) = PHyp (x; N, N1 , n) hinreichend groß ist - entsprechend dem Vorgehen beim Bilden eines Schätzbereichs. Unsere Maßzahldefinition liefert uns auch eine Maßzahl für die Genauigkeit des Prognosebereichs: Xn fällt in den Prognosebereich I mit der Wahrscheinlichkeit X X P (Xn ∈ I) = P (Xn = x) = PHyp (x; N, N1 , n) x∈I x∈I Zahlenbeispiel: N = 70, N1 = 10, x = 30. Die “Proportionalprognose” für X30 ist x e3 = 10 70 · 30 = 4.29. Als Kriterium für den Prognosebereich I wählen wir: P (X30 = x) ≥ 10% 4.5. PROGNOSEPROBLEM x P (Xn = x) 0 .0021 1 .0206 2 .0843 3 .1908 4 .2652 5 .2364 6 .1368 7 .0507 8 .0115 9 .0014 10 .0001 ≥ 11 0 4-17 ← max. {3 . . . 6} : Prognosebereich I P (Xn ∈ I) = .1908 + 0.2652 + 0.2364 + 0.1368 = 0.8292. en = 4; Xn liegt mit einer TrefDie “maximum–probability”-Prognose ist X ferwahrscheinlichkeit von .8292 im Prognosebereich I = {3 ≤ x ≤ 6} . KAPITEL 5 Grundbegriffe: Test, Schätzung, Prognose Um mit den Methoden der mathematischen Statistik arbeiten zu können, haben wir beobachtbare Größen als Zufallsvariable aufgefaßt. Dazu haben wir einen (formalen) Wahrscheinlichkeitsraum (Ω, A , P ) definiert und Zufallsvariable angegeben, die unsere beobachtbaren Größen beschreiben. In diesen Rahmen sollen nun Test, Schätzung und Prognose eingeordnet werden. Zufallsvariable Wahrscheinlichkeitsraum Um die Beschreibung zu vereinfachen, benutzen wir in diesem Kapitel allgemeine Stellvertreter. So steht X für eine (die relevante) Zufallsvariable mit Werten in einen Werteraum (X, X ). X : (Ω, A , P ) → (X, X ) Wir benutzen ϑ ∈ Θ, wenn wir das Wahrscheinlichkeitsmass über einen Parameter kennzeichnen wollen und schreiben ϑ 7→ Pϑ 5.1. Test Ein Test ist ein statistisches Entscheidungsverfahren. Zu entscheiden ist, ob eine Beobachtung X einer vorliegenden Hypothese widerspricht oder nicht. Test Diese Hypothese kann z.B. formuliert sein als Aussage über den Parameter ϑ , etwa: {ϑ ≤ ϑ0 } = H . Das Entscheidungsverfahren wird als Funktion aufgefaßt, die jedem möglichen Beobachtungsergebnis x ∈ X eine Entscheidung zuordnet: die Hypothese zu verwerfen oder nicht zu verwerfen. Testfunktion Formalisiert: Testfunktion φ : X → [0, 1] mit der Codierung: ( 1: φ(x) = 0: Hypothese verwerfen Hypothese nicht verwerfen. Eine Testfunktion kann man zum Beispiel durch einen Verwerfungsbereich (kritischen Bereich) charakterisieren: Man legt einen Bereich V ⊂ X fest und setzt ( 1 falls x ∈ V φ(x) = 0 falls x ∈ / V. 5-1 Verwerfungsbereich 5-2 Annahmebereich 5. GRUNDBEGRIFFE: TEST, SCHÄTZUNG, PROGNOSE Der Bereich X \ V heißt Annahmebereich des Tests. Eine Hypothese kann darin bestehen, dass ϑ einen festen Wert von an- einfache these Hypo- nimmt: H = {ϑ = ϑ0 }. Dann spricht man von einer einfachen Hypothese. Gilt die Hypothese, so ist P (X ∈ V ; ϑ0 ) die Wahrscheinlichkeit, zufällig einen Messwert im Verwerfungsbereich V zu erhalten. Geht man nach der durch φ festgelegten Entscheidungsregel vor, so würde in diesem Fall die Hypothese fälschlich verworfen. Die Zahl P (X ∈ V ; ϑ0 ) = P (φ(X) = 1; ϑ0 ) Signifikanzniveau Irrtumswahrscheinlichkeit Hypothese!zusammengesetzte Niveau ϑ0 ∈ H heisst dann Signifikanzniveau Irrtumswahrscheinlichkeit des Tests φ. Gibt die Hypothese nur einen Bereich für ϑ an, z.B. H = {ϑ ≤ ϑ0 }, so spricht man von einer zusammengesetzten Hypothese und sagt, φ hält das Niveau α ein, falls P (X ∈ V ; ϑ) ≤ α für alle ϑ ∈ H . Anstelle von “Niveau” spricht man auch hier von “Irrtumswahrscheinlichkeit”. Dies ist ein Beispiel für einen traditionellen Wortgebrauch: im Sinne von Kapitel 3 ist das Niveau zwar eine obere Schranke für die Wahrscheinlichkeiten P (X ∈ V ; ϑ ∈ H ). Aber das Maximum (oder Supremum) von Wahrscheinlichkeiten ist in der Regel selbst keine Wahrscheinlichkeit mehr. Trotzdem benutzen wir hier noch bisweilen die traditionellen Bezeichnungen, obwohl es in der Regel keine Wahrschinlichkeiten im Sinne von Kapitel 3 sind. Gegenhypothese Alternative Das Niveau (Signifikanzniveau) eines Tests erfasst nur eine Seite der Medailie. Es sagt noch nicht viel über die Qualität des Tests aus. Ein Entscheidungsverfahren, das die Hypothese nie ablehnt, wird sie sicher auch nicht fälschlich ablehnen: Es hat eine Irrtumswahrscheinlichkeit von 0 % (Niveau α = 0 %), aber ist deshalb noch nicht gut. Die Güte eines Tests ist noch daran zu messen, ob der Test die Hypothese auch verwirft, wenn es nötig ist. Dazu muß man wissen, was der Hypothese gegenübersteht: Es muß eine Gegenhypothese (Alternativhypothese, Alternative) aufgestellt werden, etwa {ϑ > ϑ0 } = K . Die Zuordnung ϑ 7→ P (φ(X) = 1; ϑ) = P (X ∈ V ; ϑ) Gütefunktion Schärfe heißt Gütefunktion von φ. Für ϑ ∈ K spricht man von der Schärfe (Trennschärfe, Mächtigkeit) des Tests. Die Schärfe des Tests misst - in Abhängigkeit von ϑ die Wahrscheinlichkeit, die Hypothese zu verwerfen, falls ein Parameter ϑ aus der Gegenhypothese vorliegt. Beispiel 5.1. X hypergeometrisch verteilt. Untersuchter Parameter: ϑ = N1 . Gegebene (feste) Parameter: N = 25, n = 10; Wertebereich Hypothese Gegenhypothese X = {0, 1, 2, . . . , 9, 10}, H = {N1 ≤ 13}, K = {N1 > 13}. 5.1. TEST 5-3 Test mit Verwerfungsbereich V = {x > 7} = {8, 9, 10} ⊂ X . Hypothese Gütefunktion von φ: N1 P (X ∈ V ; N1 ) 0-7 0 8 < 0001 9 0.0003 10 0.0015 11 0.0048 12 .0127 13 0.0287 ≤ Irrtumswahrscheinlichkeit 14 15 16 17 18 Gegenhypothese 19 20 21 22 23 24 25 .0576 .1048 0.1757 .2737 .3986 .5447 .6988 .8411 .9478 1.0000 1.0000 1.0000 Schärfe ... ... ... ... ... ... ... ... ... ... Schärfe ToDo: Graph Der Test hält ein Niveau von ca. 3 % ein. 5.1.1. Konstruktion von Verwerfungsbereichen. Will man einen Test haben, der ein vorgegebenes Niveau α einhält, so bestimmt die Hypothese, welche Verwerfungsbereiche V dafür zulässig sind. Es muß gelten: P (X ∈ V ; ϑ) ≤ α für alle ϑ ∈ H . Unter allen zulässigen Verwerfungsbereichen gilt es, diejenigen mit möglichst großer Schärfe zu finden: P (X ∈ V ; ϑ) möglichst groß für ϑ ∈ K . Mit diesem Problem beschäftigt sich die statistische Test-Theorie. Die Lösung muß dabei keineswegs eindeutig sein: Es ist nicht der Fall, dass es bei jeder Kombination von Hypothese und Gegenhypothese einen “besten” Test gibt. Wenn es einen besten Test gibt, so muss dieser nicht eindeutig definiert sein. Beispiel 5.2. Beispiele: X hypergeometrisch verteilt; N, n bekannt, X = {0, 1, . . . , n} . Niveau α fest gewählt; N 0 ein fester Wert. 5-4 5. GRUNDBEGRIFFE: TEST, SCHÄTZUNG, PROGNOSE a) Teste H = {N1 ≤ N 0 } gegen K = {N1 > N 0 }. Einseitiges Testproblem. Kandidat für einen besten Test zum Niveau α: Verwerfungsbereich V = {x : x ≥ x} mit x = min{x : P (X ≥ x; N1 ) ≤ α für alle N1 ≤ N 0 } = min{x : P (X ≥ x; N1 = N 0 ) ≤ α}. b) Teste H = {N1 ≥ N 0 } gegen K = {N1 < N 0 }. Einseitiges Testproblem. Kandidat für einen besten Test zum Niveau α : Verwerfungsbereich V = {x : x ≤ x} mit x = max{y : P (X ≤ x; N1 ) ≤ α für alle N1 ≥ N 0 } = max{y : P (X ≤ x; N1 = N 0 ) ≤ α}. Diese Tests halten das vorgegeben Niveau α ein und sind beste Tests unter allen Tests zum vorgegebenen Niveau, die einen Verwerfungsbereich der Form V = {x : x ≥ x0 } bzw. V = {x : x ≤ x0 }haben. Bedingt durch die diskrete Struktur der Verteilung kann es jedoch sein, dass dieser Test das Niveau nicht ausschöpft, dass also P (X ≥ x; N1 ) < α für alle N1 ∈ H , analog für Fall b). In diesem Fall kann der Verwerfungsbereich evtl. verbessert werden, indem zusätzliche, nicht benachbarte Punkte hinzu genommen werden. randomisiert Dies Vorgehen ist jedoch nicht üblich: man versucht sich auf Tests einzuschränken, die eine vorgegeben plausible Struktur haben (hier: Verwerfungsbereiche der Form V = {x : x ≥ x0 }. Soll dennoch das Niveau ausgeschöpft werden, so wähle man einen randomisierten Test, d.h. eine Entscheidungsregel, die bei Resultaten in den Nachbarschaft des Verwerfungsbereichs eine randomisierte, zufällige Entscheidung treffen (das Los werfen). In der formalen Notation kann dies berücksichtigt werden, indem wir als Codierung wählen: φ(x) = 1 : φ(x) = p : φ(x) = 0 : Hypothese verwerfen Hypothese mit Wahrschinlichkeit p verwerfen Hypothese nicht verwerfen. In der Regel sind Tests für einfache Hypothese und Gegenhypothese einfacher zu finden als für zusammengesetzte, Tests für einseitige Probleme einfacher zu finden als für zweiseitige. 5.1. TEST 5-5 Aus einseitigen Tests kann man sich zweiseitige zusammenflicken. Beispiel: Ist V1 Verwerfungsbereich eines Tests für H = {N1 = N 0 } gegen K1 = {N1 > N 0 } zum Niveau α1 und V2 für H = {N1 = N 0 } gegen K2 = {N1 < N 0 } zum Niveau α2 , so ist V1 ∪ V2 Verwerfungsbereich für H gegen K1 ∪ K2 zum Niveau α1 + α2 . Wählt man V1 optimal für das Testproblem H gegen K1 und V2 optimal für H gegen K1 mit Niveaus α1 + α2 ≤ α, so bekommt man durch V1 ∪ V2 einen brauchbaren Test, der das Niveau α einhält. Wählt man α1 = α2 = α/2, so spricht man vom Abschneiden gleicher Schwänze. Zahlenbeispiel: X hypergeometrisch verteilt; N = 25, n = 10, N 0 = 14. y P (X = x; N1 = N 0 ) P (X ≥ x; N1 = N 0 ) 0 0.0001 1.0000 1 0.0009 1.0000 2 0.0118 0.9991 3 0.0693 0.9873 4 0.2021 0.09180 5 0.3118 0.7159 6 0.2600 0.4041 7 0.1155 0.1442 8 0.0260 0.0287 9 0.0026 0.0027 10 0.0001 0.0001 Teste H = {N1 = N 0 } gegen = {N1 6= N 0 } zum Niveau α = 5 %. Lösung: Für H gegen K1 = {N1 < N 0 } ist V1 = {x ≥ 2} (optimaler) Verwerfungsbereich mit Irrtumswahrscheinlichkeit α1 = P (X ≤ 2; N1 = N 0 ) = 0.0.127 . Für H gegen K2 = {N1 > N 0 } ist V2 = {x ≥ 8} (optimaler) Verwerfungsbereich mit α2 = P (X ≥ 8; N1 = N 0 ) = 0.0287. V1 ∪ V2 = {0, 1, 2, 8, 9, 10} ist zweiseitiger Verwerfungsbereich mit Irrtumswahrscheinlichkeit P (X ∈ V1 ∪ V2 ; N1 = N 0 ) = 0.0127 + 0.0287 = 0.0414. Der Test mit Verwerfungsbereich V1 ∪ V2 ist ein Test für H gegen K zum Niveau α = 5 % . α1 = 0.0127 α2 = 0.0287 Das Abschneiden gleicher Schwänze hätte zu den Bereichen V1 = {x ≤ 2} und V2 = {x ≥ 9} geführt; für H gegen K also zum Bereich {0, 1, 2, 9, 10}. Der dadurch definierte Test hält auch das Niveau ein, hat aber eine geringere Schärfe. Abschneiden gleicher Schwänze 5-6 5. GRUNDBEGRIFFE: TEST, SCHÄTZUNG, PROGNOSE α1 ≤ α/2 α2 ≤ α/2 Übung 5.3. Berechne die Gütefunktion der Tests zu V = {0, 1, 2, 8, 9, 10} und zu V = {0, 1, 2, 9, 10} für die Werte N1 = 14, 15, 20, 21. 5.2. Schätzung Bereichsschätzer Bei der Schätzung ist aufgrund der Beobachtung X ein Bereich anzugeben, in dem der unbekannte wahre Parameter wahrscheinlich liegt. Ein Schätzer (Bereichsschätzer) ist eine Zuordnung b x 7→ Θ(x), b die jedem x ∈ X einen Schätzbereich Θ(x) zuordnet. Für jeden theoretisch möglichen Wert ϑ ist b P (ϑ ∈ Θ(X); ϑ) die Wahrscheinlichkeit, dass der aus der (zufälligen) Beobachtung X berechb nete Schätzbereich ϑ(X) tatsächlich den Parameter ϑ enthält. Ist b P (ϑ ∈ Θ(X); ϑ) ≥ (1 − α) für alle ϑ, b Bereichsschätzer mit einem Vertrauensniveau (KonfidenzniVertrauensniveau so heißt Θ Sicherheitswahr- veau, einer Sicherheitswahrscheinlichkeit) von (mindestens) 1 − α (bzw. einer Irrtumswahrscheinlichkeit von (höchstens) α). Wird ein Bereichsscheinlichkeit b b Irrtumswahrschätzer der Form Θ(x) = {ϑ ≤ ϑ(x)} oder Θ(x) = {ϑ(x) ≤ ϑ} gesucht, so spricht man von einseitiger Problemstellung; bei scheinlichkeit b einseitig!Problemstellung zweiseitiger Problemstellung wird ein Bereich der Form Θ(x) = {ϑ(x) ≤ ϑ ≤ ϑ(x)} gesucht. Wie beim Testproblem kann es auch hier mehrere zweiseitig!Problemstellung Lösungen geben. Wie beim Testproblem ist hier nach einem Verfahren gefragt, nicht nach der Lösung im Einzelfall. In dieser Situation ist - wie beim Testproblem der wahre Parameter nicht bekannt. Das Verfahren muss garantieren, dass das Niveau eingehalten wird - unabhängig davon, welchen Wert der wahre Parameter haben mag. Das Vertrauensnivau ist eine Schranke, die für alle möglichen Werte eingehalten werden muss. Beispiel 5.4. Beispiel für Schätzprobleme: X hypergeometrisch verteilt; N , n bekannt, X = {0, 1, . . . , n} Vertrauensniveau (1 − α) fest gewählt; X beobachtet 5.2. SCHÄTZUNG 5-7 a) Schätze N1 nach oben ab. Einseitiges Schätzproblem. Gesucht: Bereichsschätzer b Θ(X) = {N1 ≤ N 1 (x)} mit b P (N1 ∈ Θ(X); N1 ) ≥ 1 − α für alle N1 : 0 ≤ N1 ≤ N. Lösung: N 1 (x) = max{N1 : P (X ≤ x; N1 ) > α} b) Schätze N1 nach unten ab. Einseitiges Schätzproblem. Gesucht: Bereichsschätzer b Θ(x) = {N 1 (x) ≤ N1 } mit b P (N1 ∈ Θ(x); N1 ) ≥ 1 − α für alle N1 : 0 ≤ N1 ≤ N ∗ . Lösung: N 1 (x) = min{N1 : P (X ≥ x; N1 ) > α}. Analog zum Vorgehen beim Testen kann man zweiseitige Schätzbereiche konstruieren, indem man einseitige Bereiche kombiniert. 5.2.1. Zusammanhang zwischen Tests und Schätzbereichen. Tests und Schätzbereiche hängen so zusammen: Ist für ϑ0 jeweils Vϑ0 Verwerfungsbereich eines Niveau-α-Tests der Hypothese {ϑ = ϑ0 } , so definiert b x 7→ Θ(x) = {ϑ : x ∈ / Vϑ } einen Bereichsschätzer mit Irrtumswahrscheinlichkeit von höchstens α (Sicherheitsniveau 1 − α). Die Form des Bereichsschätzers hängt von der des Tests ab. Geht man dabei von einseitigen Tests aus, so erhält man einseitige Bereichsschätzer, von zweiseitigen Tests erhält man zweiseitige Bereichsschätzer. Beispiel 5.5. X hypergeometrisch verteilt; N = 12, n = 6 . Niveau α festgelegt auf 5 % ; zweiseitig. 5-8 5. GRUNDBEGRIFFE: TEST, SCHÄTZUNG, PROGNOSE Hypothese Annahmebereich AN0 Irrtumswahrscheinlichkeit N1 = N0 P (X ∈ V ; N0 ) 0 {0} 0 1 {0, 1} 0 2 {0, 1, 2} 0 3 {0, 1, 2, 3} 0 4 {1, 2, 3, 4} 0.0303 5 {1, 2, 3, 4} 0.0152 6 {1, 2, 3, 4} 0.0411 7 {2, 3, 4, 5} 0.0152 8 {2, 3, 4, 5} 0.0303 9 {3, 4, 5, 6} 0 10 {4, 5, 6} 0 11 {5, 6} 0 12 {6} 0 Daraus: Bereichsschätzer; Sicherheitsniveau 95 %: b x Schätzbereich Θ(x) . . .. 0 {N1 ≤ 3} 1 {1 ≤ N1 ≤ 6} 2 {2 ≤ N1 ≤ 8} 3 {3 ≤ N1 ≤ 9} 4 {4 ≤ N1 ≤ 10} 5 {7 ≤ N1 ≤ 11} 6 {9 ≤ N1 ≤ 12} Test und Schätzbereich sind nicht eindeutig festgelegt; oft sind geringe Verschiebungen möglich. So bei N0 = 6: Ein gültiger Annahmebereich wäre auch {2, 3, 4, 5}; die daraus abgeleiteten Schätzer: x = 1 : {1 ≤ N1 ≤ 5} x = 5 : {6 ≤ N1 ≤ 11]}. 5.3. Prognose Prognosebereich Trefferwahrscheinlichkeit 5.3.1. Einfache Prognose. Bei der einfachen Prognose ist - bei festgelegtem Parameterwert ϑ - ein Bereich anzugeben, in dem eine Beobachtung X zu erwarten ist. Das Prognoseverfahren soll in Abhängigkeit von ϑ einen Prognosebereich X(ϑ) angeben. Die Wahrscheinlichkeit P (X ∈ X(ϑ)) mit der X im Bereich X(ϑ) liegt, heißt Prognosewahrscheinlichkeit (Trefferwahrscheinlichkeit). 5.3. PROGNOSE 5-9 Beispiel 5.6. X hypergeometrisch verteilt; N = 25, n = 0. Für den Parameterwert N1 = 13 sind Prognosebereiche mit mindestens 95% Treffwahrscheinlichkeit: (vgl. 5.2) Bereich Trefferwahrscheinlichkeit {0 ≤ x ≤ 7} 0.9713 {3 ≤ x ≤ 7} 0.9586 {3 ≤ x ≤ 10} 0.9873 Im allgemeinen wird man einen Prognosebereich minimaler Länge auswählen, hier also den Bereich {3 ≤ x ≤ 7} . Eine Beobachtung ist in diesem Bereich mit mehr als 95 % Wahrscheinlichkeit zu erwarten. Sucht man einseitige Prognosebereiche mit einer garantierten Treffsicherheit von mindestens (1 − α), so müssen nur Grenzen zu einer Seite festgelegt werden: e a) untere Abschätzung: Gesucht ist X(ϑ) der Form e X(ϑ) = {x ≥ X(ϑ)}. Beispiel hypergeometrische Verteilung mit ϑ = N1 ; wähle X(N1 ) = max{x : P (X ≥ x; N1 ) ≥ 1 − α} = max{x : P (X < x − I; N } = max{x : P (X ≤ x − 1; N1 ) ≤ α}. e b) obere Abschätzung: Gesucht ist X(ϑ) der Form e X(ϑ) = {x ≤ X(ϑ)}. Beispiel hypergeometrische Verteilung mit ϑ = N1 ; Wähle X(N1 ) = min{x : P (X ≤ x, N1 ) ≥ 1 − α}. Für das zweiseitige Problem erhält man wieder einen Prognosebereich, e der zumindest die Trefferwahrscheinlichkeit (1 – α) einhält, als X(ϑ) = {X(ϑ) ≤ x ≤ X(ϑ)} , wobei X(ϑ) und X(ϑ) Grenzen der einseitigen Bereiche mit Trefferwahrscheinlichkeiten (1 − α1 ), (1 − α2 ), α1 + α2 ≤ α sind. 5.3.2. Allgemeine Prognose und Toleranzbereiche. In 5.3.1 ist die einfachste Form des Prognoseproblems angegeben. In der komplizierteren Form tauchen Schätz- und Prognoseproblem vermischt auf: in einem ersten Versuchsteil wird ein Beobachtungsergebenis X erzielt. Aufgrund dieses Ergebnisses ist ein Prognoseintervall gesucht, in dem in einem zweiten Versuchsteil eine Beobachtung X 0 zu erwarten ist. Das Prognoseverfahren soll in Abhängigkeit von der ersten Beobachtung X einen Prognosebee reichsschätzer X(X) angeben. Der Prognosebereichsschätzer hat die Überdeckungswahrscheinlichkeit (1 − δ), wenn e P (X 0 ∈ X(X); ϑ) ≥ (1 − δ) für alle ϑ ∈ ϑ. Hier taucht jedoch der Zufall in zwei Rollen auf: in der Vorbeobachtung X und in der neuen Beobachtung X 0 . Anstelle eine strikte Einhaltung der Prognosebereichsschätzer 5-10 5. GRUNDBEGRIFFE: TEST, SCHÄTZUNG, PROGNOSE Überdeckung zu fordern, muss man sich deshalb darauf beschränken, diese mit einer gewissen Wahrscheinlichkeit zu erhalten: e P (P (X 0 ∈ X(X); ϑ) ≥ (1 − δ)) ≥ (1 − α) Toleranzbereiche für alle ϑ ∈ ϑ. Bereiche mit dieser Eigenschaft heissen Toleranzbereiche. Eine Diskussion dieser Toleranzbereiche kann hier noch nicht erfolgen. 5.4. Einseitige Fragestellung bei Monotonie Wir spezifizieren was es heißt, dass ein Modell die Anordnung von Zahlen nach ihrer Größe respektiert. Eine Familie von Wahrscheinlichkeitsmaßen P (; ϑ), monoton ϑ∈Θ⊂R heißt monoton in ϑ, wenn für alle x ∈ R die entsprechenden Verteilungsfunktionen ϑ 7→ F (x; ϑ) monoton von ϑ abhängen. Wir beschränken uns jetzt sogar noch auf den Fall, dass für alle x ∈ R ϑ 7→ F (x; ϑ) monoton fallend in ϑ ist, d.h. ϑ ≤ ϑ0 ⇒ F (x; ϑ) ≥ F (x; ϑ0 ). Mit wenigen Zusatzüberlegungen können die anderen monotonen Modelle darauf zurückgeführt werden. Unter dieser Einschränkung ist die Situation also stets so, wie wir sie von der hypergeometischen Verteilung mit N1 als unbekanntem Parameter kennen. 5.4. EINSEITIGE FRAGESTELLUNG BEI MONOTONIE 5-11 5.4.1. Testproblem bei Monotonie. Testproblem, Niveau α. a) {ϑ ≤ ϑ0 } gegen {ϑ > ϑ0 }. Lösung: Wähle als Verwerfungsbereich V = {x > x} mit x = inf{x0 : x0 1 − α) - Quantil für P ( ; ϑ0 )} b) Teste {ϑ ≥ ϑ0 } gegen {ϑ < ϑ0 }. Lösung: Wähle als Verwerfungsbereich V = {x < x} mit x = sup{x0 : x0 α- Quantil für P (; ϑ0 )}. 5.4.2. Schätzproblem bei Monotonie. Konfidenzniveau (1 − a). a) Schätze ϑ nach oben ab. Lösung: Wähle als Konfidenzbereich b ϑ(x) = {ϑ : P (X ≤ x; ϑ) ≥ α}. 5-12 5. GRUNDBEGRIFFE: TEST, SCHÄTZUNG, PROGNOSE b) Schätze ϑ nach unten ab. Lösung: Wähle als Konfidenzbereich b ϑ(x) = {ϑ : P (X ≥ x; )ϑ ≥ α}. 5.4.3. Einfaches Prognoseproblem bei Monotonie. (ϑ bekannt), (Prognosewahrscheinlichkeit (1 − α). a) Abgrenzung von X nach unten: Setze als Prognosebereich: {X ≥ sup xα } Abbildung 5.1: Schätzung nach oben b) Abgrenzung von X nach oben: Setze als Prognosebereich: {X ≤ inf x1−α }. KAPITEL 6 Binomialverteilung 6.1. Konstruktion einer Maßzahl Beispiel 6.1. In der BRD beträgt z.Zt. die relative Häufigkeit bei Geburten weiblich männlich 0.489 0.511. Die Beobachtung an einem Tag in einem Krankenhaus ergab unter n = 13 Geburten n1 = 8 Mädchen n0 = n − n1 = 13 − 8 = 5 Jungen. Ist es aufgrund dieser Beobachtung gerechtfertigt zu sagen, dass es in diesem Krankenhaus besonders viele weibliche Geburten gibt? Ein Lösungsvorschlag: Wir wollen die Abweichung als durch die Beobachtung bestätigt ansehen, falls dieser Wert zu klein ist, d.h. falls es zu unwahrscheinlich ist, dass n1 = 8 oder noch ein extremerer Wert (bei einem mittleren Anteil von 0.489) auftritt. Modell 4.1 (Auswahl aus einer endlichen Grundgesamtheit, 4.1.2) können wir nicht anwenden: wir können z.B. keine fest definierte Grundgesamtheit angeben, die von vornherein festgelegt ist (!) und aus der unsere Stichprobe d vom Umfang her eine (unverzerrte)Stichprobe!unverzerrte Stichprobearstellt. Wir müssen zum ursprünglichen Vorgehen von (2.2) zurückkehren und eine geeignete Maßzahl definieren. Wie bisher fassen wir die Beobachtung als Resultat eines Zählprozesses auf. Codierung: Yi =<Geschlecht des i. Kindes> Yi = 1 für weiblich Yi = 0 für männlich P Xj = ji=1 Yi , X0 = 0. Xi gibt die Anzahl der Mädchen unter den ersten i Kindern an. Die Beobachtung (6.1) ist zu schreiben als X13 = 8. Den Ergebnisraum können wir wie in (4.2) ansetzen: Ω = {0, 1}n . 6-1 6-2 6. BINOMIALVERTEILUNG Typische Ereignisse sind {Yi = 0}, (Yi = 1}, {Xi = }, . . . ; i = 1, . . . , n. Xi und Yi sind dann Zufallsvariable wie in der formalen Definition (3.6). Wir müssen einen Ansatz für die Wahrscheinlichkeit P (Y1 = 1) wählen. Bekannt ist uns nur die relative Häufigkeit von Mädchen-Geburten im BRDMittel p = 0.489. Wir wählen als Ansatz (6.1) P (Y1 = 1) = p. Haben wir bereits i Geburten erfasst, so wissen wir noch nichts über das Geschlecht des i + 1. Kindes. Die Wahrscheinlichkeit, dass das i + 1. Kind ein Mädchen ist, hängt nicht davon ab, wieviele der i früher erfaßten Kinder Mädchen sind. Deshalb setzen wir an P (Yi+1 = 1; Xi = k 0 ) = P (Y1 = 1) = p, (6.2) unabhängig davon, welchen Wert k 0 wir bereits gezählt haben. (3.1iii) zwingt uns dann, folgende Wahrscheinlichkeiten für eine Jungengeburt anzusetzen: P (Y1 = 0) = 1 − P (Y1 = 1) = 1 − p P (Yi+1 = 1; Xi = k 0 ) = 1 − p für alle Werte k 0 . (6.3) Die Rechenregeln für Zählprozesse können wir, wie in (3.1) zusammengefaßt übernehmen: (6.4) P (X0 = 0) = 1, P (X0 = −1) = 0. P (Xii−1 = k ∧ Yi = 1) = P (Xi−1 = k) · P (Yi=1 ; Xi−1 = k) etc. P (Xi = k) = P (Xi−1 = k) · P (Yi = 0; Xi−1 = k) + +P (Xi−1 = k − 1) · P (Yi = 1; Xi−1 = k − 1). Die Formel (6.4) wird einfacher, wenn wir (6.1/ ??/ 6.3) einsetzen P (Xi = k) = P (Xi−1 = k) · P (Y1 = 0) + P (Xi−1 = k − 1) · P (Y1 = 1) = P (Xi−1 = k) · (1 − p) + P (Xi−1 = k − 1) · p. Das reicht. Beispiel 6.2. Zahlenbeispiel: p = 0.489, 1 − p = 0.511 Lösung von (6.1): Der Lösungsvorschlag von (6.1) lautet: Die Abweichung wird als gesichert angesehen, falls X13 ≥ 8 bei Gültigkeit der Hypothese p = 0.439 zu unwahrscheinlich ist. Die Rechnung wie in (6.4) mit p = 0.489 ergibt: P (X13 ≥ 8) = 13 X P (X13 = k) = 0.2635. k=8 Selbst bei gültiger Hypothese von p = 0.489 können wir mit einer Wahrscheinlichkeit von ca. 26 % erwarten, dass 8 oder sogar mehr Mädchen unter 13 Neugeborenen sind. Die Beobachtung reicht nicht aus, um die Hypothese zu verwerfen. 6.3. GESCHLOSSENE DARSTELLUNG i k p(Xi−1 = k − 1) · p + P (Xi = k) · (1 − p) = P (Xi = k) 0 0 1 1 0 0 + 1 · (1 − p) 1 1 1·p+0 2 0 0 + (1 − p) 2 1 (1 − p) · p + p(1 − p) 2 2 p·p+0 3 0 0 + (1 − p) · (1 − p) 3 . (1 − p)p + (1 − p) · p · (1 − p) . . . . . . . . 6-3 =1−p = 0.5110 =p = 0.6890 = (1 − p) = .2611 = 2 · p · (1 − p) = 0.4998 =p = 0.2391 = (1 − p) = 0.1334 = 2p(1 − p) = 0.3831 . 13 7 12 6 p6 (1 ·p+ 12 7 p7 (1 − p)5 (1 − p) = 13 7 p7 (1 − p)6 = 0.2043 13 8 12 7 p7 (1 − p)5 · p + 12 8 p8 (1 − p)4 (1 − p) = 13 8 p8 (1 − p)5 = 0.1466 − p)6 . . . . . . . . . 6.2. Zusammenfassung des Modells Wir fassen die formale Definition des Modells zusammen: Ω = {0, 1}n . Ereignisse sind {Yi = 0}, {Yi = 1}, {Xi = 2}, . . . wobei i = ...,n Yi : Ω → {0, 1} i , . . .) 0 falls ω = (. . . , 0 Yi (ω) = i , . . .) 1 falls ω = (. . . , 1 Xj : Ω → N Xj (ω) = j X Yi (ω), X0 (ω) = 0. i=0 P ist definiert durch i) P (Yi = 0) = 1 − p P (Yi = 1) = p ii) P (Yi = 0 | Y1 , . . . , Yi−1 ) = P (Yi = 0) = 1 − p “Yi unabhängig von Xi−1 ”. P (Yi = 1 | Y1 , . . . , Yi−1 ) = P (Yi = 1) = p. 6.3. Geschlossene Darstellung 6-4 6. BINOMIALVERTEILUNG Wir können wieder eine direkte, geschlossene Formel zur Berechnung der Wahrscheinlichkeit angeben: n x (6.5) P (Xn = x) = p (1 − p)n−x für 0 ≤ x ≤ n x (6.6) P (Xn = x) = 0 für x > n oder x < 0. Beweis. Analog zum Vorgehen in (2.5.2) kann man nun die Richtigkeit der Formel mit vollständiger Induktion zeigen. Für n = 0, 1 überprüft man die Formel durch Einsetzen. Für n > 1 haben wir nach (4.1.4) P (Xn = x) = P (Xn−1 = x) · (1 − p) bzw. P (Xn = x) = P (Xn−1 = x − 1) · p +P (Xn−1 = x) · (1 − p) für x = 0 für x 6= 0. Wenn die Formel bereits für alle n0 < n als richtig erkannt ist, so können wir einsetzen n−1 0 P (Xn = x) = p · (1 − p)n−1 · (1 − p) für x = 0 0 n − 1 x−1 bzw. P (Xn = x) = p · (1 − p)n−1 · p + x−1 n−1 x p · (1 − p)n−1−x · (1 − p) für x 6= 0 x n x = p (1 − p)n−x . x Nach dem Prinzip der vollständigen Induktion ist die Formel damit bewiesen. Wir formulieren nun Modell Unabhängige Festlegung eines Merkmals p relative Häufigkeit der ausgezeichneten Elemente n Umfang der Stichprobe χ Anzahl der ausgezeichneten Elemente in der Stichprobe Definition 6.3. Das Wahrscheinlichkeitsmaß mit n x Pbin (x; n, p) = p (1 − p)n−x x Binomialverteilung heisst Maß der Binomialverteilung (kurz: Binomialverteilung). Wir sagen: X ist binomialverteilt mit den Parametern n, p, wenn P (X = x) = Pbin (x; n, p). Nach den Überlegungen aus (6.1) wissen wir: Sind (Ω, A , P ) wie in (6.2) definiert, so ist Xn binomialvertellt mit den Parametern n, p. 6.3. GESCHLOSSENE DARSTELLUNG 6-5 6.3.1. Praktische Berechnung. Software: Die hypergeometrische Verteilung ist in Statistik- und Tabellen-Kalkulationsprogrammen weit verbreitet. Die Qualität der Implementierung ist jedoch sehr unterschiedlich, so dass zumindest Plausibilitätskontrollen nötig sind. In R stehen unter anderem folgende Funktionen für die BinomialVerteilung zur Verfügung: R-Aufruf Funktion dbinom(x, size, prob) Pbinom (X = x; n = size, p = prob) dbinom(x, size, prob, log=TRUE) ln(Pbinom (X = x; n = size, p = prob)) pbinom(q, size, prob) Pbinom (X ≤ x; n = size, p = prob) qbinom(q, size, prob) minx : Pbinom (X ≤ x; n = size, p = prob) ≥ q rbinom(nn, size, prob) erzeugt nn Zufallszahlen aus Pbinom ( · ; n = size, p = prob) Die Argumente der R-Funktionen sind nach folgender Tabelle in die Bezeichnungen dieses Skripts zu übersetzen: R entspricht hier size n Stichprobenumfang prob p Erfolgswahrscheinlichkeit Tabellen: Tabellen der Binomialverteilung oder der zugehörigen Verteilungsfunktion sind in den meisten statistischen Tabellensammlungen enthalten. Beispiel für eine Binomialtabelle: In dieser Tabelle ist n die Anzahl der Beobachtungen, r das Zählergebnis. Tabelliert ist Pbin (X ≥ r; n, p) = 1 − P (X ≤ r − 1; n, p) = 1 − F (r − 1; n, p). Darüberhinaus können die Tabellen zur F-Verteilung1 benutzt werden, zu denen folgende Beziehung besteht: Für n = n0 + n1 ist (6.7) 1Vorsicht: Pbin (X ≤ n1 ; n, p) ≤ α genau dann, wenn Hier steht F nicht für die Verteilungsfunktion von X, sondern für die “Fisher-Verteilung”, die aus Tabellen ablesbar ist. 6-6 6. BINOMIALVERTEILUNG Abbildung 6.1: Binomialverteilung n0 p · ≥ F1−α (2(n1 + 1), 2 · n0 ). n1 + 1 1 − p Es ist (6.8) Pbin (X ≥ n1 ; n, p) ≤ α genau dann, wenn n1 1−p · ≥ F1−α (2(n0 + 1), 2 · n1 ). n0 + 1 p 6.4. PARAMETERABHäNGIGKEIT BEI DER BINOMIALVERTEILUNG 6-7 Abbildung 6.2: Binomialverteilung .Aus: 2. White et al., Tables for Statisticians Symmetrie – Beziehungen: Für die Binomialverteilung gilt die Symmetrie Pbin (x; n, p) = Pbin (n − x; n, 1 − p), also z.B. Pbin (x = 8; n = 20, p = 0.75) = Pbin (x = 12; n = 20, p = 0.25) = 0.00076. 6.4. Parameterabhängigkeit bei der Binomialverteilung 6.4.1. Auswirkung des Parameters p: aus: K.Stange, Angewandte Statistik 6-8 6. BINOMIALVERTEILUNG aus: K.Stange, Angewandte Statistik, Abb. 14. 1. 3. Vier Binomialverteilungen bn (x | p) = nx px q n−x für n = konst = 20 und p = 0, 10; 0, 20; 0, 30; 0, 40 und 0, 50. 6.4.2. Auswirkung des Parameters n: aus: K.Stange, Angewandte Statistik, Abb. 14.1.2. Vier Binomialverteilungen bn (x; p) = nx px q n−x für p = konst = 0, 10 = 10 % und n = 10, 20, 50 und 100. Bei gegebenem n ist die Verteilungsfunktion für alle x, 0 ≤ x ≤ n, monoton fallend in p. Die einseitigen Fragestellungen in Bezug auf p können wie in 5.4 gelöst werden; speziell auf die Binomialverteilung zugeschnitten lauten die Lösungen: 6.5. GRUNDPROBLEME BEI BINOMIALVERTEILUNG 6-9 6.5. Grundprobleme bei Binomialverteilung 6.5.1. Testproblem: Niveau α. a) Teste {p ≤ p0 } gegen {p > p0 }. Lösung: Wähle als Verwerfungsbereich V = {x > x} mit x = min{x0 : P (X ≤ x0 ; n, p0 ) ≥ 1 − α} = min{x0 : P (V ≥ x0 + 1; n, p0 ) ≤ α} = max{x0 : P (X ≥ x0 ; n, p0 ) > α}. b) Teste {p ≥ p0 } gegen {p < p0 } Lösung: Wähle als Verwerfungsbereich V = {x < x} mit x = max{x0 : P (X < x0 ; n, p0 ) ≤ α} = max{x0 : P (X ≥ x0 ; n, p0 ) ≥ 1 − α} = min{x0 : P (X ≤ x0 ; n, p) > α}. 6.5.2. Schätzproblem. Konfidenzniveau (1 − α); gegeben Beobachtung x. a) Schätze p nach oben ab. Lösung: Wähle als Konfidenzbereich {p ≤ p(x)} mit p(x) = sup{p0 : P (X ≤ x; n, p0 ) ≥ α}. b) Schätze p nach unten ab. Lösung: Wähle als Konfidenzbereich {p ≥ p(x)} mit p(x) = inf{p0 : P (X ≥ x; n, p0 ) ≥ α}. 6.5.3. Vergleich Binomialverteilung / Hypergeometrische Verteilung. Die hypergeometrische Verteilung haben wir bei Stichproben aus einer endlichen Grundgesamtheit vorgefunden. Hier veränderte sich die noch zur Verfügung stehende Grundgesamtheit mit jedem Zug. Hatten wir zu Anfang eine Population vom Umfang N = n0 + n1 und für Y1 = 1 eine Wahrscheinlichkeit P (Y1 = 1; N, n1 ) = nN1 , so war nach n Zügen mit Zählergebnis Yn = n1 noch ein Rest von N − n = (n0 − (n − n1 )) + (n1 − n1 ) und für Yn+1 = 1 eine Wahrscheinlichkeit 1) P (Yn+1 = 1 | Xn = n1 ; N, n1 ) = (nN1 −n −n . 6-10 6. BINOMIALVERTEILUNG Yn = n1 Die Wahrscheinlichkeit für den Ausgang des n + 1. Zuges hängt vom Ergebnis der Züge Y1 , . . . , Yn ab. Fachausdruck: (Y1 , . . . , Yn , Yn+1 ) sind stostochastisch!abhägigchastisch abhängig. Im Gegensatz dazu war bei der Binomialverteilung die Wahrscheinlichkeit gleichbleibend: P (Y1 = 1; p) = P (Yn+1 = 1 | Xn = n1 ; p) = p unabhägig (Y1 , . . . , Yn , Yn+1 ) sind stochastisch unabhängig. Die Binomialverteilung ist einfacher zu berechnen. Man stellt sich vor, dass für sehr großen Umfang N der Grundgesamtheit gegenüber n beim hypergeometrischen Modell das Stichprobenziehen praktisch nicht ins Gewicht fällt: n1 n1 − n1 ≈ N N −n wenn N n, n1 n1 . 6.6. SPEZIELLE ANWENDUNGEN 6-11 Dann sollte gelten n1 ) ≈ Phyp (x; N, n1 , n) N n1 − n1 ≈ Pbin (x; n, p = ). N −k Diese Beziehung gilt in der Tat. In der Praxis wird oft die Annäherung n1 ) Phyp (x; N, n1 , n) ≈ Pbin (x; n, p = N benutzt, wenn N > 10 · n. Pbin (x; n, p = Beispiel 6.4. In einem Kreuzungsversuch werden zur Auswertung die Erträge einer Getreidesorte nach einem bestimmten Merkmal sortiert. Dazu kann wegen der Masse nicht der Ertrag eines ganzen Feldes ausgezählt werden. Man beschränkt sich auf eine Stichprobe. Für diese Situation haben wir das Modell der hypergeometrischen Verteilung (4.1) entwickelt. Die Resultate sind aber, selbst nach Formel (4.1.1) nur mühselig zu ermitteln, wenn n0 und n1 sehr groß sind. Zahlenbeispiel: Besteht die Gesamtpopulation aus N = 1000 Pflanzen, davon n1 = 300 mit dem gesuchten Merkmal, so erhält man in einer Stichprobe vom Umfang n = 50 ein Zählergebnis X50 = x mit folgenden Wahrscheinlichkeiten: exakte Lösung Näherungslösung x PHyp (x; N = 1000, n1 = 300, n = 50) Pbin (x; n = 50, nN1 = 0.3) 0 < 0.0001 < .0001 10 0.0370 0.0386 15 0.1255 0.1223 20 0.0359 0.0370 30 < 0.0001 < .0001 6.6. Spezielle Anwendungen 6.6.1. Binomialverteilung beim Zeichentest auf Symmetrie. Beispiel [aus Pfanzagl II, p. 136 - 137]: Es ist die Wirksamkeit zweier Schlafmittel (Laevo Hyoscyamin Hydrobromid [D] und Laevo Hyoscin Hydrobromid [L) zu vergleichen. Als Maß der Wirksamkeit dient die Verlängerung der Schlafdauer. Da die Wirksamkeit von Schlafmitteln erfahrungsgemäß bei verschiedenen Personen sehr verschieden ist, kann man die Genauigkeit des Vergleiches dadurch steigern, dass man beide Mittel an ein und derselben Person erprobt und ihre Wirksamkeit vergleicht. Selbstverständlich muß das Experiment mit mehreren Personen wiederholt werden, um daraus bündige Schlüsse ziehen zu können. Tabelle zeigt das Ergebnis von 10 Versuchen: Verlängerung des Schlafes in Stunden 6-12 6. BINOMIALVERTEILUNG Patient Schlafmittel Unterschied D L L-D 1 +0,7 +1,9 +1,2 2 –1,6 +0,8 +2,4 3 –0,2 +1,1 +1,3 4 –1,2 +0,1 +1,3 5 –0,1 –0,1 6 +3,4 +4,4 +1,0 7 +3,7 +5,5 +1,8 8 +0,8 +1,6 +0,8 9 0,0 +4,6 +4,6 10 +2,0 +3,4 +1,4 0,0 Tabelle 8. Die Wirksamkeit von Laevo Hyoscyamin Hydrobromid [D] und Laevo Hyoscin Hydrobromid [L] Quelle: A. R. Cushny and A. R. Peebles,: The action of optimat isomers 11, Journal of Physiology Bd. 32, 1905, S. 501–510. Nimmt man an, dass die Wirksamkeit beider Mittel gleich ist, so ist die Wahrscheinlichkeit für das Auftreten einer positiven Differenz ebenso groß wie die für das Auftreten einer negativen Differenz, nämlich 1/2. Die Differenz 0 kommt theoretisch nicht vor, da wir ja zwei stetige Variable miteinander vergleichen und die Wahrscheinlichkeit, dass beide genau übereinstimmen, Null ist. Praktisch arbeitet man jedoch stets mit gerundeten Werten, so dass die Differenz 0 - wie auch im obigen Beispiel - tatsächlich auftreten kann. Solche Beobachtungen werden einfach weggelassen, denn sie können zur Entscheidung der Frage, ob die Differenz wesentlich positiv oder wesentlich negativ ist, nichts beitragen. Scheiden wir dementsprechend Patienten Nr. 5 aus, so haben wir eine Stichprobe vom Umfange n = 9 mit 9 positiven Werten: k = 9. Um zu prüfen, ob dadurch der Unterschied zwischen der Wirksamkeit der beiden Schlafmittel gesichert ist, berechnen wir 1 P (X9 ≥ 9; n = 9, p = ) 2 1 1 = Pbin (9; n = 9, p = ) = = 0.0020. 2 512 Diese Wahrscheinlichkeit ist so gering, dass wir annehmen können, dass Schlafmittel L tatsächlich wirksamer ist als D. 6.7. Tests für den Parameter p der Binomialverteilung 6.7. TESTS FÜR DEN PARAMETER P DER BINOMIALVERTEILUNG 6-13 Für einseitige Fragestellungen ist die Lösung des Testproblems in (6.5.1) angegeben. Für zweiseitige Fragestellungen können daraus Lösungen zusammengesetzt werden: Beispiel 6.5. Bei dominant–rezessiver Vererbung und einer Elterngeneration Aa × Aa P hatten wir nach dem Laplace–Ansatz für das Auftreten der Phänotypen A und a in der Tochtergeneration (F ) die Wahrscheinlichkeiten Phänotyp A : P = 3/4 Phänotyp a : P = 1/4 F Anhand eines Kreuzungsexperiments mit n = 20 Kreuzungen soll beurteilt werden, ob ein bestimmtes Merkmal A dominant vererbt wird, oder ob ein anderer Erbgang vorliegt. Gesucht ist ein Entscheidungsverfahren. Falls die Hypothese zutrifft, soll das Verfahren höchstens mit 1 % Wahrscheinlichkeit zu einem Fehlschluss führen. Standardisierte Formulierung: Teste die Hypothese H = {p = 0.75} gegen K = {p 6= 0.75}. Das Problem ist ein zweiseitiges Testproblem. Wir suchen einen Verwerfungsbereich der Form {X < x oder X >} mit Irrtumswahrscheinlichkeit α ≤ 0.1. Können wir eineiige Zwillinge außer Betracht lassen, so ist das BinomialModell (6.1) anwendbar. Die Anzahl X der A–Nachkommen bei n = 20 Kreuzungen ist binomialverteilt mit Parametern n = 20, p unbekannt. Erster Schritt: Konstruktion eines Bereichs mit gleichen Schwänzen. Gesucht: x mit P (X < x; n = 20, p = 0.75) ≤ x mit P (X > x; n = 20, p = 0.75) ≤ α 2 α 2 = 0.005 = 0.005. Dabei soll x möglichst groß und x möglichst klein sein. Um Tabelle (6.1, 6.2) zu benutzen, formulieren wir um: α P (X < x; n = 20, p = 0.75) ≤ 2 genau dann, wenn α P (X > 20 − x; n = 20, p = 0.25) ≤ , 2 und α P (X > x; n = 20, p = 0.75) ≤ 2 genau dann, wenn α P (X < 20 − x; n = 20, p = 0.25) ≤ = 0.005, 2 d.h. genau dann, wenn α P (X ≥ 20 − x; n = 20, p = 0.25) ≥ 1 − = 0.995. 2 6-14 6. BINOMIALVERTEILUNG Aus der Tabelle erhalten wir als Grenzen 20 − x + 1 = 11 20 − x = 1 ⇒ ⇒ x = 10 x = 19. Wir berechnen die exakte Irrtumswahrscheinlichkeit für den Verwerfungsbereich V = (X < 10 oder X > 19); nach Konstruktion wissen wir bereits, dass die Irrtumswahrscheinlichkeit höchstens 1 % beträgt. Die Hypothese ist einfach. So brauchen wir nur für p = 0.75 zu berechnen: P (X ∈ V ; p = 0.75) = = Pbin (X < 10 ∨ X > 19; n = 20, p = 0.75) = Pbin (X ≤ 9; n = 20, p = 0.75) + +Pbin (X = 20; n = 20, p = 0.76) = Pbin (X ≥ 11; n = 20, p = 0.25) + +Pbin (X = 0; n = 20, p = 0.25) = 0.00394 + (1 − 0.99683) = .00711. Zweiter Schritt: Wir probieren ob wir den gefundenen Verwerfungsbereich mit gleichen Schwänzen noch erweitern können, ohne das Niveau 1 % zu verletzen. Dazu berechnen wir die Wahrscheinlichkeiten für die nächstliegenden Punkte unter Verwendung des hypothetischen Parameterwerts p = 0.75. Nach Tabelle ist P (X = 10; n = 20, p = 0.75) = = P (X = 10; n = 20, p = 0.25) = P (X ≥ 10; n = 20, p = 0.25) –P (X ≥ 11; n = 20, p = 0.25) = 0.00394 − 0.00094 = 0.00300 P (X = 19; n = 20, p = 0.75) = 0.99683 − 0.97569 = 0.021143. Die Hinzunahme auch nur eines weiteren Punktes zum Verwerfungsbereich würde die Irrtumswahrscheinlichkeit auf mehr als 1 % erhöhen. Der gefundene Bereich kann nicht verbessert werden. Um eine Information über die Güte des Tests mit Verwerfungsbereich V = {X < 10 oder X > 19} zu bekommen, berechnen wir die Gütefunktion für verschiedene p-Werte aus der Gegenhypothese = {p 6= 0.75}. Mit Hilfe der Tabelle ist wie oben P (X ∈ V ; p) = Pbin (X ≥ 11; n = 20, 1 − p) +Pbin (X = 0; n = 20, 1 − p). 6.7. TESTS FÜR DEN PARAMETER P DER BINOMIALVERTEILUNG 6-15 p P (X ∈ V ; p) .90 0 + (1 – 0.87842) = 0.12158 .80 .00056 + (1 – 0.98847) = 0.01209 .70 .01714 + (1 – 0.99920) = 0.01794 .60 .12752 + (1 – 0.99996) = 0.12756 .50 .41190 + (1 – 1.0) = 0.41190 .40 (1 – 0.24466) + 0 = 0.75534 .30 (1 – 0.04796) + 0 = 0.95204 .20 (1 – 0.00254) + 0 = 0.99746 .10 (1 – 0.00001) + 0 = 0.99999 Für Parameterwerte, die nahe bei der Hypothese liegen (p = 0.90, 0.80, oder p = 0.70, 0.60) führt die Entscheidungsregel nur unwahrscheinlich zu einer Verwerfung der Hypothese. Bei p = 0.30 oder weniger verwirft das Verfahren dann mit genügender Sicherheit. Eine Wahrscheinlichkeit von p > 0.75 kann dann auftreten, wenn mehrere Gene das betrachtete Merkmal phänotypisch erzeugen können. Oder wenn die Elternpopulation (bei der Festlegung über ein Gen) nicht eine reine Aa-Population ist, sondern auch AA-Individuen enthält. Kann von der Biologie her ausgeschlossen werden, dass p > 0.75, so steht als Gegenhypothese = {p < 0.75}. Das Problem ist dann ein einseitiges Testproblem. Übung 6.6. Welches ist der beste Verwerfungsbereich für {p = 0.75} gegen = {p < 0.75} mit Irrtumswahrscheinlichkeit α ≤ 5 %? Berechne die Gütefunktion an den Stellen p = 0.70, p = 0.60, p = 0.30. Beispiel 6.7. Bei 10 Kreuzungen wurde ein Merkmal a 7 mal beobachtet. Widerspricht dies der Annahme, dass das Merkmal mit einer Wahrscheinlichkeit p = 0.25 auftritt? Das Beispiel ist ein Testproblem, die Hypothese {p = 0.25}. Die Gegenhypothese ist nicht genauer festgelegt; also müssen wir ansetzen: = (p 6= 0.25} (zweiseitiges Testproblem). Wir wollen wissen: Wie groß ist die Irrtumswahrscheinlichkeit, wenn wir bei X = 7 die Hypothese bereits verwerfen? Der schärfste Test, der bei dieser Beobachtung bereits verwirft, wäre ein Test, der (X ≥ 7} gerade noch im Verwerfungsbereich enthält; also ein Test mit Verwerfungsbereich (X < x oder X > x} (zweiseitige Problemstellung!), x = 8. 6-16 6. BINOMIALVERTEILUNG Arbeiten wir nach der Methode “Abschneiden gleicher Schwänze”, so hat dieser Test eine Irrtumswahrscheinlichkeit P (X < x oder X > x; p = 0.25) = = P (X < x; p = 0.25) + P (X > x; p = 0.25) ≤ 2 · P (X > x; p = 0.25). Für x = 8, n = 10 lesen wir aus der Tabelle ab: P (X > 8; n = 10, p = 0.25) = 0.00351; die Wahrscheinlichkeit, 7 oder mehr unter 10 bei Gültigkeit der Hypothese zu beobachten, beträgt also 0.351 %. Da wir wegen der zweiseitigen Gegenhypothese auch sicherstellen müssen, dass der Test die Hypothese auch verwirft, wenn X zu kleine Werte annimmt, bekommen wir eine Irrtumswahrscheinlichkeit insgesamt von 2 · 0.351% = 0.702 %. Beispiel 6.8. (Who killed John Wayne?) Ist die berichtete Krebshäufigkeit signifikant gegenüber dem Bevölkerungsdurchschnitt erhöht? Die Daten: zensiert betroffene Population: davon noch erfaßt: davon an Krebs erkrankt: an Krebs gestorben: 220 Personen 150 Personen 91 Personen 46 Personen. Nach den zitierten “Angaben des Wissenschaftlers” dürften höchstens 1/5, d.h. 30 von 150 Personen, an Krebs erkranken. Die erste Frage: wie verläßlich sind diese Daten? Über die Datenerhebung haben wir keine Information. Es ist nicht bekannt, wieviele der 150 erfaßten Mitarbeiter heute noch leben. Es ist zu vermuten, dass von dem 1955er Filmteam einige heute noch leben. Von diesem Teil ist es natürlich noch nicht bekannt, woran sie sterben werden; die Beobachtung wurde vermutlich abgebrochen, bevor vollständige Daten vorlagen (Fachausdruck: zensierte Beobachtung). Wir müssen interpretieren: an Krebs erkrankt mindestens 91 Personen als Todesursache Krebs angegeben mindestens 46 Personen. 6.7. TESTS FÜR DEN PARAMETER P DER BINOMIALVERTEILUNG 6-17 Die Vergleichszahl (30 von 150) können wir anhand der Literatur überprüfen; dabei findet man 1/5 als Krebshäufigkeit unter den Todesursachen - die Anzahl der Erkrankten kann wesentlich darüber liegen, weil bei weitem nicht jede Krebserkrankung zum Tode führt. Für die Auswertung stehen also zur Verfügung: erfasste Personen n = 150 Krebs–Todesfälle X ≥ 46. Hypothese H = (p ≤ 0.20}; Gegenhypothese K = (p > 0.20}. (Einseitige Fragestellung, weil nach heutigem Wissen durch radioaktive Strahlung niedriger Dosis die Krebs–Todesrate nur erhöht, und keinesfalls gesenkt wird.) Wir testen mit einer Irrtumswahrscheinlichkeit von höchstens 1 %, ob die Beobachtung X150 ≥ 46 der Hypothese widerspricht. Zu überprüfen ist: ? Pbin (X ≥ 46; n = 150, p = 0.20) ≤ 1 % . Die Tabelle in (6.1, 6.2) reicht nicht bis zu einem Umfang von 150. Wir nutzen die Beziehung (6.8) zur F -Verteilung mit n1 = 46, n0 = 150 − 46 = 104 und müssen überprüfen: 46 1 − 0.20 · = 1.75 104 + 1 .20 ? ≥ F0.99 (2 · (104 + 1), 2 · 46) = F0.99 (210, 92). Ist F0.99 (210, 92) selbst nicht in der Tabelle enthalten; so können wir z.B. ablesen: F0.99 (210, 92) ≤ F0.99 (100, 70) = 1.70. Also ist 1.75 ≥ 1.70 ≥ F0.99 (210, 92) und damit nach (6.8) Pbin (X ≥ 46; n = 150, p = 0.20) ≤ 1 %. Die Daten reichen aus, die Hypothese {p ≤ 0.20} zu verwerfen. Die Irrtumswahrscheinlichkeit beträgt höchstens 1 %. Warnung! Die Irrtumswahrscheinlichkeit von 1 % garantiert: Bei Gültigkeit der Hypothese und der Modellvorstellung ergibt eine zufällig herausgegriffene Beobachtung mit höchstens 1 % Wahrscheinlichkeit ein Ergebnis, das im Verwerfungsbereich liegt. Ein typischer Fehler ist es, nur extreme Beobachtungen zu untersuchen: Im Extremfall greift man sich nur ganz extreme Beobachtungen heraus und landet mit Wahrscheinlichkeit 1 im Verwerfungsbereich. Nicht, weil die Hypothese falsch ist, sondern die Auswahl der Ereignisse eine Verzerrung mit sich bringt. Vorsichtsmaßnahme bei Experimenten: Hypothese und Alternative eindeutig formulieren, bevor die Beobachtungen gemacht werden! Bei bereits vorliegenden Beobachtungen: Können die Beobachtungen wirklich als unverzerrte Stichproben aufgefaßt werden? (Höheres “Berufsrisiko”, Lebensgewohnheiten etc. ohne Einfluss? etc.). 6-18 6. BINOMIALVERTEILUNG Anmerkung zu Beispiel 6.8: Weitere Beobachtungen in Süd-Utah belegen, dass ein echtes Ergebnis, kein Artefakt, vorliegt. In den an das Testgebiet angrenzenden Regionen ist deutlich ein Anstieg der Krebsfälle zu beobachten. 6.8. Weitere Grundprobleme 6.8.1. Schätzung des Parameters p bei Binomialverteilung. Der Stichprobenumfang n ist bekannt; der Parameter p soll aufgrund einer Beobachtung der binomialverteilten Zufallsvariablen X geschätzt werden. Als Punktschätzer können wir setzen X pb(X) = n Einseitige Schätzbereiche mit Irrtumswahrscheinlichkeit ≤ α erhalten wir a) Abschätzung nach unten:P {p ≥ p} mit p = sup{p : nx=X nx px (1 − p)k−x ≤ α}. b) Abschätzung nach oben P n x k−x ≤ α}. {p ≤ p} mit p = inf{p : X x=0 x p (1 − p) Einen zweiseitigen Schätzbereich {p ≤ p ≤ p} mit Irrtumswahrscheinlichkeit α erhalten wir, indem wir nach oben und nach unten je mit Irrtumswahrscheinlichkeit ≤ α/2 abschätzen. Mit Hilfe von (6.7 / 6.8) können die Grenzen p, p, auch aus der F -Verteilung abgelesen werden. Für eine Irrtumswahrscheinlichkeit α und eine Beobachtung X = n1 , n = n0 + n1 erhalten wir a) Abschätzung nach unten: p= 1+ n0 +1 n1 1 . · F1−α (2 · (n0 + 1), 2 · n1 ) b) Abschätzung nach oben: p= F1−α (2 · (n1 + 1), 2 · n0 ) . + F1−α (2 · (n1 + 1), 2 · n0 ) n0 n1 +1 Beispiel 6.9. Bei einer bestimmten Bluthochdruck-Therapie wurde bei 6 von insgesamt 8 behandelten Patienten eine Besserung beobachtet. Schätze mit einer Fehlerwahrscheinlichkeit von 1 % die Heilungschancen nach unten ab. Das Binomialmodell mit n = 8 ergibt bei Beobachtung X = 6 eine Punktschätzung pb für p 6 pb = = 0.75. 8 6.8. WEITERE GRUNDPROBLEME 6-19 Zur unteren Abschätzung muß p gesucht werden, so dass X 8 px (1 − p)n−x ≤ 0.01, Pbin (X ≥ 6; n = 8, p) = x x=6 und unter dieser Bedingung soll p möglichst groß sein. Berechnung nach der Tabelle (5.7.2): Für p = 0.3 ist Pbin (X ≥ 6; n = 8, p = 0.3) = 0.01129 > 0.01 für p = 0.25 ist Pbin (X ≥ 6; n = 8, p = 0.25) = 0.00423 ≤ 0.01. Damit liegt p zwischen 0.25 und 0.3; der Bereich {p ≥ 0.25} umfaßt den Bereich (p ≥ p}. Also ist {p ≥ .25} Schätzbereich für p mit Irrtumswahrscheinlichkeit ≤ 1 %. Bedingt durch die Abstufung der Tabelle ist dieser Schätzbereich größer (und damit die Irrtumswahrscheinlichkeit geringer) als gesucht. Berechnung mit der F –Tabelle: n1 = 6, n0 = 2 p= 1+ 3 6 1 1 = = 0.2933. 1 1 + 2 · 4.82 · F0.99 (2 · 3, 2 · 6) Als Schätzbereich für p mit Irrtumswahrscheinlichkeit ≤ 1 % erhalten wir {p ≥ 0.2933}. Beispiel 6.10. Bei einer Untersuchung über angeborene Rotgrünblindheit wurden folgende Zahlen ermittelt: Untersucht: 9049 Männer, davon rotgrünblind: 725. Gehen wir davon aus, dass Familieneffekte etc. bei der Untersuchung zu vernachlässigen sind, so können wir das Ergebnis als Resultat eines Zählprozesses verstehen, wobei das Ergebnis X binomialverteilt ist mit Parametern n = 9049, p unbekannt. Als Schätzer für p mit X = n1 = 725 725 = 0.0801. Einseitige Schätzbereiche mit einer erhalten wir pb = nn1 = 9049 Irrtumswahrscheinlichkeit von 1% erhalten wir nach (6.8.1). Untere Abschätzung: n = 9049, n1 = 725, n0 = n − n1 = 8324 {p ≥ p} mit p = ≥ ≥ 1+ 9325 725 1+ 8325 726 1+ 8325 725 1 · F0.99 (2 · 8325, 2 · 725) 1 · F0.99 (∞, 500) 1 · 1.16 = 0.06992. Obere Abschätzung {p ≤ p} mit p = ≤ ≤ F0.99 (2 · 726, 2 · 8324) + F0.99 (2 · 726, 2 · 8324) F0.99 (∞, ∞) 8324 726 + F0.99 (∞, ∞) 1 = 0.08022. 8324 726 + 1 8324 726 6-20 6. BINOMIALVERTEILUNG Daraus erhalten wir einen zweiseitigen Schätzbereich mit einer Irrtumswahrscheinlichkeit von 1 % + 1 % = 2 % {0.06992 ≤ p ≤ 0.08022}. Die Abschätzung ist also mit 98 % Sicherheit bis auf ca. 1/100 genau. Dabei haben wir bei der Festlegung der Grenzen noch in Kauf nehmen müssen, dass diese evtl. weiter auseinanderliegen als nötig, da wir die F -Werte nur abgeschätzt haben. 6.8.2. Prognose bei Binomialverteilung. Prognoseproblem: X binomialverteilt mit bekannten Parametern n, p. Gesucht: Prognose für X Punktprognose: Erwartungswert EXn · p. Bereichsprognose: Prognosebereiche mit Trefferwahrscheinlichkeit ≥ 1 − α. a) Prognoseabschätzung nach unten: {X ≥ x} mit x = max{x : P (X ≥ x; n, p) ≥ 1 − α}. b) Prognoseabschätzung nach oben: {X ≤ a} mit x = min{x : p(X ≤ x; n, p) ≥ 1 − α} Zweiseitige Abschätzung: {x ≤ X ≤ x}, wobei x und x die Grenzen für die einseitigen Bereiche mit Trefferwahrscheinlichkeit 1 − α2 sind. Beispiel 6.11. Wieviele aa–Nachkommen sind bei 20 Aa×Aa-Kreuzungen und dominant-rezessivem Erbgang mindestens zu erwarten? Zugelassene Irrtumswahrscheinlichkeit: 1 % . Das Problem ist ein einseitiges Prognoseproblem. Gesucht ist ein Prognosebereich der Form {X ≥ x} mit Trefferwahrscheinlichkeit 1 − α, α = 1 % . X, die Anzahl der aa–Nachkommen, ist binomialverteilt. Zu erwarten sind EX = 20 · 0.25 = 5 Nachkommen (Punktprognose). Nach Tabelle (5.7.2) ist P (X ≥ 0; n = 20, p = 0.25) = 1 ≥ 0.99. P (X ≥ 1; n = 20, p = 0.25) = 0.99683 ≥ 0.99 P (X ≥ 2; n = 20, p = 0.25) = 0.97569 < 0.99 Als Grenze ist zu setzen: x = 1. Mit 99 % Sicherheit ist {X ≥ 1}. Nur die Möglichkeit, überhaupt keinen aa-Nachkommen zu erhalten, kann mit hinreichender Sicherheit ausgeschlossen werden. 6.9. VERGLEICH ZWEIER BINOMIALVERTEILUNGEN 6-21 6.9. Vergleich zweier Binomialverteilungen Beispiel 6.12. Zu Vergleichen ist die Fruchtbarkeit zweier Arten in einem gegebenen Biotop. Wir nehmen wieder die vereinfachte Situation aus Beispiel (2.1): beide Arten leben in Paaren zusammen, ein Paar bekommt höchstens ein Nachkommen pro Jahr. Ein Paar der Art I bekommt mit Wahrscheinlichkeit p1 einen Nachkommen, ein Paar der Art 0 mit Wahrscheinlichkeit p0 . X zählt die Nachkommen der Art I (n1 Paare), Z die der Art 0 (n0 Paare). Bekommt jedes Paar die Jungen unbeeinflußt von Geburt oder nichtGeburt in den anderen Paaren, so ist X binomialverteilt mit Parametern n1 , p1 und Z binomialverteilt mit Parametern n0 , p0 . Gleiche Fruchtbarkeit liegt vor, wenn p0 = p1 . Die Frage, ob Art I weniger fruchtbar ist als Art 0, kann formalisiert werden. Ist die Hypothese H = {p0 ≤ p1 } zu verwerfen zugunsten der Gegenhypothese K = {p0 > p1 }? Im Unterschied zu (6.7) ist hier weder p0 noch p1 bekannt. Wir sprechen von Vergleichstests im Unterschied zu Parametertests wie in (6.7). Vergleichstests können als einseitige Fragestellungen (wie hier) oder als zweiseitige, bei Binomialverteilungen oder bei anderen Verteilungen auftreten. Das Problem haben wir an einem Beispiel schon in Kapitel 1 gelöst und sind dabei auf die hypergeometische Verteilung gestoßen. Die allgemeine Lösung: 6.9.1. Fisher’s exakter Test. Testproblem: X binomialverteilt mit nX , pX Z binomialverteilt mit nZ , pZ . Teste gegen H = {pX ≤ pZ } (oder H = {pX = pZ }) K = {pX > pZ }. Irrtumswahrscheinlichkeit: α. Lösung: Verwerfe die Hypothese H bei Beobachtung X = x, Z = z , falls Phyp (X ≤ x; N = n0 + n1 , n1 = n1 , k = x + z) ≤ α. Der Verwerfungsbereich ist hier zweidimensional: Die Zählergebnisse in beiden Teilpopulationen gehen in die Entscheidung ein. Die hypergeometrische Verteilung kommt folgendermaßen ins Spiel: Angenommen, die Hypothese pX = pZ = p würde zutreffen. Dann können Vergleichstests Parametertests 6-22 6. BINOMIALVERTEILUNG wir die Wahrscheinlichkeit berechnen, in einem Fall mit insgesamt k Nachkommen davon x1 in Art I anzutreffen: (z = k − x, N = n0 + n1 ). P (X = x ∧ X + Z = k) P (X + Z = k) P (X = x ∧ Z = k − x) P (X + Z = k) P (X = x) · P (Z = z) (“Unabhängigkeit”) P (x + z = k) Pbin (x; n1 , p) · Pbin (z; n0 , p) Pbin (k; N, p) n1 n0 n1 x p)n1 −x nz0 pz (1 − p)n0 −z x x p (1 − = z n0 +n1 k N (n0 +n1 )−k p (1 − p) k k P (X = x | X + Z = k) = = = = = = Phyp (x; N = n0 + n1 , n1 = n1 , k = x + z). Ist also X = x, Z = z beobachtet, so sei k = x + z. Es ist dann, falls = {p0 = p1 } zutrifft P (X ≤ x | X + Z = n) = Phyp (X ≤ x; N = n0 + n1 , n1 = n, k = x + z). ToDo: ref Auf dieser Beziehung baut Fisher’s exakter Test (6.9.1) auf. Für Beispiel (1.1) mit n0 = 6, n1 = 8 haben wir die Hypothese {p0 = p1 } gegen {p1 < p0 } zum Niveau α zu verwerfen, falls wir Zählergebnisse X = x, Z = z erhalten mit Phyp (X ≤ x; N = 14, n1 = 8, k = x + z) ≤ α. Für z = 5, x = 4 haben wir in (1.3.3) für die linke Seite den Wert 0.238 erhalten. Die Beobachtung kann also eine Verwerfung rechtfertigen, wenn wir eine Irrtumswahrscheinlichkeit von α ≥ 23.8 % inkauf nehmen. Die Verwerfungsbereiche sind auch in Tabellen zu finden; so z.B. Tabelle 46 in Odeh, R.E., e.a.: Pocket book of Statistical Tables, Decker 1977. (Siehe 6.3 - 6.6) 6.10. Kontingenztafeln Wir verweisen hier auf eine verwandte Problemklasse, die allerdings den Rahmen der Binomialverteilung verlässt. Bei den bisherigen Beispielen haben wir unsere Beobachtung nur nach einem Merkmal (z.B. Geschlecht des Kindes in 6.1) klassifiziert, das nur zwei 6.10. KONTINGENZTAFELN 6-23 Abbildung 6.3: Kritische Werte für Fisher’s Test. Aus: Odeh et al. Abbildung 6.4: Kritische Werte für Fisher’s Test. Aus: Odeh et al. Ausprägungen haben konnte (hier: männl. oder weiblich). Klassifizieren wir nach m Merkmalen mit rj Ausprägungen, j = 1, . . . , m, so wird das Versuchsergebnis nicht mehr durch ein einziges Resultat X beschrieben, sondern durch eine Ergebnistafel (Kontingenztafel) Xi1 , . . . , im , ij = 1, . . . , rj mit Xi1 , . . . , im =< Anzahl der Beobachtungen mit der Kombination: Merkmal 1: Ausprägung i1 Merkmal m: Ausprägung im >. 6-24 6. BINOMIALVERTEILUNG Abbildung 6.5: Kritische Werte für Fisher’s Test. Aus: Odeh et al. Beispiel 6.13. Wir knüpfen an Beispiel 5.1 an. Registriert man in diesem Beispiel außer dem Geschlecht des Kindes noch weitere “Merkmale”der Geburt, etwa: Alter der Mutter, Verlauf der Geburt, . . ., so kann das Resultat der Beobachtung folgendermaßen aussehen: 6.10. KONTINGENZTAFELN 6-25 Abbildung 6.6: Kritische Werte für Fisher’s Test. Aus: Odeh et al. Registriertes 1. Geschlecht r1 = 2 2. Alter der Mutter Codierungen r2 = 5 3. Geburtsverlauf r3 = 5 Merkmal Ausprägungen 1) weiblich 2) männlich 1) 2) 3) 4) 5) 1) 2) 3) 4) 5) < 15 ≥ 15, < 20 ≥ 20, < 25 ≥ 25, < 30 ≥ 30 normale Geburt Frühgeburt Spätgeburt Totgeburt sonstige Komplikation 6-26 6. BINOMIALVERTEILUNG Resultat X 2. Merkmal (Alter) 1) < 15 2) < 20 3) < 25 4) < 30 5) ≥ 30 1) normal 0w 1m 8w 5m 6w 6m 4w 2m 0w 3m 2) früh 1w 0m 0 0m 1w 0m 2w 1m 4w 6m 3) spät 0w 0m 1w 2m 0w 0m 0w 0m 2w 1m 4) Totgeb. 2w 1m 0w 0w 0w 1m 2w 0m 1w 0m 5) sonst. Kompl. 0w 0m 2w 1m 0w 0m 0w 0m 0w 2m 3. Merkmal (Verlauf) Hier ist das Merkmal I (Geschlecht) in die Tafeleintragungen selbst mit hineingenommen. Anstelle der Binomialverteilung tritt nun die Multinomialverteilung: Ist pr1 ,...,rm .. die Wahrscheinlichkeit, die Merkmalskombination mit den Ausprägungen r1 , . . . , rm zu beobachten, so hat bei insgesamt k Beobachtungen das Ergebnis X = x die Wahrscheinlichkeit PMult (X = x; k, p(p1 , . . . , pr1 ,rm )) = k! = · (p1,...,I )x1,...,I · (pr1 ,...,rm )xr1 ,...,rm (x1,...,1 )! . . . (xr1 ,...,rm )! Das statistische Vorgehen in dieser Situation ist (im Prinzip) analog zu dem der vorangehenden Abschnitte. Dabei ist es in der Praxis weit verbreitet, die Multinomialverteilung oder abgeleitete Verteilungen durch einfachere Verteilungen anzunähern (z.B. “χ2 -Methode”, die die gut tabellierte χ2 -Verteilung benutzt). Literatur: Pfanzagl II, §8. KAPITEL 7 Abhängigkeit, Unabhängigkeit, Bayes-Formel 7.1. Stochastische Unabhängigkeit Beispiel 7.1. : [Pfanzagl II, p. 93]. Nach einer bekannten Faustregel sind unter 86 Kindern 2 Zwillinge. In einem geographisch begrenzten Gebiet wurden unter 208 Kindern 10 Zwillinge beobachtet. Rechtfertigt diese Beobachtung den Schluß, daß in diesem 2 Gebiet die Faustregel nicht gilt? (Zum Vergleich: 86 · 208 = .4.837). Setzt man wie in Beispiel 6.1 an, jetzt mit der Codierung ( 1 für Zwillinge Yi = 0 für nicht Zwillinge so würde man für das beobachtete oder noch extremere Ergebnis die Maßzahl P (X ≥ 10; n = 208, p = 2 2 ) = 1 − P (X ≤ 9; n = 208, p = ) 86 86 berechnen. Unter der Verwendung der Formel (6.5 ) für die Binomialverteilung also 9 P (X ≥ 10; n = 208, p = X 2 2 ) = 1− P (X = x; n = 208, p = ) 86 86 x=0 9 X 2 208 2 x = 1− ( ) (1 − )n−x 86 86 x x=0 = 1 − 0.9752 = 0.0248, also schon eine aufallend kleine Wahrscheinlichkeit. Tatsächlich jedoch ist das Modell aus Kapitel ?? hier so direkt nicht anwendbar. “Zwillinge” sind keine unabhängigen Ereignisse; sie treten immer paarweise auf. Deshalb ist der Ansatz P (Yi = 1 | Xi−1 ) = p = P (Yi = 1) aus ?? ii nicht gerechtfertigt. ToDo: Zufallsvariable Definition 7.2. Zwei (diskrete) Zufallsvariable X, Y heißen stochastisch verallgemeinern unabhängig, wenn für alle Werte x von X und y von Y gilt: stochastisch unP (X = x | Y = y) = P (X = x) falls P (Y = y) 6= 0. abhängig Wir definieren allgemein: 7-1 7-2 7. ABHÄNGIGKEIT, UNABHÄNGIGKEIT, BAYES-FORMEL Entsprechend: zwei Ereignisse A, B ∈ A heißen , wenn gilt: P (A | B) = P (A) falls P (B) 6= 0. Im Modell der Binomialverteilung (6.2) sind die einzelnen Züge Yi , Yj stochastisch unabhängig. Es ist für alle i, j, i 6= j: und sowie P (Yi P (Yi P (Yi P (Yi = 1 | Yj = 1 | Yj = 0 | Yj = 0 | Yj = 0) = p = P (Yi = 1). = 1) = p = P (Yj = 1 | Yj = 1) = 0) = 1 − p = P (Yi = 0) = 1) = 1 − p = P (Yi = 0). Im Beispiel (6.1) gesprochen: die Wahrscheinlichkeit dafür, daß die i. Geburt die eines Mädchens ist, hängt nicht davon ab, ob das j. Kind (j 6= i) ein Junge oder ein Mädchen ist. Anders im Modell (4.1.1). Dort sind die Zufallsvariablen Yi , Yi nicht stochastisch unabhängig. Es ist z.B. für festes N, N1 P (Y2 = 1 | Y1 = 0) = P (Y2 = 1 ∧ Y1 = 0 N1 = , P (Y1 = 0) N −1 aber N1 N die Wahrscheinlichkeitsverteilung für den 2. Zug hängt vom Stand nach dem 1. Zug, d.h. vom Ausgang des 1. Zuges ab. P (Y2 = 1) = P (Y2 = 1 ∧ Y1 = 0) + P (Y2 = 1 ∧ Y1 = 1) = Der Einfachheit halber setzen wir zur Definition: Ist P (B) = 0 oder P (B) = 1, so heißen A, B stochastisch unabhängig für jedes A ∈ A . Bemerkung 7.3. Mit der Definition der bedingten Wahrscheinlichkeit (3.2) gilt: zwei Ereignisse A, B sind stochastisch unabhängig, wenn P (A ∩ B) = P (A) · P (B). Zwei Zufallsvariable X, Y sind stochastisch unabhängig, wenn P (X = x ∧ Y = y) = P (X = x) · P (Y = y) für alle Werte x von X, y von Y . Bemerkung 7.4. A, B mit P (B) 6= 0, P (B) 6= 1 sind genau dann stochastisch unabhängig, wenn P (A | B) = P (A | B c ). Entsprechend für Zufallsvariable: X, Y sind stochastisch unabhängig, wenn für alle Werte x von X, y und y 0 von Y mit P (Y = y) 6= 0.P (Y = y 0 ) 6= 0 P (X = x | Y = y) = P (X = x | Y = y 0 ). Beweis (für die Ereignisse formuliert): Sind A, B stochastisch unabhängig, so ist P (A ∩ B) = P (A) · P (B). 7.1. STOCHASTISCHE UNABHÄNGIGKEIT Es ist P (B c ) = 1 − P (B), also P (A | B c ) = (3.1 ii) ist P (A) = P (A ∩ B) + P (A ∩ B c ), also P (A∩B c P (B) 7-3 = P (A∩B c ) 1−P (B) . Nach P (A ∩ B c ) = P (A)–P (A ∩ B) = P (A)–P (A) · P (B) = P (A) · (1–P (B)). Damit ist P (A | B c ) = P (A | B c ). P (A)(1−P (B)) 1−P (B) = P (A) = P (A | B), also P (A | B) = Gilt andererseits P (A | B) = P (A | B c ), so ist P (A) = P (A ∩ B) + P (A ∩ B C ) = P (A | B) · P (B) + P (A | B c ) · P (B C ) = = P (A | B) · P (B) + P (B C )) = P (AB) · 1, also P (A) = P (A | B), d.h. A und B sind unabhängig. Bemerkung 7.5. An der Formulierung (7.3) sieht man: für die Frage der Unabhängigkeit spielt die Reihenfolge von A, B keine Rolle. Beispiel 7.6. Beispiele zur Unabhängigkeit: Im Laplace–Modell für einen fairen Würfel ist für einen Wurf P (<gerade Zahl>) = P ({2, 4, 6}) = 36 = 12 P (<ungerade Zahl>) = P ({1, 3, 5}) = 63 = 12 = P ({1, 2}) = 62 = 12 . Die Ereignisse A =<gerade Zahl> und B =<ungerade Zahl> sind nicht stochastisch unabhängig: Es ist P (A | B) = P (A ∩ B) P (∅) 0 1 = = = 0 6= = P (A). P (B) P (B) 1/2 2 Die Ereignisse A =<gerade Zahl> und C =< 1 oder 2 > dagegen sind stochastisch unabhängig: P (A | C) = P (A ∩ C) P ({2}) 1/6 1 = = = = P (A). P (C) P ({1, 2}) 2/6 2 Inhaltlich: die Information, daß eine eins oder eine zwei geworfen ist, sagt noch nichts darüber aus, ob die geworfene Zahl nun gerade ist (d.h. eine “zwei”), oder nicht. oder Beispiel 7.7. Beispiele zur Unabhängigkeit: Eine angeborene Rotgrünblindheit (Farbblindheit) tritt bei ca. 3.86 % aller Jungen und 0.3 % aller Mädchen auf. Setzen wir für die Ereignisse A =<Rotgrünblindheit>, B =<Junge> diese beobachteten relativen Häufigkeiten als Wahrscheinlichkeiten an, d.h. P (A | B) = 0.0386, P (A | B c ) = 0.0030, so sind die Ereignisse A und B stochastisch abhängig: das Unabhängigkeitskriterium (7.4) ist nicht erfüllt, P (A | B) 6= P (A | B c ) ganz gleich wie im weiteren Modell die Ansätze für die Wahrscheinlichkeiten P (A), P (B) aussehen. In diesem Beispiel hat in den 20er Jahren die festgestellte stochastische Abhängigkeit dazu geführt, nach einer inhaltlichen Abhängigkeit zu forschen, In der Tat hat man dann eine genetische Abhängigkeit zwischen 7-4 7. ABHÄNGIGKEIT, UNABHÄNGIGKEIT, BAYES-FORMEL der Festlegung des Geschlechts und der Vererbung der Rotgrünblindheit gefunden. Sind beobachtete Zufallsvariable stochastisch abhängig, so muß dies bei der Modellbildung berücksichtigt werden. Dies haben wir z.B. in Modell (3.1) getan. Bisweilen kann man diese Schwierigkeit umgehen und zu einfacheren Standard–Modellen kommen, indem man die Zufallsvariablen geschickt wählt. So in Beispiel 7.1: wir können auf die Geburten zurückgehen und diese zählen, anstatt. von den Kindern auszugehen. Also Yi = 1 0 für Zwillingsgeburt für Einzelgeburt. Wir zählen 198 Einzalgeburten, und anstelle von 10 Zwillingskindern zählen wir 5 Zwillingsgeburten, insgesamt also 203 Geburten mit 208 Kindern. Entsprechend lesen wir die Faustregel als eine Zwillingsgeburt je 85 Geburten. Für die Geburten können wir nun den Ansatz 1 P (Yi = 1) = = P (Yi = 1 | Xi−1 ) 85 P machen; Xi = ij=1 Yj . Damit sind wir im Gültigkeitsbereich des Binomialmodells und können nun mit (6.3) berechnen; 4 X 1 203 1 x 1 P (X ≥ 5; n = 203, p = ) = 1 − ( ) (1 − )n−x x 85 85 85 x=0 = 1–0.9068 = 0.0932. Also fast das vierfache der in 7.1 mit dem unkorrekten Modell berechneten Maßzahl. Stochastische Unabhängigkeit zweier Ereignisse bedeutet: die Information über das Eintreten eines dieser Ereignisse führt nicht zu einer Vergrößerung oder Verkleinerung der Maßzahl dafür, daß das andere Ereignis eintritt. 7.2. Abhängigkeit, Bayes-Formel Sind zwei Ereignisse hingegen stochastisch abhängig, so gibt die Beobachtung des einen Ereignisses zusätzliche Information über das mögliche Eintreffen des anderen Ereignisses. Die folgenden Beispiele zeigen, wie diese Information ausgwertet werden kann. Beispiel 7.8. Ein Vorsorge-Test zur Krebs-Früherkennung habe eine Sensibilität von 90%, d.h. bei Krebserkrankten liefert der Test mit einer Wahrscheinlichkeit von 0.9 die richtige Diagnose, und eine Spezifität von 80 % , d.h. ein Gesunder wird mit einer Wahrscheinlichkeit von 0.8 auch richtig als gesund diagnostitziert. Ein Patient gehöre nach Alter, Beruf, .. zu einer Bevölkerungsgruppe, in der im Mittel 0.5% krebskrank sind. Der Test ergebe eine Diagnose auf Krebs. Mit welcher Wahrscheinlichkeit ist die untersuchte Person wirklich an Krebs erkrankt? 7.2. ABHÄNGIGKEIT, BAYES-FORMEL 7-5 Um dieses Problem zu lösen brauchen wir noch einige neue Begriffe. Führen wir Zufallsvariable X für Krankheitsbefund Y für Diagnoseergebnis ein, mit der X=1 X=0 Y =1 Y =0 Codierung für Krankheitsbefund positiv (d.h. Krebs liegt vor) für Befund negativ für Diagnose positiv (d.h. Krebs wird diagnostiziert) für Diagnose negativ, so ist dieser Formulierung die Wahrscheinlichkeit P (X = 1 | y = 1) zu bestimmen. Wir machen einen Häufigkeitsansatz, indem wir setzen P (Y = 1 | X = 1) = Häufigkeit der richtig positiven Diagnosen = 0.9 P (Y = 0 | X = 0) = Häufigkeit der richtig negativen Diagnosen = 0.8 P (X = 1) = Krebshäufigkeit = 0.005. Aus diesen Ansätzen wollen wir P (X = 1 | Y = 1) berechnen. Dazu benutzen wir Bemerkung 7.9. Sind X, Y Zufallsvariablen, und X = {x1 , . . . , xm } der Wertebereich von X, so ist P (Y = y | X = x) · P (X = x) , k=1 P (Y = y | X = xk ) · P (X = xk ) P (X = x | Y = y) = Pm Bayes-Formel falls P (Y = yi ) 6= 0. Diese Beziehung heisst Bayes-Formel. Beweis. Es ist P (Y = y | X = x) · P (X P = x) = P (Y = y ∧ X = x) P m P (Y = y | X = x ) · P (X = x ) = und m k k k=1 P (Y = y ∧ X = xk ) = k=1 P (Y = y). Damit ist P (Y = y | X = x) · P (X = x) k=1 P (Y = y | X = xk ) · P (X = xk ) P (Y = y ∧ X = x) = P (Y = y) = P (X = x | Y = y). Pm Bemerkung 7.10. Die Bayes-Formel gilt analog auch für kontinuierliche Verteilungen, z.B. P (Y = y | X = x) · pX (X = x) pX (X = x | Y = y) = R , X P (Y = y | X = x)dPX (x) für eine (kontinuierliche) Zufallsvariable X mit Dichte pX und eine (diskrete) Zufallsvariable Y . 7-6 7. ABHÄNGIGKEIT, UNABHÄNGIGKEIT, BAYES-FORMEL Bemerkung 7.11. Der Nenner in der Bayes-Formel hängt Pnicht von x ab. Er ist nur die normierende Konstante, die garantiert, dass x∈X P (X = x | Y = y) = ist. Mit der Proportional-Notation (siehe 3.3.9): P (X = x | Y = y) ∝ P (Y = y | X = x) · P (X = x) Als Begriffe halten wir fest gemeinsame Verteilung Definition 7.12. Sind X, Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A , P ), die die Werte x1 , . . . , xm bzw. y1 , . . . , ym annehmen können, so heißt die Zuordnung (xi , yj ) 7→ P (X = xi ∧Y = yj ) gemeinsame Verteilung von X und Y , und yj 7→ P (Y = yj ) = m X P (Y = yj ) | X = xk ) k=1 Randverteilung a priori Verteilung a-posteriori Verteilung heißt Randverteilung von Y . Im Zusammenhang mit der Bayes-Formel nennt man die Verteilung P (X = x) die a priori Verteilung von X, die Verteilung von P (X = x | Y = y) heisst die a-posteriori Verteilung von X. Mit der Bayes-Formel erhalten wir für Beispiel 7.8: P (X = 1 | Y = 1) = = = = = = P (Y = 1 | X = 1) · P (X = 1) P (Y = 1 | X = 1) · P (X = 1) + P (Y = 1 | X = 0 · P (X = 0) P (Y = 1 | X = 1) · P (X = 1) P (Y = 1 | X = 1) · P (X = 1) + (1 − P (Y = 0 | X = 0)) · (1 − P (x = 1)) 0.9 · 0.005 0.9 · 0.005 + (1 − 0.8)(1 − 0.005) 0.9 · 0.005 0.9 · 0.005 + 0.2 · 0.995 0.0221. D.h. trotz der hohen Qualität der Diagnosemethode (Sensibilität 90 %, Spezifität 80 %) beträgt die Wahrscheinlichkeit, daß bei positiver Diagnose ein Krebs vorliegt, nur ca. 2,2 %. RelayExperiment Die Bayes-Formel und die darauf aufbauenden Methoden finden überall dort Verwendung, wo vorhandene statistische Information ergänzt werden soll, oder wo mehrere Zufallsprozesse aufeinander folgen. Voraussetzung ist, dass die Vorinformation selbst als statistische Verteilung im Parameterbereich des eigentlichen Modells repräsentiert werden kann. Eine wichtige Beispielklasse sind Relay-Experimente. Bei dieser Art von Experimenten wird zunächst eine Beobachtungseinheit aus einer Grundgesamtheit gezogen. Danach werden Beobachtungen an dieser Beobachtungseinheit durchgeführt. Die Bayes-Formel kann etwa benutzt werden, um zu beurteilen, wie nützlich Untersuchungen sein können. Beispiel 7.13. Ein gebräuchliches Diagnoseverfahren für Lebermetastasen, die Szintigraphie, hat eine Sensibilität von α = 73 % und eine Spezifität 7.2. ABHÄNGIGKEIT, BAYES-FORMEL 7-7 von β = 91 % . Wie wahrscheinlich muß die untersuchte Erkrankung, die Bildung von Lebermetastasen, in der Untersuchungsgruppe sein, damit ein positiver Befund wenigstens mit 50 % Wahrscheinlichkeit tatsächlich auf eine Erkrankung hindeutet? Wir wählen Bezeichnungen entsprechend zu 7.8. Nach der Bayes-Formel ist die gesuchte Wahrscheinlichkeit α · P (X = 1) P (X = 1 | Y = 1) = α · P (X = 1) + (1 − β) · (1 − P (X = 1)) und die Frage ist: wie groß muß P (X = 1) sein, damit P (X = 1 | Y = 1) ≥ 0.5; also 0.5 ≤ α · P (X = 1) , α · P (X = 1) + (1 − β)(1 − P (X = 1)) d. h. (1 − β) · 0.5 < (α + 0.5(1 − (α + β)) · P (X = 1). In unserem Fall ist α + 0.5(1 − (α + β)) = 0.41 > 0, also muß gelten (1 − β) · 0.5 = 0.1097, α + 0.5 · (1 − (α + β)) damit ein positiver Befund wenigstens mit 50 % Wahrscheinlichkeit auf eine Erkrankung hindeutet: die Methode ist nur dann brauchbar, wenn sie als gezielte Untersuchung dort eingesetzt wird, wo bereits ein Verdacht auf die Erkrankung vorliegt. Als Breitenuntersuchung, d.h. in Bevölkerungsgruppen mit kleiner a priori Wahrscheinlichkeit P (X = 1) bringt sie keine verläßlichen Ergebnisse. P (X = 1) > Beispiel 7.14. Über eine Temperaturmessung soll kontrolliert werden, ob sich in einem chemischen Reaktor eine kritische Situation anbahnt. Aus Voruntersuchungen und theoretischen Überlegungen hat man die folgenden Ansätze erhalten: - Wahrscheinlichkeit einer kritischen Situation: 0.1 % - Wahrscheinlichkeit einer Temperaturüberschreitung der Temperatur T0 , falls die Situation kritisch ist: 60 % - Wahrscheinlichkeit einer Temperaturüberschreitung der Temperatur T0 , falls die Situation nicht kritisch ist: 40 % . Ist es sinnvoll, einen Alarm auszulösen, falls die Temperatur T den Wert T0 überschreitet? Als Abkürzung führen wir ein: X=1 X=0 für: die Situation ist kritisch für: die Situation ist unkritisch. Als Maß für die Qualität des vorgeschlagenen Verfahrens können die Maßzahlen P (X = 1 | T > T0 ) (Wahrscheinlichkeit dafür, dass ein Alarm korrekt ist) P (X = 1 | T ≤ T0 ) (Wahrscheinlichkeit dafür, dass fälschlicherweise eine Situation als kritische signalisiert wird) 7-8 7. ABHÄNGIGKEIT, UNABHÄNGIGKEIT, BAYES-FORMEL genommen werden. Nach der Bayes-Formel (7.9) können wir berechnen: P (X = 1 | T > T0 ) = P (T > T0 | X = 1) · P (X = 1) P (T > T0 | X = 1) · P (X = 1) + P (T > T0 | X = 0) · P (X = 0) 0.6 · 0.001 = 0.6 · 0.001 + 0.4 · (1 − 0.001) = 0.0015 = P (X = 1 | T ≤ T0 ) = P (T ≤ T0 | X = 1) · P (X = 1) P (T ≤ T0 | X = 1) · P (X = 1) + P (T ≤ T0 | X = 0) · P (X = 0) 0.4 · 0.001 = 0.4 · 0.001 + 0.6 · (1 − 0.001) = 0.00067. = Die Beobachtung der Temperatur bringt also nur einen ganz geringen Informationsgewinn gegenüber der a priori Information P (X = 1) = 0.001. Beispiel 7.15. Wir schließen an Beispiel 7.14 an. Wenn man aus Voruntersuchungen weiß, daß eine Auswertung des Drucks bei vorhandener Temperaturüberschreitung zu folgenden Wahrscheinlichkeiten führt: Druck über p0 , falls die Situation kritisch ist: 70 % Druck über p0 , falls die Situation nicht kritisch ist: 40 %. Ist es sinnvoll, einen Alarm zu geben, wenn Temperatur- und Druckschranke überschritten sind? Wir interessieren uns jetzt für die entsprechenden Wahrscheinlichkeiten wie in (7.13) - nur, daß wir uns jetzt für den Fall interessieren, daß bereits T > T0 festgestellt ist. Wir arbeiten also mit einem Wahrscheinlichkeitsmaß P 0 als a priori Wahrscheinlichkeit, das mit dem Maß P aus 7.14 über die Beziehung P 0 = P (| T > T0 ) zusammenhängt. Das Maß P 0 ist das a-posteriori-Maß des Temperaturexperiments aus 7.13. Wieder nach der Bayes-Formel berechnen wir: P (X = 1 | T > T0 ∧ p > p0 ) = P 0 (X = 1 | p > p0 ) P (p > p0 | X = 1) · P 0 (X = 1) = P 0 (p > p0 | X = 1) · P 0 (X = 1) + P 0 (p > p0 | X = 0) · P 0 (X = 0) 0.7 · 0.0015 = 0.7 · 0.0015 + 0.4 · 0.9985 = 0.0026. 7.2. ABHÄNGIGKEIT, BAYES-FORMEL 7-9 Gegenüber der a priori Wahrscheinlichkeit von 0.1%, ist die a–priori-Wahrscheinlichkeit bei Temperatur- und Drucküberschreitung mit 0.26%. immerhin mehr als verdoppelt, hat aber immer noch so einen niedrigen Wert, daß es zu einem großen Anteil von Fehlalarmen kommen würde. Wenn Vorinformation durch eine statistische Verteilung im Parameterraum repräsentiert werden kann, gibt die Bayes-Formel an, wie diese Information konsistent fortgeschrieben werden kann. Diese ermöglicht einen anderen Zugang zu den statistischen Problemen als bisher betrachtet. Will man den Unterschied betonen, so sprich man hier von Bayes-Verfahren, Bayes-Verfahren im Unterschied zu den klassischen Neyman-Pearson-Verfahren, die bis- Neyman-Pearlang im Vordergrund standen. Beide Verfahren sind verwandt. Insbesondere son-Verfahren liefern bei geeigneter Einbeziehung der a priori Verteilung Bayes-Verfahren oft Lösungen, um auch im klassischen Sinne optimal sind. Die Beziehung zwischen (optimalen) Bayes- und klassischen Verfahren wird durch das Minimax-Theorem Minimaxausgedrückt, dass jedoch über den Rahmen dieser Vorlesung hinaus geht. Theorem In diesem Zusammenhang muss noch einmal darauf hin gewiesen werden, dass Irrtumswahrscheinlichkeit oder Niveaus im allgemeinen nur Schranken für Wahrscheinlichkeiten, selbst aber nicht Wahrscheinlichkeiten sind. Sie sind also im allgemeinen nicht geeignet, a priori Verteilungen zu spezifizieren. Wir untersuchen als Beispiel die Schätzung des Parameters p einer Binomialverteilung mit dem Bayes-Ansatz. Sei X ∼ Pbin (·; n, p) mit bekanntem festen n und unbekanntem Parameter p. Um mit einem Bayes-Ansatz zu arbeiten, müssen wir Vorinformation über p als a priori Verteilung spezifizieren. Wir machen zunächst die Annahme, dass alle p ∈ [0, 1] als Parameter gleich wahrscheinlich sind. Als Verteilungsannahme: p ∼ Punif [0,1] a priori Verteilung. Haben wir ein Experiment mit dem Resultat X = x gemacht, so können wir nach der Bayes-Formel die a-posteriori-Verteilung bestimmen. p(ϑ | X = x) ∝ Pbinom (X = x; n, ϑ) · punif [0,1] (ϑ) n = · ϑx · (1 − ϑ)n−x · 1 x Für die a-posteri-Verteilung ist ϑ die Zufallsvariable, während X jetzt als durch den beobachteten Wert gegeben angesehen wird, also X = x. Der n Term x hängt nicht von ϑ ab, also p(ϑ | X = x) ∝ ϑx · (1 − ϑ)n−x . R Die noch fehlende Konstante [0,1] ϑx · (1 − ϑ)n−x dϑ liefert die Analysis: dort finden wir das Eulersche Intgegral erster Gattung, oder die (vollständige) Betafunktion Z (7.2) B(ν1 , ν2 ) = xν1 −1 (1 − x)ν2 −1 dx (7.1) [0,1] 7-10 7. ABHÄNGIGKEIT, UNABHÄNGIGKEIT, BAYES-FORMEL und damit 1 · ϑx · (1 − ϑ)n−x . B(x + 1, n − x + 1) Hinter der Beta-Funktion verstecken sich alte bekannte: neben dem Eulersche Intgegral erster Gattung kennt die Analysis ein Eulersches Intgegral zweiter Gattung, oder Gammafunktion: Z ∞ e−x xν−1 dx. (7.4) Γ(ν) = (7.3) p(ϑ | X = x) = 0 mit den Spezialfällen (7.5) Γ(ν + 1) = ν! für ν ∈ N Zwischen Gamma- und Beta-Funktion besteht die Beziehung Γ(ν1 )Γ(ν2 ) (7.6) B(ν1 , ν2 ) = Γ(ν1 + ν2 ) und somit n p(ϑ | X = x) = (n + 1) · ϑx · (1 − ϑ)n−x . x Die hier als a-posteri-Verteilung aufgetretene Verteilung wird in Kapitel ?? allgemeiner diskutiert. Die Definition nehmen wir hier vorweg: Definition 7.16. Satz und Definition Für ν1 , ν2 ∈ R, ν1 > 0, ν2 > 0 definiert für x < 0 0 1 ν −1 ν −1 1 2 (1 − x) für 0 ≤ 1 (7.7) pβ(ν1 ,ν2 ) (x) := B(ν1 ,ν2 ) x 0 für x > 1 Beta-Verteilung eine Verteilung auf [0, 1]. Diese Verteilung mit dieser Dichte heisst die Beta-Verteilung mit Parametern ν1 , ν2 . Beweis. Übung. Zu zeigen ist, dass (7.7) Dichte eines Wahrscheinlichkeitsmasses ist. Für die Fälle ν1 , ν2 ∈ N gilt dies, da (7.7) Dichte der oben diskutierten bedingten Verteilungen ist. Für allgemeine Parameter ist zu zeigen: R pβ(ν1 ,ν2 ) ≥ 0; pβ(ν1 ,ν2 ) 6= 0; pβ(ν1 ,ν2 ) integrierbar mit p R β(ν1 ,ν2 ) dx < ∞. R Damit definiert pβ(ν1 ,ν2 ) eine Verteilung. R pβ(ν1 ,ν2 ) dx = 1. Damit ist die normierende Konstante 1 und (7.7) ist schon selbst die Dichte. Bemerkung 7.17. Mit dieser Definition gilt: ist (a priori) p ∼ U [0, 1] und X ∼ Bin(n, p) und ist X = x beobachtet, so ist nach der Beobachtung (a posteriori) p ∼ Beta(x + 1, n − x + 1). ToDo: add series Es ist PU [0,1] = PBeta(1,1) . Beispiel 7.18. KAPITEL 8 Erwartungswert und Varianz In diesem Kapitel werden einige Methoden vorgestellt, die besonders einfache Rechnungen mit Zufallsvariablen erlauben. Die Zufallsvariablen heißen X, Y, Z mit Wertbereichen X, Y, Z, z.B. X = {0, 1, . . . , n}, Y = {0, 1}, Z = {0, 1, . . . , k, . . .}, Ω ist der Ereignisraum, z.B. Ω = {0, 1}n , und P ein Wahrscheinlichkeitsmaß auf Ω. Wie man im Prinzip Prognosebereiche für Zufallsvariablen erhält, haben wir in Kapitel 5 diskutiert. Eine vereinfachte Punktprognose erhält man, indem man das gewichtete Mittel der möglichen Werte berechnet - gewichtet nach Wahrscheinlichkeit. 8.1. Erwartungswert Definition 8.1. Ist X reelle Zufallsvariable mit Wertebereich X, so heißt die reelle Zahl X E(X) = x · P (X = x). x∈X Erwartungswert Erwartungswert der Zufallsvariablen X. Beispiel 8.2. Ist X binomialverteilt mit Parametern n, p (d.h. z.B. Ω, P wie in 6.2 angesetzt), so ist E(X) = n · p. Beweis: E(X) = X x · P (X = x) = x∈N n X X x · Pbin (x; n, P ) x∈N n x = x· p (1 − p)n−x x x=0 n X n−1 x = n· p (1 − p)n−x x−1 x=0 n X n − 1 x−1 = n·p p (1 − p)(n−1)−(x−1) x−1 x=1 = n · p(p + (1 − p))n−1 = n · p · 1 = n · p. 8-1 (Binomialformel) 8-2 8. ERWARTUNGSWERT UND VARIANZ Beispiel 8.3. Ist X hypergeometrisch verteilt mit Parametern N, n1 , n, so ergibt eine entsprechende Rechnung X X E(X) = x · P (X = x) = x · Phyp (x; N ; n1 , n) x∈N = x∈N min n1 ,n X x=0 n1 = n· N · n1 x N −n1 n−x N n . 8.2. Varianz Der Erwartungswert gibt eine erste Information über das “erwartete” Verhalten der Zufallsvariablen. Was noch fehlt, um diese Information brauchbar zu machen, sind Angaben über die Streuung der Zufallsvariablen um den Erwartungswert. Streuung Beispiel 8.4. Wir schließen an Beispiel (6.1) an. Wir gehen wieder davon aus, dass n Geburten beobachtet worden sind und daß MädchenGeburten mit der Wahrscheinlichkeit 0.489 auftreten. Im Modell 6.2 ist die Anzahl x der beobachteten weiblichen Geburten binomialverteilt; nach (8.2) ist E(X) = 0.489 · n. Wie groß ist die Wahrscheinlichkeit, dass die Beobachtung von E(X) um 10 % oder mehr abweicht? Zu berechnen ist P (|x − E(X)| ≥ c), wobei c = 0.1 · 0.489 · n? Der genaue Wert kann durch min{n,E(X)+c} P (|X − E(X)| ≥ c) = X Pbin (x; n, p) x=max{0,E(X)−c} berechnet werden. Für n = 9, 10, . . . kann die Rechnung schnell durchgeführt werden; für große n(n = 1000, 10000) tauchen Schwierigkeiten auf, die Rechnung praktisch durchzuführen Eine allgemeine, sehr einfache Abschätzung liefert (Tschebyscheff’sche gleichung): Bemerkung 8.5. (Tschebyscheff ’sche Ungleichung): Un- Ist X eine Zufallsvariable mit Wertebereich X = {x1 , x2 , . . .} und c > 0, so gilt Var(Y ) P (|X − E(X)| ≥ c) ≤ c2 P 2 mit Var(X) := x∈X (x − E(X)) · P (x = x) Beweis der Ungleichung: Setzen wir D = {x : |x − E(X)| < c} und F = {x : |x − E(X)| ≥ c}, 8.2. VARIANZ Var(X) = X 8-3 (x − E(X))2 · P (X = X) x∈D + X (x − E(X)2 ) · P (X = X) X∈F ≥ X (x − E(X))2 · P (X = x). x∈F Für x ∈ F ist |x − E(X)| ≥ c und somit X Var(X) ≥ c2 P (X = x) x∈F oder X x∈F P (X = x) ≤ Var(X) . c2 In der letzten Ungleichung steht auf der linken Seite die Wahrscheinlichkeit, dass X einen der Werte x annimmt, der von E(X) um mindestens c abweicht, also P (|X −E(X)| ≥ c). Damit hat man die Tschebyscheff’sche Ungleichung P (|X − E(X)| ≥ c) ≤ Var(X) . c2 Ist die Verteilung von X genauer bekannt, so kann man zu feineren Abschätzungen kommen. Die Tschebyscheff-Ungleichung ist in der Anwendung bisweilen grob; aber sie hat den Vorteil, daß man nur sehr wenig Information braucht, um sie anzuwenden. Für wachsende n konvergiert die rechte Seite der Abschätzung gegen Null. Das heißt: Für große Abweichungen wird die Wahrscheinlichkeit großer Abweichungen vom Erwartungswert gering. Die Beobachtung “konvergiert stochastisch” gegen den Erwartungswert. (“Gesetz der großen Zahl”) . 8-4 8. ERWARTUNGSWERT UND VARIANZ Definition 8.6. Ist X eine reelle Zufallsvariable mit Wertbereich X = {x1 , x2 , . . .}, so heißt die reelle Zahl X Var(X) = (x − E(X))2 · P (X = x). x∈X Varianz Standardabweichung Varianz der p Zufallsvariablen X. Als Standardabweichung bezeichnet man die Zahl Var(X). Bemerkung 8.7. Kann X nur endlich viele Werte annehmen, so kann man E(X) und Var(X) immer berechnen und die Tschebyscheff-Ungleichung anwenden. Kann X unendlich viele Werte annehmen (z.B. X = 1, 2, 3 . . .}), so können die Definitionen von E(X) oder Var(X) durchaus zu unsinnigen Ergebnissen (∞, ∞ − ∞, . . .) führen. Dann sind die entsprechenden Ungleichungen oder Rechnungen nicht mehr anwendbar. Bemerkung 8.8. Aus der Tschebyscheff-Ungleichung 8.5 erhält man folgende Beziehungen: p a) P (|X − E(X)| ≥ k · Var(X)) ≤ k12 p insbesondere: P (|X − E(X)| ≥ 10 · Var(X)) ≤ 0.1. Allgemein: q b) c ≥ Var(X) α = P (|X − E(X)| ≥ c) ≤ α c) P (|X − E(X)| ≥ α · E(X)) ≤ Var(X) E(X) · 1 . α2 Beispiel 8.9. Varianz der Binomialverteilung: Allgemein gilt Var(X) = E(X 2 ) − (E(X))2 und E(X 2 ) = E(X · (X − 1)) + E(X) , also Var(X) = E(X · (X − 1)) + E(X) − (E(X))2 . Nach (8.2) ist für binomialverteiltes X E(X) = n · p und wegen n n−2 x(x − 1) = n(n − 1) x x−2 für n ≥ x ist E(X(X − 1)) = n(n − 1) · p2 , also Var(X) = n(n − 1)p2 + n · p − n2 p2 = np(1 − p) für X binomialverteilt mit den Parametern n, p. Bemerkung 8.10. Damit können wir eine Abschätzung für Beispiel 6.1 bekommen: Mit c = a · E(X) = a · n · p. 8.3. RECHNEN MIT ERWARTUNGSWERTEN UND VARIANZ 8-5 P (X weicht von E(X) um mindestens 10 % ab) = = P (|X − E(X)| ≥ c) ≤ = = = V ar(()X) c2 n · p · (1 − p) (a · n · p)2 (1 − p) a2 · n · p (1 − p) 1 · . a2 · p n Speziell für p = 0.389 erhalten wir als Abschätzung mit a = 0.1: P (Abweichung um mindestens 10 %) ≤ 1 n · 104.499. Am Ergebnis sehen wir, daß diese Abschätzung sehr grob ist. Für n ≤ 104 ist sie in diesem Fall (p = 0.489; bin.vert.) unbrauchbar - wir wissen ja bereits von vornherein, daß die Wahrscheinlichkeit höchstens 1 ist. Für größere n ist die Abschätzung immer noch grob, jedoch brauchbar. Für n = 3000 (Geburtenanzahl für ein kleines bis mittleres Krankenhaus in einem Jahr) etwa ist n1 · 104.499. ≈ 0.03483; E(X) = n · p = 1467; E(X) · (1 − 1 1 10 ) ≈ 1302; E(X) · (1 + 10 ) ≈ 1613. Mit mindestens 1 − 0.03483 = 0.96517 > 96 % Wahrscheinlichkeit sind also unter n = 3000 Geburten zwischen 1302 und 1613 Mädchen. 8.3. Rechnen mit Erwartungswerten und Varianz Wir führen nun einige Regeln für das Rechnen mit Erwartungswerten und Varianzen an. Diese Regeln können unmittelbar aus den Definitionen hergeleitet werden. Bemerkung 8.11. Sind a, b ∈ R, so ist E(aX + b) = a · E(X) + b. Spezialfall: a = 0 liefert E(b) = b für b ∈ R. Bemerkung 8.12. Für a, b ∈ R ist Var(aX + b) = a2 · VarX. Bemerkung 8.13. Haben X und Y die Erwartungswerte E(X) und E(Y ), so ist E(X + Y ) = E(X) + E(Y ). Bemerkung 8.14. Var(X + Y ) = Var(X) + 2) · [E(XY ) − E(X) · E(Y )] + Var(Y ). 8-6 8. ERWARTUNGSWERT UND VARIANZ 8.4. Kovarianz Bemerkung 8.15. Bei 8.15 tritt ein Ausdruck [E(XY ) − E(X) · E(Y )] auf: Die Varianz einer Summe hängt nicht nur von der Varianz der Summanden ab, sondern auch davon, wie die Schwankungen der beiden Variablen X und Y zusammenhängen. Je nach Art dieses Zusammenhangs können die Schwankungen sich gegenseitig kompensieren (Var(X + Y ) < Var(X)+Var(Y )) oder sie können sich gegenseitig verstärken (Var(X +Y ) > Var(X) + Var(Y )). Definition 8.16. Die Größe Cov(X, Y ) := E(XY ) − E(X) · E(Y ) = E[(X − E(X)) · (Y − E(Y ))] Kovarianz heißt Kovarianz von X und Y . Bemerkung 8.17. Die Kovarianz mißt den Anteil der Abhängigkeit zwischen X und Y , der sich bei der Summenbildung auswirkt. Sind speziell X und Y stochastisch unabhängig, so ist auch dieser Anteil gleich null, also: Cov(X, Y ) = 0. Ist allgemein dieser “lineare” Anteil Cov(X, Y ) der Abhängigkeit gleich null, so sagt man: X und Y sind unkorrelliert. In diesem besonderen Spezialfall ist also Var(X + Y ) = Var(X) + Var(Y ). Beispiel 8.18. Beschreibt Yi den i. Zug eines Binomialexperiments (Modell ??), so ist Yi stochastisch unabhängig von Yj für i 6= j; also auch unkorrelliert. Beschreibt Yi den i. Zug eines hypergeometrischen Experiments, so sind Yi und Yj nicht stochastisch unabhängig. Sie sind auch nicht unkorrelliert. Für Startparameter N, n1 , a ist z.B. Cov(Y1 , Y2 ) = E(Y1 · Y2 ) − E(Y1 · E(Y2 ) = 0 + 1P (Y1 Y2 1) = 1) − −(0 + 1 · P (Y1 = 1))(0 + 1 · P (Y2 = 1)) = P ((Y1 = 1) ∧ (Y2 = 1) − P (Y1 = 1)) · P (Y2 = 1) = P (Y1 = 1) · P (Y2 = 1|Y1 = 1) − P (Y1 = 1) · [P (Y2 = 1 ∧ Y1 = 1) + P (Y2 = 1 ∧ Y1 = 0)] n1 n1 − 1) n1 n1 (n1 − 1) (N − n1 ) n1 · − ·[ · + ] = N (N − 1) N N (N − 1) N (N − 1) n1 (n1 − N ) = . N 2 (N − 1) Bemerkung 8.19. Varianz der hypergeometrischen Verteilung: Mit (8.18) und (8.14) ist für n = 2 und X = Y1 + Y2 Var(X) = Var(Y1 ) + 2Cov(Y1 , Y2 ) + Var(Y2 ) n1 (N − n1 ) n1 (n1 − N n1 (N − n1 ) · + 2[ 2 ]+ · N N N (N − 1) N N n1 [(N − n1 )(N − 1) + (n1 − N )] = 2 N 2 (N − 1) n1 (N − 2)(N − n1 ) = 2 . N 2 (N − 1) = 8.5. QUALITäTSMERKMALE VON PUNKTSCHäTZERN 8-7 Die allgemeine Formel für die hypergeometrische Verteilung ist Var(X) = n n1 (N − n)(N − n1 ) N 2 (N − 1) 8.5. Qualitätsmerkmale von Punktschätzern Wir geben zunächst einige allgemeine Definitionen. Dabei steht ϑ stellb vertretend für einen schätzenden Parameter. X ist die Beobachtung. ϑ(X) ist der mit einer Schätzformel (einem Schätzer) nach der Beobachtung X berechnete Schätzwert. Definition 8.20. Ein Schätzer ϑb heißt erwartungstreu, falls für alle ϑ gilt: b E(ϑ(X) = ϑ, d.h. falls der Schätzer als Erwartungswert den echten Parameter hat. Beispiel 8.21. Ist X binomialverteilt mit (bekannten) Stichprobenumfang n und unbekanntem Parameter p, so ist pb(X) = X n ein erwartungstreuer Schätzer für p. Beweis: Nach (8.2) ist E(X) = n · p. Wegen (8.11) ist 1 1 · E(X) = · n · p = p; n n also ist pb erwartungstreuer Schätzer für p. E(b p(X)) = Das Problem bei den Punktschätzern war: das Ergebnis kann stark von den Zufälligkeiten der Beobachtung abhängen. Mit Hilfe der Tschebyscheff Ungleichung (8.5) kann diese Streuung abgeschätzt werden. Beispiel 8.22. Für binomialverteiltes X und pb(X) = Var(b p(X)) = X n ist 1 p(1 − p) · n · p · (1 − p) = . 2 n n Mit (8.8) ist r P (|b p(x) − p| < k · p(1 − p) n r = 1 − P (|b p(x) − E(b p(x))| ≥ k · p(1 − p) 1 ≥ 1 − 2. n k Daraus kann bestimmt werden, wie groß der Stichprobenumfang n zu wählen ist. Soll z. B. p mit 1 − 95 % Sicherheit bis auf einen Fehler von höchstens ε = 0.10 genau durch pb geschätzt werden, so setze man 1 1 − 2 = 1 − α, k Schätzer 8-8 8. ERWARTUNGSWERT UND VARIANZ also k 2 = 1 α = 1 .05=20 = und r P (|b p(x) − p| < 1 · α r p(1 − .p) ≥ 1 − α. n Um einen Bereich mit der Schwankung ±ε mit Sicherheit α zu bekommen, muß also r r 1 p(1 − p) · ≤ ε, α n d. h. q 1 √ α p · p(1 − p) ≤ n. ε gesetzt werden. Der Ausdruck p · (1 − p) nimmt für 0 ≤ p ≤ 1 höchstens den Wert 14 an. Also braucht man: q q 1 r 1 √ 1 α α 1 · = · ≤ n ε 4 ε 2 oder 14 ( 1ε )2 · 1 α ≤ n. In unserem Fall 1 1 1 · ( )2 · = 500 ≤ n. 4 .10 .05 Um mit 95 % Sicherheit einen Schätzwert S(X) im Bereich p − 0.01 < pb < p + 0.01, also auch pb − 0.01 < p < pb + 0.01 zu erhalten, sollte man mindestens n = 500 Beobachtungen machen. Die Vorweg-Abschätzung für n kann genauer gemacht werden, wenn man speziell mit der Binomialverteilung arbeitet oder wenn (aus Vorversuchen) der mögliche Parameterbereich für p genauer eingegrenzt werden kann. relativen Fehler relativen Standardfehler Variationskoeffizienten ϑ 8.5.1. Interessiert man sich für den relativen Fehler ϑ− ϑ , d.h. will man die Größe des Fehlers in Beziehung zur Größe des wahren Parameters setzen, so benutzt man als beschreibende Größe den relativen Standardfehler oder Variationskoeffizienten √ Varϑ . CVϑ = ϑ b Für binomialverteiltes X und Schätzer pb(X) = X n ist z.B. q r 1 (1−p) 1 1−p np CVp = =√ · p p n oder, nach n aufgelöst: n= 1−p p · 1 . (CVp )2 8.6. FEHLERFORTPFLANZUNG DURCH ADDITION 8-9 Beispiel 8.23. Um eine Gesundheitsstatistik aufzustellen, soll für jede Krankheit, unter der mindestens 1 % der Bevölkerung eines Landes leiden, die Gesamtanzahl der Anteil der Patienten mit dieser Krankheit geschätzt werden. Der Variationskoeffizient soll dabei höchstens 20 % betragen. Wieviele Personen müssen dann mindestens untersucht werden? Lösung: Für den extremen Wert p = 0.01 mit Var(X) = n · p(1 − p) muß noch gelten: CVp (p = 0.01) ≤ 20, also n≥( 1 − 0.01 1 )· = 2475. 0.01 (0.20)2 8.6. Fehlerfortpflanzung durch Addition Die Hoffnung, genauere Werte durch Mittelung aus Einzelmessungen zu erhalten, ist weit verbreitet. Die Grundlage dafür ist die Regel: 8.6.1. Sind X1 , X2 , . . . , Xn stochastisch unabhängige Messungen mit Erwartungswerten E = E(X1 ) = . . . = E(Xn ) und Varianzen V = Var(X P 1) = . . . = Var(Xn ), so gilt für den Mittelwert der Messungen X = n1 ni=1 Xi , Mittelwert Messungen dass E(X) = E 1 Var(X) = V. n Beweis: Nach (8.13/8.11) ist für stochastisch unabhängige Xi : Nach (8.12/8.17) ist für stochastisch unabhängige Xi : n 1 X V 1 Var(X) = 2 · VarXi = 2 · (n · V ) = . n n n i=1 Bemerkung 8.24. Warnung: Die Gleichung für E(X) gilt in jedem Fall. Die Gleichung für Var(X) gilt nur bei stochastischer Unabhängigkeit (oder zumindest: Unkorreliertheit). Wird z.B. nur einmal während der Meßserie geeicht, so gibt es für jede Meßreihe systematisch Meßfehler. Diese mitteln sich nicht heraus, sondern bleiben bestehen. Beispiel 8.25. Beispiele: (aus: Lustig und Pfanzagl: Industrielle Qualitätskontrolle.) (1) Für Metallfolien, die bei der Tonbandherstellung Verwendung finden, war eine Stärke von 6·10−3 mm mit einer Toleranz von ±0, 110−3 mm vorgeschrieben. Nachdem eine größere Lieferung dieser Metallfolien übernommen worden war, kam es bei der Montage zu Schwierigkeiten. Wie eine Rückfrage ergab, stand für die Prüfung dieser Folien kein Meßgerät zur Verfügung, das die notwendige Genauigkeit von 0, 1 · 10−3 mm aufwies. Der Meister verwendete daher ein Gerät mit einer Anzeige von 10−3 mm, indem er je 10 Folien der 8-10 8. ERWARTUNGSWERT UND VARIANZ zusammenlegte und die Anforderung von (6 ± 0, 2) · 10−3 mm auf (60 ± 2) · 10−3 mm abänderte. Dieses Vorgehen ist unzulässig. Wenn die 10-fach zusammengelegten Folien eine Toleranz von ±2 · 10−3 mm einhalten, ist damit noch nicht gesagt, daß die einzelnen Folien die Toleranz von ±0, 2 · 10−3 mm einhalten: Ist die Stärke der einzelnen Folien mit einer Varianz a2 um den Erwartungswert b verteilt, so ist nach (6.6/??) die Stärke des Päckchens von 10 Folien (Summe) verteilt mit Erwartungswert 10 · b und Varianz 10 · a2 . Es verzehnfacht sich zwar die Varianz, aber nicht die für die Breite des √ Streubereichs maßgebende Standardabweichung; diese beträgt 10 · a. −3 Liegen alle Folien innerhalb des Toleranzintervalls √ ±0, 2 · 10−3 mm, so werden die Päckchen innerhalb des Bereichs ± 10·0, 2·10 mm = ±0, 63 · 10−3 mm liegen. Der Toleranzbereich ±2 · 10−3 mm wird von den Päckchen selbst dann noch eingehalten, wenn die einzelnen Folien im Bereich ±0, 6 · 10−3 mm um den Sollwert streuen, also einen 3mal so großen Streubereich aufweisen, als zulässig wäre. (2) In einem Betrieb der feinmechanischen Industrie war für einen bestimmten Satz (Welle und Bohrung) vorgeschrieben, daß ein Spielraum von 2 mm mit einer Standardabweichung von ±10 · 10−3 mm, bei einem Wellendurchmesser von 1 cm eingehalten werden muß. Wie müssen die Genauigkeitsanforderungen gewählt werden, um diese Standardabweichung zu gewährleisten? Die erste Überlegung ist, für Welle und Bohrung zu fordern: Welle ϑ (10 ± 5 · 10−3 ) mm Bohrung ϑ (11 ± 5 · 10−3 ) mm. Die genauere Überlegung ergibt jedoch für Y =< Welle > Z =< Bohrungsdurchmesser >, < Spielraum >= Z − Y . Zu garantieren ist p 10 · 10−3 mm ≤ Var(Z − Y ) Nach (8.12/6.4) ist Var(Z − Y ) = VarZ + Var(−Y ) = VarZ + (−1)2 VarY = VarZ + VarY . Zu fordern ist also √ 10 · 10−3 mm ≤ VarZ + VarY . Dazu genügt es zum Beispiel, wenn VarZ und VarY beide klei−3 2 ner als (10·102 ) mm = 12 · 10−4 mm2 sind, also q Welle φ (10 ± 12 · 10−2 mm = 10 ± 7.07 · 10−3 )mm Bohrung φ (11 ± 7.07 · 10−3 )mm. KAPITEL 9 Poisson-Verteilung Literatur: [Pfanzagl II, 6.5 – 6.6] 9.1. Beispiel für die Problemstellung: Die Anzahl der Erythrozyten pro Volumeneinheit (Erythrozytendichte) X in einer Suspension ist zu bestimmen. Idee: Man nehme eine Volumeneinheit und zähle sie unter dem Mikroskop aus; die so gewonnene Anzahl k nehme man als Schätzer für die mittlere Dichte X. Das Verfahren erscheint plausibel; es stellt sich wieder die Frage nach der Verläßlichkeit. auszählen! Ergibt: k = 3 + 4 + 2 + 3 = 12. Modellvorstellung: Man stelle sich ein Zählraster vor, das sich verfeinern läßt; ∆Vi . sei das Volumen in der i. Rasterstelle: Xi . das Zählergebnis in der i. Zelle. Wir machen folgende Modellannahmen: 1.) P (Xi. = 1) λ · ∆Vi , λ die Dichte. 2.) P (Xi. = k) = P (Xj. = k), wenn ∆Vi. = ∆Vj. , d.h. die Durchmischung soll gleichmäßig sein. 3.) (Xi , Xj. , . . .) unabhängig voneinander. 4.) P (Xi. > 1) → 0, wenn ∆Vi. → 0. Es läßt sich zeigen, daß aus diesen Modellannahmen folgt: Für das Zählergebnis x in einer Stichproben-Volumeneinheit gilt: P (X = k; λ) = 9-1 λk −λ e . k! 9-2 9. POISSON-VERTEILUNG 9.2. Modell: Auftreten seltener Ereignisse λ relative Dichte (Häufigkeit) der ausgezeichneten Elemente. Das Wahrscheinlichkeitsmaß mit PPois (k; λ) = teilung). Beispiel 9.1. Für λ = 12 erhält man k PPois (k; λ) 00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 0.00001 0.00007 0.00044 0.00177 0.00531 0.01274 0.02548 0.04368 0.06552 0.08736 0.10484 0.11437 0.11437 0.10557 0.09049 0.07239 0.05429 0.03832 0.02555 0.01614 0.00968 0.00553 0.00302 0.00157 0.00079 0.00038 λk −λ k! e (kurz: Poissonver- 9.2. MODELL: AUFTRETEN SELTENER EREIGNISSE 9-3 9.2.1. Erwartungswert und Varianz. Für Erwartungswert und Varianz erhalten wir: E(x; λ) = = ∞ X k=0 ∞ X k=1 k · PPois (x = k; λ) = ∞ X λk k e−λ k! k=0 λk −k k e =λ· k! λ X k=1 0 ∞ X λk−1 −λ λk −λ e =λ· e (k − 1)! k0 ! 0 k =0 = λ · PPois (X ≥ 0; ) = λ · 1 = λ Var(X; λ) = E(X 2 ; λ) − (E(X; λ))2 = E(X(X − 1); λ) + E(X; λ) − (E(X; λ))2 = λ2 + λ − λ2 = λ. 9.2.2. Praktische Berechnung. Software: In R stehen unter anderem folgende Funktionen für die PoissonVerteilung zur Verfügung: 9-4 9. POISSON-VERTEILUNG R-Aufruf Funktion dpois(x, lambda) Ppois (X = x; λ = lambda) dpois(x, lambda, log=TRUE) ln(Ppois (X = x; λ = lambda)) ppois(q, lambda) Ppois (X ≤ x; λ = lambda) qpois(q, lambda) minx : Ppois (X ≤ x; λ = lambda) ≥ q rpois(nn, lambda) erzeugt nn Zufallszahlen Ppois ( · ; λ = lambda) aus Approximationen: a) Für große k kann k! mit der Stirling–Formel angenähert berechnet werden √ k k! ≈ 2πk( e ) (genau bis auf 1 % für k ≥ 9 bis auf 5 % für k ≥ 17). Damit ist PPois (k; λ) ≈ ( e·λ k √ ) · ( 2πk)−1 · e−λ . k b) Die Verteilungsfunktion der Poissonverteilung hängt mit der X 2 -Verteilung zusammen über die Beziehung PPois (X ≥ k; λ) = α ⇔ 2 · λ = Xα2 (2k). 9.3. Grundprobleme 9.3.1. Schätzproblem. Beispiel 9.2. In (9.1) haben wir für die Dichte λ geschätzt: b = k = 12. λ Wie genau ist diese Schätzung? Als Vertrauensniveau für die Schätzung gehen wir vor: 1 − α = 98 %, d.h. zugelassene Irrtumswahrscheinlichkeit α = 2 % . Wir suchen einen Schätzbereich der Form {λ < λ < λ} . Nach der Methode “Abschneiden gleicher Schwänze” bestimmen wir λ, λ, so, daß PPois (X ≥ k; λ) ≤ α/2 PPois (X ≤ k; λ) ≤ α/2. Mit (9.5.b) 2 PPois (X ≥ k; λ) ≤ α/2 ⇔ 2 · λ ≤ Xα/2 (2 · k) 9.3. GRUNDPROBLEME 9-5 also 2 (2 · k)} λ = max{λ : 2 · λ ≤ Xα/2 1 · X12% (2 · 12)} 2 1 = max{λ : λ ≤ · 10.9 = 5.45} = 5.45. 2 = max{λ : λ ≤ Für die obere Grenze λ entsprechend: PPois (X ≤ k; λ) ≤ α/2 ⇔ PPois (X > k; λ) ≥ 1 − α/2 ⇔ PPois (X ≥ k + 1; λ) ≥ 1 − α/2 ⇔ 2 · λ ≥ χ21−α/2 (2 · (k + 1)) und daraus λ= 1 2 1 · χ99% (2 · 13) = · 45.6 = 22.8. 2 2 9.3.2. Testprobleme. Test für den Parameter λ: X sei poissonverteilt mit Parameter λ. Einseitiges Testproblem: Niveau α-Test für gegen H = {λ ≤ λ0 } (oder H = {λ = λ0 }) K {λ > λ0 }. Setze als Verwerfungsbereich V = {x : ∞ X PPois (k; λ0 ) ≤ α} k=x = {x : λ0 ≤ 1 2 χ (2 · k)}. 2 α Entsprechend der Niveau α-Test für H = {λ ≥ λ0 } gegen K = {λ < λ0 }: Verwerfungsbereich V = {x : λ0 ≥ 12 χ21−α (2 · (k + 1)). 9.3.3. Vergleichstest. Eine ähnliche Rechnung wie in (??) ergibt: Ist X poissonverteilt mit dem Parameter λ und X 0 poissonverteilt mit dem Parameter λ0 , λ = κ · λ0 und sind X, X 0 stochastisch unabhängig, so gilt: κ P (X = x | X + X 0 = e k) = Pbin (x; n = e k, ). 1+κ Damit können wir einen Vergleichstest berechnen: Vergleichstest: X, X 0 seien poissonverteilt mit Parametern λ, λ0 , κ0 fest. Niveau α-Test für H = {λ = κ0 · λ0 } gegen K = {λ > κ0 · λ0 }: Verwerfungsbereich Pk+k0 V = {(k, k 0 ) : x=k Pbin (x; n = k + k 0 , p = κ0 1+κ0 ≤ α}. Einseitiges Testproblem 9-6 9. POISSON-VERTEILUNG Beispiel 9.3. Die Veränderung der Wasserqualität eines Baches entlang eines bestimmten Teilstücks soll untersucht werden. Dazu macht man Auszählungen an der Fischpopulation und beobachtet einen einzeln lebenden Fisch, der als Indikator betrachtet wird; vermutet ist, daß sich dessen Lebensbedingungen verschlechtern. Meßort Ausgezählte Strecke Anzahl Anfang des 5m 17 2m 2 Teilstücks Ende des Teilstücks Ist damit die Vermutung gesichert? 1. Meßstrecke Anfang 2. Meßstrecke Ende ∗ Der Querschnitt des Baches soll sich entlang des Teilstücks nicht ändern; die Streckenlänge ist damit proportional zur untersuchten Wassermenge. Dazu bezeichne h1 die mittlere Häufigkeit des Fisches pro m3 am oberen, h2 die am unteren Meßpunkt. Die Modellvorstellungen aus 9.1 können wir auf diese Situation übertragen. Dann sind die beobachteten Anzahlen aufzufassen als Realisationen von Poissonverteilten Zufallsvariablen X1 , X2 mit Parametern λ1 = V1 · h1 λ2 = V2 · h2 , wobei V1 , V2 die ausgezählten Volumina sind, also V1 = 5m Q, V2 = 2m · Q und Q die als konstant angenommene Querschnittsfläche. Angenommen, die Lebensbedingungen wären gleichbleibend. Dann wäre λ1/V1 = h1 = h2 = λ2/V2 , also λ1 = V1/V2 · λ2 = 5/2 · λ2 , und es wäre λ1 > 5/2 · λ2 , falls h1 > h2 . Zu Testen ist also H = {λ1 = 5/2 · λ2 } gegen K = {λ1 > 5/2 · λ2 }. Das Problem ist ein Testproblem und kann nach (9.3.3) behandelt werden. Lösung: p= 19 X i=17 5 5/2 = 1 + 5/2 7 5 Pbin (i; n = 19, p = ) = 0.0602. 7 Das beobachtete Ereignis hat zwar unter der Hypothese gleichbleibender Lebensbedingungen eine geringe Wahrscheinlichkeit. Diese ist jedoch noch 9.3. GRUNDPROBLEME 9-7 nicht so gering, daß die Hypothese als widerlegt anzusehen ist. - Die Vermutung ist durch diese Beobachtung noch nicht hinreichend gesichert. Literaturverzeichnis Appendix-1 Index ’ ToDo’, 3-7, 3-13, 4-8, 4-16, 5-3, 6-22, 7-1, 7-10 (Tschebyscheff’sche Ungleichung):, 8-2 Hypothese zusammengesetzte, 5-2 a priori Verteilung, 7-6 a priori Wahrscheinlichkeit, 7-7 a-posteriori Verteilung, 7-6 abhängig, 6-10 Abschneiden gleicher Schwänze, 5-5 Alternative, 1-5, 4-7, 5-2 Annahmebereich, 5-2 Ansatz Laplace, 2-5 Bayes-Formel, 7-5 Bayes-Verfahren, 7-9 Bereichsschätzer, 1-7 bedingte Wahrscheinlichkeit, 3-3 Bereichsschätzer, 4-11, 5-6 Beta-Verteilung, 7-10 Binomialverteilung, 6-4 Dichte, 3-8 einseitig, 1-6, 1-8, 5-6 Einseitiges Testproblem, 9-5 empirische Wahrscheinlichkeit, 3-7 Ereignis, 3-1 Ereignis-(Sigma)algebra, 3-4 Ereignismenge, 3-2 Ergebnismenge, 3-2, 3-4 Erwartungswert, 8-1 Fehler 2. Art, 1-6 Fehler 1. Art, 1-6 frequentistischer Ansatz, 3-7 Güte, 4-7 Gütefunktion, 5-2 Gegenhypothese, 1-5, 5-2 gemeinsame Verteilung, 7-6 hypergeometrische Verteilung, 3-7 Hypothese, 4-7 hypergeometrische Verteilung, 4-2 Hypothese, 1-4 einfache, 5-2 Irrtumswahrscheinlichkeit, 1-6, 4-7, 5-2, 5-6 Irrtumswahrscheinlichkeit, 1-7 Irrtumswahrscheinlichkeit, 1-8 kanonische Zerlegung, 3-10 Konfidenzbereich, 1-7 Konfidenzniveau, 1-7 Kovarianz, 8-6 kritischer Bereich, 1-5 Laplace-Ansatz, 2-5 lgeometrische Wahrscheinlichkeit, 3-6 logische Wahrscheinlichkeit, 3-6 Minimax-Theorem, 7-9 Mittelwert der Messungen, 8-9 monoton, 5-10 Neyman-Pearson-Verfahren, 7-9 Niveau, 5-2 oder, 7-3 Ordinalskala, 3-5 Parameter, 1-4, 3-9 Parametertests, 6-21 Prognosebereich, 5-8 Prognosebereichsschätzer, 5-9 Prognose, 1-4 Prognosebereich, 1-8 Prognosebereich, 4-16 proportional, 3-10 Punktschätzer, 4-11 Appendix-3 Appendix-4 Quantil, 3-11 Randverteilung, 7-6 relativen Standardfehler, 8-8 Realisierung, 4-11 relativen Fehler, 8-8 Relay-Experiment, 7-6 Schärfe, 5-2 Schätzbereich, 1-7 Schätzer, 8-7 Schätzproblem, 1-4 Sicherheitswahrscheinlichkeit, 5-6 Sicherheitswahrscheinlichkeit, 1-7 Signifikanzniveau, 5-2 Standardabweichung, 8-4 Stichprobe, 4-10 Stichprobenplanung, 1-8 stochastisch unabhägig, 6-10 stochastisch kleiner, 3-13 stochastisch unabhängig, 7-1, 7-2 Streuung, 8-2 Test, 4-7, 5-1 randomisiert, 5-4 Testfunktion, 5-1 Testprobleme, 1-4 Toleranzbereiche, 1-7 Toleranzbereiche, 5-10 Trefferwahrscheinlichkeit, 5-8 Trefferwahrscheinlichkeit, 1-8 unabhägig, 6-10 uniform, 3-8 unverzerrte, 6-1 Variationskoeffizienten, 8-8 Varianz, 8-4 Verteilungsfunktion, 3-6 Verwerfungsbereich, 4-7 Verwerfungsbereich, 1-5 Verzerrung der Stichprobe, 4-4 Vergleichstests, 6-21 Versuchsplanung, 1-4, 1-8 Verteilung, 3-5 Vertrauensniveau, 1-7, 5-6 Verwerfungsbereich, 5-1 Wahrscheinlichkeitsmaß, 3-3, 3-4 Wahrscheinlichkeitsraum, 3-4, 5-1 Wahrscheinlichkeit bedingte, 3-3 empirische, 3-7 INDEX Laplace, 2-5 zensiert, 6-16 Zufallsvariable, 3-5, 5-1 zweiseitig, 1-6, 1-8, 5-6