Statistik für Naturwissenschaftler Günther Sawitzki StatLab

Werbung
Statistik für Naturwissenschaftler
Günther Sawitzki
StatLab Heidelberg
20. Januar 2005
private version
noch in Vorbereitung
E-mail address: [email protected]
URL: http://www.statlab.uni-heidelberg.de/
Key words and phrases. Angewandte Statistik, Einführung in die
Statistik
20. Januar 2005.
Inhaltsverzeichnis
Kapitel 0. Statnat formats
0.1. Construction
0.2. Geschlossene Darstellung
0.2.1. Modell
0.2.2. Parameterabhängigkeit
0.2.3. Praktische Berechnung
0.3. Grundprobleme
0.3.1. Schätzung
0.3.2. Test
0.3.3. Prognose
0.3.4. Stichprobenumfang
0.3.5. Vergleichstest
0.4. Spezielle Anwendungen
1
1
1
1
1
1
1
1
1
1
1
1
2
Kapitel 1. Einführung
1.1. Beispiele
1.2. Statistische Problemstellungen
1.2.1. Testen von Hypothesen
1.2.2. Parameterschätzung, Prognose
1.2.3. Prognoseprobleme, Modellrechungen, Versuchsplanung
1.3. Ausblick
1-1
1-1
1-4
1-4
1-6
1-8
1-9
Kapitel 2. Modell: Auswahl aus einer endlichen Grundgesamtheit 2-1
2.1. Einführung
2-1
2.2. Maßzahlen für Wahrscheinlichkeit
2-1
2.2.1. Elementare Ansätze: erster Schritt
2-2
2.3. Laplace-Ansatz
2-4
2.4. Elementare Ansätze: Schritt i
2-8
2.4.1. Zusammenfassung von Folgeschritten
2-9
2.4.2. Zusammenfassung von Pfade nach Endpunkten
2-11
2.5. Analytische Darstellung
2-13
2.5.1. Binomialkoeffizient
2-14
2.5.2. Geschlossene Darstellung
2-14
2.5.3. Zahlenbeispiel:
2-15
2.6. Rückblick
2-16
Kapitel 3. Das Grundmodell der Wahrscheinlichkeitsrechnung
3.1. Rückblick
i
3-1
3-1
ii
INHALTSVERZEICHNIS
3.2. Axiome
3.2.1. Erste allgemeine Eigenschaften
3.3. Beispiele
3.3.1. Ausgewogener Würfel
3.3.2. Logische Wahrscheinlichkeit
3.3.3. Gezinkter Würfel
3.3.4. Empirische Wahrscheinlichkeit
3.3.5. Auswahl aus einer endlichen Grundgesamtheit
3.3.6. Bedingte Wahrscheinlichkeit
3.3.7. Stetige Verteilungen
3.3.8. Bezeichnung zur formalen Unterscheidung
3.3.9. Konventionen
3.4. Verteilungsfunktion und Quantile
3.4.1. Allgemeine Eigenschaften von Verteilungsfunktionen:
3.4.2. Umkehrung von Verteilungsfunktionen
3.4.3. Allgemeine Eigenschaften von Quantilen
3.4.4. Spezielle Quantile:
3.5. Stochastische Ordnung
3-3
3-5
3-6
3-6
3-6
3-6
3-7
3-7
3-7
3-8
3-8
3-9
3-10
3-11
3-11
3-12
3-13
3-13
Kapitel 4. Hypergeometrische Verteilung
4.1. Das Modell der hypergeometrischen Verteilung
4.1.1. Formale Beschreibung des Modells
4.1.2. Modell: Stichprobe in einer endlichen Menge
4.1.3. Ziehen ohne Zurücklegen
4.1.4. Praktische Berechnung
4.2. Tests bei hypergeometrischer Verteilung
4.2.1. Stichproben:
4.2.2. Standardisierte Formulierung des Problems:
4.3. Schätzprobleme bei hypergeometrischer Verteilung
4.4. Capture–Recapture–Methode
4.5. Prognoseproblem
4-1
4-1
4-1
4-2
4-2
4-3
4-6
4-6
4-7
4-9
4-14
4-16
Kapitel 5. Grundbegriffe: Test, Schätzung, Prognose
5.1. Test
5.1.1. Konstruktion von Verwerfungsbereichen.
5.2. Schätzung
5.2.1. Zusammanhang zwischen Tests und Schätzbereichen
5.3. Prognose
5.3.1. Einfache Prognose
5.3.2. Allgemeine Prognose und Toleranzbereiche
5.4. Einseitige Fragestellung bei Monotonie
5.4.1. Testproblem bei Monotonie
5.4.2. Schätzproblem bei Monotonie
5.4.3. Einfaches Prognoseproblem bei Monotonie
5-1
5-1
5-3
5-6
5-7
5-8
5-8
5-9
5-10
5-11
5-11
5-12
Kapitel 6. Binomialverteilung
6-1
INHALTSVERZEICHNIS
iii
6.1. Konstruktion einer Maßzahl
6.2. Zusammenfassung des Modells
6.3. Geschlossene Darstellung
6.3.1. Praktische Berechnung
6.4. Parameterabhängigkeit bei der Binomialverteilung
6.4.1. Auswirkung des Parameters p:
6.4.2. Auswirkung des Parameters n:
6.5. Grundprobleme bei Binomialverteilung
6.5.1. Testproblem: Niveau α
6.5.2. Schätzproblem
6.5.3. Vergleich Binomialverteilung / Hypergeometrische
Verteilung
6.6. Spezielle Anwendungen
6.6.1. Binomialverteilung beim Zeichentest auf Symmetrie
6.7. Tests für den Parameter p der Binomialverteilung
6.8. Weitere Grundprobleme
6.8.1. Schätzung des Parameters p bei Binomialverteilung
6.8.2. Prognose bei Binomialverteilung
6.9. Vergleich zweier Binomialverteilungen
6.9.1. Fisher’s exakter Test
6.10. Kontingenztafeln
6-1
6-3
6-3
6-5
6-7
6-7
6-8
6-9
6-9
6-9
6-9
6-11
6-11
6-12
6-18
6-18
6-20
6-21
6-21
6-22
Kapitel 7. Abhängigkeit, Unabhängigkeit, Bayes-Formel
7.1. Stochastische Unabhängigkeit
7.2. Abhängigkeit, Bayes-Formel
7-1
7-1
7-4
Kapitel 8. Erwartungswert und Varianz
8.1. Erwartungswert
8.2. Varianz
8.3. Rechnen mit Erwartungswerten und Varianz
8.4. Kovarianz
8.5. Qualitätsmerkmale von Punktschätzern
8.5.1.
8.6. Fehlerfortpflanzung durch Addition
8.6.1.
8-1
8-1
8-2
8-5
8-6
8-7
8-8
8-9
8-9
Kapitel 9. Poisson-Verteilung
9.1. Beispiel für die Problemstellung:
9.2. Modell: Auftreten seltener Ereignisse
9.2.1. Erwartungswert und Varianz
9.2.2. Praktische Berechnung
9.3. Grundprobleme
9.3.1. Schätzproblem
9.3.2. Testprobleme
9.3.3. Vergleichstest
9-1
9-1
9-2
9-3
9-3
9-4
9-4
9-5
9-5
Literaturverzeichnis
Appendix-1
iv
Index
INHALTSVERZEICHNIS
Appendix-3
KAPITEL 1
Einführung
1.1. Beispiele
Wir benötigen zu Anfang einige Beispiele, um für die Diskussion
konkretere Ausgangspunkte zu haben. Die Beispiele hier sind künstlich,
und mit Absicht so einfach gewählt, dass sie noch vollständig überschaubar sind. Sie sind aber hinreichend komplex, um einige grundlegende Aspekte zu illustrieren.
Beispiel 1.1. Population von zwei Arten.
In einem abgegrenzten Biotop leben zwei miteinander konkurrierende Arten. Bei einer Zählung werden n0 Individuen der ersten Art
und n1 der zweiten festgestellt. Bei einer erneuten Zählung nach drei
Jahren zählt man n0 − k0 Individuen der ersten Art und n1 + k1 der
zweiten. Kann man aufgrund dieser Daten sagen, dass sich das Biotop
in der Zwischenzeit für Art 0 zugunsten von Art 1 verschlechtert hat?
Sind k0 , k1 klein im Vergleich zu n0 , n1 , etwa n0 = 5000, n1 = 4600
und k0 = 20, k1 = 15, so sicherlich nicht. Anders wenn die Werte z.B.
n0 = 5000, k0 = 3000 bzw. n1 = 4600, k1 = 2000, die neuen Populationszahlen also n00 = n0 − k0 = 2000, n01 = n1 + k1 = 6600 sind. Ab
wann soll man die Veränderung als auffällig betrachten?
Ein vereinfachtes Modell zeigt, was passieren kann: Stellen wir uns
das Biotop in feste Parzellen aufgeteilt vor, jede bewohnt von genau
einem vermehrungsfähigen Individuum mit höchstens einem Nachkommen pro Zeiteinheit. Nehmen wir 36 Parzellen, so können wir auswürfeln,
wer sich ”vermehren” soll: Mit zwei Würfen ist eine Parzelle und damit
ein Individuum festgelegt. Zwei weitere Würfe bestimmen das Feld, das
nun vom Nachkommen ”erobert” wird (Siehe 1.1).
Eine Folge von Würfen kann z.B. ergeben; (3, 2) (d.h. ein ◦ vermehrt
sich), (1, 5) (d.h. der ◦ nimmt den Platz eines × ein). (Abb. (1.2))
Wir führen das “Experiment” eine Zeit lang, z. B. 100 mal durch: Ganz
zufällig hat Art 1 sich um 1/3 auf Kosten von Art 0 vermehrt und ist
jetzt fast doppelt so häufig wie Art 0 (Abb. 1.4).
Beispiel 1.2. Messreihe
1-1
1-2
1. EINFüHRUNG
4
1
2
3
2. Wurf
5
6
n[0] = 18; n[1] = 18
1
2
3
4
5
6
1. Wurf
Abbildung 1.1: Zu Beispiel 1.1: Start: n0 = 18, n1 = 18. Codierung: ◦
für Art 0 , × für Art 1.
1. Schritt: (2, 3)
1
2
3
4
5
6
n[0] = 17; n[1] = 19
1
2
3
4
5
6
( 3 , 2 ) >> ( 1 , 5 )
Abbildung 1.2: Zu Beispiel 1.1: Schritt 1: (3, 2) → (1, 5)
Aus einer Zellkultur werden 10 Zellen entnommen und der DNAGehalt der Kerne bestimmt; die Messwerte sind in 10−8 mg:
2.56, 2.58, 2.60, 2.54, 2.57, 2.60, 2.59, 2.57, 2.58, 2.61.
Im Mittel also (2.56 + 2.58 + . . . + 2.61) / 10 = 2.58. Um diesen Wert
liegen die Messwerte. Mit welchem DNA-Gehalt kann man für weitere Untersuchungen rechnen? Mit den extremen Messwerten 2.54 oder
2.61? Mit dem mittleren Messwerte 21 · (2.54 + 2.61) = 2.575? Mit dem
Mittel 2.58? Mit 2.58 ± 10 % ?
Beispiel 1.3. Fortpflanzung
Ein dominant-rezessiv vererbtes Merkmal mit den Ausprägungen
a, A soll bei Individuen vom Phänotyp a (also Genotyp aa) untersucht werden. Dazu kreuzt man in der nur aus Aa-Individuen bestehenden Elterngeneration n Paare, die je einen Nachkommen haben. Für
1.1. BEISPIELE
1-3
1. Schritt
Würfe: (3, 2)(1, 5) (4, 3)(6, 6)
5
4
3
2
1
1
2
3
4
5
6
n[0] = 16; n[1] = 20
6
n[0] = 17; n[1] = 19
1
2
3
4
5
6
1
2
( 3 , 2 ) >> ( 1 , 5 )
3
4
5
6
( 4 , 3 ) >> ( 6 , 6 )
4. Schritt
(2, 5), (6, 3)
(1, 4)(2, 2)
5
4
3
2
1
1
2
3
4
5
6
n[0] = 18; n[1] = 18
6
n[0] = 17; n[1] = 19
1
2
3
4
5
6
1
2
( 1 , 4 ) >> ( 2 , 2 )
3
4
5
6
( 2 , 5 ) >> ( 6 , 3 )
Abbildung 1.3: Zu Beispiel 1.1: Schritte 1 − 4
100. Schritt
1
2
3
4
5
6
n[0] = 19; n[1] = 17
1
2
3
4
5
6
( 4 , 6 ) >> ( 2 , 3 )
Abbildung 1.4: Zu Beispiel 1.1: Nach 100 Schritten
die weitere Untersuchung will man k aa-Individuen. Wie groß muß n
gewählt werden? n = k ist sicher nicht richtig; die meisten der Nachkommen werden Aa- oder AA-Individuen sein, also muß n > k sein.
Nach den Mendel’schen Regeln ist im Mittel zu erwarten, dass 14 der
Nachkommen den Genotyp AA, 12 den Genotyp Aa = aA , und 41 den
gewünschten Genotyp aa hat. Im Mittel: manchmal mehr, manchmal
weniger. Soll man also n = 4 · k wählen? Oder n = 4 · k + 10 % ? Oder
n=2·4·k ?
1-4
1. EINFüHRUNG
1.2. Statistische Problemstellungen
Testprobleme
Schätzproblem
Prognose
Versuchsplanung
Im folgenden werden Methoden entwickelt, mit denen diese und
ähnliche Probleme behandelt werden können. Probleme wie (Beispiel
1.1) werden Testprobleme genannt: gesucht ist hier eine Entscheidungsregel, die aufgrund beobachteter Daten sagt, ob man sich für
oder gegen eine bestimmte Hypothese entscheiden soll. (Beispiel 1.2)
kann man als ein Schätzproblem auffassen: aufgrund der beobachteten Daten soll ein den Beobachtungen zugrunde liegender Parameter
möglichst genau geschätzt werden. Eine genauere Überlegung führt jedoch darauf, dass hier eigentlich nach einer Prognose gefragt ist: aufgrund der beobachteten Daten in einem Experiment soll für das weitere Vorgehen (voraussichtlich nicht mit den gegebenen Proben, sondern
in neuen Experimenten) geschlossen werden. Bei (Beispiel 1.3) ist die
Anzahl der eingesetzten Einheiten (hier: Eltern) festzulegen. Die Fragestellung fällt hier in den Bereich der Versuchsplanung.
Die angegebenen Beispiele sind an biologischen Fragestellungen orientiert; die im Folgenden vorgestellten Ansätze jedoch sind nicht an
diesen Bereich gebunden.
Wie können für die Beispielprobleme Lösungen aussehen?
Hypothese
Parameter
1.2.1. Testen von Hypothesen. Beim Testproblem geht man
von einer bestimten Hypothese aus. Etwa, (Beispiel 1.1), von der Hypothese: Beide Arten sind gleich fruchtbar. Hinzu kommen Vor-Informationen über Versuchsparameter. In Beispiel 1.1: die Information,
dass n0 = 5000, n1 = 4000 die Anfangsgrößen der Populationen sind.
Sind beide Arten exakt gleich fruchtbar, so ist damit zu rechnen,
dass n0 : n1 = n00 : n01 . D.h. das Verhältnis der Populationsgrößen
zueinander ändert sich nicht (Abb. 1.5).
Abbildung 1.5: n0 0 : n1 0 = n0 : n1
Doch nur in einem idealisierten Fall ist n0 : n1 = n00 : n01 . Realistischer ist es - selbst bei der Annahme gleicher Fruchtbarkeit - mit einer
1.2. STATISTISCHE PROBLEMSTELLUNGEN
1-5
Schwankung um dieses Verhältnis zu rechnen. Selbst große Abweichungen sind im Prinzip nicht ausgeschlossen, auch wenn sie bei gleicher
Fruchtbarkeit beider Arten recht unwahrscheinlich sind (Abb. 1.6).
Abbildung 1.6: Abweichungen vom idealisierten Fall
Eine Lösung des Testproblems sieht nun so aus, dass ein Bereich
abgegrenzt wird, von dem man sagen kann: Unter der Annahme gleicher
Fruchtbarkeit ist es so unwahrscheinlich, ein Ergebnis in diesem Bereich
zu bekommen, dass man das Eintreten dieser Ergebnisse im Versuch als
Grund genug ansieht, die Hypothese zu verwerfen. Der so abgegrenzte
Bereich heißt Verwerfungsbereich oder kritischer Bereich (Abb. Verwerfungsbereich
1.7).
kritischer Bereich
Abbildung 1.7: Zweiseitiger Verwerfungsbereich
Um die Fragestellung genauer zu fassen, stellt man der Hypothese
eine Gegenhypothese oder Alternative gegenüber:
Gegenhypothese—
see Alternative
Hypothese:
Beide Arten sind gleich fruchtbar.
Alternative
Gegenhypothese:
Die Fruchtbarkeit unterscheidet sich.
Dabei reicht es für manche Fragestellungen, die kritische Region
nach einer Seite hin abzugrenzen. Etwa, wenn als Alternative zur Hypothese gleicher Fruchtbarkeit nur zur Diskussion steht: Art 1 ist fruchtbarer als Art 0, so ist nur die obere Grenze interessant (Abb. 1.8).
1-6
1. EINFüHRUNG
Hypothese:
Gegenhypothese:
Beide Arten sind gleich fruchtbar.
Art 1 ist fruchtbarer als Art 0
Abbildung 1.8: Einseitiger Verwerfungsbereich
Ist nur die Abgrenzung zu einer Seite hin in der Diskussion, so
einseitig!Problemstellung
spricht man von einseitiger Problemstellung, sonst von zweiseitiger.
zweiseitig!Problemstellung
Eine feste Grenze zu ziehen beinhaltet immer eine gewisse Willkür.
Fehler!1. Art
Irrtumswahrscheinlichkeit
Fehler!2. Art
Selbst bei im Prinzip gleicher Fruchtbarkeit können bei einer Zählung
die beobachteten Werte zufällig einmal außerhalb der gezogenen Grenze liegen. Mit gewisser Wahrscheinlichkeit wird die Hypothese dann
fälschlicherweise verworfen. Dies bezeichnet man als einen Fehler 1.
Art. Ein Problem der nächsten Kapitel wird es sein, ein Maß für diese
Wahrscheinlichkeit, genannt Irrtumswahrscheinlichkeit, zu entwickeln.
Es ist ein weitverbreiteter Irrtum zu glauben: Wenn ein Beobachtungsergebnis nicht im Verwerfungsbereich liegt, dann ist die Hypothese richtig. Das muß nicht sein. Es kann auch sein, dass die Gegenhypothese wahr ist und nur zufällig die Beobachtung nicht im Verwerfungsbereich liegt. Dann spricht man von einem Fehler 2. Art. Oder die
gesamte Modellvorstellung, Hypothese und Gegenhypothese, kann unangemessen sein; ein Fehler der dritten Art, über den man manchmal
gar nicht erst spricht.
1.2.2. Parameterschätzung, Prognose. Ähnlich ist die Situation beim Schätzproblem, bei dem ausgehend von Beobachtungen ein
Parameter zu schätzen ist. Der erste Lösungstyp sieht so aus, dass mit
einer Rechenformel aus den Beobachtungswerten ein Schätzwert für
den Parameter errechnet wird. Etwa (Beispiel 1.2): Aus den Messwerten wird das Mittel gebildet, und man schätzt, dass dieser Wert dem
typischen DNA-Gehalt in der Zellkultur entspricht. Das Rechenverfahren selbst ist eindeutig festgelegt, jedoch die Eingangsdaten, die Messwerte, sind mit allerlei Zufälligkeiten behaftet. Zum Beispiel: Hätten
wir nur den DNA-Gehalt bei fünf Zellen bestimmt und dabei die ersten
1.2. STATISTISCHE PROBLEMSTELLUNGEN
1-7
fünf aus Beispiel 1.2 herausgegriffen, so hätten wir als Mittel (2.56 +
. . . + 2.57)/5 = 2.57 erhalten; hätten wir zufällig die letzten fünf herausgegriffen, so wäre das Ergebnis 2.5.
Die bessere Lösung des Schätzproblems sieht so aus, da man einen
Bereich abgrenzt, in dem, nach den Messergebnissen zu urteilen, der
gesuchte Parameter vermutlich liegt. Dieser abgegrenzte Bereich heißt
Schätzbereich oder Konfidenzbereich. Wieder unterscheidet man Schätzbereich
zweiseitige Problemstellungen, wenn der Schätzbereich nach beiden Sei- Konfidenzbereich
ten hin abgegrenzt werden soll
Abbildung 1.9: Zweiseitiges Konfidenz-Intervall
und einseitige Problemstellungen, wenn nur eine Abschätzung zu einer
Seite, nach oben oder nach unten hin, gefragt ist.
Abbildung 1.10: Einseitiges Konfidenz-Intervall
Ein Verfahren zur Bestimmung des Schätzbereichs, ein Bereichsschätzer, kann zu einer Fehlschätzung führen, wenn etwa die im Ver- Bereichsschätzer
such gemessenen Werte zufällig besonders extrem sind. Mit einer gewissen Wahrscheinlichkeit liegt dann der unbekannte wahre Wert nicht im
Schätzbereich; diese Wahrscheinlichkeit heißt wieder Irrtumswahrscheinlichkeit. Unter der Sicherheitswahrscheinlichkeit (Konfidenzniveau,
IrrtumswahrVertrauensniveau) eines Bereichsschätzers versteht man umgekehrt scheinlichkeit
die Wahrscheinlichkeit, dass der abgegrenzte Bereichs den wahren Pa- Sicherheitswahrscheinlichkeit
rameter einschließt.
Konfidenzniveau
In diesem Detail unterscheidet sich die Prognose von der (rückwärts- Vertrauensniveau
gewandten) Parameterschätzung. Bei der Prognose geht es nicht um abstrakte Parameter, sondern um zukünftige Beobachtungen. Das Ziel ist
es nun, weitere Beobachtungen mit guter Sicherheit zu prognostizieren.
Die für diesen Zweck geeigneten Bereichsschätzer heiße Toleranzbereiche.
Toleranzbereiche
1-8
1. EINFüHRUNG
1.2.3. Prognoseprobleme, Modellrechungen, Versuchsplanung. Für Toleranzbereiche wird von einer Reihe von Beobachtungen auf weitere geschlossen (bzw. diese prognostiziert). Beim einfachen Prognoseproblem schließlich geht man von bekannten Parametern aus; die Modellvorstellungen sind nicht mehr hypothetisch, sondern gelten als gesichert, wie etwa die Mendel’schen Regeln in Beispiel 1.3. Diese Modellvorstellungen erlauben es uns, das Ergebnis eines Versuches vorauszusagen. Etwa (Beispiel 1.3) 14 der Nachkommen
einer Aa × Aa-Kreuzung hat den Genotyp aa. Dies ist eine idealisierte
Prognose; in der Praxis haben wir eine Schwankung um diesen Wert
Prognosebereich zu erwarten. Deshalb gibt man einen Prognosebereich an, in dem
Beobachtungswerte zu erwarten sind. Berücksichtigt man alle Eventualitäten, so muß man extrem große Prognosebereiche zulassen. So
können zufällig auch bei einer Aa × Aa-Kreuzung alle Nachkommen
zum Genotyp aa gehören oder alle zu AA; ein sicherer Prognosebereich
für die Anzahl der aa-Nachkomen muß von O bis n (= alle) reichen.
Will man den Prognosebereich enger fassen, so muß man in Kauf nehmen, dass mit einer gewissen Wahrscheinlichkeit auch extreme Ereignisse auftreten können, die nicht im Prognosebereich erfaßt sind. Die
TrefferTrefferwahrscheinlichkeit gibt an, mit welcher Wahrscheinlichkeit
wahrscheinein Messwert innerhalb des abgegrenzten Prognosebereichs zu erwarlichkeit
ten ist. Auch hier spricht man von einseitigen Problemen, wenn eine
einseitig!Problemstellung
Abgrenzung nur zu einer Seite hin gefragt ist, sonst von zweiseitigen
Problemen. Beispiel 1.3 ist ein einseitiges Problem: Nur nach einer
zweiseitig!Problemstellung
unteren Grenze ist für die Anzahl der aa-Nachkommen aus n Kreuzungen gefragt; mindestens k sollen es sein.
Stichprobenplanung
Versuchsplanung
Bei der Versuchsplanung nun ist die Fragerichtung nun genau umgekehrt: die Frage (oder die Entscheidungsmöglichkeit) bezieht sich auf
die Ausgangspopulation. Deren Größe können wir wählen. Dies ist eine Aufgabe der Stichprobenplanung. In komplexeren Situationen
kommt die Frage hinzu, wie die vorhandenen Beobachtungseinheiten
in unterschiedlichen Versuchszweigen eingesetzt werden sollen. Dies zu
beantworten ist Aufgabe der Versuchsplanung.
Stichproben- und Versuchsplanungsfragen treten häufig auch Statistik-intern auf. Zum Testen von Problemen (Abschnitt 1.2.1) z.B.
können allgemeine Verfahren angegeben werden. Um eine geforderte
Irrtumswahrscheinlichkeit nicht zu überschreiten und gleichzeitig Unterschiede verlässlich zu erkennen ist in der Regel ein Mindestumfang
von Beobachtungen nötig. Das Testproblem führt hier wieder auf Fragen der Stichproben- und Versuchsplanung.
1.3. AUSBLICK
1-9
1.3. Ausblick
Test
Entscheidungsverfahren
Versuchsplanung,
Stichprobenplanung
Prognose
Schätzung
Statistische Problemklassen
Für jede dieser Problemklassen gibt es eine Reihe von mehr oder weniger naheliegenden Lösungsansätzen. Wir werden versuchen, ein paar
Beispiele zu geben und die dahinter stehenden gemeinsamen Ideen herauszuarbeiten.
Wenn es immer nur einen Lösungsansatz gäbe, wäre die Aufgabe
mit der ersten treffenden Idee gelöst. Aber schon bei den einfachen Beispielen haben wir gesehen, dass es konkurrierende Ansätze geben kann.
Es wird eine weitere Aufgabe sein, Kriterien zum rationalen Vergleich
konkurrierender Ansätze zu finden und die Anwendung dieser Kriterien zur Auswahl zwischen diesen Ansätzen zu illustrieren. Dies führt in
Bereiche der mathematischen Statistik.
Das Herausarbeiten der treffenden Problemklasse bestimmt die weitere Arbeit. Die offensichtlich erscheinende erste Einordnung ist nur ein
Ausgangspunkt. Wie in den Beispielen führt eine genauere Betrachtung
jedoch oft zu anderem Urteil.
Die Problemklassen sind miteinander verwandt, und eine Lösung
für eine Klasse führt oft zu einem Ansatz für verwandte Klassen. Dieser
“plug in”-Ansatz ist jedoch nur ein Kandidat und muss sich in Konkurrenz mit anderen Vorschlägen messen. Oft kann zum Beispiel eine
Parameter-Schätzung zur Prognose benutzt werden, indem man so tut,
als sei der geschätzte Wert der wahre. Aber Schätzung und Prognose
können zu ganz unterschiedlichen Optimalitätskriterien führen, und die
treffende Wahl der Problemklasse kann entscheidend für die Resultate
sein. Dies führt uns zu Fragen, die in den Bereich der statistischen
Modellierung gehören.
Immer wieder werden wir dabei Maßzahlen für Wahrscheinlichkeiten benutzen müssen. Dazu müssen wir eine tragbaren Ansatz für diese
Wahrscheinlichkeitsrechnung entwickeln. Dies wird zunächst unser vordringliches Thema sein.
KAPITEL 2
Modell: Auswahl aus einer endlichen
Grundgesamtheit
2.1. Einführung
Wahrscheinlichkeiten sind keine geheimnisvollen Größen, sondern
konkret definierte Maßzahlen. An einem einfachen Beispiel wollen wir
einmal im Detail nachvollziehen, wie Wahrscheinlichkeiten konstruiert
werden können.
Beispiel 2.1. In einem abgegrenzten Biotop leben N0 = 6 Paare
der Art 0 und N1 = 8 Paare der Art 1, die pro Jahr je höchstens ein
Nachkommen haben. In einem Jahr bekommen 5 der 6 Paare von Art
0 und 4 der 8 Paare von Art 1 je ein Nachkommen. Ist es sinnvoll,
aufgrund dieser Beobachtung zu sagen, dass Art 1 weniger fruchtbar
ist als Art 0?
2.2. Maßzahlen für Wahrscheinlichkeit
Angenommen, die beiden Arten in Beispiel 2.1 sind gleich fruchtbar.
Dann kann es immer noch zufällig in einem speziellen Beobachtungszeitraum eintreffen, dass die eine Art sich stärker vermehrt als die andere. Bezeichnet n0 die Anzahl der Nachkommen von Art 0, n1 die von Art
1, so würde man bei gleicher Fruchtbarkeit erwarten, dass die Anzahl
der Nachkommen proportional zur Stärke der Elterngeneration ist. Also
n0 = c·N0 , n1 = c·N1 , wobei c die gemeinsame “Fruchtbarkeit” ist. Etwa bei einer Fruchtbarkeitsrate von c = 12 : n0 = 12 ·6 = 3, n1 = 12 ·8 = 4.
Eine Schwankung um eine Anzahl von eins ist nicht unwahrscheinlich,
also n0 = 2 oder 4, n1 = 3 oder 5. Viel unwahrscheinlicher wäre z.B.
n0 = 0, n1 = 8, oder n0 = 6, n1 = 0. Wie ist es mit dem beobachteten
Ergebnis n0 = 5, n1 = 4? Ist diese Beobachtung schon Grund genug,
eine unterschiedliche Fruchtbarkeit anzunehmen?
Um dies zu entscheiden, gehen wir folgendermaßen vor: Wir führen
eine Modellrechnung durch, bei der wir annehmen, dass kein Unterschied der Fruchtbarkeit vorliegt. Unter dieser Modellannahme kann
2-1
2-2
2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT
ein bestimmtes Beobachtungsergebnis mehr oder weniger wahrscheinlich eintreten, und wir definieren eine Maßzahl, die diese Wahrscheinlichkeit ausdrücken soll. Diese Definition wird den großen Teil dieses
Kapitels ausfüllen.
Wie können wir diese Maßzahl später benutzen? In Beispiel 2.1
zeigte die Beobachtung das Ergebnis n0 = 5 bzw. n1 = 4 Nachkommen. Wird die zu definierende Maßzahl für dieses Ergebnis sehr klein,
so bedeutet das: bei Annahme gleicher Fruchtbarkeit beider Arten ist
das beobachtete Ergebnis sehr unwahrscheinlich. Wir werden die Beobachtung dann als Grund genug ansehen, eine unterschiedliche Fruchtbarkeit anzunehmen. Ist die Maßzahl dagegen groß, so müssen wir annehmen, dass das beobachtete Ergebnis durchaus zufällig zustande gekommen sein kann und mit der Gültigkeit der Annahme noch vereinbar
ist.
Um eine geeignete Maßzahl dafür zu definieren, machen wir ein
Gedankenexperiment (Abb. 2.1). Wir lassen die Nachkommen (samt
Elternpaar) der Reihe nach an uns vorbeiziehen und notieren uns
- die laufende Nummer
i = 1, . . . , n
- die Art des Nachkommens. Abgekürzt mit Yi ,
Yi = 0 für Art 0;
Yi = 1 für Art 1.
Abbildung 2.1: Zählprozess: Anfang
Wenn Sie wollen, können Sie sich anstelle der zeitlichen Reihenfolge
auch eine Sequenz vorstellen. Anstelle von zwei Arten können Sie sich
auch mehrere Arten vorstellen (wenn Sie wollen, z.B. vier Arten, die Sie
A, C, G, U nennen können, um nur ein Beispiel zu geben). Die folgenden Überlegungen gelten entsprechend. Für uns soll hier dies einfache
Beispiel reichen.
2.2.1. Elementare Ansätze: erster Schritt. Erstes Problem:
Der erste anlysierte Nachkomme stammt mit einer gewissen Wahrscheinlichkeit aus Art 1. Welche Größe kann als Maßzahl für diese
2.2. WAHRSCHEINLICHKEIT
2-3
Wahrscheinlichkeit genommen werden? Falls beide Arten gleich fruchtbar sind, kommen etwa folgende Ansätze in Frage (Abb. 2.2):
Abbildung 2.2: Ansätze für einen Schritt
Dabei ist N = N0 + N1 . Eine Reihe von Ansätzen scheiden aus,
weil sie zu inkonsistenten oder nur schwer interpretierbaren Maßzahlen
führen. Nur zwei bleiben übrig: Als Ansatz für die Wahrscheinlichkeit,
1
dass der erste untersuchte Nachkomme aus Art 1 stammt, sind N
N0
und NN1 gleichermaßen geeignet. In der Tat sind sie austauschbar: Die
eine Maßzahl läßt sich ohne weitere Informationen aus der anderen
berechnen und umgekehrt
N1
N1
= N N1 ,
N0
1− N
N
1
N1
N0
=
.
1
N
1+ N
N0
Weil es heute so üblich ist, nehmen wir NN1 als Ansatz. Wir erhalten
also eine Maßzahl zwischen 0 und 1; speziell: 0 für den Fall, da wir
sicher keine Nachkommen der Art 1 erhalten; 1 für den Fall, dass mit
Sicherheit die Nachkommen zur Art 1 gehören; 21 falls N0 = N1 , d.h.
beide Arten gleich stark vertreten sind und somit die gleiche Chance
haben, gezogen zu werden. (In der englischen Wett-Tradition ist der
andere Ansatz durchaus üblich: “die Wett-Chancen stehen N1 : N0 ”).
Für das Weitere brauchen wir Abkürzungen. Die Maßzahl, die wir
definieren wollen (genauer: die “Vorschrift” zur Berechnung der Maßzahl wird im folgenden mit P (“probabilité”, “probability”, . . . ) bezeichnet; wenn nötig fügen wir zusätzliche Angaben in Klammern hinzu
2-4
2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT
in der Form:
P(hEreignis, für das die Wahrscheinlichkeit bestimmt werden solli;
hzusätzliche Informationen, Voraussetzungen, Annahmeni).
1
Mit dieser Abkürzung schreiben wir also
(2.1)
P (Y1 = 1; N0 , N1 ) =
N1
N1
=
N
N0 + N1
und entsprechend für die Wahrscheinlichkeit, dass der erste Nachkomme zu
Art 0 gehört
N0
N0
P (Y1 = 0; N0 , N1 ) =
.
=
N
N0 + N1
2.3. Laplace-Ansatz
2.3.0.1. Bemerkung zur Geschichte: Für das Ereignis ein “ausgezeichnetes Element”, d.h. einen Nachkommen der Art 1 (Y1 = 1) zu erhalten,
ist jede “Ziehung” eines der Art 1 günstig. Den Ansatz aus (1.2) kann man
auch so lesen:
P (Y1 = 1; N0 , N1 ) =
Anzahl der für {Y1 = 1} günstigen Ereignisse
Anzahl der möglichen Ereignisse
N1
=
.
N0 + N1
=
(2.2)
Entsprechend für Y1 = 0. Dieser Ansatz eine Maßzahl für die Wahrscheinlichkeit zu begründen wurde von Laplace um 1795 entwickelt. Er ist dann
sinnvoll,
• wenn für ein Zufallsexperiment (hier: das Herausgreifen eines Nachkommens) eine fest definierte Anzahl von Ausgängen möglich ist
(hier: N0 + N1 mögliche Ausgänge, entsprechend den N0 + N1 Elternpaaren, die in Frage kommen);
• wenn davon eine fest definierte Anzahl vom zum betrachteten Ereignis (hier: der Nachkomme gehört zur Art 1) führt, und
• wenn in Bezug auf die Auswahl des tatsächlich auftretenden Ereingnisses die Möglichkeiten nicht unterschieden sind, d.h. alle die
gleiche Chance haben.
Die letzte Bedingung ist klar im Beispiel (2.1): Wenn die Nachkommen
in der Reihenfolge ihrer Geburt registriert werden, kann es zu einem Fehler
kommen, wenn Art 0 und Art 1 zu unterschiedlicher Jahreszeit ihre Jungen
bekommen. Wird nicht darauf geachtet, erst auszuwerten, nachdem beide
Arten ihre Jungen bekommen haben, liegt also der Untersuchungszeitpunkt
etwa vor Ende der Tragzeit von Art 1, so wäre (2.2) kein adäquater Ansatz.
1Eine
andere übliche Konvention benutzt Indizes, also die Schreibweise
Phzus.Inf ormationen,V oraussetzungen,Annahmeni (hEreignis, für das die Wahr-
scheinlichkeit bestimmt werden soll i)
2.3. LAPLACE-ANSATZ
2-5
Laplace-Ansatz
Anzahl der für E günstigen Ereignisse
P (E) =
Anzahl der möglichen Ereignisse
Nur, angemessen, falls alle Fälle die gleiche Chance haben!
Übung 2.2. Übung zum Laplace-Ansatz: Erbgang Aa × Aa (dominantrezessive Vererbung)
Wenn Genotyp dann Phänotyp
AA
A
Aa = aA
A
aa
a
Berechne die Laplace-Wahrscheinlichkeiten für:
Phänotyp A, a
Genotyp AA, Aa
bei Aa × Aa-Kreuzung!
Bsp. E := {Genotyp = aa}
mögliche Genotypen
Mutter
Vater
A
a
A
a
A
A
a
a
Anz. der mögl. Fälle 4
günstige Genotypen
Mutter
Vater
a
a
Anz. d. günst. Fälle: 1
P (E) = 1/4
Für die anderen Genotypen/Phänotypen erhält man die Lösung:
E = {Genotyp G} P (E)
aa
1/4
AA
1/4
Aa
2/4
2-6
2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT
Phänotyp P
A
P (P h = A) = P (G = AA oder G = Aa) =
a
P (P h = a) = P (G = aa) = 1/4
1
4
+
1
2
=
3
4
Übung 2.3. Übung zum Laplace-Ansatz: Erbgang AB × AB; intermediärer Erbgang
Wenn
dann
Genotyp
Phänotyp
AA
A
AB = BA
AB
BB
B
Berechne die Laplace-Wahrscheinlichkeiten für alle Typen.
Lösung:
Genotyp Phänotyp
P
AA
A
1/4
AB
AB
2/4
BB
B
1/4
Übung 2.4. Übung zum Laplace-Ansatz: Beispiel genetischer Code bei
RNA als Informationsträger (z.B. Tabakmosaikvirus). Codebuchstaben: U
Uracil C Cytosin A Adenin G Guanin
Je eine Dreiergruppe (Triplett) von Nukleodidbasen codiert eine Aminosäure; die Nukleotidbasen sind auf der Matritzen-RNA in einer Reihe angeordnet; die Codierung geschieht wie in folgender Tabelle (siehe Abb. 2.3):
[Czihak e.a.(ed.): Biologie, Springer 1976]
2.3. LAPLACE-ANSATZ
2-7
Abbildung 2.3: Der genetische Code, die Entsprechung von Aminosäuren und Basentripletts. Der erste Buchstabe des Codons steht in
der linken Spalte, der zweite in der obersten Zeile, der dritte in der
Spalte ganz rechts. Phe = Phenylalanin, Leu = Leucin, Ser = Serin, Pro
= Prolin, Arg = Arginin, Asp = Asparagin, Trp = Tryptophan.
Berechne die Laplace-Wahrscheinlichkeit dafür, dass in freier Kombination der Nukleodidbasen die folgenden Aminosäuren codiert werden: Phenylalanin, Lencin, Arginin, Asparagin, Tryptophan.
Lösung:
Anz. der mögl. Fälle = Anz. der Codemöglichkeiten = 43 = 64
Anz. der günstigen Falle = Anz. der Codierungen für die Aminosäure
Aminosäure
Anz. der
z. Vergleich: rel.
Codierungen
Häufigkeit der
Aminosäure bei
E. Coli [Mol %]
Leucin
Arginin
Phenylalanin
Aparagin
Tryptophan
6
6
43
=
6
2
2
1
2
43
=
3
32
3
32
1
32
1
32
1
64
∧
= 9.375 %
∧
= 9.375 %
∧
= 3.125 %
∧
= 3.125 %
∧
= 1.563 %
8%
5%
3.5 %
≈10 %
1%
2-8
2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT
(Laplace-Wahrscheinlichkeit für die freie Kombination und beobachtbare
Häufigkeit im lebenden Organismus - und auch im Labor-Kombinationsexperiment fallen bisweilen auseinander. Die Voraussetzungen der Gleichwahrscheinlichkeit Vertauschbarkeit in Bezug auf die Kombinierbarkeit) ist
eben nicht erfüllt; der Laplace-Ansatz ist hier nicht adäquat.
2.4. Elementare Ansätze: Schritt i
Zurück zum Beispiel 1.1
Zweites Teilproblem: haben wir schon i Nachkommen untersucht und
dabei insgesamt Xi viele der Art 1 gefunden, so stammt der nachste (i + 1).
Nachkomme wieder mit einer gewissen Wahrscheinlichkeit aus der Art 1.
Welche Größe sollen wir als Maßzahl für die Wahrscheinlichkeit nehmen?
LaplaceAnsatz—see
Ansatz
Nehmen wir an, der erste untersuchte Nachkomme gehörte zur Art 1.
Nach der Untersuchung haben wir folgende Situation: (Abb 2.4).
Im Prinzip haben wir zur Bestimmung von Y2 die gleiche Situation wie
bei der Bestimmung von Y1 - nur mit einer anderen Zusammensetzung der
Population. Deshalb setzen wir
P (Y2 = 1; N0 , N1 , Y1 = 1)
= P (Y1 = 1; N0 ; N10 = N1 − 1)
N1 − 1
=
N0 + (N1 − 1)
N1 − 1
=
.
N −1
Allgemeiner: Haben wir schon i Nachkommen untersucht und dabei insgesamt Xi viele der Art 1 gefunden, so ist die Situation wie in Abb. 2.5.
Abbildung 2.4: Zählprozess: zweiter Schritt
2.4. SCHRITT I
2-9
Als Maßzahl für die Wahrscheinlichkeit, dass Yi+1 = 1, setzen wir
(2.3)
P (Yi+1 = 1; N0 , N1 , Xi )
= P (Y1 = 1; N0 − (i − Xi ), N1 , −Xi )
N1 − X1
=
N0 − (i − Xi ) + (N1 − Xi )
N1 − Xi
=
N −i
und entsprechend
P (Yi+1 = 0; N0 , N1 , Xi )
= P (Y1 = 0; N0 − (i − Xi ), N1 − Xi )
N0 − (i − Xi )
=
N0 − (i − Xi ) + (N1 − Xi )
N0 − (i − Xi )
=
.
N −i
Mit dieser Formel konnen wir also für Beispiel 2.1 berechnen:
Ist N0 = 6, N1 = 8 so ist
P (Y1 = 1; N0 = 6, N1 = 8) =
8
= 0.571.
6+8
Beide Arten sind gleich fruchtbar, aber die Art 1 hat einen größeren
Anteil an der Population. Deshalb bekommt die Wahrscheinlichkeit, einen
Nachkommen der Art 1 zu sehen, eine Maßzahl, die größer ist als 12 .
Gehörte der erste Nachkomme zur Art 1, so scheidet dessen Elternpaar
als mögliche Eltern für den zweiten Nachkommen aus, und wir haben
P (Y2 = 1; N0 = 6, N1 = 8, Y1 = 1)
= P (Y2 = 1; N0 = 6, N1 = 8, X1 = 1)
= P (Y1 = 1; N00 = 6, N100 = 7)
7
=
= 0.538.
6+7
Analog: Der zweite Nachkomme gehört zu Art 0 mit Wahrscheinlichkeit
0.462 und so weiter.
2.4.1. Zusammenfassung von Folgeschritten. Beim i. Schritt können wir aus den Angaben über die ursprüngliche Population und aus unserem bereits vorliegenden Zählergebnis eine Maßzahl für die Wahrscheinlichkeit berechnen, dass der nächste zu untersuchende Nachkomme zur Art
0 (bzw. zur Art 1) gehört. Nur: das wollten wir nicht wissen. Wir wollten
eine Maßzahl für die Wahrscheinlichkeit haben, ein bestimmtes Zählergebnis
zu erhalten. Dazu wollen wir die bis hierhin konstruierten Maßzahlen kombinieren. Das ist das dritte Teilproblem: Wie sollen die Maßzahlen für die
einzelnen Schritte zusammengefaßt werden?
2-10
2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT
Stellen wir die Situation graphisch dar. Wir beginnen mit einem Zählerstand X0 = 0. Fur den ersten Nachkommen gibt es zwei Möglichkeiten: Art
0 oder Art 1. (Abb. 2.6)
Abbildung 2.5: Zählprozess: i+1. Schritt
Für den Zweiten gibt es wieder zwei Möglichkeiten. Die Wahrscheinlichkeit, mit der der zweite Nachkomme zur Art 0 bzw. Art 1 gehört, hängt von
der Zusammensetzung der noch verbleibenden Population ab - und damit
vom Ergebnis des ersten Schrittes. (Abb. ??)
Abbildung 2.6: Erster Schritt
Um eine Maßzahl für die Wahrscheinlichkeit einer bestimmten Folge
von Schritten zu bekommen, multiplizieren wir die entsprechenden Maßzahlen für die einzelnen Schritte:2 (Abb. 2.8)
2Abkürzung:
(Y2 = 1)”.
“∧” für “und”. Z.B. “(Y1 = 1) ∧ (Y2 = 1)” für “(Y1 = 1) und
2.4. SCHRITT I
2-11
Abbildung 2.8: Folge von Schritten
2.4.2. Zusammenfassung von Pfade nach Endpunkten. Fur einen
bestimmten Zählerstand addieren wir die Maßzahlen für alle Wege, die zu
diesem Zählerstand führen. (Abb. 2.9)
Abbildung 2.9: Pfade mit selbem Resultat
Allgemein setzen wir für die Aufeinanderfolge in einem Pfad
(2.4) P (Xi−1 = k ∧ Yi = 1) = P (Xi−1 = k 0 ) · P (Yi = 1; Xi−1 = k 0 )
P (Xi−1 = k ∧ Yi = 0) = P (Xi−1 = k 0 ) · P (Yi = 0; Xi−1 = k 0 )
2-12
2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT
und für die Zusammenfassung von Pfade mit derselben Summe
(2.5)
P (Xi = k) = P (Xi−1 = k − 1) · P (Yi = 1; Xi−1 = k − 1)
+P (Xi−1 = k) · P (Yi = 0; Xi−1 = k).
Wendet man diese Regeln formal an, so tauchen bisweilen Ausdrücke auf,
die keinen Sinn machen, wie P (X0 = −1). Für diese Ereignisse, die sicher
nicht auftreten, also unmöglich sind, setzen wir die Maßzahl 0
P (X0 = −1) = 0; P (Xi = k) = 0 für k > N1 , . . . .
Für Ereignisse, die sicher eintreten, setzen wir die Maßzahl 1, also z.B.
P (X0 = 0) = 1.
Beispiel 2.5. Rechenbeispiel N0 = 6, N1 = 8, N = N0 + N1 = 14
2.5. ANALYTISCHE DARSTELLUNG
2-13
Was sagen diese Maßzahlen für das Beispiel (2.1) aus?
Das beobachtete Ereignis, nur 4 der 9 Nachkommen bei der zunächst
häufigeren Art 1 zu sehen, bekommt die Maßzahl P (X9 = 4) ≈ 0.210. Also?
Wir haben eine Modellrechnung unter der Annahme gleicher Fruchtbarkeit
beider Arten gemacht, Das Ergebnis, die Maßzahl 0.210, kann nur durch
einen Vergleich mit unserem ersten Ansatz interpretiert werden: 0.210 ≈
0.20, entspricht also ungefähr der Maßzahl
P (Y1 = 1; N0 = 4, N1 = 1) = 0.20.
Von der Modellrechnung her hat folgende Situation eine vergleichbare
Wahrscheinlichkeit: Unter 5 Paaren befindet sich nur eines der Art 1. Ein
Paar wird herausgegriffen, und ”zufällig” ist es das der Art 1. In Beispiel
(2.1) kann sogar das noch extremere Ergebnis X9 = 3 auftreten. dass Art
1 nur 4 oder sogar nur 3 Nachkommen hat, hätte die ”Wahrscheinlichkeit”
0.028 + 0.210 = 0.238, also etwa vergleichbar dem Ereignis P (Y1 = 1; N0 =
3, N1 = 1) = 0.25 bei einer Auswahl eines von 4 Paaren zufällig das einzige
der Art 1 darunter zu treffen.
Die Beobachtung in Beispiel (2.1) ist nach diesem Vergleich nicht so unwahrscheinlich, dass man sie als Widerlegung der Annahme gleicher Fruchtbarkeit betrachten könnte.
Wie sind wir vorgegangen? Wir haben zunächst für besonders einfach
überschaubare Situationen die Maßzahlen festgesetzt (2.2.1). Dann haben
wir Rechenregeln aufgestellt, mit denen wir daraus auch für weniger überschaubare Situationen unsere Maßzahlen berechnen konnten (2.5 - 2.6). Um
die Ergebnisse zu interpretieren, mußten wir als Vergleich wieder unsere
ersten Ansätze hinzuziehen.
Was wir hier an einem Beispiel diskutiert haben, enthält eine allgemeine
Methode, mit der Maßzahlen für Wahrscheinlichkeiten definiert werden. Die
Rechenregeln dazu werden im nächsten Kapitel genauer untersucht.
2.5. Analytische Darstellung
Die Wahrscheinlichkeitsmaßzahl in (2.2) wurde algorithmisch über ein
schrittweises Rechenverfahren definiert. Das Ergebnis dieses Rechenverfahrens kann auch in eine Formel zusammengefaßt werden.
Übung 2.6. Überprüfe, dass
P (X4 = 4; N0 = 6, N1 = 8) =
8·7·6·5
.
14 · 13 · 12 · 1
Berechne
P (X5 = 5; N0 = 6, N1 = 8)
P (X5 = 0; N0 = 6, N1 = 8)
P (X6 = 6; N0 = 6, N1 = 8).
2-14
2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT
Gibt es eine ähnliche einfache Produktdarstellung?
2.5.1. Binomialkoeffizient. Wir führen einige Abkürzungen ein:
n! := n · (n − 1) · . . . · 1
(lies: n Fakultät )
Für n = 0 setze 0! := 1 = 1!,
n
n · (n − 1) · . . . · (n − k + 1)
=
(lies : n über k).
k
k · (k − 1) · . . . 1
Setze 00 := 1; setze n0 = 1 für alle n und nk = 0, falls k < 0 oder k > n.
2.5.2. Geschlossene Darstellung. Für N = N0 + N1 , n = n0 + n1
mit N0 ≥ n0 ≥ 0, N1 ≥ n1 ≥ 0 gilt:
N0 N 1
(2.6)
P (Xn = n1 ; N0 , N1 ) =
n0
n
N
n
1
und P (Xn = n1 ; N0 , N1 ) = 0, falls n0 > N0 oder n1 > N1 .
Beweis. mit vollständiger Induktion über n: Für n = 0 ist n0 = n1 = 0.
Formal erhält man
N0 N 1
1·1
0
= 1.
P (X0 = 0; N0 , N1 ) =
0 =
N
1
0
Ist n = 1, so ist n1 = 0 oder n1 = 1, und die Formel ergibt
N 0 N1
N0
1
P (X0 = 0; N0 , N1 ) =
0 =
N
N
1
N 0 N1
N1
0
P (X0 = 1; N0 , N1 ) =
0 =
N
N
1
in Übereinstimmung mit (2.1).
Wir machen nun den Induktionsschritt: Zu zeigen ist: Liefert die Formel
(2.6) für einen Wert (n − 1) dieselben Ergebnisse wie (2.5), so auch für n.
Dies müssen wir für jeden Wert n1 , 0 ≤ n1 ≤ n nachweisen.
Sei also n1 ein Wert zwischen 0 und n und n0 = n − n1 . Nach (2.4.2) ist
P (Xn = n1 ) = P (Xn−1 = n1 − 1) · P (Yn = 1; Xn−1 = n − 1)
+P (Xn−1 = n1 ) · P (Yn = 0; Xn−1 = n),
wobei wir, wie in (2.4.2), mit festen Parametern N0 , N1 rechnen. Die rechte
Seite dieser Gleichung kann nach Induktionsvoraussetzung mit der Formel
2.5. ANALYTISCHE DARSTELLUNG
2-15
(2.6) berechnet werden. Also ist
N0
N1
(n−1)−(n1 −1) n1 −1
·
N
n−1
N1 N0
N0
(n−1)−n1 n1
+
·
N
n−1
P (Xn = n1 ) =
=
1
N
n−1
·
N1 − (n1 − 1)
+
N − (n − 1)
− ((n − 1) − n1 )
N − (n − 1)
N N 0
1
N1 − (n1 − 1) +
n1 − 1
n0
· (N − (n − 1))
N1
N0
N0 − (n0 − 1)
+
n1
n0 − 1
(n − 1)!(N − (n − 1))!N0 !N1 !
=
N !(N − (n − 1))
(N1 − (n1 − 1))
·
n0 !(N0 − n0 )!(n1 − 1)! N1 − (n1 − 1) !
(N0 − (n0 − 1))
+
(n0 − 1)! N0 − (n0 − 1) !n1 !(N1 − n1 )!
(n − 1)!(N − n)!N0 !N1 !
1
(n1 + n0 )
=
·
·
n!
(N1 − n1 )!(N0 − n0 )!
n0 !n1 !
N0 N 1
=
n0
n
N
n
1
Nach dem Prinzip der vollständigen Induktion gilt die Formel damit für
alle n.
2.5.3. Zahlenbeispiel: Für N0 = 6, N1 = 8 haben wir die Maßzahlen
in (2.2) schrittweise berechnet. Zum Vergleich hier die Berechnung nach
Formel (2.6):
2-16
2. AUSWAHL AUS ENDLICHER GRUNDGESAMTHEIT
Die Berechnung nach Formel (2.6) erweist sich als wesentlich einfacher
als die schrittweise Berechnung. Sie setzt jedoch voraus, dass wir wissen,
dass diese Formel anwendbar ist. Um das zu überprüfen, muß nicht jedesmal die gesamte Herleitung (2.2.1) - (2.4.2) durchgegangen werden, wenn es
uns gelingt, die in (2.2) gemachten Annahmen kurz zu kennzeichnen. Die
theoretische Vorbereitung dazu wird in Kapitel 3 gemacht; die Kennzeichnung folgt in Kapitel 4.
Ein analoges Vorgehen ist auch bei anderen Zählprozessen möglich. Beispiele dazu werden in Kapitel 6 und Kapitel ?? gegeben.
2.6. Rückblick
Wir haben (hier über den Laplace-Ansatz) ad-hoc-Definitionen für die
Wahrscheinlichkeiten einzelner elementarer Ereignisse (Übergänge) getroffen. Die so gewonnenen Maßzahlen für die elementaren Ereignisse haben wir
zu Wahrscheinlichkeiten für einzelne Pfade zusammengefaßt, und schließlich
aus den Pfadwahrscheinlichkeiten Maßzahlen für die Wahrscheinlichkeiten
von einzelnen “Zuständen” abgeleitet.
Diese Konstruktion ist verallgemeinerbar: wann immer wir ein System
mit endlich vielen Zuständen haben, und wenn wir eine Reihenfolge haben,
in der wir die Zustandsveränderungen analysieren, können wir wie in diesem Kapitel vorgehen, um Wahrscheinlichkeiten explizit zu berechnen. Für
2.6. RÜCKBLICK
2-17
Systeme mit bekannter Struktur können analytische Resultate vorliegen, die
uns diese explizite Rechnung ersparen.
KAPITEL 3
Das Grundmodell der
Wahrscheinlichkeitsrechnung
In diesem Abschnitt wird ein allgemeiner Begriff eines Wahrscheinlichkeitsmaßes eingeführt. Im folgenden reservieren wir das Wort “Wahrscheinlichkeit” für Maßzahlen, die diesem allgemeinen Begriff entsprechen. Diese
“Wahrscheinlichkeiten”generalisieren die im letzten Kapitel getroffenen adhoc-Konstruktionen.
Aus der zu treffenden Definition von Wahrscheinlichkeitsmaßes folgt eine
Reihe von Eigenschaften, die für alle Maßzahlen garantiert sind, die diesem
Begriff entsprechen. Viele ad-hoc-Überlegungen können damit in der Folge
durch allgemeinere Resultate ersetzt werden.
3.1. Rückblick
Die Maßzahl P für die Wahrscheinlichkeit eines Ereignisses sollte nicht
davon abhängen, wie das Ereignis beschrieben ist. Mit den Abkürzungen von
(2.2) ist “Y1 = 1”gleichbedeutend mit “X1 = 1” , und es ist “Y1 = 1∧Y2 = 1”
gleichbedeutend mit “Y2 = 2”. Also sollte gelten:
P (Y1 = 1) = P (X1 = 1),
P (Y1 = 1 ∧ Y2 = 1) = P (X2 = 2).
Dies ist eine Konsistenzforderung.
Entsprechende Argumente werden häufig gebraucht. Sie werden einfacher durch folgende Hilfskonstruktion:
Sei
Ω := {0, 1}n = {(0, 0, . . . , 0, 0), (0, 0, . . . , 0, 1), . . . , (1, 1, . . . , 1)},
also die Menge aller möglichen Codierungsfolgen für unsere Beobachtungsergebnisse. Jedem möglichen Ergebnis entspricht über die in (2.2) gewählte
Codierung genau ein Element ω aus Ω, jedem Ereignis entspricht eine Teilmenge aus Ω.
Zum Beispiel dem Ereignis
{Y1 = 1}
3-1
Ereignis
3-2
3. DAS GRUNDMODELL DER WAHRSCHEINLICHKEITSRECHNUNG
entspricht
{ω ∈ Ω : 1. Stelle von ω ist1} =
= {(1, 0, . . . , 0, 0), . . . , (1, 0, . . . , 0, 1), . . . , (1, 1, . . . , 1, 1)}
i
= ω. ∈ Ω : ω = . . . , 1, . . .
.
Dem Ereignis
{Yi = 0}
entspricht
ω. ∈ Ω : ω =
i
. . . , 0, . . .
.
Gleichbedeutenden Beschreibungen von Ereignissen entsprechen dabei
gleiche Teilmengen.
Die Konsistenzforderung wird erfüllt, wenn jeder Teilmenge jeweils nur
eine Maßzahl zugeordnet wird. Diese Maßzahl darf nur von der Teilmenge
selbst abhängen - nicht davon, wie die Menge beschrieben wird. Zum Beispiel
gilt für die Mengen die Gleichheit
{(0, 0, 0, 0, . . . , 0, 0), (0, 0, 0, 0, . . . , 0, 1), . . . , (0, 0, 1, 1, . . . , 1, 1)}
= {Y1 = 0 ∧ Y2 = 0}
= {X2 = 0},
also sollte für die Wahrscheinlichkeits-Maßzahl gelten
P (ω ∈ {(0, 0, 0, 0, . . . , 0, 0), (0, 0, 0, 0, . . . , 0, 1), (0, 0, 1, 1, . . . , 1, 1)})
= P (Y1 = 0 ∧ Y2 = 0)
= P (X2 = 0).
Ergebnismenge
Ereignismenge
Ω wird Ergebnismenge genannt. Die Menge derjenigen Ereignisse, für die
wir eine Wahrscheinlichkeitsmaßzahl definieren, wird mit A bezeichnet und
heißt Ereignismenge. Im Beispiel (??) also
A = {{Yi = 0}, {Yi = 1}, {Yi+1 = 1 . . . , Xi = k}, . . . : i, k = 1, . . . , n} .
Die einzelnen Ereignisse, wie {Yi = 0}, werden auch mit Großbuchstaben
A, A0 , A0 , B, . . . ∈ A bezeichnet.
Wir notieren noch einige Eigenschaften der in (2.2) definierten Maßzahl,
die in die allgemeine Definition mit aufgenommen werden sollen:
(0)
(i)
(ii)
(iii)
(iv)
0 ≤ P (Xi = k) ≤ 1.
P (Xi = k) = 0 , falls Xi = k sicher nicht eintritt.
P (Xi = k) = P (XP
i−1 = k ∧ Yi = 0) + P (Xi−1 = k − 1 ∧ Yi = 1).
P (Xi = k) = 1 − k0 6=k P (Xi = k 0 ).
P (Xi−1 = k ∧ Yi = 1) = P (Xi−1 = k) · P (Yi = 1; Xi−1 = k).
3.2. AXIOME
3-3
3.2. Axiome
Wir reservieren nun den Namen “Wahrscheinlichkeitsmaß” für Maßzahlenvorschriften mit diesen Eigenschaften, indem wir definieren:
Definition 3.1. Eine Abbildung P : A → [0, 1] heißt Wahrscheinlichkeitsmaß, wenn sie folgende Eigenschaften hat:
i) P (∅) = 0.P
ii) P (A0 ) = k P (A0 ∩ Ak ), wenn A0 , Ak ∈ A,S
Ak ∩ Ak0 = ∅ für k 6= k 0 , k, k 0 > 0 und A0 ⊂ k Ak ,
iii) P (A) = 1 − P (Ac ) für A ∈ A . 1
Wahrscheinlichkeitsmaß
Zu ii)
Abbildung 3.1: Zu Def. 3.1 ii): P (A0 ) = P (A0 ∩ A1 ) + P (A0 ∩ A2 ).
Definition 3.2. Ist P : A → [0, 1] Wahrscheinlichkeitsmaß und A0 ∈
A , so heißt P ( · | A0 ) : A → [0, 1] bedingte Wahrscheinlichkeit unter
der Bedingung A0 , wenn
iv) P (A ∩ A0 ) = P (A0 ) · P (A | A0 )
1Ac
= {ω ∈ Ω :∈
/ A}
für alleA ∈ A .
bedingte Wahrscheinlichkeit—see Wahrscheinlichkeit
3-4
3. DAS GRUNDMODELL DER WAHRSCHEINLICHKEITSRECHNUNG
Bemerkung 3.3. Ist P (A0 ) 6= 0 , so ist
P (A | A0 ) =
P (A ∩ A0 )
.
P (A0 )
Die Hilfskonstruktionen (Ω, A ) aus (??) benutzen wir auch hier, um
Ausdrücke wie (A ∩ Ak0 ), Ac , . . . genauer zu fassen. Wir definieren formal:
Definition 3.4. Ein System A von Teilmengen einer Ergebnismenge Ω
heißt Ereignisalgebra2 , wenn
i) ∅ ∈ A ,
ii) mit A, A0 ∈ A ist auch A ∩ A0 ∈ A ,
iii) mit Ai ∈ A ist auch
S
iA
∈A,
iv) mit A ∈ A ist auch Ac := Ω \ A ∈ A .
Ereignis(Sigma)algebra
Wahrscheinlichkeitsraum
Ergebnismenge
Dieses Mengensystem heißt Ereignis-(Sigma)algebra .
Diese Definitionen faßt man zusammen zur Definition eines Wahrscheinlichkeitsraumes. Dazu gehören drei Bestandteile.
Definition 3.5. Ein Wahrscheinlichkeitsraum ist gegeben durch
i) eine Ergebnismenge Ω,
ii) eine Ereignis-(Sigma-) Algebra A im Sinne von (3.4), die aus
Teilmengen von Ω besteht,
Wahrscheinlichkeitsmaß
iii) eine Abbildung P : A → [0, 1], die ein Wahrscheinlichkeitsmaß
im Sinne von (3.1) ist.
Diese Definition - das Kolmogoroff’sche Axiomensystem der Wahrscheinlichkeitstheorie - ist die mathematische Basis, auf der eine weitere Untersuchung erfolgen kann. Dieses allgemeine Modell erweist sich in der Praxis oft
als brauchbar. Eine Beweismethode oder ein Experiment, um die Existenz
oder die genaue Größe von P (A) zu ermitteln, gibt es jedoch nicht. So sind
bei jeder Anwendung spezielle Ansätze zu machen, die ein als Modell für die
Erfahrungswelt geeignetes Wahrscheinlichkeitsmaß definieren.
Bei der Definition legen wir zunächst “typische” Ereignisse fest, für die
wir dann Wahrscheinlichkeiten (Wahrscheinlichkeitsmaßzahlen) angeben. In
einem zweiten Schritt betrachten wir dann auch daraus zusammengesetzte
Ereignisse (Def. 3.4 i - iv) und versuchen, auch für diese Ereignisse Maßzahlen so zu definieren, dass die Rechenregeln (Def. 3.1 i - iii) noch gelten.
2Genauer:
Betrachtet man bei iii) nur endliche Indexmengen, d.h. i = 1, . . . , n,
so heißt A Ereignisalgebra. Läßt man auch Folgen zu, d.h. i = 1, . . . , n, . . . , so
heißt A Ereignis-Sigmaalgebra
3.2. AXIOME
3-5
3.2.1. Erste allgemeine Eigenschaften. Aus den Rechenregeln (3.1
i - iii) folgen die allgemeinen Eigenschaften von Wahrscheinlichkeitsmaßen:
i)
P (Ω) = 1,
denn P (Ω) = P (∅c ) =
= 1 − P (∅) nach (Def. 3.1 iii)
= 1 − 0 = 1 nach (Def. 3.1 i)
S
P
ii) P ( k Ak ) = k P (Ak ),
falls (Ai ∩ Aj ) = ∅ für i 6= j .
(Additionssatz). Folgt aus (2.1.2 ii).
iii) P (A ∪ B) = P (A) + P (B) − P (A ∩ B),
denn P (A ∪ B) = P ((A) ∪ (B \ A))
= P (A) + P (B \ A) nach (Def. 3.1 ii)
= P (A) + (P (B) − P (A ∩ B)) nach (Def. 3.1 ii).
Wir reservieren im folgenden den Ausdruck “Zufallsvariable” für Abbildungen, die Ereignisse im Sinne von (3.5) definieren:
Definition 3.6. Ist X Abbildung mit Wertebereich X ⊂ R, so heißt
X : Ω → X ⊂ R (reellwertige) Zufallsvariable, wenn
{ω ∈ Ω : X(ω) ≤ x} ∈ A ,
{ω ∈ Ω : X(ω) ≥ x} ∈ A
Zufallsvariable
{ω ∈ Ω : X(ω) = x} ∈ A ,
für alle x ∈ X.
Allgemeiner: ist X eine Menge und B eine Sigma-Algebra von Teilmengen von X, so heisst eine Abbildung X : Ω → X eine Zufallsvariable, wenn
X −1 (B) ∈ A für alle B ∈ B.
Andere Bezeichnungen für Zufallsvariable sind: Statistik, meßbare Abbildung, Observable, . . ..
Definition 3.7. Ist X : Ω → X ⊂ R eine Zufallsvariable, so wird durch
PX ({x0 ∈ X : x0 ≤ x}) := P ({ω ∈ Ω : X(ω) ≤ x}),
PX ({x}) = P ({ω ∈ Ω : X(ω) = x}),
...
ein Wahrscheinlichkeitsmaß auf dem Wertebereich definiert.
Dieses Maß heißt Verteilung der Zufallsvariablen X.
Verteilung
Kurzbezeichnung: X ∼ PX für “X ist verteilt nach PX ”.
Wahrscheinlichkeitsmaße bzw. Verteilungen sind als auf Mengensystemen definierte Funktionen nicht einfach zu handhaben. Für den Spezialfall,
dass die zu Grunde liegende Menge Ω bzw. X streng geordnet ist und das
Mengensystem A bzw. B mit dieser Ordnung verträglich ist, reicht es, sich
auf “Intervalle” zu konzentrieren.
In der Anwendung werden oft dafür spezielle Begriffe eingeführt. In dem
hier benötigten Fall spricht man von ordinal-skalierte Variablen3. Für un-
Skala!ordinal
3-6
3. DAS GRUNDMODELL DER WAHRSCHEINLICHKEITSRECHNUNG
sere Zwecke reicht es, sich auf reellwertige Variable zu beschränken.
Definition 3.8. Die Funktion
x 7→ FX (x) := PX (x0 ∈ X : x0 ≤ x) = P (X ≤ x)
Verteilungsfunktion
heißt Verteilungsfunktion von X.
3.3. Beispiele
3.3.1. Ausgewogener Würfel. Die Ergebnismenge ist Ω = {1, 2, 3,4, 5, 6}.
Es ist Ω = {{1} ∪ . . . ∪ {6}}. Nach (Def 3.1, ii) ist 1 = P (Ω) = P ({1}) +
. . . + P ({6}). Beim fairen Würfel soll jeder der 6 Augenzahlen die gleiche
Wahrscheinlichkeit zugeordnet werden:
P ({1}) = . . . = P ({6}).
P6
Also ist 1 = P (Ω) =
i=1 P ({i}) = 6 · P ({1}) für allle i und damit
P ({1}) = . . . = P ({6}) = 61 .
Übung 3.9. Berechne die Wahrscheinlickeit dafür, dass bei einem Wurf
a) die Augenzahl höchstens 3 ist,
b) die Augenzahl gerade ist,
c) die Augenzahl gerade und mindestens 3 ist.
[
geometrische
Wahrscheinlichkeit
3.3.2. Logische Wahrscheinlichkeit. In 3.3.1 haben wir nicht die
Laplace-Argumentation wie in 2.3.0.1 benutzt. Wir haben vielmehr eine logische bzw. eine Symmetriebedingung benutzt, um anhand von Definition
(3.1) eine Wahrscheinlichkeit zu berechnen. Dieser Ansatz heisst logische
WahrscheinlichkeitWahrscheinlichkeit!logische] oder, bei entstprechendem
Zusammenhang lgeometrische WahrscheinlichkeitWahrscheinlichkeit!logische.
In unserem Beispiel führt der logische Ansatz wieder auf die LaplaceWahrsheinlichkeit.
3.3.3. Gezinkter Würfel. Die Ergebnismenge istP
Ω = {1, 2, 3, 4, 5, 6} und es muß immer noch gelten 1 = 6i=1 P ({i}).
Aber es muß nicht gelten, dass P ({1}) = . . . = P ({6}). Können wir
den Würfel nicht vorher untersuchen, so können wir für P ({i}) nur irgendwelche (willkürlichen) Annahmen machen. Können wir ihn untersuchen, so
können wir z.B. seine Massenverteilung ausmessen und darauf irgendwelche
Ansätze für P ({i}) stützen. Oder, einfacher, wir können eine ganze Reihe
“Probewürfe” machen. Ist hi die relative Häufigkeit von i bei diesen Probewürfen, so können wir den Ansatz P ({i}) = hi machen, i = 1, . . . , 6:
Wir nehmen als Maßzahl für die Wahrscheinlichkeit gerade die beobachtete
relative Häufigkeit.
3Von
intervall-skalierten Variablen hingegen spricht man, wenn arithmetische Operationen wie Differenzen verträglich definiert sind.
3.3. BEISPIELE
3-7
3.3.4. Empirische Wahrscheinlichkeit. Allgemeiner: Relative Häufigkeiten genügen den Regeln von (Def. 3.1), dh.h. sie definieren ein Wahrscheinlichkeitsmaß im Sinne dieser Definition. Dieses Wahrscheinlichkeitsmaß heißt empirische Wahrscheinlichkeit. Die Strategie, Wahrscheinlichkeiten so zu definieren, wird als frequentistischer Ansatz bezeichnet.
empirische
Wahrscheinlichkeit—see
3.3.5. Auswahl aus einer endlichen Grundgesamtheit. Wir ha- Wahrscheinlichben dieses Beispiel in Kapitel 2 diskutiert: Eine Grundgesamtheit von N keit
Elementen besteht aus n0 Elementen der Art 0 und n1 Elementen der Art Ansatz!frequentistisch
1. Es werden der Reihe nach n Elemente “blind” gezogen.
ToDo: Beispiel
Wir nehmen wieder die Codierung mit einer 0 für Art 0, 1 für Art 1. Die Reissnagel: geom
W’keit
Ergebnismenge ist dann die Menge der möglichen Code-Folgen
Ω = {0, 1}n = {0, 0, . . . , 0, 0), (0, 0, . . . , 0, 1), , . . . , (1, 1, . . . , 1, 1)}.
Die Elemente von Ω schreiben wir ω = (ω1 , . . . , ωn ).
Die Indikatorabbildungen
Yi := Ω → {0, 1}
(
0 falls ωi = 0
.
Yi (ω) =
1 falls ωi = 1
und die Zählvariablen
Xj : Ω → N
Xj (ω) =
j
X
1 ≤ i, j ≤ n
Yi
i=1
sind Zufallsvariablen, deren Verteilung im nächsten Paragraphen untersucht
wird. Xj (ω) gibt an, wieviel mal 1 in der Code-Folge ω bis zur j. Stelle
einschließlich auftritt.
Nach (??) ist die Verteilung von Xn berechenbar:
n0 n1
P (Xn = n1 ; n0 , n1 ) =
n0
n
N
n
1
mit n0 = n − n1 . Diese Verteilung heißt in der Literatur hypergeometrische Verteilung.
3.3.6. Bedingte Wahrscheinlichkeit. Bedingte Wahrscheinlichkeiten
heißen nicht nur so, sie sind auch Wahrscheinlichkeiten, d.h. sie genügen den
Bedingungen von (3.1).
Übung 3.10. Zeigen Sie: Ist (Ω, A , P ) ein Wahrscheinlichkeitsraum und
A ∈ A eine Menge mit P (A) > 0, so ist P (A) ein Wahrscheinlichkeitsmaß
im Sinne von (Def. 3.1).
hypergeometrische Verteilung
3-8
3. DAS GRUNDMODELL DER WAHRSCHEINLICHKEITSRECHNUNG
3.3.7. Stetige Verteilungen. Verteilungen aus Zählprozessen sind die
einfachsten Beispiele. Das Konzept ist jedoch weit allgemeiner gültig.
Ist f eine Funktion
f : R 7→ R
R
mit f ≥ 0, f 6= 0, f dx < ∞, so definiert
R
f dx
P (A) = RA
Ω f dx
ein Wahrscheinlichkeitsmaß. Die Funktion x 7→ p(x) :=
Dichte
R f (x)
Ω f dx
heisst die
(Lebesgue-)Dichte von P .
Die Probleme sind hier wieder in den Details versteckt. Es muss genauer definiert werden, was unter einem Integral zu verstehen ist. Die in
der Analysis übliche Vorstellung einer Stammfunktion mit Ableitung f hilft
nur eingeschränkt weiter. Vielmehr wird ein Integralbegriff benötigt, der die
anschauliche Vorstellung der Fläche unter einer Kurve präzisiert und verallgemeinert. Die entsprechende Theorie der Lebesgue-Integration geht über
den Rahmen dieser Vorlesung hinaus. Wir beschränken uns auf Spezialfälle;
die mathematische Diskussion muss hier lückenhaft bleiben.
Beispiel 3.11. Sei a < b und
(
c
f (x) =
0
für x ∈ [a, b]
sonst
mit einer Konstanten c > 0. Dann ist uniform für alle c die Dichte
(
1
für x ∈ [a, b]
p(x) = b−a
0
sonst
und die zugehörige Verteilungsfunktion hat die Werte


für x ≤ a
0
x−a
F (x) = b−a für x ∈ (a, b]


1
für x > b
uniform
Die so definierte Verteilung heisst uniforme Verteilung auf [a, b]. Wir
bezeichnen das Wahrscheinlichkeitsmaß mit Punif [a,b] . Im Spezialfall [a, b] =
[0, 1] sprechen wir kurz von der uniformen Verteilung Punif .
Beispiel 3.12. Sei f (x) = 1für alle x ∈ R. Diese Funktion definiert kein
Wahrscheinlichkeitsmass.
3.3.8. Bezeichnung zur formalen Unterscheidung.
P ( |{z}
A ;
B
|{z}
)
Ereignis P arameter
A ist Ereignis. Hierfür müssen die Eigenschaften aus 3.1 i) - iii) gelten.
3.3. BEISPIELE
3-9
B ist ein Parameter. Hierfür muß 3.1 i) - iii) nicht gelten.
z.B.
4
P (Xi = k ; N0 = 6, N1 = 8)
| {z } |
{z
}
Ereignis
P arameter
aber auch z.B.
P ( Yi = 1 ;
| {z }
X
=k
| i−1
{z }
).
hierEreignis hierP arametergenannt
Speziell können also Variable sowohl in der Definition von Ereignissen
als auch als Parameter auftauchen.
In der Anwendung ist der Wahrscheinlichkeitsraum nicht vorgegeben.
Ihn geeignet zu definieren ist oft ein wesentlicher Schritt in der Modellbildung. Eine zentrale Frage dabei ist, welche beobachtbaren Größen als Zufallsvariable modelliert werden, und welche als nicht-zufällige Parameter
modelliert werden. Parameter können in formalen Modell berücksichtigt werden, in dem wir das Wahrscheinlichkeitsmaß P (oder, falls notwendig, auch
die anderen Bestandteile des Wahrscheinlichkeitsraums (Ω, A , P )) parametrisieren.
Oft gibt es einen unter den Parametern, der die “beobachtete Systemgröße” repräsentiert. In den bisherigen Beispielen hat der Stichprobenumfang n diese Rolle gespielt. Falls angebracht werden wir die Rolle des Stichprobenumfangs getrennt von den anderen Parametern diskutieren.
Um die Situation zu vereinfachen: Die Zufallsvariable, die uns interessiert, heiße X; ihre Werte x und ihr Wertebereich heiße X (z.B. X = Xn ; X =
{0, 1, 2, . . . , n}). Für Parameter (wie N, n1 , n) steht als allgemeiner Stellvertreter ϑ und schreiben z.B. Phyp (x; ϑ) anstellen von Phyp (x; N, n1 , n) . Wenn
wir die Rolle des Stichprobenumfangs getrennt diskutieren wollen, benutzen wir den Stellvertreter ϑ nur für die übrigen Parameter, setzen also z.B.
(N, n1 , n) = (ϑ, n).
Ist das Wahrscheinlichkeitsmaß konsistent definiert, so ergibt die nach
3.2 berechnete bedingte Wahrscheinlichkeit genau die als Ansatz gewählte
parametrisierte Wahrscheinlichkeit
z.B.
P (A | A0 ) = P (A; A0 )
P (Yi = 1 | Xi−1 = k 0 ) = P (Yi = 1; Xi−1 = k 0 )
wegen (Def. 3.1 iv).
3.3.9. Konventionen. Wir führen hier zwei weitere Konventionen ein,
die später häufig benutzt werden.
Bedingung 3.2.1 i) ist eine Normierungsbedingung und führt dazu, dass
entsprechende Konstanten eingeführt werden. Bisweilen können Darstellungen vereinfacht werden, wenn diese Konstanten erst dann eingesetzt werden,
4Der
Einfachheit halber steht hier Xi = k für {ω ∈ Ω : Xi (ω) = k}. Um formal
exakt zu sein, müßte man schreiben: P ({ω ∈ Ω : Xi (ω) = k}; n0 = 6, n1 = 8).
Parameter
3-10 3. DAS GRUNDMODELL DER WAHRSCHEINLICHKEITSRECHNUNG
proportional
wenn es notwendig ist. So ist z.B. für die hypergeometrische Verteilung aus
(2.6)
n1
n0
P (Xn = n1 ; n0 , n1 ) ∝
n1
n0
(lies: proportional zu). Die Proportionalitätskonstante zur Normierung
N
n ist dabei durch 3.2.1 i) eindeutig bestimmt. Wo es hilfreich ist, werden
wir diese Proportional-Notation benutzen. Genau genommen müsste man
kennzeichnen, welcher Term ausintegriert wird.
n1
n0
P (Xn = n1 ; n0 , n1 ) ∝N1
n1
n0
Diese Kennzeichnung ist nicht üblich, aber oft nützlich, um den Kontexkt
deutlich zu machen.
Die zweite Konvention ist hilfreich, wenn im Detail zu analysieren ist, wie
Zufallsereignissse einerseits und Parameter anderseits eine Wahrscheinlichkeit bestimmen. Wenn es möglich ist, werden wir dazu Wahrscheinlichkeiten
(oder Dichten) entsprechend faktorisieren. Abstrakt: Ist (x, ϑ) 7→ P (X =
x; ϑ) zu untersuchen, so versuchen wir, eine Zerlegung der Form
P (X = x; ϑ) = C(ϑ) · h(x) · Pe(X = x; ϑ)
kanonische Zerlegung
zu finden, so dass C die Anteile enthält, die ereignisunabhägig sind, h den
Anteil, der vom Parameter unabhägig ist, und Pe die gemischten Anteile.
Eine Zerlegung dieser Art heisst kanonische Zerlegung.
Übung 3.13. Am Beispiel der hypergeometrischen Verteilung: Seien N
und n gegeben und sei N1 = ϑ der interessierende Parameter. Geben Sie
eine kanonische Zerlegung für Phyp (X = x; N, N1 , n) an.
3.4. Verteilungsfunktion und Quantile
Der Kompliziertheit praktischer Probleme in der Statistik sind keine
Grenzen gesetzt. Um so wichtiger ist es, einige Grundklassen von Modellen
so zu beherrschen, dass sie als gebrauchsfertige Versatzstücke zu handeln
sind.
Die allereinfachste Klasse von Modellen (endlicher Ergebnisraum, endlich viele zugelassene Parameter) teilt sich sofort in so komplexe Teilmodelie
auf, dass sie den Rahmen dieser Ausarbeitung sprengt5.
Die nächste Klasse ist etwas komplizierter: Ergebnisraum Ω und zugelassene Parametermenge Θ können irgendwelche Teilmengen der reellen
Zahlen sein. Dies schließt zunächst einmal alle endliche Modelle ein. Wir beschränken uns jetzt auf Modelle, die die Anordnung von Zahlen nach ihrer
5Siehe:
S. Kotz: Urn models and their application. Wiley, New York 1977.
3.4. VERTEILUNGSFUNKTION UND QUANTILE
3-11
Größe respektieren. Diese Einschränkung muß genauer gefaßt werden, und
dazu brauchen wir einige Vorbereitung.
Für reelle Zahlen bezeichnen wir mit
sup : Supremum
inf : Infimum
die kleinste obere Schranke
die größte untere Schranke.
Beispiel:
sup{x ∈ R : x ≤ x0 } = x0 = inf{x ∈ R : x ≥ x0 },
aber auch
sup{x ∈ R : x < x0 } = x0 = inf{x ∈ R : x > x0 }.
Das wesentliche Hilfsmittel werden Verteilungsfunktionen sein.
Ist X Zufallsvariable mit Wertebereich X ⊂ R, so ist die Verteilungsfunktion nach (??) gegeben durch
x 7→ F (x) = PX ({x ∈ X : x0 ≤ x}) = P (X ≤ x).
Wenn wir mit Parametern arbeiten, so kennzeichnen wir diese auch bei der
Verteilungsfunktion
F (x; ϑ) = P (X ≤ x; ϑ)
ϑ ∈ Θ,x ∈ X,
und um es uns einfacher zu machen, betrachten wir die Verteilungsfunktion
auf ganz R :
F (x; ϑ) = P (X ≤ x; ϑ)
ϑ ∈ Θ, x ∈ R.
Beispiel 3.14. Ist X hypergeometrisch verteilt mit Parameter ϑ =
(N, n1 , n), so ist

0
für x < 0



P (0; N, n , n)
für 0 ≤ x < 1
1
hyp
F (x; ϑ) = P

P
(i;
N,
n
,
n)
für
[x] ≤ x < [x] + 1
1

0≤i≤[x] hyp


1
für x > n.
3.4.1. Allgemeine Eigenschaften von Verteilungsfunktionen: Ist
F Verteilungsfunktion einer R-wertigen Zufallsvariablen X, so gilt
0)
1)
2)
3)
0 ≤ F (x) ≤ F (x0 ) ≤ 1 < F (x) ∀x ≤ x0 (Monotonie),
limx→−∞ F (x) = 0, limx→∞ F (x) = 1,
limx↓x0 F (x) = F (x0 ) (Stetigkeit von rechts),
P (F (X) ≤ α) ≤ α ∀α ∈ [0, 1].
3.4.2. Umkehrung von Verteilungsfunktionen. Bei der hypergeometrischen Verteilung haben wir schon gesehen, dass eine Verteilungsfunktion stückweise konstant sein kann (und auch Sprünge zeigen kann). Deshalb
gibt es nicht immer eine eindeutige Umkehrungsfunktion. Man behilft sich:
Definition 3.15. x ∈ R heißt p-Quantil von X, wenn FX (x) ≥ p und
FX (x0 ) ≤ p für alle x0 < x .
Quantil
3-12 3. DAS GRUNDMODELL DER WAHRSCHEINLICHKEITSRECHNUNG
Abbildung 3.2: Fhyp
Bezeichnungen
xp :
x ist ein p-Quantil von X
inf xp = inf{x : x ist p-Quantil }
sup xp = sup{x : x ist p-Quantil }
3.4.3. Allgemeine Eigenschaften von Quantilen.
0)
1)
2)
3)
4)
P (X < xp ) ≤ p ≤ P (X ≤ xp ).
x, x0 p − Quantil ⇒ x00 p − Quantil für alle x00 : x ≤ x00 ≤ x0 .
inf xp , sup xp sind Quantile.
P (X ≤ x) < p ⇒ x < xp für jedes p-Quantil xp von X.
P (X ≤ x) = p ⇒ x p-Quantil.
3.5. STOCHASTISCHE ORDNUNG
3-13
3.4.4. Spezielle Quantile:
x0.5
x.25
x.75
x.1
x.9
x.75 − x.25
x.9 − x.1
Median von X
unteres Quantil von X
oberes Quantil von X
unteres Dezil von X
oberes Dezil von X
Quantilabstand von X
Dezilabstand von X
3.5. Stochastische Ordnung
Mit Hilfe der Verteilungsfunktion können wir Ordnungsrelationen auf
dem Wertebereich in Ordnungsrelationen für Zufallsvariablen übersetzen.
Die hypergeometrischen Verteilungen können wieder als Beispiel dienen:
sind V und W zwei Zufallsvariable mit hypergeometrischer Verteilung, V
hypergeometrisch verteilt mit Parametern N, NV , n und W mit Parametern
N, NW , n, NV < NW , so wird V “eher” kleinere Werte annehmen als W .
Dies bedeutet nicht, dass stets V < W gelten muss. Aber “statistisch gesehen” ist V eher kleiner.
Definition 3.16. Sind V, W zwei Zufallsvariable mit Werten in X und
ist ≤ eine Ordnungsrelation auf X, so heisst V stochastisch kleiner W ,
wenn
FV (x) ≥ FW (x) für alle x ∈ X und FV 6= FW .
Bezeichnung: V W .
Analog werden definiert: “stochastisch kleiner”, “stochastisch größergleich”, “stochastisch größer”.
stochastisch kleiner
ToDo: Add exercises
KAPITEL 4
Hypergeometrische Verteilung
4.1. Das Modell der hypergeometrischen Verteilung
In Kapitel 2 haben wir ein Modell entwickelt, das wir nun mit den Begriffen aus Kapitel 3, Abschnitt 2.2 und Abschnitt 3.3.4 systematisch darstellen
können:
4.1.1. Formale Beschreibung des Modells. Parameter des Modells
sind N0 , N1 , n. Es ist n ≤ N := N0 + N1 .
Ergebnisraum ist
Ω := {0, 1}n
= {ω = (0, 0, . . . , 0), . . . , ω = (1, 1, . . . , 1)}.
Typische Ereignisse1 sind
{Yi = 0}, {Yi = 1}, {Xi = x},
i = 1, . . . , n,
wobei
Yi : Ω → {0, 1}
(
0
Yi (ω) =
1
falls ω = (. . . , 0, . . .)
falls ω = (. . . , 1, . . .)
und
Xi : Ω → {0, 1, 2, . . . , k}
Xi (ω)
=
i
X
Yj (ω).
j=0
Yi beschreibt die i–te Beobachtung; Xi gibt den Zählerstand nach der i–ten
Beobachtung an.
Das Wahrscheinlichkeitsmaß P ist definiert durch
i) P (Xn > N1 ) = 0;
ii) P (Yi = 0) =
P (Yi = 1) =
1Hier
N0
N
N1
N
P (X0 = 0) = 1.
( “Laplace-Ansatz” für die einzelnen Züge).
steht wieder {Xi = 0} für {ω ∈ Ω : Xi (ω) = 0} etc.
4-1
4-2
4. HYPERGEOMETRISCHE VERTEILUNG
iii) P (Yi | Y1 , . . . , Yi−1 ) = P (Yi | Xi−1 ) und
1 −x
für x : 0 ≤ x ≤ N1 − 1
P (Yi = 1 | Xi−1 = x) = NN−(i−1)
P (Yi = 1 | Xi−1 = N1 ) = 0.
Die formale Beschreibung (4.1.1) bestimmt das Wahrscheinlichkeitsmaß
P eindeutig. Die Zufallsvariable Xn hat die Verteilung
N0 N 1
P (Xn = n1 ) =
n
n0
N
n
1
mit n0 = n–n1 .
Wir formulieren das Modell noch einmal etwas anders:
4.1.2. Modell: Stichprobe in einer endlichen Menge.
N
N1
n
x
Umfang der Grundgesamtheit
Anzahl ausgezeichneten2 Elemente
in der Grundgesamtheit, N1 ≤ N
Umfang der Stichprobe, n ≤ N
Anzahl der ausgezeichneten Elemente
n der Stichprobe, x ≤ N1 , n
Das Wahrscheinlichkeitsmaß mit
N −N1 N1
n−x
n
N
n
P (x; N, N1 , n) =
heißt Maß der Hypergeometrischen Verteilung (kurz:
Verteilung!hypergeometrisch
hypergeometrische Verteilung). Um die Verteilungsfamilie “hypergeometrisch” zu kennzeichnen schreiben wir auch
Phyp (x; N, N1 , n)
4.1.3. Ziehen ohne Zurücklegen. In der Statistik gibt es eine kleine
Reihe von Grundmodellen, die historisch entwickelt worden sind und heute
als leitende Beispiele benutzt werden. Eine wichtige Klasse sind die “Urnenmodelle”. Diese modellieren das Ziehen von Losen aus einer Urne unter den
unterschiedlichsten Bedingungen. Die hypergeometrische Verteilung finden
wir dabei in folgender Variante: gelost wird durch Ziehung von Kugeln. Die
Urne enthält N0 scharze und N1 weisse Kugeln. Gezogen werden n Kugeln
(ohne Zurücklegen); gezählt wird die Anzahl n1 der weissen Kugeln in der
Ziehung. Die Anzahl der weissen Kugeln in der Ziehung ist hypergeometrisch
verteilt:
Phyp (x = n1 ; N, N1 , n) =
2Im
N −N1 N1
n−x
n
N
n
.
Beispiel (??): ausgezeichnet vor den anderen Elementen durch die Eigenschaft, zur Art I zu gehören.
4.1. DAS MODELL DER HYPERGEOMETRISCHEN VERTEILUNG
4-3
Übung 4.1. Anhand des Urnenmodells überlege man, dass die folgenden Symmetrien gelten sollten, und verifiziere dies mit der Formel für die
hypergeometrisch Verteilung:
• Die Rollen der weissen und der schwarzen Kugeln können ausgetauscht werden:
Phyp (x; N, N1 , n) = Phyp (n − x; N, N − N1 , n)
• Die Rollen der gezogenen Kugeln und der nicht-gezogenen Kugeln
können ausgetauscht werden.
Phyp (x; N, N1 , n) = Phyp (N1 − x; N, N1 , N − n)
4.1.4. Praktische Berechnung.
Software: Die hypergeometrische Verteilung ist in Statistik- und
Tabellen-Kalkulationsprogrammen weit verbreitet. Die Qualität der
Implementierung ist jedoch sehr unterschiedlich, so dass zumindest
Plausibilitätskontrollen nötig sind.
In R stehen unter anderem folgende Funktionen für die hypergeometrische Verteilung zur Verfügung:
R-Aufruf
Funktion
dhyper(x, m, n, k)
Phyp (X = x, m + n, n, k)
dhyper(x, m, n, k,
log=TRUE)
ln(Phyp (x, m + n, n, k))
phyper(q, m, n, k)
Phyp (X ≤ x, m + n, n, k)
qhyper(q, m, n, k)
minx :
Phyp (X ≤ x, m + n, n, k) ≥ q
rhyper(nn, m, n, k)
erzeugt nn Zufallszahlen
Phyp ( · ; m + n, n, k)
aus
Die Argumente der R-Funktionen sind nach folgender Tabelle in die
Bezeichnungen dieses Skripts zu übersetzen:
R
entspricht
hier
entspricht im Urnenmodell
x
x
schwarze Kugeln in der Stichprobe
m
N − N1
weisse Kugeln in der Urne
n
N1
schwarze Kugeln in der Urne
k
n
Umfang der Stichprobe
4-4
4. HYPERGEOMETRISCHE VERTEILUNG
Tabellen: Liebermann, G.J., Owen, D.B.: Tables of the hypergeometric probability distribution. Stanford University Press, Stanford
1961
Symmetrie – Beziehungen:
Phyp (x; N, N1 , n) = Phyp (n − x; N, N − N1 , n)
= Phyp (x; N, n, N1 )
Näherungsformeln:
n √
n! ≈ ne · 2πn
(Stirling-Näherung)
q
n
n
n
n
k ≈ kk (n−k)n−k ·
(n−k)·k·2π
P (x, N, N1 , n) ≈ nx px (1 − p)n−x p := NN1 für n N,
x N1 .
Beispiel 4.2. Ein gut im Gleichgewicht befindliches abgeschlossenes Gewässer (mittlerer Fischteich) beherbergt N1 Kleinfische in einer Gesamtpopulation von N Fischen. In einer Stichprobe vom Umfang n finden sich
extrem wenige (Xn = n1 ) Kleinfische. Ab wann kann man eindeutig sagen,
dass das ökologische Gleichgewicht gestört ist?
Zahlenbeispiel: N = 2400, N1 = 1200, n = 1200.
Bei gleichmäßiger Durchmischung wären NN1 · n = 600 in der Stichprobe
anzunehmen. Ab wann kann von einer Störung gesprochen werden?
Ab Xn < 500? Oder Xn < 200? Xn > 800?
Die Frage nach dem Auftreten einer Störung ist eine Sachfrage, die nicht
mit statistischen Mitteln gelöst werden kann. Als Entscheidungshilfe jedoch
kann man fragen: Ist die Beobachtung eine besonders extreme Beobachtung,
oder hält sie sich im Rahmen der Schwankungen, die allein durch das Stichprobenziehen auftreten?
Standardisierte Formulierung des Problems: Teste die Hypothese {N1 =
660} gegen die Gegenhypothese {N1 6= 600}. Das Problem ist ein zweiseitiges
Testproblem. (Abweichungen zu beiden Seiten des hypothetischen Werts,
nach oben und nach unten, sind bedeutsam.) Die Gegenhypothese grenzt
die Hypothese nach beiden Seiten ab.
Gegenhypothese
.
&
N1 < 600
N1 > 600
N1 = 600
(Hypothese)
Verzerrung
der Stichprobe
Das Beobachtungsergebnis kann von der Art bestimmt sein, wie die
Stichprobe genommen worden ist: durch die Fangmethode kann ein ganzer Teil eines Schwarms gleichzeitig in den Fang geraten sein; Wassertiefe,
Ufernähe, Tageszeit etc. können eine Verzerrung der Stichprobe bewirkt
4.1. DAS MODELL DER HYPERGEOMETRISCHEN VERTEILUNG
4-5
haben. Ist darauf geachtet, dass diese Einflüsse keine Rolle spielen, so können
wir mit dem Modell der hypergeometrischen Verteilung arbeiten.
Sofort zeigt sich die nächste Schwierigkeit: Nach dem Modell der hypergeometrischen Verteilung berechnet sich die Wahrscheinlichkeit, in einer
Stichprobe vom Umfang n = 1200 genau n1 Kleinfische zu erhalten als:
P (n1 ; N = 2400, N1 = 1200, n = 1.200) =
1200
n1
1200
1200−n1
2400
1200
.
Die praktische Berechnung von z.B. 2400
1200 =? stellt uns vor Schwierigkeiten.
Wir werden später Näherungsformeln kennenlernen, um die Wahrscheinlichkeit zu berechnen. Für den Augenblick müssen wir uns mit mit kleinen
Zahlen begnügen.
Beispielrechnung: Mit N = 24, N1 = 12, n = 12 ist
n1 P (X12 = n1 ) P (X12 ≤ n1 )
0
0.0000
0.0000
1
0.0001
0.0001
2
0.0016
0.0017
3
0.0179
0.0196
4
0.0906
0.1102
5
0.2320
0.3421
6
0.3157
0.6579
7
0.2320
0.8898
8
0.0906
0.9804
9
0.0179
0.9983
10 0.0016
0.9999
11 0.0001
1.0000
12 0.0000
1.0000
Tabelle 4.1: Hypergeometrische Verteilung N = 24, N1 = 12, n = 12
Hypothese {N1 = 12}, Gegenhypothese {N1 6= 12}.
Sowohl sehr große als auch sehr kleine Werte von X12 widersprechen der
Hypothese im Sinne der Gegenhypothese (zweiseitiges Problem).
Aus der Tabelle können wir ablesen: Bei Gültigkeit der Hypothese {N1 =
12} wäre
also
P (X12 < 3; N1 = 12) = P (X12 ≤ 2, N1 = 12) = 0.0017,
P (X12 > 9, N1 = 12) = 1 − P (X12 ≤ 9; N1 = 12) = 0.0017,
P (X12 < 3 ∨ X12 > 9; N1 = 12) = 0.0017 + 0.0017 = 0.0034.
4-6
4. HYPERGEOMETRISCHE VERTEILUNG
Mit einer Wahrscheinlichkeit von nur 0.34 % kann also bei Gültigkeit
der Hypothese “zufällig” ein Ergebnis auftreten, das im Bereich
{X12 < 3 ∨ X12 > 9} liegt. Ergebnisse in diesem Bereich können damit als
deutlicher Hinweis angesehen werden, dass N1 nicht die hypothetische Größe
N1 = 12 hat: Die Hypothese N1 = 12 kann verworfen werden.
4.2. Tests bei hypergeometrischer Verteilung
“Test” ist ein statistischer Fachausdruck für Entscheidungsregeln, die
festlegen, bei welchen Beobachtungen für oder gegen eine bestimmte Hypothese entschieden werden soll.
4.2.1. Stichproben: Bei einer Sendung von 1000 Einmal–Pipetten garantiert der Hersteller, dass höchstens 4 % insteril sind. Diese Garantie kann
nicht bei allen Pipetten untersucht werden, da die Geräte bei der Sterilitätsprüfung evtl. insteril und damit unbrauchbar werden. Deshalb wird
eine Stichprobe von 25 Pipetten genommen; die Sendung wird nicht angenommen, falls unter der Stichprobe mehr als eine (= 4 % von 25) insterile
Pipetten sind. Ist das Verfahren angemessen?
Lösung: Das Problem ist ein Testproblem (Entscheidungsproblem).
Nach Liefervereinbarung ist die Sendung gerade noch anzunehmen, wenn (4
% von 1000 =) 40 Pipetten insteril sind. Ist N1 die Anzahl der tatsächlich
insterilen Pipetten, so muß bestimmt werden: Wie wahrscheinlich ist es, in
der Stichprobe genau N1 insterile anzutreffen?
Mit der Codierung
0 falls das i. Element der Stichprobe nicht defekt ist,
Yi =
1 falls das i. Element der Stichprobe defekt ist,
kann das formale Modell (4.1.1) angewandt werden. Xn zählt dann die Anzahl der defekten Stücke in der Stichprobe. Xn ist hypergeometrisch verteilt;
1000−N1 N1
P (Xn = n1 ) = P (n1 ; N = 1000, N1 , n = 25) =
25−N1
n1
1000
25
Für N1 = 40 erhält man:
n1 P (X25 = n1 )
0
0.3558
1
0.3801
2
.1899
3
0.0590
4
0.0128
Nach (3.1 iii, iv) ist P (X25 > 1) = 1–P (X25 ≤ 1)
= 1–(P (X25 = 0) + P (X25 = 1)) ≈ 1 − (0.3558 + 0.3801) = 0.2641.
.
4.2. TESTS BEI HYPERGEOMETRISCHER VERTEILUNG
4-7
Die gerade noch zu akzeptierende Sendung mit N1 = 40 würde bei
dem vorgeschlagenen Verfahren also mit einer Wahrscheinlichkeit von 0.2641
nicht akzeptiert werden - das Prüfverfahren ist zu scharf im Vergleich mit
der ausgehandelten Garantie.
Selbst eine Prüfgrenze, die zwei insterile Pipetten erlaubt, würde im
Extremfall nur mit einer Wahrscheinlichkeit von 0.3558 + 0.3801 + 0.1899 =
0.9259 eine noch vertragsgemäße Sendung akzeptieren.
Um mit mindestens fünf-prozentiger Sicherheit keinen “Vertragsbruch”
zu begehen, muß man sich noch auf 3 insterile Elemente in der Stichprobe
einlassen.
4.2.2. Standardisierte Formulierung des Problems: Teste die Hypothese {N1 ≤ 40} gegen die Alternative {N1 > 40}. Das Problem ist ein
einseitiges Testproblem.
Hypothese: N1 liegt
im Rahmen der vereinbarten Grenze
Gegenhypothese: N1
liegt über der vereinbarten Grenze
Die Entscheidungsregel (4.2.1) (“der Test”) hat als Verwerfungsbereich: {X25 > 1}. Die Irrtumswahrscheinlichkeit dieser Entscheidungsregel ist die Wahrscheinlichkeit, zufällig ein Ergebnis X25 im Verwerfungsbereich zu erhalten, obwohl. die Hypothese noch wahr ist. Sie beträgt
P (X25 > 1; N1 = 40) = 0.2641,
Test
Verwerfungsbereich
Irrtumswahrscheinlichkeit
also 26.41 %.
Einen Test der Hypothese {N1 ≤ 40} gegen die Gegenhypothese {N1 >
40} mit einer Irrtumswahrscheinlichkeit von weniger als 5 % erhält man,
wenn als Verwerfungsbereich {X25 > 3} gewählt wird. Die Irrtumswahrscheinlichkeit bei diesem Test beträgt
P (X25 > 3; N1 = 40) = 0.0152,
also 1.52 %.
In (??) ist schon darauf hingewiesen worden, dass eine der Hypothese
nicht widersprechende Beobachtung noch nicht bedeutet, dass die Hypothese
richtig ist. Die Gegenhypothese kann richtig sein, und nur zufällig liegt die
Beobachtung außerhalb des Verwerfungsbereichs. Die Wahrscheinlichkeit,
dass bei zutreffender Gegenhypothese die Beobachtung auch tatsächlich im
Verwerfungsbereich liegt, heißt die Güte des Tests. Diese Güte ist besser,
wenn der Parameterwert N1 weit von der Hypothese entfernt ist und wird
schlecht, wenn N1 nahe am Bereich der Hypothese liegt. Wir können diese
Gütefunktion für verschiedene N1 berechnen.
Für den Test mit Verwerfungsbereich {X25 > 3} hat sie an der Parameterstelle N1 den Wert
P (X25 > 3; N1 )
Güte
4-8
4. HYPERGEOMETRISCHE VERTEILUNG
N1
P (X25 > 3; N1 )
41
0.0165
42
0.0179
50
0.0321
75
0.1109
Gütefunktion P (X25 > 3; N1 )
100 0.2347
150 0.5306
200 0.7694
ToDo: plot
250 0.9066
Die Sicherheit, eine akzeptable Sendung (N1 ≤ 40) mit einer Wahrscheinlichkeit von mehr als 95 % auch anzunehmen (d.h. Irrtumswahrscheinlichkeit
von weniger als 5 % ) erkauft man mit dem Nachteil, eine nicht akzeptable
Sendung z.B. mit N1 = 100 nur mit 23.47 % Wahrscheinlichkeit auch abzulehnen, d.h. mit 76.53 % Wahrscheinlichkeit fälschlicherweise zu behalten.
Bei einem Stichprobenumfang von n = 25 gibt es keine Möglichkeit
zu garantieren, dass z.B. eine Sendung mit N1 = 50 einigermaßen sicher
abgelehnt wird, ohne dass man gleich jede Sendung ablehnt.
Übung 4.3. Der Stichprobenumfang sei n = 50; die Entscheidungsregel:
Verwerfe die Hypothese, falls X50 > 4 . Berechne die Irrtumswahrscheinlichkeit, und berechne die Gütefunktion an den Stellen N1 = 41, 50, 75.
Erst bei einem Stichprobenumfang n von ca. 100 und ca. N1 = 150 insterilen Pipetten wird die Sendung verläßlich zurückgewiesen. Verwerfungsbereich: (Y100 > 7)
N1
P (X100 > 7; N1 )
40
0.0386
Irrtumswahrscheinlichkeit
Gegenhypothese 41
0.0441
Güte
50
0.1166
75
0.4816
Hypothese
100 0.8079
150 0.9909
200 0.9998
ToDo: figure
250 1.0000
Irrtumswahrscheinlichkeit und Güte bei unterschiedlichem
Stichprobenumfang.
Irrtumsschranke 5 %. Hypothese {N1 ≤ 40}. Gegenhypothese {N1 > 40}.
4.3. SCHÄTZPROBLEME BEI HYPERGEOMETRISCHER VERTEILUNG 4-9
Links: n = 25
Rechts: n = 100
Verwerfungsbereich: (X25 > 3). Verwerfungsbereich: (X100 > 7)
Um bei einem Stichprobenumfang von n = 100 zumindestens Sendungen
mit N1 ≥ 50 insterilen zurückweisen zu können, kann man folgendermaßen
vorgehen: Man wähle als Verwerfungsbereich (X100 > 2). Dann ist
P (X100 > 2; N1 = 50) = 1 −
2
X
Phyp (x; N = 1000, N1 = 50, n = 100)
x=0
= 0.9692.
Mit 96.92 % Wahrscheinlichkeit wird eine Sendung mit N1 = 50 tatsächlich
abgelehnt (Güte bei N1 = 50 : 96.22 %) . Für kleine Werte N1 erhält man
als Ablehnungswahrscheinlichkeit
N1 P (Y100 > 2; N1 )
10
0.0702
9
.0522
8
.0374
7
.0252
6
0.0155
5
.0083.
Man vereinbare mit dem Lieferanten also, dass höchstens 8 von 1000 insteril sind. Eine Sendung, die diesem Kriterium genügt, wird mit einer Wahrscheinlichkeit von weniger als 5 % fälschlich zurückgewiesen, und gleichzeitig
wird eine unbrauchbare Sendung (N1 = 50) mit mehr als 95 % Sicherheit
zurückgewiesen.
4.3. Schätzprobleme bei hypergeometrischer Verteilung
Bei Schätzproblemen gehen wir von der Beobachtung einer Realisation
der Zufallsvariablen X aus. Gesucht ist ein Schätzwert oder ein Schätzbereich
für unbekannte Parameter der Verteilung.
4-10
4. HYPERGEOMETRISCHE VERTEILUNG
Beispiel 4.4. Von bestimmten Pflanzen, z.B. Salat (Latuca sativa) weiß
man, dass sie nur keimen, wenn sie im gequollenen Zustand Licht erhalten.
Dabei genügen Lichteinwirkungen von Minuten oder sogar Sekunden, um
die eigentliche Keimung auszulösen.
Um zu bestimmen, wie stark der Effekt einer bestimmten Bestrahlung
ist, läßt man das Licht auf im Dunkeln vorgequollene Saatkörner einwirken.
Einen Tag später wird die Anzahl der gekeimten Saatkörner ausgezählt.
Die Keimung kann aber nur ausgelöst werden bei Saatkörnern, die zum
Zeitpunkt der Bestrahlung bereits gequollen sind; deren Anzahl muß man
kennen, um die Stärke des Effekts zu beurteilen.
Die Schwierigkeit dabei ist, dass die gequollenen Saatkörner nicht einfach
ausgezählt werden können - der Lichteinfall bei der Auszählung würde sie
für den folgenden Versuch unbrauchbar machen.
Eine Lösungsmöglichkeit ist: nach einem Tag werden n der insgesamt N
Saatkörner aus dem Anzuchtsschrank herausgenommen und untersucht. Die
Gesamtanzahl N1 der gequollenen Saatkörner wird aufgrund der unter den
n gezählten Anzahl X = N1 geschätzt.
Oberer Pfeil: Insgesamt N , davon N1 gequollen.
Unterer Pfeil: n Saatkörner untersucht, darunter n1 gequollene
gefunden.
Stichprobe
Für die Schätzung können wir zum Beispiel den folgenden Ansatz machen: Wäre der Anteil der gequollenen in der Stichprobe gleich dem Anteil
der gequollenen an der Grundgesamtheit, also
n1
N1
n1
=
, so wäre N1 = N · .
n
N
n
Daher der Vorschlag: man nehme als Schätzwert N ·
dieses Schätzverfahren?
n1
n
. Wie gut ist
Das Problem ist ein Schätzproblem.
Wir interpretieren die Untersuchung wieder als Zählprozess: sind die
n vielen Stichprobenelemente alle aus einem engen Bereich des Anzuchtsschrankes, in dem sie nebeneinander standen, herausgenommen worden, so
können wir kaum etwas über die Qualität des Schätzverfahrens aussagen:
4.3. SCHÄTZPROBLEME BEI HYPERGEOMETRISCHER VERTEILUNG 4-11
standen etwa alle diese Stichprobenelemente nahe der Tür, so wird man mit
etwas anderen Feuchtigkeits- und Temperaturverhältnissen rechnen müssen
als im übrigen Teil des Schrankes, und man kann aus der Beobachtung kaum
auf die Gesamtheit schließen.
Sind die Stichprobenelemente dagegen zufällig gestreut aus der Grundgesamtheit herausgegriffen, so können wir einen Ansatz wie oben machen.
Die Anzahl Xn der gekeimten Saaten in der Stichprobe ist dann hypergeometrisch verteilt - jedoch mit einem uns unbekannten Parameter N1 .
b1 = Xn · N, Xn der in der
Geschätzt haben wir N1 durch den Schätzer N
n
Stichprobe ausgezählte Wert.
Für z.B. N = 24, n = 12 und einem Zählergebnis Xn = n1 = 9 schätzen
9
wir nn1 · N = 12
: 24 = 18; aber über die Genauigkeit unserer Schätzung
können wir noch nichts aussagen. Wir hätten auch n1 = 8 oder n1 = 10 erb1 = 8 ·24 = 16 bzw. N
b1 = 10 ·24 = 20 geschätzt:
halten können, und dann N
12
12
das Schätzergebnis hängt vom Ergebnis n1 der Stichprobenauszählung ab,
und die Auswahl der Stichprobe ist zum Teil willkürlich (Fachausdruck:
n1 ist Realisierung der Zufallsvariablen Xn ). Sachgemäßer ist es, einen
Schätzbereich anzugeben, in dem wir nach unserer Beobachtung den wahren
Wert vermuten (Fachausdruck: Bereichsschätzer, Mutungsbereich, Konb1 ).
fidenzbereich; im Gegensatz dazu: Punktschätzer N
Nach der Beobachtung Xn = n1 = 9 steht fest: N1 ≥ n1 = 9, N − N1 ≥
n − n1 = 12 − 9 = 3 , d.h. N1 ≤ 21 . Unwahrscheinlich sind Werte wie
N1 = 9, 10; wahrscheinlich sind Werte wie N1 = 17, 18, 19. Diese Wahrscheinlichkeit wollen wir genauer ausdrücken.
Wäre das wahre N1 = 9 oder 10 , so würden wir kleine Werte für Xn
erwarten. Zur Kontrolle berechnen wir für verschiedene Werte von N1 die
Wahrscheinlichkeit, den beobachteten Wert n1 oder noch einen extremeren
Wert für Xn zu erhalten. Dazu können wir Formel (4.1.2) verwenden:
P (Xn ≥ n1 ) =
=
n
X
x=n1
n
X
x=n1
P (Xn = x) =
n
X
x=n1
N −N1 N1
n−x
x
N
n
.
PHyp (x; N, N1 , n)
Realisierung
Bereichsschätzer
Punktschätzer
4-12
4. HYPERGEOMETRISCHE VERTEILUNG
1.0
Hypergeom. Vert. N=24, n=12
● ● ● ●
●
0.8
●
0.6
0.4
●
0.2
●
●
●
●
0.0
P(X>=9)
●
●
● ● ● ● ● ● ● ● ● ● ● ●
0
5
10
15
20
N1
Abbildung 4.1: Gütefunktion
N1 P (X12 ≥ 9; N = 24, N1 , n = 12)
9
0.0002
10
0.0014
11
0.0061
12
0.0196
13
0.0498
14
0.1069
15
0.2002
16
0.3334
17
0.5000
18
0.6798
19
0.8416
20
0.9534
21
1.0000
P (X12 ≥ 9; N = 24, N1 , n = 12)
4.3. SCHÄTZPROBLEME BEI HYPERGEOMETRISCHER VERTEILUNG 4-13
Danach können wir die Werte 9, 10, 11 für die meisten Anwendungen aus
dem Schätzbereich ausschließen: bei diesen Werten für N1 hätte das beobachtete Ergebnis n1 = 9, oder noch extremere Ergebnisse, zusammen eine
Wahrscheinlichkeit von weniger als 1% = 0.01.
Bei N1 = 12 und N1 = 13 bleibt die Wahrscheinlichkeit noch immer
unter 5% = 0.05 ; es ist eine Ermessensfrage, ob diese Wahrscheinlichkeit als
hinreichend klein angesehen wird, diese Werte für N1 auszuschließen, oder
ob man sicher gehen will und diese Werte bei nachfolgenden Rechnungen
berücksichtigt.
Bei N1 von 13 oder mehr liegt diese Wahrscheinlichkeit über 10 %.
Für die meisten Anwendungen ist das Grund genug, diese Werte in den
Schätzbereich einzubeziehen.
Mit entsprechenden Überlegungen kann N1 nach oben abgegrenzt werden. Für große Werte von N1 sind große Werte für Xn zu erwarten. Das
“kritische Ereignis” ist nun, dass Xn = n1 oder ein kleinerer Wert eintritt;
die kritische Wahrscheinlichkeit ist
P (Xn ≤ n1 ; N, N1 ) =
n1
X
P (x; N, N1 , n).
x=0
N1 P (X12 ≤ 9; N = 24, N1 , n = 12)
18
0.6798
19
0.5000
20
0.2950
21
0.1087
22
0.0
23
.0
24
.0
Hier liegt schon bei einem Parameterwert von N1 = 21 die Wahrscheinlichkeit um 10 %, bei allen kleineren Parameterwerten also noch darüber.
Wir haben hier mit einem Ausschlußverfahren gearbeitet und nur diejenigen Parameter aus dem Schätzbereich ausgeschlossen, bei denen das beobachtete Ereignis (oder ein noch extremeres) zu unwahrscheinlich sind.
Der gewonnene Schätzbereich hängt dann immer davon ab, bei welcher
Wahrscheinlichkeit wir etwas als “zu unwahrscheinlich” bezeichnen. Bezeichnen wir schon eine Wahrscheinlichkeit von 5 % als zu unwahrscheinlich, so
können wir mehr Werte ausschließen, als wenn wir die Grenze bei 1 % ziehen:
Schätzbereich bei einer Grenze von 5 %: 14 ≤ N1 ≤ 21
Schätzbereich bei einer Grenze von 1 %: 12 ≤ N1 ≤ 21.
4-14
4. HYPERGEOMETRISCHE VERTEILUNG
Allgemein: Setzen wir die Grenze bei α , so erhalten wir allgemein einen
Schätzbereich
mit
N1 ≤ N1 ≤ N 1
N 1 = min{N1 : P (Xn ≥ n1 ; N1 ) ≥ α}
N 1 = max{N1 : P (Xn ≤ n1 ; N1 ) ≥ α}.
Ist n1 der wahre Parameter, so erhalten wir nach diesem Verfahren
mit einer Wahrscheinlichkeit von höchstens α eine untere Grenze N 1 , die
N1 fälschlicherweise überschätzt, und mit Wahrscheinlichkeit von höchstens
α wird N1 durch N 1 noch unterschätzt: Die Irrtumswahrscheinlichkeit für
das zweiseitige Problem N1 nach oben und nach unten abzuschätzen, ist
höchstens 2 · α .
Interessiert uns nur eine einseitige Abschätzung, so können wir mit
Wahrscheinlichkeit α garantieren, dass
N 1 ≤ N1 .
(Bzw. mit Wahrscheinlichkeit α : N1 ≤ N 1 ).
4.4. Capture–Recapture–Methode
Bei der Anwendung statistischer Verfahren ist man nicht darauf eingeschränkt, für eine gegebene Situation ein Modell zu entwicklen. Viel häufiger
wird ein Experiment vielmehr so entworfen, dass statistische Standardverfahren auf die Ergebnisse anwendbar sind. Dazu ein Beispiel:
Beispiel 4.5. Ein Teich enthält eine unbekannte Anzahl N von Fischen.
Um N zu schätzen, werden N1 Fische gefangen, markiert und wieder freigelassen. Bei der nächsten Fangperiode werden n Fische gefangen, darunter befinden sich n1 markierte, und man schätzt aufgrund der Überlegung
N : N1 = n : n1 , dass nn1 · N1 Fische im Teich sind. Wie gut ist diese
Schätzung? Mit wieviel Fischen ist mindestens zu rechnen?
Das Problem ist ein Schätzproblem. Zu schätzen ist der Umfang N der
Grundgesamtheit. Hat zwischen den beiden Zeitpunkten eine vollständige
Durchmischung in der Population stattgefunden, so ist das Modell (4.1) der
hypergeometrischen Verteilung anwendbar. Für die Anzahl Xn der markierten Fische in einer Stichprobe gilt in Abhängigkeit vom unbekannten Wert
4.4. CAPTURE–RECAPTURE–METHODE
4-15
N:
N −N1 N1
n−x
x
N
n
P (Xn ) = (x) = PHyp (x; N, N1 , n) =
.
In dieser Situation ist N1 fest und bekannt. Mit Sicherheit ist N ≥ N1 und
N ≥ n. Bei sonst festgelegten Werten sind mit wachsendem N weniger markierte Fische in der Stichprobe zu erwarten; die Anzahl der nicht markierten
nimmt zu. Ein Wert kann als zu niedrig für N angesehen werden, falls die
Wahrscheinlichkeit P (Xn ≤ n1 ) zu klein ist.
Soll unsere (einseitige) Schätzung eine Irrtumswahrscheinlichkeit von
höchstens α haben, so setzen wir
N = min{N : P (Xn ≤ n1 ; ) ≥ α}.
Dann gilt mit einer Sicherheit von mindestens (1–α), dass
N ≤ N.
Zu berechnen ist also
P (Xn ≤ n1 ) =
n1
X
PHyp (x; N, N1 , n)
x=0
in Abhängigkeit von N .
Zahlenbeispiel: N1 = 20, n = 20, n1 = 5.
Mit Sicherheit ist N ≥ N1 + (n–n1 ) = 35 - mindestens 20 markierte und 15
unmarkierte Fische.
N
< 35
P (X20 ≤ 5; N, N1 = 20)
0
35
< 0.0001
...
...
40
.0019
41
0.0035
42
0.0059
43
0.0092
44
0.0138
45
0.0195
46
.0266
47
0.0352
48
0.0451
49
0.0564
50
0.0692
...
...
55
0.1508
4-16
ToDo:
EckenTest ergänzen
ToDo: 2 ∗ 2
Kontingenztafeln
ergänzen
4. HYPERGEOMETRISCHE VERTEILUNG
Wir müssen eine Grenze festlegen, ab wann wir das kritische Ereignis
als hinreichend unwahrscheinlich bezeichnen. Legen wir die Grenze bei 1 %
fest, so erhalten wir als Schätzbereich: N ≥ 44. Legen wir die Grenze auf 5
% fest, so erhalten wir den Bereich N ≥ 49.
4.5. Prognoseproblem
Eine Population vom Umfang N sei bereits ausgezählt. Man weiß, dass
N1 Individuen einer bestimmten Art darin vorhanden sind. Eine Teilpopulation vom Umfang n wird willkürlich abgetrennt.
Wieviele Individuen der oben besonders betrachteten Art sind in dieser
Teilpopulation zu erwarten? Oder: Innerhalb welcher Spanne wird sich diese
Anzahl Xn bewegen?
Der Unterschied zum Schätzproblem: nun ist nach dem Ausgang des
Auswahlexperiments gefragt. Beim Schätzproblem war dieser Ausgang bekannt; das Ziel war es, auf die Grundgesamtheit zurückzuschließen.
Der Lösungsansatz ist analog den bisherigen:
Ist die Population gleichmäßig durchmischt und tritt durch die Art der Stichprobenauswahl keine besondere Verzerrung auf, so ist Xn hypergeometrisch
verteilt.
P (Xn = x) = PHyp (x; N, N1 , n).
en für Xn zu bekommen, können wir wieder einen
Um einen Prognosewert X
Proportionalansatz machen: N1 : N = Xn : n, und daraus eine Prognose
en = N1 · n ableiten.
X
N
Eine andere Prognose: man wählt den wahrscheinlichsten Wert als Prognose:
en = x, so dass PHyp (x; N, N1 , n) maximal.
X
(“maximum probability”-Prognose). Bei der hypergeometrischen Verteilung
sind beide Prognoseverfahren nahezu gleichwertig.
Prognosebereich
Einen Prognosebereich I für Xn können wir bilden, indem wir diejenigen Werte x zusammenfassen, für die
P (Xn = x) = PHyp (x; N, N1 , n)
hinreichend groß ist - entsprechend dem Vorgehen beim Bilden eines Schätzbereichs.
Unsere Maßzahldefinition liefert uns auch eine Maßzahl für die Genauigkeit des Prognosebereichs: Xn fällt in den Prognosebereich I mit der Wahrscheinlichkeit
X
X
P (Xn ∈ I) =
P (Xn = x) =
PHyp (x; N, N1 , n)
x∈I
x∈I
Zahlenbeispiel: N = 70, N1 = 10, x = 30.
Die “Proportionalprognose” für X30 ist x
e3 =
10
70
· 30 = 4.29.
Als Kriterium für den Prognosebereich I wählen wir: P (X30 = x) ≥ 10%
4.5. PROGNOSEPROBLEM
x
P (Xn = x)
0
.0021
1
.0206
2
.0843
3
.1908
4
.2652
5
.2364
6
.1368
7
.0507
8
.0115
9
.0014
10
.0001
≥ 11
0
4-17
← max. {3 . . . 6} : Prognosebereich I
P (Xn ∈ I) = .1908 + 0.2652 + 0.2364 + 0.1368 = 0.8292.
en = 4; Xn liegt mit einer TrefDie “maximum–probability”-Prognose ist X
ferwahrscheinlichkeit von .8292 im Prognosebereich I = {3 ≤ x ≤ 6} .
KAPITEL 5
Grundbegriffe: Test, Schätzung, Prognose
Um mit den Methoden der mathematischen Statistik arbeiten zu können,
haben wir beobachtbare Größen als Zufallsvariable aufgefaßt. Dazu haben
wir einen (formalen) Wahrscheinlichkeitsraum (Ω, A , P ) definiert und
Zufallsvariable angegeben, die unsere beobachtbaren Größen beschreiben.
In diesen Rahmen sollen nun Test, Schätzung und Prognose eingeordnet
werden.
Zufallsvariable
Wahrscheinlichkeitsraum
Um die Beschreibung zu vereinfachen, benutzen wir in diesem Kapitel
allgemeine Stellvertreter. So steht X für eine (die relevante) Zufallsvariable
mit Werten in einen Werteraum (X, X ).
X : (Ω, A , P ) → (X, X )
Wir benutzen ϑ ∈ Θ, wenn wir das Wahrscheinlichkeitsmass über einen
Parameter kennzeichnen wollen und schreiben
ϑ 7→ Pϑ
5.1. Test
Ein Test ist ein statistisches Entscheidungsverfahren. Zu entscheiden
ist, ob eine Beobachtung X einer vorliegenden Hypothese widerspricht oder
nicht.
Test
Diese Hypothese kann z.B. formuliert sein als Aussage über den Parameter ϑ , etwa: {ϑ ≤ ϑ0 } = H . Das Entscheidungsverfahren wird als Funktion
aufgefaßt, die jedem möglichen Beobachtungsergebnis x ∈ X eine Entscheidung zuordnet: die Hypothese zu verwerfen oder nicht zu verwerfen.
Testfunktion
Formalisiert: Testfunktion
φ : X → [0, 1]
mit der Codierung:
(
1:
φ(x) =
0:
Hypothese verwerfen
Hypothese nicht verwerfen.
Eine Testfunktion kann man zum Beispiel durch einen Verwerfungsbereich (kritischen Bereich) charakterisieren: Man legt einen Bereich V ⊂ X
fest und setzt
(
1 falls x ∈ V
φ(x) =
0 falls x ∈
/ V.
5-1
Verwerfungsbereich
5-2
Annahmebereich
5. GRUNDBEGRIFFE: TEST, SCHÄTZUNG, PROGNOSE
Der Bereich X \ V heißt Annahmebereich des Tests.
Eine Hypothese kann darin bestehen, dass ϑ einen festen Wert von an-
einfache
these
Hypo- nimmt: H = {ϑ = ϑ0 }. Dann spricht man von einer einfachen Hypothese.
Gilt die Hypothese, so ist P (X ∈ V ; ϑ0 ) die Wahrscheinlichkeit, zufällig
einen Messwert im Verwerfungsbereich V zu erhalten. Geht man nach der
durch φ festgelegten Entscheidungsregel vor, so würde in diesem Fall die
Hypothese fälschlich verworfen. Die Zahl
P (X ∈ V ; ϑ0 ) = P (φ(X) = 1; ϑ0 )
Signifikanzniveau
Irrtumswahrscheinlichkeit
Hypothese!zusammengesetzte
Niveau
ϑ0 ∈ H
heisst dann Signifikanzniveau Irrtumswahrscheinlichkeit des Tests φ.
Gibt die Hypothese nur einen Bereich für ϑ an, z.B. H = {ϑ ≤ ϑ0 }, so
spricht man von einer zusammengesetzten Hypothese und sagt, φ hält
das Niveau α ein, falls
P (X ∈ V ; ϑ) ≤ α
für alle ϑ ∈ H .
Anstelle von “Niveau” spricht man auch hier von “Irrtumswahrscheinlichkeit”. Dies ist ein Beispiel für einen traditionellen Wortgebrauch: im Sinne
von Kapitel 3 ist das Niveau zwar eine obere Schranke für die Wahrscheinlichkeiten
P (X ∈ V ; ϑ ∈ H ).
Aber das Maximum (oder Supremum) von Wahrscheinlichkeiten ist in der
Regel selbst keine Wahrscheinlichkeit mehr. Trotzdem benutzen wir hier
noch bisweilen die traditionellen Bezeichnungen, obwohl es in der Regel keine
Wahrschinlichkeiten im Sinne von Kapitel 3 sind.
Gegenhypothese
Alternative
Das Niveau (Signifikanzniveau) eines Tests erfasst nur eine Seite der Medailie. Es sagt noch nicht viel über die Qualität des Tests aus. Ein Entscheidungsverfahren, das die Hypothese nie ablehnt, wird sie sicher auch nicht
fälschlich ablehnen: Es hat eine Irrtumswahrscheinlichkeit von 0 % (Niveau
α = 0 %), aber ist deshalb noch nicht gut. Die Güte eines Tests ist noch
daran zu messen, ob der Test die Hypothese auch verwirft, wenn es nötig
ist. Dazu muß man wissen, was der Hypothese gegenübersteht: Es muß eine
Gegenhypothese (Alternativhypothese, Alternative) aufgestellt werden,
etwa {ϑ > ϑ0 } = K .
Die Zuordnung
ϑ 7→ P (φ(X) = 1; ϑ) = P (X ∈ V ; ϑ)
Gütefunktion
Schärfe
heißt Gütefunktion von φ. Für ϑ ∈ K spricht man von der Schärfe
(Trennschärfe, Mächtigkeit) des Tests. Die Schärfe des Tests misst - in
Abhängigkeit von ϑ die Wahrscheinlichkeit, die Hypothese zu verwerfen,
falls ein Parameter ϑ aus der Gegenhypothese vorliegt.
Beispiel 5.1. X hypergeometrisch verteilt. Untersuchter Parameter:
ϑ = N1 . Gegebene (feste) Parameter: N = 25, n = 10;
Wertebereich
Hypothese
Gegenhypothese
X = {0, 1, 2, . . . , 9, 10},
H = {N1 ≤ 13},
K = {N1 > 13}.
5.1. TEST
5-3
Test mit Verwerfungsbereich V = {x > 7} = {8, 9, 10} ⊂ X .
Hypothese
Gütefunktion von φ:
N1
P (X ∈ V ; N1 )
0-7 0
8
< 0001
9
0.0003
10
0.0015
11
0.0048
12
.0127
13
0.0287
≤ Irrtumswahrscheinlichkeit
14
15
16
17
18
Gegenhypothese 19
20
21
22
23
24
25
.0576
.1048
0.1757
.2737
.3986
.5447
.6988
.8411
.9478
1.0000
1.0000
1.0000
Schärfe
...
...
...
...
...
...
...
...
...
...
Schärfe
ToDo: Graph
Der Test hält ein Niveau von ca. 3 % ein.
5.1.1. Konstruktion von Verwerfungsbereichen. Will man einen
Test haben, der ein vorgegebenes Niveau α einhält, so bestimmt die Hypothese, welche Verwerfungsbereiche V dafür zulässig sind. Es muß gelten:
P (X ∈ V ; ϑ) ≤ α
für alle ϑ ∈ H .
Unter allen zulässigen Verwerfungsbereichen gilt es, diejenigen mit möglichst
großer Schärfe zu finden:
P (X ∈ V ; ϑ)
möglichst groß für ϑ ∈ K .
Mit diesem Problem beschäftigt sich die statistische Test-Theorie. Die
Lösung muß dabei keineswegs eindeutig sein: Es ist nicht der Fall, dass es
bei jeder Kombination von Hypothese und Gegenhypothese einen “besten”
Test gibt. Wenn es einen besten Test gibt, so muss dieser nicht eindeutig
definiert sein.
Beispiel 5.2. Beispiele:
X hypergeometrisch verteilt;
N, n bekannt,
X = {0, 1, . . . , n} .
Niveau α fest gewählt;
N 0 ein fester Wert.
5-4
5. GRUNDBEGRIFFE: TEST, SCHÄTZUNG, PROGNOSE
a) Teste H = {N1 ≤ N 0 } gegen K = {N1 > N 0 }.
Einseitiges Testproblem. Kandidat für einen besten Test zum Niveau α:
Verwerfungsbereich V = {x : x ≥ x} mit
x = min{x : P (X ≥ x; N1 ) ≤ α für alle N1 ≤ N 0 }
= min{x : P (X ≥ x; N1 = N 0 ) ≤ α}.
b) Teste H = {N1 ≥ N 0 } gegen K = {N1 < N 0 }.
Einseitiges Testproblem. Kandidat für einen besten Test zum Niveau α :
Verwerfungsbereich V = {x : x ≤ x} mit
x = max{y : P (X ≤ x; N1 ) ≤ α für alle N1 ≥ N 0 }
= max{y : P (X ≤ x; N1 = N 0 ) ≤ α}.
Diese Tests halten das vorgegeben Niveau α ein und sind beste Tests
unter allen Tests zum vorgegebenen Niveau, die einen Verwerfungsbereich
der Form V = {x : x ≥ x0 } bzw. V = {x : x ≤ x0 }haben. Bedingt durch
die diskrete Struktur der Verteilung kann es jedoch sein, dass dieser Test
das Niveau nicht ausschöpft, dass also P (X ≥ x; N1 ) < α für alle N1 ∈ H ,
analog für Fall b). In diesem Fall kann der Verwerfungsbereich evtl. verbessert werden, indem zusätzliche, nicht benachbarte Punkte hinzu genommen
werden.
randomisiert
Dies Vorgehen ist jedoch nicht üblich: man versucht sich auf Tests einzuschränken, die eine vorgegeben plausible Struktur haben (hier: Verwerfungsbereiche der Form V = {x : x ≥ x0 }. Soll dennoch das Niveau ausgeschöpft werden, so wähle man einen randomisierten Test, d.h. eine
Entscheidungsregel, die bei Resultaten in den Nachbarschaft des Verwerfungsbereichs eine randomisierte, zufällige Entscheidung treffen (das Los
werfen). In der formalen Notation kann dies berücksichtigt werden, indem
wir als Codierung wählen:
φ(x) = 1 :
φ(x) = p :
φ(x) = 0 :
Hypothese verwerfen
Hypothese mit Wahrschinlichkeit p verwerfen
Hypothese nicht verwerfen.
In der Regel sind Tests für einfache Hypothese und Gegenhypothese
einfacher zu finden als für zusammengesetzte, Tests für einseitige Probleme
einfacher zu finden als für zweiseitige.
5.1. TEST
5-5
Aus einseitigen Tests kann man sich zweiseitige zusammenflicken. Beispiel: Ist V1 Verwerfungsbereich eines Tests für H = {N1 = N 0 } gegen
K1 = {N1 > N 0 } zum Niveau α1 und V2 für H = {N1 = N 0 } gegen
K2 = {N1 < N 0 } zum Niveau α2 , so ist V1 ∪ V2 Verwerfungsbereich für
H gegen K1 ∪ K2 zum Niveau α1 + α2 . Wählt man V1 optimal für das
Testproblem H gegen K1 und V2 optimal für H gegen K1 mit Niveaus
α1 + α2 ≤ α, so bekommt man durch V1 ∪ V2 einen brauchbaren Test, der
das Niveau α einhält. Wählt man α1 = α2 = α/2, so spricht man vom
Abschneiden gleicher Schwänze.
Zahlenbeispiel: X hypergeometrisch verteilt; N = 25, n = 10, N 0 = 14.
y
P (X = x; N1 = N 0 ) P (X ≥ x; N1 = N 0 )
0
0.0001
1.0000
1
0.0009
1.0000
2
0.0118
0.9991
3
0.0693
0.9873
4
0.2021
0.09180
5
0.3118
0.7159
6
0.2600
0.4041
7
0.1155
0.1442
8
0.0260
0.0287
9
0.0026
0.0027
10 0.0001
0.0001
Teste H = {N1 = N 0 } gegen = {N1 6= N 0 } zum Niveau α = 5 %.
Lösung: Für H gegen K1 = {N1 < N 0 } ist V1 = {x ≥ 2} (optimaler)
Verwerfungsbereich mit Irrtumswahrscheinlichkeit α1 = P (X ≤ 2; N1 =
N 0 ) = 0.0.127 . Für H gegen K2 = {N1 > N 0 } ist V2 = {x ≥ 8}
(optimaler) Verwerfungsbereich mit α2 = P (X ≥ 8; N1 = N 0 ) = 0.0287.
V1 ∪ V2 = {0, 1, 2, 8, 9, 10} ist zweiseitiger Verwerfungsbereich mit Irrtumswahrscheinlichkeit P (X ∈ V1 ∪ V2 ; N1 = N 0 ) = 0.0127 + 0.0287 = 0.0414.
Der Test mit Verwerfungsbereich V1 ∪ V2 ist ein Test für H gegen K
zum Niveau α = 5 % .
α1 = 0.0127
α2 = 0.0287
Das Abschneiden gleicher Schwänze hätte zu den Bereichen V1 = {x ≤
2} und V2 = {x ≥ 9} geführt; für H gegen K also zum Bereich {0, 1, 2, 9, 10}.
Der dadurch definierte Test hält auch das Niveau ein, hat aber eine geringere
Schärfe.
Abschneiden gleicher Schwänze
5-6
5. GRUNDBEGRIFFE: TEST, SCHÄTZUNG, PROGNOSE
α1 ≤ α/2
α2 ≤ α/2
Übung 5.3. Berechne die Gütefunktion der Tests zu
V = {0, 1, 2, 8, 9, 10} und zu V = {0, 1, 2, 9, 10} für die Werte
N1 = 14, 15, 20, 21.
5.2. Schätzung
Bereichsschätzer
Bei der Schätzung ist aufgrund der Beobachtung X ein Bereich anzugeben, in dem der unbekannte wahre Parameter wahrscheinlich liegt. Ein
Schätzer (Bereichsschätzer) ist eine Zuordnung
b
x 7→ Θ(x),
b
die jedem x ∈ X einen Schätzbereich Θ(x)
zuordnet. Für jeden theoretisch
möglichen Wert ϑ ist
b
P (ϑ ∈ Θ(X);
ϑ)
die Wahrscheinlichkeit, dass der aus der (zufälligen) Beobachtung X berechb
nete Schätzbereich ϑ(X)
tatsächlich den Parameter ϑ enthält. Ist
b
P (ϑ ∈ Θ(X);
ϑ) ≥ (1 − α)
für alle ϑ,
b Bereichsschätzer mit einem Vertrauensniveau (KonfidenzniVertrauensniveau so heißt Θ
Sicherheitswahr- veau, einer Sicherheitswahrscheinlichkeit) von (mindestens) 1 − α (bzw.
einer Irrtumswahrscheinlichkeit von (höchstens) α). Wird ein Bereichsscheinlichkeit
b
b
Irrtumswahrschätzer der Form Θ(x)
= {ϑ ≤ ϑ(x)} oder Θ(x)
= {ϑ(x) ≤ ϑ} gesucht, so
spricht man von einseitiger Problemstellung; bei
scheinlichkeit
b
einseitig!Problemstellung
zweiseitiger Problemstellung wird ein Bereich der Form Θ(x)
= {ϑ(x) ≤
ϑ ≤ ϑ(x)} gesucht. Wie beim Testproblem kann es auch hier mehrere
zweiseitig!Problemstellung
Lösungen geben.
Wie beim Testproblem ist hier nach einem Verfahren gefragt, nicht nach
der Lösung im Einzelfall. In dieser Situation ist - wie beim Testproblem der wahre Parameter nicht bekannt. Das Verfahren muss garantieren, dass
das Niveau eingehalten wird - unabhängig davon, welchen Wert der wahre
Parameter haben mag. Das Vertrauensnivau ist eine Schranke, die für alle
möglichen Werte eingehalten werden muss.
Beispiel 5.4. Beispiel für Schätzprobleme:
X hypergeometrisch verteilt; N , n bekannt, X = {0, 1, . . . , n}
Vertrauensniveau (1 − α) fest gewählt; X beobachtet
5.2. SCHÄTZUNG
5-7
a) Schätze N1 nach oben ab.
Einseitiges Schätzproblem. Gesucht: Bereichsschätzer
b
Θ(X)
= {N1 ≤ N 1 (x)}
mit
b
P (N1 ∈ Θ(X); N1 ) ≥ 1 − α für alle N1 : 0 ≤ N1 ≤ N.
Lösung: N 1 (x) = max{N1 : P (X ≤ x; N1 ) > α}
b) Schätze N1 nach unten ab.
Einseitiges Schätzproblem. Gesucht: Bereichsschätzer
b
Θ(x)
= {N 1 (x) ≤ N1 }
mit
b
P (N1 ∈ Θ(x); N1 ) ≥ 1 − α für alle N1 : 0 ≤ N1 ≤ N ∗ .
Lösung: N 1 (x) = min{N1 : P (X ≥ x; N1 ) > α}.
Analog zum Vorgehen beim Testen kann man zweiseitige Schätzbereiche
konstruieren, indem man einseitige Bereiche kombiniert.
5.2.1. Zusammanhang zwischen Tests und Schätzbereichen. Tests
und Schätzbereiche hängen so zusammen: Ist für ϑ0 jeweils Vϑ0 Verwerfungsbereich eines Niveau-α-Tests der Hypothese {ϑ = ϑ0 } , so definiert
b
x 7→ Θ(x)
= {ϑ : x ∈
/ Vϑ }
einen Bereichsschätzer mit Irrtumswahrscheinlichkeit von höchstens α (Sicherheitsniveau 1 − α). Die Form des Bereichsschätzers hängt von der des
Tests ab. Geht man dabei von einseitigen Tests aus, so erhält man einseitige Bereichsschätzer, von zweiseitigen Tests erhält man zweiseitige Bereichsschätzer.
Beispiel 5.5. X hypergeometrisch verteilt; N = 12, n = 6 . Niveau α
festgelegt auf 5 % ; zweiseitig.
5-8
5. GRUNDBEGRIFFE: TEST, SCHÄTZUNG, PROGNOSE
Hypothese Annahmebereich AN0
Irrtumswahrscheinlichkeit
N1 = N0
P (X ∈ V ; N0 )
0
{0}
0
1
{0, 1}
0
2
{0, 1, 2}
0
3
{0, 1, 2, 3}
0
4
{1, 2, 3, 4}
0.0303
5
{1, 2, 3, 4}
0.0152
6
{1, 2, 3, 4}
0.0411
7
{2, 3, 4, 5}
0.0152
8
{2, 3, 4, 5}
0.0303
9
{3, 4, 5, 6}
0
10
{4, 5, 6}
0
11
{5, 6}
0
12
{6}
0
Daraus: Bereichsschätzer; Sicherheitsniveau 95 %:
b
x Schätzbereich Θ(x)
. . ..
0
{N1 ≤ 3}
1
{1 ≤ N1 ≤ 6}
2
{2 ≤ N1 ≤ 8}
3
{3 ≤ N1 ≤ 9}
4
{4 ≤ N1 ≤ 10}
5
{7 ≤ N1 ≤ 11}
6
{9 ≤ N1 ≤ 12}
Test und Schätzbereich sind nicht eindeutig festgelegt; oft sind geringe
Verschiebungen möglich. So bei N0 = 6: Ein gültiger Annahmebereich wäre
auch {2, 3, 4, 5}; die daraus abgeleiteten Schätzer:
x = 1 : {1 ≤ N1 ≤ 5}
x = 5 : {6 ≤ N1 ≤ 11]}.
5.3. Prognose
Prognosebereich
Trefferwahrscheinlichkeit
5.3.1. Einfache Prognose. Bei der einfachen Prognose ist - bei festgelegtem Parameterwert ϑ - ein Bereich anzugeben, in dem eine Beobachtung
X zu erwarten ist. Das Prognoseverfahren soll in Abhängigkeit von ϑ einen
Prognosebereich X(ϑ) angeben. Die Wahrscheinlichkeit P (X ∈ X(ϑ))
mit der X im Bereich X(ϑ) liegt, heißt Prognosewahrscheinlichkeit (Trefferwahrscheinlichkeit).
5.3. PROGNOSE
5-9
Beispiel 5.6. X hypergeometrisch verteilt; N = 25, n = 0. Für den
Parameterwert N1 = 13 sind Prognosebereiche mit mindestens 95% Treffwahrscheinlichkeit: (vgl. 5.2)
Bereich
Trefferwahrscheinlichkeit
{0 ≤ x ≤ 7}
0.9713
{3 ≤ x ≤ 7}
0.9586
{3 ≤ x ≤ 10} 0.9873
Im allgemeinen wird man einen Prognosebereich minimaler Länge auswählen, hier also den Bereich {3 ≤ x ≤ 7} . Eine Beobachtung ist in diesem
Bereich mit mehr als 95 % Wahrscheinlichkeit zu erwarten.
Sucht man einseitige Prognosebereiche mit einer garantierten Treffsicherheit von mindestens (1 − α), so müssen nur Grenzen zu einer Seite festgelegt
werden:
e
a) untere Abschätzung: Gesucht ist X(ϑ)
der Form
e
X(ϑ)
= {x ≥ X(ϑ)}.
Beispiel hypergeometrische Verteilung mit ϑ = N1 ; wähle
X(N1 ) = max{x : P (X ≥ x; N1 ) ≥ 1 − α}
= max{x : P (X < x − I; N }
= max{x : P (X ≤ x − 1; N1 ) ≤ α}.
e
b) obere Abschätzung: Gesucht ist X(ϑ)
der Form
e
X(ϑ)
= {x ≤ X(ϑ)}.
Beispiel hypergeometrische Verteilung mit ϑ = N1 ; Wähle
X(N1 ) = min{x : P (X ≤ x, N1 ) ≥ 1 − α}.
Für das zweiseitige Problem erhält man wieder einen Prognosebereich,
e
der zumindest die Trefferwahrscheinlichkeit (1 – α) einhält, als X(ϑ)
=
{X(ϑ) ≤ x ≤ X(ϑ)} , wobei X(ϑ) und X(ϑ) Grenzen der einseitigen Bereiche mit Trefferwahrscheinlichkeiten (1 − α1 ), (1 − α2 ), α1 + α2 ≤ α sind.
5.3.2. Allgemeine Prognose und Toleranzbereiche. In 5.3.1 ist
die einfachste Form des Prognoseproblems angegeben. In der komplizierteren Form tauchen Schätz- und Prognoseproblem vermischt auf: in einem
ersten Versuchsteil wird ein Beobachtungsergebenis X erzielt. Aufgrund dieses Ergebnisses ist ein Prognoseintervall gesucht, in dem in einem zweiten
Versuchsteil eine Beobachtung X 0 zu erwarten ist. Das Prognoseverfahren
soll in Abhängigkeit von der ersten Beobachtung X einen Prognosebee
reichsschätzer X(X)
angeben. Der Prognosebereichsschätzer hat die Überdeckungswahrscheinlichkeit (1 − δ), wenn
e
P (X 0 ∈ X(X);
ϑ) ≥ (1 − δ) für alle ϑ ∈ ϑ.
Hier taucht jedoch der Zufall in zwei Rollen auf: in der Vorbeobachtung
X und in der neuen Beobachtung X 0 . Anstelle eine strikte Einhaltung der
Prognosebereichsschätzer
5-10
5. GRUNDBEGRIFFE: TEST, SCHÄTZUNG, PROGNOSE
Überdeckung zu fordern, muss man sich deshalb darauf beschränken, diese
mit einer gewissen Wahrscheinlichkeit zu erhalten:
e
P (P (X 0 ∈ X(X);
ϑ) ≥ (1 − δ)) ≥ (1 − α)
Toleranzbereiche
für alle ϑ ∈ ϑ.
Bereiche mit dieser Eigenschaft heissen Toleranzbereiche. Eine Diskussion
dieser Toleranzbereiche kann hier noch nicht erfolgen.
5.4. Einseitige Fragestellung bei Monotonie
Wir spezifizieren was es heißt, dass ein Modell die Anordnung von Zahlen
nach ihrer Größe respektiert.
Eine Familie von Wahrscheinlichkeitsmaßen
P (; ϑ),
monoton
ϑ∈Θ⊂R
heißt monoton in ϑ, wenn für alle x ∈ R die entsprechenden Verteilungsfunktionen
ϑ 7→ F (x; ϑ)
monoton von ϑ abhängen.
Wir beschränken uns jetzt sogar noch auf den Fall, dass für alle x ∈ R
ϑ 7→ F (x; ϑ)
monoton fallend in ϑ ist, d.h. ϑ ≤ ϑ0 ⇒ F (x; ϑ) ≥ F (x; ϑ0 ). Mit wenigen Zusatzüberlegungen können die anderen monotonen Modelle darauf
zurückgeführt werden.
Unter dieser Einschränkung ist die Situation also stets so, wie wir sie
von der hypergeometischen Verteilung mit N1 als unbekanntem Parameter
kennen.
5.4. EINSEITIGE FRAGESTELLUNG BEI MONOTONIE
5-11
5.4.1. Testproblem bei Monotonie. Testproblem, Niveau α.
a) {ϑ ≤ ϑ0 } gegen {ϑ > ϑ0 }.
Lösung: Wähle als Verwerfungsbereich V = {x > x}
mit x = inf{x0 : x0 1 − α) - Quantil für P ( ; ϑ0 )}
b) Teste {ϑ ≥ ϑ0 } gegen {ϑ < ϑ0 }.
Lösung: Wähle als Verwerfungsbereich V = {x < x}
mit x = sup{x0 : x0 α- Quantil für P (; ϑ0 )}.
5.4.2. Schätzproblem bei Monotonie. Konfidenzniveau (1 − a).
a) Schätze ϑ nach oben ab.
Lösung: Wähle als Konfidenzbereich
b
ϑ(x)
= {ϑ : P (X ≤ x; ϑ) ≥ α}.
5-12
5. GRUNDBEGRIFFE: TEST, SCHÄTZUNG, PROGNOSE
b) Schätze ϑ nach unten ab.
Lösung: Wähle als Konfidenzbereich
b
ϑ(x)
= {ϑ : P (X ≥ x; )ϑ ≥ α}.
5.4.3. Einfaches Prognoseproblem bei Monotonie. (ϑ bekannt),
(Prognosewahrscheinlichkeit (1 − α).
a) Abgrenzung von X nach unten:
Setze als Prognosebereich: {X ≥ sup xα }
Abbildung 5.1: Schätzung nach oben
b) Abgrenzung von X nach oben:
Setze als Prognosebereich: {X ≤ inf x1−α }.
KAPITEL 6
Binomialverteilung
6.1. Konstruktion einer Maßzahl
Beispiel 6.1. In der BRD beträgt z.Zt. die relative Häufigkeit bei Geburten
weiblich
männlich
0.489
0.511.
Die Beobachtung an einem Tag in einem Krankenhaus ergab unter n =
13 Geburten
n1 = 8
Mädchen
n0 = n − n1 = 13 − 8 = 5 Jungen.
Ist es aufgrund dieser Beobachtung gerechtfertigt zu sagen, dass es in diesem
Krankenhaus besonders viele weibliche Geburten gibt?
Ein Lösungsvorschlag:
Wir wollen die Abweichung als durch die Beobachtung bestätigt ansehen,
falls dieser Wert zu klein ist, d.h. falls es zu unwahrscheinlich ist, dass n1 =
8 oder noch ein extremerer Wert (bei einem mittleren Anteil von 0.489)
auftritt.
Modell 4.1 (Auswahl aus einer endlichen Grundgesamtheit, 4.1.2) können
wir nicht anwenden: wir können z.B. keine fest definierte Grundgesamtheit
angeben, die von vornherein festgelegt ist (!) und aus der unsere Stichprobe
d
vom Umfang her eine (unverzerrte)Stichprobe!unverzerrte Stichprobearstellt.
Wir müssen zum ursprünglichen Vorgehen von (2.2) zurückkehren und
eine geeignete Maßzahl definieren.
Wie bisher fassen wir die Beobachtung als Resultat eines Zählprozesses
auf.
Codierung:
Yi =<Geschlecht des i. Kindes>
Yi = 1 für weiblich
Yi = 0 für männlich
P
Xj = ji=1 Yi , X0 = 0.
Xi gibt die Anzahl der Mädchen unter den ersten i Kindern an. Die Beobachtung (6.1) ist zu schreiben als X13 = 8. Den Ergebnisraum können wir
wie in (4.2) ansetzen:
Ω = {0, 1}n .
6-1
6-2
6. BINOMIALVERTEILUNG
Typische Ereignisse sind {Yi = 0}, (Yi = 1}, {Xi = }, . . . ; i = 1, . . . , n.
Xi und Yi sind dann Zufallsvariable wie in der formalen Definition (3.6).
Wir müssen einen Ansatz für die Wahrscheinlichkeit P (Y1 = 1) wählen.
Bekannt ist uns nur die relative Häufigkeit von Mädchen-Geburten im BRDMittel p = 0.489. Wir wählen als Ansatz
(6.1)
P (Y1 = 1) = p.
Haben wir bereits i Geburten erfasst, so wissen wir noch nichts über das
Geschlecht des i + 1. Kindes. Die Wahrscheinlichkeit, dass das i + 1. Kind
ein Mädchen ist, hängt nicht davon ab, wieviele der i früher erfaßten Kinder
Mädchen sind. Deshalb setzen wir an
P (Yi+1 = 1; Xi = k 0 ) = P (Y1 = 1) = p,
(6.2)
unabhängig davon, welchen Wert k 0 wir bereits gezählt haben.
(3.1iii) zwingt uns dann, folgende Wahrscheinlichkeiten für eine Jungengeburt anzusetzen:
P (Y1 = 0) = 1 − P (Y1 = 1) = 1 − p
P (Yi+1 = 1; Xi = k 0 ) = 1 − p für alle Werte k 0 .
(6.3)
Die Rechenregeln für Zählprozesse können wir, wie in (3.1) zusammengefaßt
übernehmen:
(6.4)
P (X0 = 0) = 1,
P (X0 = −1) = 0.
P (Xii−1 = k ∧ Yi = 1) = P (Xi−1 = k) · P (Yi=1 ; Xi−1 = k) etc.
P (Xi = k) = P (Xi−1 = k) · P (Yi = 0; Xi−1 = k) +
+P (Xi−1 = k − 1) · P (Yi = 1; Xi−1 = k − 1).
Die Formel (6.4) wird einfacher, wenn wir (6.1/ ??/ 6.3) einsetzen
P (Xi = k) = P (Xi−1 = k) · P (Y1 = 0) + P (Xi−1 = k − 1) · P (Y1 = 1)
= P (Xi−1 = k) · (1 − p) + P (Xi−1 = k − 1) · p.
Das reicht.
Beispiel 6.2. Zahlenbeispiel:
p = 0.489, 1 − p = 0.511
Lösung von (6.1):
Der Lösungsvorschlag von (6.1) lautet: Die Abweichung wird als gesichert
angesehen, falls X13 ≥ 8 bei Gültigkeit der Hypothese p = 0.439 zu unwahrscheinlich ist. Die Rechnung wie in (6.4) mit p = 0.489 ergibt:
P (X13 ≥ 8) =
13
X
P (X13 = k) = 0.2635.
k=8
Selbst bei gültiger Hypothese von p = 0.489 können wir mit einer Wahrscheinlichkeit von ca. 26 % erwarten, dass 8 oder sogar mehr Mädchen unter
13 Neugeborenen sind. Die Beobachtung reicht nicht aus, um die Hypothese
zu verwerfen.
6.3. GESCHLOSSENE DARSTELLUNG
i
k p(Xi−1 = k − 1) · p + P (Xi = k) · (1 − p) = P (Xi = k)
0
0
1
1
0
0 + 1 · (1 − p)
1
1
1·p+0
2
0
0 + (1 − p)
2
1
(1 − p) · p + p(1 − p)
2
2
p·p+0
3
0
0 + (1 − p) · (1 − p)
3
.
(1 − p)p + (1 − p) · p · (1 − p)
.
.
.
.
.
.
.
.
6-3
=1−p
= 0.5110
=p
= 0.6890
= (1 − p)
= .2611
= 2 · p · (1 − p)
= 0.4998
=p
= 0.2391
= (1 − p)
= 0.1334
= 2p(1 − p)
= 0.3831
.
13 7
12
6
p6 (1
·p+
12
7
p7 (1 − p)5 (1 − p)
=
13
7
p7 (1 − p)6 = 0.2043
13 8
12
7
p7 (1 − p)5 · p +
12
8
p8 (1 − p)4 (1 − p)
=
13
8
p8 (1 − p)5 = 0.1466
−
p)6
.
.
.
.
.
.
.
.
.
6.2. Zusammenfassung des Modells
Wir fassen die formale Definition des Modells zusammen:
Ω = {0, 1}n .
Ereignisse sind {Yi = 0}, {Yi = 1}, {Xi = 2}, . . .
wobei
i = ...,n
Yi : Ω → {0, 1}

i


, . . .)
 0 falls ω = (. . . ,
0
Yi (ω) =
i


, . . .)
 1 falls ω = (. . . ,
1
Xj : Ω → N
Xj (ω) =
j
X
Yi (ω), X0 (ω) = 0.
i=0
P ist definiert durch
i) P (Yi = 0) = 1 − p
P (Yi = 1) = p
ii) P (Yi = 0 | Y1 , . . . , Yi−1 ) = P (Yi = 0) = 1 − p
“Yi unabhängig von Xi−1 ”.
P (Yi = 1 | Y1 , . . . , Yi−1 ) = P (Yi = 1) = p.
6.3. Geschlossene Darstellung
6-4
6. BINOMIALVERTEILUNG
Wir können wieder eine direkte, geschlossene Formel zur Berechnung der
Wahrscheinlichkeit angeben:
n x
(6.5)
P (Xn = x) =
p (1 − p)n−x
für 0 ≤ x ≤ n
x
(6.6)
P (Xn = x) = 0
für x > n oder x < 0.
Beweis. Analog zum Vorgehen in (2.5.2) kann man nun die Richtigkeit
der Formel mit vollständiger Induktion zeigen. Für n = 0, 1 überprüft man
die Formel durch Einsetzen. Für n > 1 haben wir nach (4.1.4)
P (Xn = x) = P (Xn−1 = x) · (1 − p)
bzw. P (Xn = x) = P (Xn−1 = x − 1) · p
+P (Xn−1 = x) · (1 − p)
für x = 0
für x 6= 0.
Wenn die Formel bereits für alle n0 < n als richtig erkannt ist, so können
wir einsetzen
n−1 0
P (Xn = x) =
p · (1 − p)n−1 · (1 − p)
für x = 0
0
n − 1 x−1
bzw. P (Xn = x) =
p
· (1 − p)n−1 · p +
x−1
n−1 x
p · (1 − p)n−1−x · (1 − p)
für x 6= 0
x
n x
=
p (1 − p)n−x .
x
Nach dem Prinzip der vollständigen Induktion ist die Formel damit bewiesen.
Wir formulieren nun
Modell
Unabhängige Festlegung eines Merkmals
p relative Häufigkeit der ausgezeichneten Elemente
n Umfang der Stichprobe
χ Anzahl der ausgezeichneten Elemente in der Stichprobe
Definition 6.3. Das Wahrscheinlichkeitsmaß mit
n x
Pbin (x; n, p) =
p (1 − p)n−x
x
Binomialverteilung
heisst Maß der Binomialverteilung (kurz: Binomialverteilung).
Wir sagen: X ist binomialverteilt mit den Parametern n, p, wenn
P (X = x) = Pbin (x; n, p).
Nach den Überlegungen aus (6.1) wissen wir: Sind (Ω, A , P ) wie in (6.2)
definiert, so ist Xn binomialvertellt mit den Parametern n, p.
6.3. GESCHLOSSENE DARSTELLUNG
6-5
6.3.1. Praktische Berechnung.
Software: Die hypergeometrische Verteilung ist in Statistik- und
Tabellen-Kalkulationsprogrammen weit verbreitet. Die Qualität der
Implementierung ist jedoch sehr unterschiedlich, so dass zumindest
Plausibilitätskontrollen nötig sind.
In R stehen unter anderem folgende Funktionen für die BinomialVerteilung zur Verfügung:
R-Aufruf
Funktion
dbinom(x, size, prob)
Pbinom (X = x; n = size, p = prob)
dbinom(x, size, prob,
log=TRUE)
ln(Pbinom (X = x; n = size,
p = prob))
pbinom(q, size, prob)
Pbinom (X ≤ x; n = size, p = prob)
qbinom(q, size, prob)
minx :
Pbinom (X ≤ x; n = size, p =
prob) ≥ q
rbinom(nn, size, prob)
erzeugt nn Zufallszahlen aus
Pbinom ( · ; n = size, p = prob)
Die Argumente der R-Funktionen sind nach folgender Tabelle in die
Bezeichnungen dieses Skripts zu übersetzen:
R
entspricht
hier
size n
Stichprobenumfang
prob p
Erfolgswahrscheinlichkeit
Tabellen: Tabellen der Binomialverteilung oder der zugehörigen Verteilungsfunktion sind in den meisten statistischen Tabellensammlungen enthalten.
Beispiel für eine Binomialtabelle:
In dieser Tabelle ist n die Anzahl der Beobachtungen, r das Zählergebnis.
Tabelliert ist
Pbin (X ≥ r; n, p) = 1 − P (X ≤ r − 1; n, p) = 1 − F (r − 1; n, p).
Darüberhinaus können die Tabellen zur F-Verteilung1 benutzt
werden, zu denen folgende Beziehung besteht:
Für n = n0 + n1 ist
(6.7)
1Vorsicht:
Pbin (X ≤ n1 ; n, p) ≤ α genau dann, wenn
Hier steht F nicht für die Verteilungsfunktion von X, sondern für
die “Fisher-Verteilung”, die aus Tabellen ablesbar ist.
6-6
6. BINOMIALVERTEILUNG
Abbildung 6.1: Binomialverteilung
n0
p
·
≥ F1−α (2(n1 + 1), 2 · n0 ).
n1 + 1 1 − p
Es ist
(6.8)
Pbin (X ≥ n1 ; n, p) ≤ α genau dann, wenn
n1
1−p
·
≥ F1−α (2(n0 + 1), 2 · n1 ).
n0 + 1
p
6.4. PARAMETERABHäNGIGKEIT BEI DER BINOMIALVERTEILUNG
6-7
Abbildung 6.2: Binomialverteilung .Aus: 2. White et al., Tables for
Statisticians
Symmetrie – Beziehungen: Für die Binomialverteilung gilt die Symmetrie
Pbin (x; n, p) = Pbin (n − x; n, 1 − p),
also z.B.
Pbin (x = 8; n = 20, p = 0.75) = Pbin (x = 12; n = 20, p = 0.25) = 0.00076.
6.4. Parameterabhängigkeit bei der Binomialverteilung
6.4.1. Auswirkung des Parameters p: aus: K.Stange, Angewandte
Statistik
6-8
6. BINOMIALVERTEILUNG
aus: K.Stange, Angewandte Statistik, Abb. 14. 1. 3. Vier Binomialverteilungen
bn (x | p) = nx px q n−x für n = konst = 20 und p = 0, 10; 0, 20; 0, 30; 0, 40 und
0, 50.
6.4.2. Auswirkung des Parameters n:
aus: K.Stange,
Angewandte Statistik, Abb. 14.1.2. Vier Binomialverteilungen
bn (x; p) = nx px q n−x für p = konst = 0, 10 = 10 % und n = 10, 20, 50 und
100.
Bei gegebenem n ist die Verteilungsfunktion für alle x, 0 ≤ x ≤ n, monoton fallend in p. Die einseitigen Fragestellungen in Bezug auf p können
wie in 5.4 gelöst werden; speziell auf die Binomialverteilung zugeschnitten
lauten die Lösungen:
6.5. GRUNDPROBLEME BEI BINOMIALVERTEILUNG
6-9
6.5. Grundprobleme bei Binomialverteilung
6.5.1. Testproblem: Niveau α.
a) Teste {p ≤ p0 } gegen {p > p0 }.
Lösung: Wähle als Verwerfungsbereich V = {x > x}
mit x = min{x0 : P (X ≤ x0 ; n, p0 ) ≥ 1 − α}
= min{x0 : P (V ≥ x0 + 1; n, p0 ) ≤ α}
= max{x0 : P (X ≥ x0 ; n, p0 ) > α}.
b) Teste {p ≥ p0 } gegen {p < p0 }
Lösung: Wähle als Verwerfungsbereich V = {x < x}
mit x = max{x0 : P (X < x0 ; n, p0 ) ≤ α}
= max{x0 : P (X ≥ x0 ; n, p0 ) ≥ 1 − α}
= min{x0 : P (X ≤ x0 ; n, p) > α}.
6.5.2. Schätzproblem. Konfidenzniveau (1 − α); gegeben Beobachtung x.
a) Schätze p nach oben ab.
Lösung: Wähle als Konfidenzbereich {p ≤ p(x)} mit
p(x) = sup{p0 : P (X ≤ x; n, p0 ) ≥ α}.
b) Schätze p nach unten ab.
Lösung: Wähle als Konfidenzbereich {p ≥ p(x)} mit
p(x) = inf{p0 : P (X ≥ x; n, p0 ) ≥ α}.
6.5.3. Vergleich Binomialverteilung / Hypergeometrische Verteilung. Die hypergeometrische Verteilung haben wir bei Stichproben aus
einer endlichen Grundgesamtheit vorgefunden. Hier veränderte sich die noch
zur Verfügung stehende Grundgesamtheit mit jedem Zug. Hatten wir zu
Anfang eine Population vom Umfang N = n0 + n1 und für Y1 = 1 eine
Wahrscheinlichkeit P (Y1 = 1; N, n1 ) = nN1 ,
so war nach n Zügen mit Zählergebnis Yn = n1 noch ein Rest von N −
n = (n0 − (n − n1 )) + (n1 − n1 ) und für Yn+1 = 1 eine Wahrscheinlichkeit
1)
P (Yn+1 = 1 | Xn = n1 ; N, n1 ) = (nN1 −n
−n .
6-10
6. BINOMIALVERTEILUNG
Yn = n1
Die Wahrscheinlichkeit für den Ausgang des n + 1. Zuges hängt vom
Ergebnis der Züge Y1 , . . . , Yn ab. Fachausdruck: (Y1 , . . . , Yn , Yn+1 ) sind stostochastisch!abhägigchastisch abhängig.
Im Gegensatz dazu war bei der Binomialverteilung die Wahrscheinlichkeit gleichbleibend: P (Y1 = 1; p) = P (Yn+1 = 1 | Xn = n1 ; p) = p
unabhägig
(Y1 , . . . , Yn , Yn+1 ) sind stochastisch unabhängig.
Die Binomialverteilung ist einfacher zu berechnen.
Man stellt sich vor, dass für sehr großen Umfang N der Grundgesamtheit gegenüber n beim hypergeometrischen Modell das Stichprobenziehen
praktisch nicht ins Gewicht fällt:
n1
n1 − n1
≈
N
N −n
wenn
N n, n1 n1 .
6.6. SPEZIELLE ANWENDUNGEN
6-11
Dann sollte gelten
n1
) ≈ Phyp (x; N, n1 , n)
N
n1 − n1
≈ Pbin (x; n, p =
).
N −k
Diese Beziehung gilt in der Tat. In der Praxis wird oft die Annäherung
n1
)
Phyp (x; N, n1 , n) ≈ Pbin (x; n, p =
N
benutzt, wenn N > 10 · n.
Pbin (x; n, p =
Beispiel 6.4. In einem Kreuzungsversuch werden zur Auswertung die
Erträge einer Getreidesorte nach einem bestimmten Merkmal sortiert. Dazu kann wegen der Masse nicht der Ertrag eines ganzen Feldes ausgezählt
werden. Man beschränkt sich auf eine Stichprobe.
Für diese Situation haben wir das Modell der hypergeometrischen Verteilung (4.1) entwickelt. Die Resultate sind aber, selbst nach Formel (4.1.1)
nur mühselig zu ermitteln, wenn n0 und n1 sehr groß sind.
Zahlenbeispiel: Besteht die Gesamtpopulation aus N = 1000 Pflanzen,
davon n1 = 300 mit dem gesuchten Merkmal, so erhält man in einer Stichprobe vom Umfang n = 50 ein Zählergebnis X50 = x mit folgenden Wahrscheinlichkeiten:
exakte Lösung
Näherungslösung
x PHyp (x; N = 1000, n1 = 300, n = 50) Pbin (x; n = 50, nN1 = 0.3)
0
< 0.0001
< .0001
10
0.0370
0.0386
15
0.1255
0.1223
20
0.0359
0.0370
30
< 0.0001
< .0001
6.6. Spezielle Anwendungen
6.6.1. Binomialverteilung beim Zeichentest auf Symmetrie. Beispiel [aus Pfanzagl II, p. 136 - 137]: Es ist die Wirksamkeit zweier Schlafmittel (Laevo Hyoscyamin Hydrobromid [D] und Laevo Hyoscin Hydrobromid
[L) zu vergleichen. Als Maß der Wirksamkeit dient die Verlängerung der
Schlafdauer. Da die Wirksamkeit von Schlafmitteln erfahrungsgemäß bei
verschiedenen Personen sehr verschieden ist, kann man die Genauigkeit des
Vergleiches dadurch steigern, dass man beide Mittel an ein und derselben
Person erprobt und ihre Wirksamkeit vergleicht. Selbstverständlich muß das
Experiment mit mehreren Personen wiederholt werden, um daraus bündige
Schlüsse ziehen zu können. Tabelle zeigt das Ergebnis von 10 Versuchen:
Verlängerung des Schlafes in Stunden
6-12
6. BINOMIALVERTEILUNG
Patient Schlafmittel
Unterschied
D
L
L-D
1
+0,7
+1,9 +1,2
2
–1,6
+0,8 +2,4
3
–0,2
+1,1 +1,3
4
–1,2
+0,1 +1,3
5
–0,1
–0,1
6
+3,4
+4,4 +1,0
7
+3,7
+5,5 +1,8
8
+0,8
+1,6 +0,8
9
0,0
+4,6 +4,6
10
+2,0
+3,4 +1,4
0,0
Tabelle 8. Die Wirksamkeit von Laevo Hyoscyamin
Hydrobromid [D] und Laevo Hyoscin Hydrobromid [L]
Quelle: A. R. Cushny and A. R. Peebles,: The action of
optimat isomers 11, Journal of Physiology
Bd. 32, 1905, S. 501–510.
Nimmt man an, dass die Wirksamkeit beider Mittel gleich ist, so ist
die Wahrscheinlichkeit für das Auftreten einer positiven Differenz ebenso groß wie die für das Auftreten einer negativen Differenz, nämlich 1/2.
Die Differenz 0 kommt theoretisch nicht vor, da wir ja zwei stetige Variable miteinander vergleichen und die Wahrscheinlichkeit, dass beide genau
übereinstimmen, Null ist. Praktisch arbeitet man jedoch stets mit gerundeten Werten, so dass die Differenz 0 - wie auch im obigen Beispiel - tatsächlich
auftreten kann. Solche Beobachtungen werden einfach weggelassen, denn sie
können zur Entscheidung der Frage, ob die Differenz wesentlich positiv oder
wesentlich negativ ist, nichts beitragen. Scheiden wir dementsprechend Patienten Nr. 5 aus, so haben wir eine Stichprobe vom Umfange n = 9 mit 9
positiven Werten: k = 9.
Um zu prüfen, ob dadurch der Unterschied zwischen der Wirksamkeit
der beiden Schlafmittel gesichert ist, berechnen wir
1
P (X9 ≥ 9; n = 9, p = )
2
1
1
= Pbin (9; n = 9, p = ) =
= 0.0020.
2
512
Diese Wahrscheinlichkeit ist so gering, dass wir annehmen können, dass
Schlafmittel L tatsächlich wirksamer ist als D.
6.7. Tests für den Parameter p der Binomialverteilung
6.7. TESTS FÜR DEN PARAMETER P DER BINOMIALVERTEILUNG 6-13
Für einseitige Fragestellungen ist die Lösung des Testproblems in (6.5.1)
angegeben. Für zweiseitige Fragestellungen können daraus Lösungen zusammengesetzt werden:
Beispiel 6.5. Bei dominant–rezessiver Vererbung und einer Elterngeneration
Aa × Aa
P
hatten wir nach dem Laplace–Ansatz für das Auftreten der Phänotypen A
und a in der Tochtergeneration (F ) die Wahrscheinlichkeiten
Phänotyp A :
P = 3/4
Phänotyp a :
P = 1/4
F
Anhand eines Kreuzungsexperiments mit n = 20 Kreuzungen soll beurteilt werden, ob ein bestimmtes Merkmal A dominant vererbt wird, oder ob
ein anderer Erbgang vorliegt. Gesucht ist ein Entscheidungsverfahren. Falls
die Hypothese zutrifft, soll das Verfahren höchstens mit 1 % Wahrscheinlichkeit zu einem Fehlschluss führen.
Standardisierte Formulierung: Teste die Hypothese
H = {p = 0.75}
gegen K = {p 6= 0.75}.
Das Problem ist ein zweiseitiges Testproblem. Wir suchen einen Verwerfungsbereich der Form {X < x oder X >} mit Irrtumswahrscheinlichkeit α ≤ 0.1.
Können wir eineiige Zwillinge außer Betracht lassen, so ist das BinomialModell (6.1) anwendbar. Die Anzahl X der A–Nachkommen bei n = 20
Kreuzungen ist binomialverteilt mit Parametern n = 20, p unbekannt.
Erster Schritt: Konstruktion eines Bereichs mit gleichen Schwänzen.
Gesucht: x mit P (X < x; n = 20, p = 0.75) ≤
x mit P (X > x; n = 20, p = 0.75) ≤
α
2
α
2
= 0.005
= 0.005.
Dabei soll x möglichst groß und x möglichst klein sein. Um Tabelle (6.1,
6.2) zu benutzen, formulieren wir um:
α
P (X < x; n = 20, p = 0.75) ≤
2
genau dann, wenn
α
P (X > 20 − x; n = 20, p = 0.25) ≤ ,
2
und
α
P (X > x; n = 20, p = 0.75) ≤
2
genau dann, wenn
α
P (X < 20 − x; n = 20, p = 0.25) ≤ = 0.005,
2
d.h. genau dann, wenn
α
P (X ≥ 20 − x; n = 20, p = 0.25) ≥ 1 − = 0.995.
2
6-14
6. BINOMIALVERTEILUNG
Aus der Tabelle erhalten wir als Grenzen
20 − x + 1 = 11
20 − x = 1
⇒
⇒
x = 10
x = 19.
Wir berechnen die exakte Irrtumswahrscheinlichkeit für den Verwerfungsbereich V = (X < 10 oder X > 19); nach Konstruktion wissen wir bereits,
dass die Irrtumswahrscheinlichkeit höchstens 1 % beträgt.
Die Hypothese ist einfach. So brauchen wir nur für p = 0.75 zu berechnen:
P (X ∈ V ; p = 0.75) =
= Pbin (X < 10 ∨ X > 19; n = 20, p = 0.75)
= Pbin (X ≤ 9; n = 20, p = 0.75) +
+Pbin (X = 20; n = 20, p = 0.76)
= Pbin (X ≥ 11; n = 20, p = 0.25) +
+Pbin (X = 0; n = 20, p = 0.25)
= 0.00394 + (1 − 0.99683) = .00711.
Zweiter Schritt: Wir probieren ob wir den gefundenen Verwerfungsbereich
mit gleichen Schwänzen noch erweitern können, ohne das Niveau 1 % zu verletzen. Dazu berechnen wir die Wahrscheinlichkeiten für die nächstliegenden
Punkte unter Verwendung des hypothetischen Parameterwerts p = 0.75.
Nach Tabelle ist
P (X = 10; n = 20, p = 0.75) =
= P (X = 10; n = 20, p = 0.25)
= P (X ≥ 10; n = 20, p = 0.25)
–P (X ≥ 11; n = 20, p = 0.25)
= 0.00394 − 0.00094 = 0.00300
P (X = 19; n = 20, p = 0.75)
= 0.99683 − 0.97569 = 0.021143.
Die Hinzunahme auch nur eines weiteren Punktes zum Verwerfungsbereich würde die Irrtumswahrscheinlichkeit auf mehr als 1 % erhöhen. Der
gefundene Bereich kann nicht verbessert werden.
Um eine Information über die Güte des Tests mit Verwerfungsbereich
V = {X < 10 oder X > 19} zu bekommen, berechnen wir die Gütefunktion
für verschiedene p-Werte aus der Gegenhypothese = {p 6= 0.75}. Mit Hilfe
der Tabelle ist wie oben
P (X ∈ V ; p) = Pbin (X ≥ 11; n = 20, 1 − p)
+Pbin (X = 0; n = 20, 1 − p).
6.7. TESTS FÜR DEN PARAMETER P DER BINOMIALVERTEILUNG 6-15
p
P (X ∈ V ; p)
.90
0 + (1 – 0.87842) = 0.12158
.80 .00056 + (1 – 0.98847) = 0.01209
.70 .01714 + (1 – 0.99920) = 0.01794
.60 .12752 + (1 – 0.99996) = 0.12756
.50
.41190 + (1 – 1.0) = 0.41190
.40
(1 – 0.24466) + 0 = 0.75534
.30
(1 – 0.04796) + 0 = 0.95204
.20
(1 – 0.00254) + 0 = 0.99746
.10
(1 – 0.00001) + 0 = 0.99999
Für Parameterwerte, die nahe bei der Hypothese liegen (p = 0.90, 0.80,
oder p = 0.70, 0.60) führt die Entscheidungsregel nur unwahrscheinlich zu
einer Verwerfung der Hypothese. Bei p = 0.30 oder weniger verwirft das
Verfahren dann mit genügender Sicherheit.
Eine Wahrscheinlichkeit von p > 0.75 kann dann auftreten, wenn mehrere Gene das betrachtete Merkmal phänotypisch erzeugen können. Oder
wenn die Elternpopulation (bei der Festlegung über ein Gen) nicht eine reine Aa-Population ist, sondern auch AA-Individuen enthält.
Kann von der Biologie her ausgeschlossen werden, dass p > 0.75, so steht
als Gegenhypothese = {p < 0.75}. Das Problem ist dann ein einseitiges
Testproblem.
Übung 6.6. Welches ist der beste Verwerfungsbereich für {p = 0.75}
gegen = {p < 0.75} mit Irrtumswahrscheinlichkeit α ≤ 5 %? Berechne die
Gütefunktion an den Stellen p = 0.70, p = 0.60, p = 0.30.
Beispiel 6.7. Bei 10 Kreuzungen wurde ein Merkmal a 7 mal beobachtet. Widerspricht dies der Annahme, dass das Merkmal mit einer Wahrscheinlichkeit p = 0.25 auftritt?
Das Beispiel ist ein Testproblem, die Hypothese {p = 0.25}. Die Gegenhypothese ist nicht genauer festgelegt; also müssen wir ansetzen: = (p 6=
0.25} (zweiseitiges Testproblem).
Wir wollen wissen: Wie groß ist die Irrtumswahrscheinlichkeit, wenn wir
bei X = 7 die Hypothese bereits verwerfen? Der schärfste Test, der bei dieser
Beobachtung bereits verwirft, wäre ein Test, der (X ≥ 7} gerade noch im
Verwerfungsbereich enthält; also ein Test mit Verwerfungsbereich
(X < x oder X > x}
(zweiseitige Problemstellung!), x = 8.
6-16
6. BINOMIALVERTEILUNG
Arbeiten wir nach der Methode “Abschneiden gleicher Schwänze”, so hat
dieser Test eine Irrtumswahrscheinlichkeit
P (X < x oder X > x; p = 0.25) =
= P (X < x; p = 0.25) + P (X > x; p = 0.25)
≤ 2 · P (X > x; p = 0.25).
Für x = 8, n = 10 lesen wir aus der Tabelle ab:
P (X > 8; n = 10, p = 0.25) = 0.00351;
die Wahrscheinlichkeit, 7 oder mehr unter 10 bei Gültigkeit der Hypothese
zu beobachten, beträgt also 0.351 %. Da wir wegen der zweiseitigen Gegenhypothese auch sicherstellen müssen, dass der Test die Hypothese auch
verwirft, wenn X zu kleine Werte annimmt, bekommen wir eine Irrtumswahrscheinlichkeit insgesamt von 2 · 0.351% = 0.702 %.
Beispiel 6.8. (Who killed John Wayne?)
Ist die berichtete Krebshäufigkeit signifikant gegenüber dem Bevölkerungsdurchschnitt erhöht?
Die Daten:
zensiert
betroffene Population:
davon noch erfaßt:
davon an Krebs erkrankt:
an Krebs gestorben:
220 Personen
150 Personen
91 Personen
46 Personen.
Nach den zitierten “Angaben des Wissenschaftlers” dürften höchstens
1/5, d.h. 30 von 150 Personen, an Krebs erkranken. Die erste Frage: wie
verläßlich sind diese Daten? Über die Datenerhebung haben wir keine Information. Es ist nicht bekannt, wieviele der 150 erfaßten Mitarbeiter heute
noch leben. Es ist zu vermuten, dass von dem 1955er Filmteam einige heute noch leben. Von diesem Teil ist es natürlich noch nicht bekannt, woran
sie sterben werden; die Beobachtung wurde vermutlich abgebrochen, bevor
vollständige Daten vorlagen (Fachausdruck: zensierte Beobachtung). Wir
müssen interpretieren:
an Krebs erkrankt mindestens
91 Personen
als Todesursache Krebs angegeben mindestens 46 Personen.
6.7. TESTS FÜR DEN PARAMETER P DER BINOMIALVERTEILUNG 6-17
Die Vergleichszahl (30 von 150) können wir anhand der Literatur überprüfen;
dabei findet man 1/5 als Krebshäufigkeit unter den Todesursachen - die Anzahl der Erkrankten kann wesentlich darüber liegen, weil bei weitem nicht
jede Krebserkrankung zum Tode führt.
Für die Auswertung stehen also zur Verfügung:
erfasste Personen n = 150
Krebs–Todesfälle X ≥ 46.
Hypothese H = (p ≤ 0.20}; Gegenhypothese K = (p > 0.20}.
(Einseitige Fragestellung, weil nach heutigem Wissen durch radioaktive
Strahlung niedriger Dosis die Krebs–Todesrate nur erhöht, und keinesfalls
gesenkt wird.)
Wir testen mit einer Irrtumswahrscheinlichkeit von höchstens 1 %, ob
die Beobachtung X150 ≥ 46 der Hypothese widerspricht. Zu überprüfen ist:
?
Pbin (X ≥ 46; n = 150, p = 0.20) ≤ 1 % .
Die Tabelle in (6.1, 6.2) reicht nicht bis zu einem Umfang von 150. Wir
nutzen die Beziehung (6.8) zur F -Verteilung mit n1 = 46, n0 = 150 − 46 =
104 und müssen überprüfen:
46
1 − 0.20
·
= 1.75
104 + 1
.20
?
≥ F0.99 (2 · (104 + 1), 2 · 46) = F0.99 (210, 92).
Ist F0.99 (210, 92) selbst nicht in der Tabelle enthalten; so können wir z.B.
ablesen: F0.99 (210, 92) ≤ F0.99 (100, 70) = 1.70.
Also ist 1.75 ≥ 1.70 ≥ F0.99 (210, 92) und damit nach (6.8)
Pbin (X ≥ 46; n = 150, p = 0.20) ≤ 1 %.
Die Daten reichen aus, die Hypothese {p ≤ 0.20} zu verwerfen. Die
Irrtumswahrscheinlichkeit beträgt höchstens 1 %.
Warnung! Die Irrtumswahrscheinlichkeit von 1 % garantiert: Bei Gültigkeit
der Hypothese und der Modellvorstellung ergibt eine zufällig herausgegriffene Beobachtung mit höchstens 1 % Wahrscheinlichkeit ein Ergebnis, das
im Verwerfungsbereich liegt. Ein typischer Fehler ist es, nur extreme Beobachtungen zu untersuchen: Im Extremfall greift man sich nur ganz extreme
Beobachtungen heraus und landet mit Wahrscheinlichkeit 1 im Verwerfungsbereich. Nicht, weil die Hypothese falsch ist, sondern die Auswahl der Ereignisse eine Verzerrung mit sich bringt.
Vorsichtsmaßnahme bei Experimenten: Hypothese und Alternative eindeutig formulieren, bevor die Beobachtungen gemacht werden! Bei bereits
vorliegenden Beobachtungen: Können die Beobachtungen wirklich als unverzerrte Stichproben aufgefaßt werden? (Höheres “Berufsrisiko”, Lebensgewohnheiten etc. ohne Einfluss? etc.).
6-18
6. BINOMIALVERTEILUNG
Anmerkung zu Beispiel 6.8: Weitere Beobachtungen in Süd-Utah belegen, dass ein echtes Ergebnis, kein Artefakt, vorliegt. In den an das Testgebiet angrenzenden Regionen ist deutlich ein Anstieg der Krebsfälle zu
beobachten.
6.8. Weitere Grundprobleme
6.8.1. Schätzung des Parameters p bei Binomialverteilung. Der
Stichprobenumfang n ist bekannt; der Parameter p soll aufgrund einer Beobachtung der binomialverteilten Zufallsvariablen X geschätzt werden. Als
Punktschätzer können wir setzen
X
pb(X) =
n
Einseitige Schätzbereiche mit Irrtumswahrscheinlichkeit ≤ α erhalten
wir
a) Abschätzung nach unten:P
{p ≥ p} mit p = sup{p : nx=X nx px (1 − p)k−x ≤ α}.
b) Abschätzung nach oben
P
n x
k−x ≤ α}.
{p ≤ p} mit p = inf{p : X
x=0 x p (1 − p)
Einen zweiseitigen Schätzbereich {p ≤ p ≤ p} mit Irrtumswahrscheinlichkeit α erhalten wir, indem wir nach oben und nach unten je mit Irrtumswahrscheinlichkeit ≤ α/2 abschätzen. Mit Hilfe von (6.7 / 6.8) können die
Grenzen p, p, auch aus der F -Verteilung abgelesen werden. Für eine Irrtumswahrscheinlichkeit α und eine Beobachtung X = n1 , n = n0 + n1 erhalten
wir
a) Abschätzung nach unten:
p=
1+
n0 +1
n1
1
.
· F1−α (2 · (n0 + 1), 2 · n1 )
b) Abschätzung nach oben:
p=
F1−α (2 · (n1 + 1), 2 · n0 )
.
+ F1−α (2 · (n1 + 1), 2 · n0 )
n0
n1 +1
Beispiel 6.9. Bei einer bestimmten Bluthochdruck-Therapie wurde bei
6 von insgesamt 8 behandelten Patienten eine Besserung beobachtet. Schätze
mit einer Fehlerwahrscheinlichkeit von 1 % die Heilungschancen nach unten
ab.
Das Binomialmodell mit n = 8 ergibt bei Beobachtung X = 6 eine
Punktschätzung pb für p
6
pb = = 0.75.
8
6.8. WEITERE GRUNDPROBLEME
6-19
Zur unteren Abschätzung muß p gesucht werden, so dass
X 8
px (1 − p)n−x ≤ 0.01,
Pbin (X ≥ 6; n = 8, p) =
x
x=6
und unter dieser Bedingung soll p möglichst groß sein.
Berechnung nach der Tabelle (5.7.2):
Für p = 0.3 ist Pbin (X ≥ 6; n = 8, p = 0.3) = 0.01129 > 0.01
für p = 0.25 ist Pbin (X ≥ 6; n = 8, p = 0.25) = 0.00423 ≤ 0.01.
Damit liegt p zwischen 0.25 und 0.3; der Bereich {p ≥ 0.25} umfaßt den
Bereich (p ≥ p}. Also ist {p ≥ .25} Schätzbereich für p mit Irrtumswahrscheinlichkeit ≤ 1 %. Bedingt durch die Abstufung der Tabelle ist dieser
Schätzbereich größer (und damit die Irrtumswahrscheinlichkeit geringer) als
gesucht.
Berechnung mit der F –Tabelle: n1 = 6, n0 = 2
p=
1+
3
6
1
1
=
= 0.2933.
1
1 + 2 · 4.82
· F0.99 (2 · 3, 2 · 6)
Als Schätzbereich für p mit Irrtumswahrscheinlichkeit ≤ 1 % erhalten wir
{p ≥ 0.2933}.
Beispiel 6.10. Bei einer Untersuchung über angeborene Rotgrünblindheit wurden folgende Zahlen ermittelt: Untersucht: 9049 Männer, davon rotgrünblind: 725. Gehen wir davon aus, dass Familieneffekte etc. bei der Untersuchung zu vernachlässigen sind, so können wir das Ergebnis als Resultat
eines Zählprozesses verstehen, wobei das Ergebnis X binomialverteilt ist mit
Parametern n = 9049, p unbekannt. Als Schätzer für p mit X = n1 = 725
725
= 0.0801. Einseitige Schätzbereiche mit einer
erhalten wir pb = nn1 = 9049
Irrtumswahrscheinlichkeit von 1% erhalten wir nach (6.8.1).
Untere Abschätzung: n = 9049, n1 = 725, n0 = n − n1 = 8324
{p ≥ p} mit p =
≥
≥
1+
9325
725
1+
8325
726
1+
8325
725
1
· F0.99 (2 · 8325, 2 · 725)
1
· F0.99 (∞, 500)
1
· 1.16
= 0.06992.
Obere Abschätzung
{p ≤ p} mit p =
≤
≤
F0.99 (2 · 726, 2 · 8324)
+ F0.99 (2 · 726, 2 · 8324)
F0.99 (∞, ∞)
8324
726 + F0.99 (∞, ∞)
1
= 0.08022.
8324
726 + 1
8324
726
6-20
6. BINOMIALVERTEILUNG
Daraus erhalten wir einen zweiseitigen Schätzbereich mit einer Irrtumswahrscheinlichkeit von 1 % + 1 % = 2 %
{0.06992 ≤ p ≤ 0.08022}.
Die Abschätzung ist also mit 98 % Sicherheit bis auf ca. 1/100 genau. Dabei haben wir bei der Festlegung der Grenzen noch in Kauf nehmen müssen,
dass diese evtl. weiter auseinanderliegen als nötig, da wir die F -Werte nur
abgeschätzt haben.
6.8.2. Prognose bei Binomialverteilung. Prognoseproblem: X binomialverteilt mit bekannten Parametern n, p.
Gesucht: Prognose für X
Punktprognose:
Erwartungswert EXn · p.
Bereichsprognose: Prognosebereiche mit Trefferwahrscheinlichkeit ≥ 1 − α.
a) Prognoseabschätzung nach unten:
{X ≥ x} mit x = max{x : P (X ≥ x; n, p) ≥ 1 − α}.
b) Prognoseabschätzung nach oben:
{X ≤ a} mit x = min{x : p(X ≤ x; n, p) ≥ 1 − α}
Zweiseitige Abschätzung:
{x ≤ X ≤ x}, wobei x und x die Grenzen für die einseitigen Bereiche mit
Trefferwahrscheinlichkeit 1 − α2 sind.
Beispiel 6.11. Wieviele aa–Nachkommen sind bei 20 Aa×Aa-Kreuzungen und dominant-rezessivem Erbgang mindestens zu erwarten? Zugelassene
Irrtumswahrscheinlichkeit: 1 % .
Das Problem ist ein einseitiges Prognoseproblem. Gesucht ist ein Prognosebereich der Form {X ≥ x} mit Trefferwahrscheinlichkeit 1 − α, α = 1
% . X, die Anzahl der aa–Nachkommen, ist binomialverteilt. Zu erwarten
sind EX = 20 · 0.25 = 5 Nachkommen (Punktprognose).
Nach Tabelle (5.7.2) ist
P (X ≥ 0; n = 20, p = 0.25) = 1
≥ 0.99.
P (X ≥ 1; n = 20, p = 0.25) = 0.99683 ≥ 0.99
P (X ≥ 2; n = 20, p = 0.25) = 0.97569 < 0.99
Als Grenze ist zu setzen: x = 1. Mit 99 % Sicherheit ist {X ≥ 1}. Nur
die Möglichkeit, überhaupt keinen aa-Nachkommen zu erhalten, kann mit
hinreichender Sicherheit ausgeschlossen werden.
6.9. VERGLEICH ZWEIER BINOMIALVERTEILUNGEN
6-21
6.9. Vergleich zweier Binomialverteilungen
Beispiel 6.12. Zu Vergleichen ist die Fruchtbarkeit zweier Arten in einem gegebenen Biotop. Wir nehmen wieder die vereinfachte Situation aus
Beispiel (2.1): beide Arten leben in Paaren zusammen, ein Paar bekommt
höchstens ein Nachkommen pro Jahr. Ein Paar der Art I bekommt mit
Wahrscheinlichkeit p1 einen Nachkommen, ein Paar der Art 0 mit Wahrscheinlichkeit p0 .
X zählt die Nachkommen der Art I (n1 Paare), Z die der Art 0 (n0 Paare). Bekommt jedes Paar die Jungen unbeeinflußt von Geburt oder nichtGeburt in den anderen Paaren, so ist X binomialverteilt mit Parametern
n1 , p1 und Z binomialverteilt mit Parametern n0 , p0 . Gleiche Fruchtbarkeit
liegt vor, wenn p0 = p1 . Die Frage, ob Art I weniger fruchtbar ist als Art 0,
kann formalisiert werden.
Ist die Hypothese H = {p0 ≤ p1 } zu verwerfen zugunsten der Gegenhypothese K = {p0 > p1 }?
Im Unterschied zu (6.7) ist hier weder p0 noch p1 bekannt. Wir sprechen
von Vergleichstests im Unterschied zu Parametertests wie in (6.7). Vergleichstests können als einseitige Fragestellungen (wie hier) oder als zweiseitige, bei Binomialverteilungen oder bei anderen Verteilungen auftreten.
Das Problem haben wir an einem Beispiel schon in Kapitel 1 gelöst und
sind dabei auf die hypergeometische Verteilung gestoßen. Die allgemeine
Lösung:
6.9.1. Fisher’s exakter Test.
Testproblem: X binomialverteilt mit nX , pX
Z binomialverteilt mit nZ , pZ .
Teste
gegen
H = {pX ≤ pZ }
(oder H = {pX = pZ })
K = {pX > pZ }.
Irrtumswahrscheinlichkeit: α.
Lösung: Verwerfe die Hypothese H bei Beobachtung X = x, Z = z , falls
Phyp (X ≤ x; N = n0 + n1 , n1 = n1 , k = x + z) ≤ α.
Der Verwerfungsbereich ist hier zweidimensional: Die Zählergebnisse in
beiden Teilpopulationen gehen in die Entscheidung ein. Die hypergeometrische Verteilung kommt folgendermaßen ins Spiel:
Angenommen, die Hypothese pX = pZ = p würde zutreffen. Dann können
Vergleichstests
Parametertests
6-22
6. BINOMIALVERTEILUNG
wir die Wahrscheinlichkeit berechnen, in einem Fall mit insgesamt k Nachkommen davon x1 in Art I anzutreffen: (z = k − x, N = n0 + n1 ).
P (X = x ∧ X + Z = k)
P (X + Z = k)
P (X = x ∧ Z = k − x)
P (X + Z = k)
P (X = x) · P (Z = z)
(“Unabhängigkeit”)
P (x + z = k)
Pbin (x; n1 , p) · Pbin (z; n0 , p)
Pbin (k; N, p)
n1 n0
n1 x
p)n1 −x nz0 pz (1 − p)n0 −z
x
x p (1 − =
z
n0 +n1 k
N
(n0 +n1 )−k
p
(1
−
p)
k
k
P (X = x | X + Z = k) =
=
=
=
=
= Phyp (x; N = n0 + n1 , n1 = n1 , k = x + z).
Ist also X = x, Z = z beobachtet, so sei k = x + z.
Es ist dann, falls = {p0 = p1 } zutrifft
P (X ≤ x | X + Z = n)
= Phyp (X ≤ x; N = n0 + n1 , n1 = n, k = x + z).
ToDo: ref
Auf dieser Beziehung baut Fisher’s exakter Test (6.9.1) auf.
Für Beispiel (1.1) mit n0 = 6, n1 = 8 haben wir die Hypothese {p0 =
p1 } gegen {p1 < p0 } zum Niveau α zu verwerfen, falls wir Zählergebnisse
X = x, Z = z erhalten mit
Phyp (X ≤ x; N = 14, n1 = 8, k = x + z) ≤ α.
Für z = 5, x = 4 haben wir in (1.3.3) für die linke Seite den Wert 0.238
erhalten. Die Beobachtung kann also eine Verwerfung rechtfertigen, wenn
wir eine Irrtumswahrscheinlichkeit von α ≥ 23.8 % inkauf nehmen.
Die Verwerfungsbereiche sind auch in Tabellen zu finden; so z.B. Tabelle
46 in Odeh, R.E., e.a.: Pocket book of Statistical Tables, Decker 1977. (Siehe
6.3 - 6.6)
6.10. Kontingenztafeln
Wir verweisen hier auf eine verwandte Problemklasse, die allerdings den
Rahmen der Binomialverteilung verlässt.
Bei den bisherigen Beispielen haben wir unsere Beobachtung nur nach
einem Merkmal (z.B. Geschlecht des Kindes in 6.1) klassifiziert, das nur zwei
6.10. KONTINGENZTAFELN
6-23
Abbildung 6.3: Kritische Werte für Fisher’s Test. Aus: Odeh et al.
Abbildung 6.4: Kritische Werte für Fisher’s Test. Aus: Odeh et al.
Ausprägungen haben konnte (hier: männl. oder weiblich).
Klassifizieren wir nach m Merkmalen mit rj Ausprägungen, j = 1, . . . , m,
so wird das Versuchsergebnis nicht mehr durch ein einziges Resultat X beschrieben, sondern durch eine Ergebnistafel (Kontingenztafel)
Xi1 , . . . , im , ij = 1, . . . , rj
mit
Xi1 , . . . , im =< Anzahl der Beobachtungen mit der Kombination:
Merkmal 1: Ausprägung i1
Merkmal m: Ausprägung im >.
6-24
6. BINOMIALVERTEILUNG
Abbildung 6.5: Kritische Werte für Fisher’s Test. Aus: Odeh et al.
Beispiel 6.13. Wir knüpfen an Beispiel 5.1 an. Registriert man in diesem Beispiel außer dem Geschlecht des Kindes noch weitere “Merkmale”der
Geburt, etwa: Alter der Mutter, Verlauf der Geburt, . . ., so kann das Resultat der Beobachtung folgendermaßen aussehen:
6.10. KONTINGENZTAFELN
6-25
Abbildung 6.6: Kritische Werte für Fisher’s Test. Aus: Odeh et al.
Registriertes
1. Geschlecht
r1 = 2
2. Alter der Mutter
Codierungen
r2 = 5
3. Geburtsverlauf
r3 = 5
Merkmal Ausprägungen
1) weiblich
2) männlich
1)
2)
3)
4)
5)
1)
2)
3)
4)
5)
< 15
≥ 15, < 20
≥ 20, < 25
≥ 25, < 30
≥ 30
normale Geburt
Frühgeburt
Spätgeburt
Totgeburt
sonstige Komplikation
6-26
6. BINOMIALVERTEILUNG
Resultat X
2. Merkmal (Alter)
1)
< 15
2)
< 20
3)
< 25
4)
< 30
5)
≥ 30
1) normal
0w
1m
8w
5m
6w
6m
4w
2m
0w
3m
2) früh
1w
0m
0
0m
1w
0m
2w
1m
4w
6m
3) spät
0w
0m
1w
2m
0w
0m
0w
0m
2w
1m
4) Totgeb.
2w
1m
0w
0w
0w
1m
2w
0m
1w
0m
5) sonst. Kompl.
0w
0m
2w
1m
0w
0m
0w
0m
0w
2m
3. Merkmal (Verlauf)
Hier ist das Merkmal I (Geschlecht) in die Tafeleintragungen selbst mit
hineingenommen.
Anstelle der Binomialverteilung tritt nun die Multinomialverteilung:
Ist pr1 ,...,rm .. die Wahrscheinlichkeit, die Merkmalskombination mit den
Ausprägungen r1 , . . . , rm zu beobachten, so hat bei insgesamt k Beobachtungen das Ergebnis X = x die Wahrscheinlichkeit
PMult (X = x; k, p(p1 , . . . , pr1 ,rm )) =
k!
=
· (p1,...,I )x1,...,I · (pr1 ,...,rm )xr1 ,...,rm
(x1,...,1 )! . . . (xr1 ,...,rm )!
Das statistische Vorgehen in dieser Situation ist (im Prinzip) analog zu
dem der vorangehenden Abschnitte. Dabei ist es in der Praxis weit verbreitet, die Multinomialverteilung oder abgeleitete Verteilungen durch einfachere Verteilungen anzunähern (z.B. “χ2 -Methode”, die die gut tabellierte
χ2 -Verteilung benutzt).
Literatur: Pfanzagl II, §8.
KAPITEL 7
Abhängigkeit, Unabhängigkeit, Bayes-Formel
7.1. Stochastische Unabhängigkeit
Beispiel 7.1. : [Pfanzagl II, p. 93].
Nach einer bekannten Faustregel sind unter 86 Kindern 2 Zwillinge. In
einem geographisch begrenzten Gebiet wurden unter 208 Kindern 10 Zwillinge beobachtet. Rechtfertigt diese Beobachtung den Schluß, daß in diesem
2
Gebiet die Faustregel nicht gilt? (Zum Vergleich: 86
· 208 = .4.837). Setzt
man wie in Beispiel 6.1 an, jetzt mit der Codierung
(
1 für Zwillinge
Yi =
0 für nicht Zwillinge
so würde man für das beobachtete oder noch extremere Ergebnis die Maßzahl
P (X ≥ 10; n = 208, p =
2
2
) = 1 − P (X ≤ 9; n = 208, p = )
86
86
berechnen.
Unter der Verwendung der Formel (6.5 ) für die Binomialverteilung also
9
P (X ≥ 10; n = 208, p =
X
2
2
) = 1−
P (X = x; n = 208, p = )
86
86
x=0
9 X
2
208 2 x
= 1−
( ) (1 − )n−x
86
86
x
x=0
= 1 − 0.9752 = 0.0248,
also schon eine aufallend kleine Wahrscheinlichkeit.
Tatsächlich jedoch ist das Modell aus Kapitel ?? hier so direkt nicht anwendbar. “Zwillinge” sind keine unabhängigen Ereignisse; sie treten immer
paarweise auf. Deshalb ist der Ansatz
P (Yi = 1 | Xi−1 ) = p = P (Yi = 1)
aus ?? ii
nicht gerechtfertigt.
ToDo:
Zufallsvariable
Definition 7.2. Zwei (diskrete) Zufallsvariable X, Y heißen stochastisch
verallgemeinern
unabhängig, wenn für alle Werte x von X und y von Y gilt:
stochastisch unP (X = x | Y = y) = P (X = x) falls P (Y = y) 6= 0.
abhängig
Wir definieren allgemein:
7-1
7-2
7. ABHÄNGIGKEIT, UNABHÄNGIGKEIT, BAYES-FORMEL
Entsprechend: zwei Ereignisse A, B ∈ A heißen , wenn gilt:
P (A | B) = P (A)
falls P (B) 6= 0.
Im Modell der Binomialverteilung (6.2) sind die einzelnen Züge Yi , Yj
stochastisch unabhängig. Es ist für alle i, j, i 6= j:
und
sowie
P (Yi
P (Yi
P (Yi
P (Yi
= 1 | Yj
= 1 | Yj
= 0 | Yj
= 0 | Yj
= 0) = p = P (Yi = 1).
= 1) = p = P (Yj = 1 | Yj = 1)
= 0) = 1 − p = P (Yi = 0)
= 1) = 1 − p = P (Yi = 0).
Im Beispiel (6.1) gesprochen: die Wahrscheinlichkeit dafür, daß die i.
Geburt die eines Mädchens ist, hängt nicht davon ab, ob das j. Kind (j 6= i)
ein Junge oder ein Mädchen ist.
Anders im Modell (4.1.1). Dort sind die Zufallsvariablen Yi , Yi nicht stochastisch unabhängig. Es ist z.B. für festes N, N1
P (Y2 = 1 | Y1 = 0) =
P (Y2 = 1 ∧ Y1 = 0
N1
=
,
P (Y1 = 0)
N −1
aber
N1
N
die Wahrscheinlichkeitsverteilung für den 2. Zug hängt vom Stand nach dem
1. Zug, d.h. vom Ausgang des 1. Zuges ab.
P (Y2 = 1) = P (Y2 = 1 ∧ Y1 = 0) + P (Y2 = 1 ∧ Y1 = 1) =
Der Einfachheit halber setzen wir zur Definition:
Ist P (B) = 0 oder P (B) = 1, so heißen A, B stochastisch unabhängig für
jedes A ∈ A .
Bemerkung 7.3. Mit der Definition der bedingten Wahrscheinlichkeit
(3.2) gilt: zwei Ereignisse A, B sind stochastisch unabhängig, wenn
P (A ∩ B) = P (A) · P (B).
Zwei Zufallsvariable X, Y sind stochastisch unabhängig, wenn
P (X = x ∧ Y = y) = P (X = x) · P (Y = y)
für alle Werte x von X, y von Y .
Bemerkung 7.4. A, B mit P (B) 6= 0, P (B) 6= 1 sind genau dann stochastisch unabhängig, wenn
P (A | B) = P (A | B c ).
Entsprechend für Zufallsvariable: X, Y sind stochastisch unabhängig,
wenn für alle Werte x von X, y und y 0 von Y mit P (Y = y) 6= 0.P (Y =
y 0 ) 6= 0
P (X = x | Y = y) = P (X = x | Y = y 0 ).
Beweis (für die Ereignisse formuliert):
Sind A, B stochastisch unabhängig, so ist P (A ∩ B) = P (A) · P (B).
7.1. STOCHASTISCHE UNABHÄNGIGKEIT
Es ist P (B c ) = 1 − P (B), also P (A | B c ) =
(3.1 ii) ist P (A) = P (A ∩ B) + P (A ∩ B c ), also
P (A∩B c
P (B)
7-3
=
P (A∩B c )
1−P (B) .
Nach
P (A ∩ B c ) = P (A)–P (A ∩ B) = P (A)–P (A) · P (B) = P (A) · (1–P (B)).
Damit ist P (A | B c ) =
P (A | B c ).
P (A)(1−P (B))
1−P (B)
= P (A) = P (A | B), also P (A | B) =
Gilt andererseits P (A | B) = P (A | B c ), so ist
P (A) = P (A ∩ B) + P (A ∩ B C ) = P (A | B) · P (B) + P (A | B c ) · P (B C ) =
= P (A | B) · P (B) + P (B C )) = P (AB) · 1, also P (A) = P (A | B),
d.h. A und B sind unabhängig.
Bemerkung 7.5. An der Formulierung (7.3) sieht man: für die Frage
der Unabhängigkeit spielt die Reihenfolge von A, B keine Rolle.
Beispiel 7.6. Beispiele zur Unabhängigkeit: Im Laplace–Modell für einen
fairen Würfel ist für einen Wurf
P (<gerade Zahl>) = P ({2, 4, 6}) = 36 = 12
P (<ungerade Zahl>) = P ({1, 3, 5}) = 63 = 12 =
P ({1, 2}) = 62 = 12 .
Die Ereignisse A =<gerade Zahl> und B =<ungerade Zahl> sind nicht
stochastisch unabhängig:
Es ist
P (A | B) =
P (A ∩ B)
P (∅)
0
1
=
=
= 0 6= = P (A).
P (B)
P (B)
1/2
2
Die Ereignisse A =<gerade Zahl> und C =< 1 oder 2 > dagegen sind
stochastisch unabhängig:
P (A | C) =
P (A ∩ C)
P ({2})
1/6
1
=
=
= = P (A).
P (C)
P ({1, 2})
2/6
2
Inhaltlich: die Information, daß eine eins oder eine zwei geworfen ist, sagt
noch nichts darüber aus, ob die geworfene Zahl nun gerade ist (d.h. eine
“zwei”), oder nicht.
oder
Beispiel 7.7. Beispiele zur Unabhängigkeit: Eine angeborene Rotgrünblindheit (Farbblindheit) tritt bei ca. 3.86 % aller Jungen und 0.3 % aller
Mädchen auf. Setzen wir für die Ereignisse
A =<Rotgrünblindheit>, B =<Junge> diese beobachteten relativen Häufigkeiten
als Wahrscheinlichkeiten an, d.h. P (A | B) = 0.0386,
P (A | B c ) = 0.0030, so sind die Ereignisse A und B stochastisch abhängig:
das Unabhängigkeitskriterium (7.4) ist nicht erfüllt, P (A | B) 6= P (A | B c )
ganz gleich wie im weiteren Modell die Ansätze für die Wahrscheinlichkeiten
P (A), P (B) aussehen.
In diesem Beispiel hat in den 20er Jahren die festgestellte stochastische Abhängigkeit dazu geführt, nach einer inhaltlichen Abhängigkeit zu
forschen, In der Tat hat man dann eine genetische Abhängigkeit zwischen
7-4
7. ABHÄNGIGKEIT, UNABHÄNGIGKEIT, BAYES-FORMEL
der Festlegung des Geschlechts und der Vererbung der Rotgrünblindheit gefunden.
Sind beobachtete Zufallsvariable stochastisch abhängig, so muß dies bei
der Modellbildung berücksichtigt werden. Dies haben wir z.B. in Modell
(3.1) getan. Bisweilen kann man diese Schwierigkeit umgehen und zu einfacheren Standard–Modellen kommen, indem man die Zufallsvariablen geschickt wählt. So in Beispiel 7.1: wir können auf die Geburten zurückgehen
und diese zählen, anstatt. von den Kindern auszugehen.
Also Yi =
1
0
für Zwillingsgeburt
für Einzelgeburt.
Wir zählen 198 Einzalgeburten, und anstelle von 10 Zwillingskindern
zählen wir 5 Zwillingsgeburten, insgesamt also 203 Geburten mit 208 Kindern. Entsprechend lesen wir die Faustregel als eine Zwillingsgeburt je 85
Geburten.
Für die Geburten können wir nun den Ansatz
1
P (Yi = 1) =
= P (Yi = 1 | Xi−1 )
85
P
machen; Xi = ij=1 Yj . Damit sind wir im Gültigkeitsbereich des Binomialmodells und können nun mit (6.3) berechnen;
4 X
1
203 1 x
1
P (X ≥ 5; n = 203, p = ) = 1 −
( ) (1 − )n−x
x
85
85
85
x=0
= 1–0.9068 = 0.0932.
Also fast das vierfache der in 7.1 mit dem unkorrekten Modell berechneten
Maßzahl.
Stochastische Unabhängigkeit zweier Ereignisse bedeutet: die Information über das Eintreten eines dieser Ereignisse führt nicht zu einer Vergrößerung oder Verkleinerung der Maßzahl dafür, daß das andere Ereignis
eintritt.
7.2. Abhängigkeit, Bayes-Formel
Sind zwei Ereignisse hingegen stochastisch abhängig, so gibt die Beobachtung des einen Ereignisses zusätzliche Information über das mögliche
Eintreffen des anderen Ereignisses. Die folgenden Beispiele zeigen, wie diese
Information ausgwertet werden kann.
Beispiel 7.8. Ein Vorsorge-Test zur Krebs-Früherkennung habe eine
Sensibilität von 90%, d.h. bei Krebserkrankten liefert der Test mit einer
Wahrscheinlichkeit von 0.9 die richtige Diagnose, und eine Spezifität von
80 % , d.h. ein Gesunder wird mit einer Wahrscheinlichkeit von 0.8 auch
richtig als gesund diagnostitziert. Ein Patient gehöre nach Alter, Beruf, ..
zu einer Bevölkerungsgruppe, in der im Mittel 0.5% krebskrank sind. Der
Test ergebe eine Diagnose auf Krebs. Mit welcher Wahrscheinlichkeit ist die
untersuchte Person wirklich an Krebs erkrankt?
7.2. ABHÄNGIGKEIT, BAYES-FORMEL
7-5
Um dieses Problem zu lösen brauchen wir noch einige neue Begriffe.
Führen wir Zufallsvariable
X für Krankheitsbefund
Y für Diagnoseergebnis
ein, mit der
X=1
X=0
Y =1
Y =0
Codierung
für Krankheitsbefund positiv (d.h. Krebs liegt vor)
für Befund negativ
für Diagnose positiv (d.h. Krebs wird diagnostiziert)
für Diagnose negativ,
so ist dieser Formulierung die Wahrscheinlichkeit P (X = 1 | y = 1) zu
bestimmen.
Wir machen einen Häufigkeitsansatz, indem wir setzen
P (Y = 1 | X = 1) = Häufigkeit der richtig positiven Diagnosen = 0.9
P (Y = 0 | X = 0) = Häufigkeit der richtig negativen Diagnosen = 0.8
P (X = 1) = Krebshäufigkeit = 0.005.
Aus diesen Ansätzen wollen wir P (X = 1 | Y = 1) berechnen.
Dazu benutzen wir
Bemerkung 7.9. Sind X, Y Zufallsvariablen, und X = {x1 , . . . , xm } der
Wertebereich von X, so ist
P (Y = y | X = x) · P (X = x)
,
k=1 P (Y = y | X = xk ) · P (X = xk )
P (X = x | Y = y) = Pm
Bayes-Formel
falls P (Y = yi ) 6= 0. Diese Beziehung heisst Bayes-Formel.
Beweis.
Es ist P (Y = y | X = x) · P (X P
= x) = P (Y = y ∧ X = x)
P
m
P
(Y
=
y
|
X
=
x
)
·
P
(X
=
x
)
=
und m
k
k
k=1 P (Y = y ∧ X = xk ) =
k=1
P (Y = y).
Damit ist
P (Y = y | X = x) · P (X = x)
k=1 P (Y = y | X = xk ) · P (X = xk )
P (Y = y ∧ X = x)
=
P (Y = y)
= P (X = x | Y = y).
Pm
Bemerkung 7.10. Die Bayes-Formel gilt analog auch für kontinuierliche
Verteilungen, z.B.
P (Y = y | X = x) · pX (X = x)
pX (X = x | Y = y) = R
,
X P (Y = y | X = x)dPX (x)
für eine (kontinuierliche) Zufallsvariable X mit Dichte pX und eine (diskrete)
Zufallsvariable Y .
7-6
7. ABHÄNGIGKEIT, UNABHÄNGIGKEIT, BAYES-FORMEL
Bemerkung 7.11. Der Nenner in der Bayes-Formel hängt
Pnicht von x
ab. Er ist nur die normierende Konstante, die garantiert, dass x∈X P (X =
x | Y = y) = ist. Mit der Proportional-Notation (siehe 3.3.9):
P (X = x | Y = y) ∝ P (Y = y | X = x) · P (X = x)
Als Begriffe halten wir fest
gemeinsame Verteilung
Definition 7.12. Sind X, Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A , P ), die die Werte x1 , . . . , xm bzw. y1 , . . . , ym annehmen
können, so heißt die Zuordnung (xi , yj ) 7→ P (X = xi ∧Y = yj ) gemeinsame
Verteilung von X und Y , und
yj 7→ P (Y = yj ) =
m
X
P (Y = yj ) | X = xk )
k=1
Randverteilung
a priori Verteilung
a-posteriori Verteilung
heißt Randverteilung von Y .
Im Zusammenhang mit der Bayes-Formel nennt man die Verteilung
P (X = x) die a priori Verteilung von X, die Verteilung von P (X =
x | Y = y) heisst die a-posteriori Verteilung von X.
Mit der Bayes-Formel erhalten wir für Beispiel 7.8:
P (X = 1 | Y = 1) =
=
=
=
=
=
P (Y = 1 | X = 1) · P (X = 1)
P (Y = 1 | X = 1) · P (X = 1) + P (Y = 1 | X = 0 · P (X = 0)
P (Y = 1 | X = 1) · P (X = 1)
P (Y = 1 | X = 1) · P (X = 1) + (1 − P (Y = 0 | X = 0)) · (1 − P (x = 1))
0.9 · 0.005
0.9 · 0.005 + (1 − 0.8)(1 − 0.005)
0.9 · 0.005
0.9 · 0.005 + 0.2 · 0.995
0.0221.
D.h. trotz der hohen Qualität der Diagnosemethode (Sensibilität 90 %,
Spezifität 80 %) beträgt die Wahrscheinlichkeit, daß bei positiver Diagnose
ein Krebs vorliegt, nur ca. 2,2 %.
RelayExperiment
Die Bayes-Formel und die darauf aufbauenden Methoden finden überall
dort Verwendung, wo vorhandene statistische Information ergänzt werden
soll, oder wo mehrere Zufallsprozesse aufeinander folgen. Voraussetzung ist,
dass die Vorinformation selbst als statistische Verteilung im Parameterbereich des eigentlichen Modells repräsentiert werden kann. Eine wichtige
Beispielklasse sind Relay-Experimente. Bei dieser Art von Experimenten
wird zunächst eine Beobachtungseinheit aus einer Grundgesamtheit gezogen.
Danach werden Beobachtungen an dieser Beobachtungseinheit durchgeführt.
Die Bayes-Formel kann etwa benutzt werden, um zu beurteilen, wie nützlich
Untersuchungen sein können.
Beispiel 7.13. Ein gebräuchliches Diagnoseverfahren für Lebermetastasen, die Szintigraphie, hat eine Sensibilität von α = 73 % und eine Spezifität
7.2. ABHÄNGIGKEIT, BAYES-FORMEL
7-7
von β = 91 % . Wie wahrscheinlich muß die untersuchte Erkrankung, die
Bildung von Lebermetastasen, in der Untersuchungsgruppe sein, damit ein
positiver Befund wenigstens mit 50 % Wahrscheinlichkeit tatsächlich auf eine Erkrankung hindeutet? Wir wählen Bezeichnungen entsprechend zu 7.8.
Nach der Bayes-Formel ist die gesuchte Wahrscheinlichkeit
α · P (X = 1)
P (X = 1 | Y = 1) =
α · P (X = 1) + (1 − β) · (1 − P (X = 1))
und die Frage ist: wie groß muß P (X = 1) sein, damit
P (X = 1 | Y = 1) ≥ 0.5; also
0.5 ≤
α · P (X = 1)
,
α · P (X = 1) + (1 − β)(1 − P (X = 1))
d. h.
(1 − β) · 0.5 < (α + 0.5(1 − (α + β)) · P (X = 1).
In unserem Fall ist α + 0.5(1 − (α + β)) = 0.41 > 0, also muß gelten
(1 − β) · 0.5
= 0.1097,
α + 0.5 · (1 − (α + β))
damit ein positiver Befund wenigstens mit 50 % Wahrscheinlichkeit auf eine
Erkrankung hindeutet: die Methode ist nur dann brauchbar, wenn sie als
gezielte Untersuchung dort eingesetzt wird, wo bereits ein Verdacht auf die
Erkrankung vorliegt. Als Breitenuntersuchung, d.h. in Bevölkerungsgruppen
mit kleiner a priori Wahrscheinlichkeit
P (X = 1) bringt sie keine verläßlichen Ergebnisse.
P (X = 1) >
Beispiel 7.14. Über eine Temperaturmessung soll kontrolliert werden,
ob sich in einem chemischen Reaktor eine kritische Situation anbahnt. Aus
Voruntersuchungen und theoretischen Überlegungen hat man die folgenden
Ansätze erhalten:
- Wahrscheinlichkeit einer kritischen Situation: 0.1 %
- Wahrscheinlichkeit einer Temperaturüberschreitung der Temperatur T0 , falls die Situation kritisch ist: 60 %
- Wahrscheinlichkeit einer Temperaturüberschreitung der Temperatur T0 , falls die Situation nicht kritisch ist: 40 % .
Ist es sinnvoll, einen Alarm auszulösen, falls die Temperatur T den Wert
T0 überschreitet?
Als Abkürzung führen wir ein:
X=1
X=0
für: die Situation ist kritisch
für: die Situation ist unkritisch.
Als Maß für die Qualität des vorgeschlagenen Verfahrens können die
Maßzahlen
P (X = 1 | T > T0 ) (Wahrscheinlichkeit dafür, dass ein Alarm
korrekt ist)
P (X = 1 | T ≤ T0 ) (Wahrscheinlichkeit dafür, dass fälschlicherweise
eine Situation als kritische signalisiert wird)
7-8
7. ABHÄNGIGKEIT, UNABHÄNGIGKEIT, BAYES-FORMEL
genommen werden.
Nach der Bayes-Formel (7.9) können wir berechnen:
P (X = 1 | T > T0 ) =
P (T > T0 | X = 1) · P (X = 1)
P (T > T0 | X = 1) · P (X = 1) + P (T > T0 | X = 0) · P (X = 0)
0.6 · 0.001
=
0.6 · 0.001 + 0.4 · (1 − 0.001)
= 0.0015
=
P (X = 1 | T ≤ T0 ) =
P (T ≤ T0 | X = 1) · P (X = 1)
P (T ≤ T0 | X = 1) · P (X = 1) + P (T ≤ T0 | X = 0) · P (X = 0)
0.4 · 0.001
=
0.4 · 0.001 + 0.6 · (1 − 0.001)
= 0.00067.
=
Die Beobachtung der Temperatur bringt also nur einen ganz geringen
Informationsgewinn gegenüber der a priori Information
P (X = 1) = 0.001.
Beispiel 7.15. Wir schließen an Beispiel 7.14 an. Wenn man aus Voruntersuchungen weiß, daß eine Auswertung des Drucks bei vorhandener
Temperaturüberschreitung zu folgenden Wahrscheinlichkeiten führt:
Druck über p0 , falls die Situation kritisch ist:
70 %
Druck über p0 , falls die Situation nicht kritisch ist: 40 %.
Ist es sinnvoll, einen Alarm zu geben, wenn Temperatur- und Druckschranke überschritten sind?
Wir interessieren uns jetzt für die entsprechenden Wahrscheinlichkeiten
wie in (7.13) - nur, daß wir uns jetzt für den Fall interessieren, daß bereits
T > T0 festgestellt ist. Wir arbeiten also mit einem Wahrscheinlichkeitsmaß
P 0 als a priori Wahrscheinlichkeit, das mit dem Maß P aus 7.14 über die
Beziehung
P 0 = P (| T > T0 )
zusammenhängt. Das Maß P 0 ist das a-posteriori-Maß des Temperaturexperiments aus 7.13. Wieder nach der Bayes-Formel berechnen wir:
P (X = 1 | T > T0 ∧ p > p0 ) = P 0 (X = 1 | p > p0 )
P (p > p0 | X = 1) · P 0 (X = 1)
=
P 0 (p > p0 | X = 1) · P 0 (X = 1) + P 0 (p > p0 | X = 0) · P 0 (X = 0)
0.7 · 0.0015
=
0.7 · 0.0015 + 0.4 · 0.9985
= 0.0026.
7.2. ABHÄNGIGKEIT, BAYES-FORMEL
7-9
Gegenüber der a priori Wahrscheinlichkeit von 0.1%, ist die a–priori-Wahrscheinlichkeit bei Temperatur- und Drucküberschreitung mit 0.26%. immerhin mehr als verdoppelt, hat aber immer noch so einen niedrigen Wert, daß
es zu einem großen Anteil von Fehlalarmen kommen würde.
Wenn Vorinformation durch eine statistische Verteilung im Parameterraum repräsentiert werden kann, gibt die Bayes-Formel an, wie diese Information konsistent fortgeschrieben werden kann. Diese ermöglicht einen
anderen Zugang zu den statistischen Problemen als bisher betrachtet. Will
man den Unterschied betonen, so sprich man hier von Bayes-Verfahren, Bayes-Verfahren
im Unterschied zu den klassischen Neyman-Pearson-Verfahren, die bis- Neyman-Pearlang im Vordergrund standen. Beide Verfahren sind verwandt. Insbesondere son-Verfahren
liefern bei geeigneter Einbeziehung der a priori Verteilung Bayes-Verfahren
oft Lösungen, um auch im klassischen Sinne optimal sind. Die Beziehung zwischen (optimalen) Bayes- und klassischen Verfahren wird durch das Minimax-Theorem
Minimaxausgedrückt, dass jedoch über den Rahmen dieser Vorlesung hinaus geht.
Theorem
In diesem Zusammenhang muss noch einmal darauf hin gewiesen werden,
dass Irrtumswahrscheinlichkeit oder Niveaus im allgemeinen nur Schranken
für Wahrscheinlichkeiten, selbst aber nicht Wahrscheinlichkeiten sind. Sie
sind also im allgemeinen nicht geeignet, a priori Verteilungen zu spezifizieren.
Wir untersuchen als Beispiel die Schätzung des Parameters p einer Binomialverteilung mit dem Bayes-Ansatz.
Sei X ∼ Pbin (·; n, p) mit bekanntem festen n und unbekanntem Parameter p. Um mit einem Bayes-Ansatz zu arbeiten, müssen wir Vorinformation
über p als a priori Verteilung spezifizieren. Wir machen zunächst die Annahme, dass alle p ∈ [0, 1] als Parameter gleich wahrscheinlich sind. Als
Verteilungsannahme:
p ∼ Punif [0,1]
a priori Verteilung.
Haben wir ein Experiment mit dem Resultat X = x gemacht, so können wir
nach der Bayes-Formel die a-posteriori-Verteilung bestimmen.
p(ϑ | X = x) ∝ Pbinom (X = x; n, ϑ) · punif [0,1] (ϑ)
n
=
· ϑx · (1 − ϑ)n−x · 1
x
Für die a-posteri-Verteilung ist ϑ die Zufallsvariable, während X jetzt als
durch den
beobachteten Wert gegeben angesehen wird, also X = x. Der
n
Term x hängt nicht von ϑ ab, also
p(ϑ | X = x) ∝ ϑx · (1 − ϑ)n−x .
R
Die noch fehlende Konstante [0,1] ϑx · (1 − ϑ)n−x dϑ liefert die Analysis: dort
finden wir das Eulersche Intgegral erster Gattung, oder die (vollständige)
Betafunktion
Z
(7.2)
B(ν1 , ν2 ) =
xν1 −1 (1 − x)ν2 −1 dx
(7.1)
[0,1]
7-10
7. ABHÄNGIGKEIT, UNABHÄNGIGKEIT, BAYES-FORMEL
und damit
1
· ϑx · (1 − ϑ)n−x .
B(x + 1, n − x + 1)
Hinter der Beta-Funktion verstecken sich alte bekannte: neben dem Eulersche Intgegral erster Gattung kennt die Analysis ein Eulersches Intgegral
zweiter Gattung, oder Gammafunktion:
Z ∞
e−x xν−1 dx.
(7.4)
Γ(ν) =
(7.3)
p(ϑ | X = x) =
0
mit den Spezialfällen
(7.5)
Γ(ν + 1) = ν!
für ν ∈ N
Zwischen Gamma- und Beta-Funktion besteht die Beziehung
Γ(ν1 )Γ(ν2 )
(7.6)
B(ν1 , ν2 ) =
Γ(ν1 + ν2 )
und somit
n
p(ϑ | X = x) = (n + 1)
· ϑx · (1 − ϑ)n−x .
x
Die hier als a-posteri-Verteilung aufgetretene Verteilung wird in Kapitel
?? allgemeiner diskutiert. Die Definition nehmen wir hier vorweg:
Definition 7.16. Satz und Definition Für ν1 , ν2 ∈ R, ν1 > 0, ν2 > 0
definiert


für x < 0
0
1
ν
−1
ν
−1
1
2
(1 − x)
für 0 ≤ 1
(7.7)
pβ(ν1 ,ν2 ) (x) := B(ν1 ,ν2 ) x


0
für x > 1
Beta-Verteilung
eine Verteilung auf [0, 1]. Diese Verteilung mit dieser Dichte heisst die Beta-Verteilung
mit Parametern ν1 , ν2 .
Beweis. Übung. Zu zeigen ist, dass (7.7) Dichte eines Wahrscheinlichkeitsmasses ist.
Für die Fälle ν1 , ν2 ∈ N gilt dies, da (7.7) Dichte der oben diskutierten bedingten Verteilungen ist. Für allgemeine Parameter
ist zu zeigen:
R
pβ(ν1 ,ν2 ) ≥ 0; pβ(ν1 ,ν2 ) 6= 0; pβ(ν1 ,ν2 ) integrierbar
mit
p
R β(ν1 ,ν2 ) dx < ∞.
R
Damit definiert pβ(ν1 ,ν2 ) eine Verteilung. R pβ(ν1 ,ν2 ) dx = 1. Damit ist die
normierende Konstante 1 und (7.7) ist schon selbst die Dichte.
Bemerkung 7.17. Mit dieser Definition gilt: ist (a priori) p ∼ U [0, 1]
und X ∼ Bin(n, p) und ist X = x beobachtet, so ist nach der Beobachtung
(a posteriori) p ∼ Beta(x + 1, n − x + 1).
ToDo: add series
Es ist PU [0,1] = PBeta(1,1) .
Beispiel 7.18.
KAPITEL 8
Erwartungswert und Varianz
In diesem Kapitel werden einige Methoden vorgestellt, die besonders
einfache Rechnungen mit Zufallsvariablen erlauben. Die Zufallsvariablen heißen X, Y, Z mit Wertbereichen X, Y, Z, z.B. X = {0, 1, . . . , n}, Y = {0, 1},
Z = {0, 1, . . . , k, . . .}, Ω ist der Ereignisraum, z.B.
Ω = {0, 1}n , und P ein Wahrscheinlichkeitsmaß auf Ω.
Wie man im Prinzip Prognosebereiche für Zufallsvariablen erhält, haben
wir in Kapitel 5 diskutiert. Eine vereinfachte Punktprognose erhält man,
indem man das gewichtete Mittel der möglichen Werte berechnet - gewichtet
nach Wahrscheinlichkeit.
8.1. Erwartungswert
Definition 8.1. Ist X reelle Zufallsvariable mit Wertebereich X, so
heißt die reelle Zahl
X
E(X) =
x · P (X = x).
x∈X
Erwartungswert
Erwartungswert der Zufallsvariablen X.
Beispiel 8.2. Ist X binomialverteilt mit Parametern n, p (d.h. z.B. Ω, P
wie in 6.2 angesetzt), so ist E(X) = n · p.
Beweis:
E(X) =
X
x · P (X = x) =
x∈N
n
X
X
x · Pbin (x; n, P )
x∈N
n x
=
x·
p (1 − p)n−x
x
x=0
n
X
n−1 x
=
n·
p (1 − p)n−x
x−1
x=0
n X
n − 1 x−1
= n·p
p (1 − p)(n−1)−(x−1)
x−1
x=1
= n · p(p + (1 − p))n−1
= n · p · 1 = n · p.
8-1
(Binomialformel)
8-2
8. ERWARTUNGSWERT UND VARIANZ
Beispiel 8.3. Ist X hypergeometrisch verteilt mit Parametern N, n1 , n,
so ergibt eine entsprechende Rechnung
X
X
E(X) =
x · P (X = x) =
x · Phyp (x; N ; n1 , n)
x∈N
=
x∈N
min
n1 ,n
X
x=0
n1
= n·
N
·
n1
x
N −n1
n−x
N
n
.
8.2. Varianz
Der Erwartungswert gibt eine erste Information über das “erwartete”
Verhalten der Zufallsvariablen. Was noch fehlt, um diese Information brauchbar zu machen, sind Angaben über die Streuung der Zufallsvariablen um
den Erwartungswert.
Streuung
Beispiel 8.4. Wir schließen an Beispiel (6.1) an. Wir gehen wieder
davon aus, dass n Geburten beobachtet worden sind und daß MädchenGeburten mit der Wahrscheinlichkeit 0.489 auftreten. Im Modell 6.2 ist die
Anzahl x der beobachteten weiblichen Geburten binomialverteilt; nach (8.2)
ist E(X) = 0.489 · n. Wie groß ist die Wahrscheinlichkeit, dass die Beobachtung von E(X) um 10 % oder mehr abweicht?
Zu berechnen ist P (|x − E(X)| ≥ c), wobei c = 0.1 · 0.489 · n?
Der genaue Wert kann durch
min{n,E(X)+c}
P (|X − E(X)| ≥ c) =
X
Pbin (x; n, p)
x=max{0,E(X)−c}
berechnet werden. Für n = 9, 10, . . . kann die Rechnung schnell durchgeführt
werden; für große n(n = 1000, 10000) tauchen Schwierigkeiten auf, die Rechnung praktisch durchzuführen
Eine allgemeine, sehr einfache Abschätzung liefert
(Tschebyscheff’sche
gleichung):
Bemerkung 8.5. (Tschebyscheff ’sche Ungleichung):
Un-
Ist X eine Zufallsvariable mit Wertebereich X = {x1 , x2 , . . .} und c > 0,
so gilt
Var(Y )
P (|X − E(X)| ≥ c) ≤
c2
P
2
mit Var(X) := x∈X (x − E(X)) · P (x = x)
Beweis der Ungleichung:
Setzen wir D = {x : |x − E(X)| < c} und
F = {x : |x − E(X)| ≥ c},
8.2. VARIANZ
Var(X) =
X
8-3
(x − E(X))2 · P (X = X)
x∈D
+
X
(x − E(X)2 ) · P (X = X)
X∈F
≥
X
(x − E(X))2 · P (X = x).
x∈F
Für x ∈ F ist |x − E(X)| ≥ c und somit
X
Var(X) ≥ c2
P (X = x)
x∈F
oder
X
x∈F
P (X = x) ≤
Var(X)
.
c2
In der letzten Ungleichung steht auf der linken Seite die Wahrscheinlichkeit,
dass X einen der Werte x annimmt, der von E(X) um mindestens c abweicht,
also P (|X −E(X)| ≥ c). Damit hat man die Tschebyscheff’sche Ungleichung
P (|X − E(X)| ≥ c) ≤
Var(X)
.
c2
Ist die Verteilung von X genauer bekannt, so kann man zu feineren
Abschätzungen kommen. Die Tschebyscheff-Ungleichung ist in der Anwendung bisweilen grob; aber sie hat den Vorteil, daß man nur sehr wenig Information braucht, um sie anzuwenden.
Für wachsende n konvergiert die rechte Seite der Abschätzung gegen
Null. Das heißt: Für große Abweichungen wird die Wahrscheinlichkeit großer
Abweichungen vom Erwartungswert gering. Die Beobachtung “konvergiert
stochastisch” gegen den Erwartungswert. (“Gesetz der großen Zahl”) .
8-4
8. ERWARTUNGSWERT UND VARIANZ
Definition 8.6. Ist X eine reelle Zufallsvariable mit Wertbereich X =
{x1 , x2 , . . .}, so heißt die reelle Zahl
X
Var(X) =
(x − E(X))2 · P (X = x).
x∈X
Varianz
Standardabweichung
Varianz der p
Zufallsvariablen X. Als Standardabweichung bezeichnet
man die Zahl Var(X).
Bemerkung 8.7. Kann X nur endlich viele Werte annehmen, so kann
man E(X) und Var(X) immer berechnen und die Tschebyscheff-Ungleichung
anwenden. Kann X unendlich viele Werte annehmen (z.B. X = 1, 2, 3 . . .}),
so können die Definitionen von E(X) oder Var(X) durchaus zu unsinnigen
Ergebnissen (∞, ∞ − ∞, . . .) führen. Dann sind die entsprechenden Ungleichungen oder Rechnungen nicht mehr anwendbar.
Bemerkung 8.8. Aus der Tschebyscheff-Ungleichung 8.5 erhält man
folgende Beziehungen:
p
a) P (|X − E(X)| ≥ k · Var(X)) ≤ k12
p
insbesondere: P (|X − E(X)| ≥ 10 · Var(X)) ≤ 0.1.
Allgemein:
q
b) c ≥
Var(X)
α
= P (|X − E(X)| ≥ c) ≤ α
c) P (|X − E(X)| ≥ α · E(X)) ≤
Var(X)
E(X)
·
1
.
α2
Beispiel 8.9. Varianz der Binomialverteilung: Allgemein gilt
Var(X) = E(X 2 ) − (E(X))2
und E(X 2 ) = E(X · (X − 1)) + E(X) ,
also Var(X) = E(X · (X − 1)) + E(X) − (E(X))2 .
Nach (8.2) ist für binomialverteiltes X
E(X) = n · p
und wegen
n
n−2
x(x − 1)
= n(n − 1)
x
x−2
für n ≥ x
ist
E(X(X − 1)) = n(n − 1) · p2 ,
also Var(X) = n(n − 1)p2 + n · p − n2 p2 = np(1 − p) für X binomialverteilt
mit den Parametern n, p.
Bemerkung 8.10. Damit können wir eine Abschätzung für Beispiel 6.1
bekommen:
Mit c = a · E(X) = a · n · p.
8.3. RECHNEN MIT ERWARTUNGSWERTEN UND VARIANZ
8-5
P (X weicht von E(X) um mindestens 10 % ab) =
= P (|X − E(X)| ≥ c) ≤
=
=
=
V ar(()X)
c2
n · p · (1 − p)
(a · n · p)2
(1 − p)
a2 · n · p
(1 − p) 1
· .
a2 · p n
Speziell für p = 0.389 erhalten wir als Abschätzung mit a = 0.1:
P (Abweichung um mindestens 10 %) ≤
1
n
· 104.499.
Am Ergebnis sehen wir, daß diese Abschätzung sehr grob ist. Für n ≤
104 ist sie in diesem Fall (p = 0.489; bin.vert.) unbrauchbar - wir wissen ja
bereits von vornherein, daß die Wahrscheinlichkeit höchstens 1 ist.
Für größere n ist die Abschätzung immer noch grob, jedoch brauchbar.
Für n = 3000 (Geburtenanzahl für ein kleines bis mittleres Krankenhaus in
einem Jahr) etwa ist n1 · 104.499. ≈ 0.03483; E(X) = n · p = 1467; E(X) · (1 −
1
1
10 ) ≈ 1302; E(X) · (1 + 10 ) ≈ 1613. Mit mindestens 1 − 0.03483 = 0.96517 >
96 % Wahrscheinlichkeit sind also unter n = 3000 Geburten zwischen 1302
und 1613 Mädchen.
8.3. Rechnen mit Erwartungswerten und Varianz
Wir führen nun einige Regeln für das Rechnen mit Erwartungswerten
und Varianzen an. Diese Regeln können unmittelbar aus den Definitionen
hergeleitet werden.
Bemerkung 8.11. Sind a, b ∈ R, so ist
E(aX + b) = a · E(X) + b.
Spezialfall: a = 0 liefert E(b) = b für b ∈ R.
Bemerkung 8.12. Für a, b ∈ R ist
Var(aX + b) = a2 · VarX.
Bemerkung 8.13. Haben X und Y die Erwartungswerte E(X) und
E(Y ), so ist
E(X + Y ) = E(X) + E(Y ).
Bemerkung 8.14. Var(X + Y ) =
Var(X) + 2) · [E(XY ) − E(X) · E(Y )] + Var(Y ).
8-6
8. ERWARTUNGSWERT UND VARIANZ
8.4. Kovarianz
Bemerkung 8.15. Bei 8.15 tritt ein Ausdruck [E(XY ) − E(X) · E(Y )]
auf: Die Varianz einer Summe hängt nicht nur von der Varianz der Summanden ab, sondern auch davon, wie die Schwankungen der beiden Variablen X und Y zusammenhängen. Je nach Art dieses Zusammenhangs
können die Schwankungen sich gegenseitig kompensieren (Var(X + Y ) <
Var(X)+Var(Y )) oder sie können sich gegenseitig verstärken (Var(X +Y ) >
Var(X) + Var(Y )).
Definition 8.16. Die Größe
Cov(X, Y ) := E(XY ) − E(X) · E(Y ) = E[(X − E(X)) · (Y − E(Y ))]
Kovarianz
heißt Kovarianz von X und Y .
Bemerkung 8.17. Die Kovarianz mißt den Anteil der Abhängigkeit
zwischen X und Y , der sich bei der Summenbildung auswirkt. Sind speziell
X und Y stochastisch unabhängig, so ist auch dieser Anteil gleich null,
also: Cov(X, Y ) = 0. Ist allgemein dieser “lineare” Anteil Cov(X, Y ) der
Abhängigkeit gleich null, so sagt man: X und Y sind unkorrelliert. In diesem
besonderen Spezialfall ist also Var(X + Y ) = Var(X) + Var(Y ).
Beispiel 8.18. Beschreibt Yi den i. Zug eines Binomialexperiments (Modell ??), so ist Yi stochastisch unabhängig von Yj für i 6= j; also auch unkorrelliert.
Beschreibt Yi den i. Zug eines hypergeometrischen Experiments, so sind
Yi und Yj nicht stochastisch unabhängig. Sie sind auch nicht unkorrelliert.
Für Startparameter N, n1 , a ist z.B.
Cov(Y1 , Y2 ) = E(Y1 · Y2 ) − E(Y1 · E(Y2 ) = 0 + 1P (Y1 Y2 1) = 1) −
−(0 + 1 · P (Y1 = 1))(0 + 1 · P (Y2 = 1))
= P ((Y1 = 1) ∧ (Y2 = 1) − P (Y1 = 1)) · P (Y2 = 1)
= P (Y1 = 1) · P (Y2 = 1|Y1 = 1) − P (Y1 = 1)
· [P (Y2 = 1 ∧ Y1 = 1) + P (Y2 = 1 ∧ Y1 = 0)]
n1 n1 − 1)
n1 n1 (n1 − 1) (N − n1 ) n1
·
−
·[ ·
+
]
=
N (N − 1)
N N (N − 1)
N
(N − 1)
n1 (n1 − N )
=
.
N 2 (N − 1)
Bemerkung 8.19. Varianz der hypergeometrischen Verteilung: Mit (8.18)
und (8.14) ist für n = 2 und X = Y1 + Y2
Var(X) = Var(Y1 ) + 2Cov(Y1 , Y2 ) + Var(Y2 )
n1 (N − n1 )
n1 (n1 − N
n1 (N − n1 )
·
+ 2[ 2
]+
·
N
N
N (N − 1)
N
N
n1 [(N − n1 )(N − 1) + (n1 − N )]
= 2
N 2 (N − 1)
n1 (N − 2)(N − n1 )
= 2
.
N 2 (N − 1)
=
8.5. QUALITäTSMERKMALE VON PUNKTSCHäTZERN
8-7
Die allgemeine Formel für die hypergeometrische Verteilung ist
Var(X) = n
n1 (N − n)(N − n1 )
N 2 (N − 1)
8.5. Qualitätsmerkmale von Punktschätzern
Wir geben zunächst einige allgemeine Definitionen. Dabei steht ϑ stellb
vertretend für einen schätzenden Parameter. X ist die Beobachtung. ϑ(X)
ist der mit einer Schätzformel (einem Schätzer) nach der Beobachtung X
berechnete Schätzwert.
Definition 8.20. Ein Schätzer ϑb heißt erwartungstreu, falls für alle ϑ
gilt:
b
E(ϑ(X)
= ϑ,
d.h. falls der Schätzer als Erwartungswert den echten Parameter hat.
Beispiel 8.21. Ist X binomialverteilt mit (bekannten) Stichprobenumfang n und unbekanntem Parameter p, so ist
pb(X) =
X
n
ein erwartungstreuer Schätzer für p.
Beweis: Nach (8.2) ist E(X) = n · p. Wegen (8.11) ist
1
1
· E(X) = · n · p = p;
n
n
also ist pb erwartungstreuer Schätzer für p.
E(b
p(X)) =
Das Problem bei den Punktschätzern war: das Ergebnis kann stark von
den Zufälligkeiten der Beobachtung abhängen. Mit Hilfe der Tschebyscheff
Ungleichung (8.5) kann diese Streuung abgeschätzt werden.
Beispiel 8.22. Für binomialverteiltes X und pb(X) =
Var(b
p(X)) =
X
n
ist
1
p(1 − p)
· n · p · (1 − p) =
.
2
n
n
Mit (8.8) ist
r
P (|b
p(x) − p| < k ·
p(1 − p)
n
r
= 1 − P (|b
p(x) − E(b
p(x))| ≥ k ·
p(1 − p)
1
≥ 1 − 2.
n
k
Daraus kann bestimmt werden, wie groß der Stichprobenumfang n zu
wählen ist. Soll z. B. p mit 1 − 95 % Sicherheit bis auf einen Fehler von
höchstens ε = 0.10 genau durch pb geschätzt werden, so setze man
1
1 − 2 = 1 − α,
k
Schätzer
8-8
8. ERWARTUNGSWERT UND VARIANZ
also k 2 =
1
α
=
1
.05=20
= und
r
P (|b
p(x) − p| <
1
·
α
r
p(1 − .p)
≥ 1 − α.
n
Um einen Bereich mit der Schwankung ±ε mit Sicherheit α zu bekommen, muß also
r
r
1
p(1 − p)
·
≤ ε,
α
n
d. h.
q
1
√
α p
· p(1 − p) ≤ n.
ε
gesetzt werden. Der Ausdruck p · (1 − p) nimmt für 0 ≤ p ≤ 1 höchstens den
Wert 14 an. Also braucht man:
q
q
1 r
1
√
1
α
α 1
·
=
· ≤ n
ε
4
ε
2
oder 14 ( 1ε )2 ·
1
α
≤ n.
In unserem Fall
1
1
1
· ( )2 ·
= 500 ≤ n.
4 .10
.05
Um mit 95 % Sicherheit einen Schätzwert S(X) im Bereich
p − 0.01 < pb < p + 0.01, also auch
pb − 0.01 < p < pb + 0.01
zu erhalten, sollte man mindestens n = 500 Beobachtungen machen.
Die Vorweg-Abschätzung für n kann genauer gemacht werden, wenn man
speziell mit der Binomialverteilung arbeitet oder wenn (aus Vorversuchen)
der mögliche Parameterbereich für p genauer eingegrenzt werden kann.
relativen Fehler
relativen
Standardfehler
Variationskoeffizienten
ϑ
8.5.1. Interessiert man sich für den relativen Fehler ϑ−
ϑ , d.h. will
man die Größe des Fehlers in Beziehung zur Größe des wahren Parameters
setzen, so benutzt man als beschreibende Größe den
relativen Standardfehler oder Variationskoeffizienten
√
Varϑ
.
CVϑ =
ϑ
b
Für binomialverteiltes X und Schätzer pb(X) = X
n ist z.B.
q
r
1 (1−p)
1
1−p
np
CVp =
=√ ·
p
p
n
oder, nach n aufgelöst:
n=
1−p
p
·
1
.
(CVp )2
8.6. FEHLERFORTPFLANZUNG DURCH ADDITION
8-9
Beispiel 8.23. Um eine Gesundheitsstatistik aufzustellen, soll für jede
Krankheit, unter der mindestens 1 % der Bevölkerung eines Landes leiden,
die Gesamtanzahl der Anteil der Patienten mit dieser Krankheit geschätzt
werden. Der Variationskoeffizient soll dabei höchstens 20 % betragen.
Wieviele Personen müssen dann mindestens untersucht werden?
Lösung: Für den extremen Wert p = 0.01 mit Var(X) = n · p(1 − p) muß
noch gelten: CVp (p = 0.01) ≤ 20, also
n≥(
1 − 0.01
1
)·
= 2475.
0.01
(0.20)2
8.6. Fehlerfortpflanzung durch Addition
Die Hoffnung, genauere Werte durch Mittelung aus Einzelmessungen zu
erhalten, ist weit verbreitet. Die Grundlage dafür ist die Regel:
8.6.1. Sind X1 , X2 , . . . , Xn stochastisch unabhängige Messungen mit
Erwartungswerten E = E(X1 ) = . . . = E(Xn ) und Varianzen V = Var(X
P 1) =
. . . = Var(Xn ), so gilt für den Mittelwert der Messungen X = n1 ni=1 Xi , Mittelwert
Messungen
dass E(X) = E
1
Var(X) = V.
n
Beweis: Nach (8.13/8.11) ist für stochastisch unabhängige Xi :
Nach (8.12/8.17) ist für stochastisch unabhängige Xi :
n
1 X
V
1
Var(X) = 2 ·
VarXi = 2 · (n · V ) = .
n
n
n
i=1
Bemerkung 8.24. Warnung: Die Gleichung für E(X) gilt in jedem Fall.
Die Gleichung für Var(X) gilt nur bei stochastischer Unabhängigkeit (oder
zumindest: Unkorreliertheit). Wird z.B. nur einmal während der Meßserie
geeicht, so gibt es für jede Meßreihe systematisch Meßfehler. Diese mitteln
sich nicht heraus, sondern bleiben bestehen.
Beispiel 8.25. Beispiele: (aus: Lustig und Pfanzagl: Industrielle Qualitätskontrolle.)
(1) Für Metallfolien, die bei der Tonbandherstellung Verwendung finden, war eine Stärke von 6·10−3 mm mit einer Toleranz von ±0, 110−3
mm vorgeschrieben. Nachdem eine größere Lieferung dieser Metallfolien übernommen worden war, kam es bei der Montage zu Schwierigkeiten. Wie eine Rückfrage ergab, stand für die Prüfung dieser
Folien kein Meßgerät zur Verfügung, das die notwendige Genauigkeit von 0, 1 · 10−3 mm aufwies. Der Meister verwendete daher
ein Gerät mit einer Anzeige von 10−3 mm, indem er je 10 Folien
der
8-10
8. ERWARTUNGSWERT UND VARIANZ
zusammenlegte und die Anforderung von (6 ± 0, 2) · 10−3 mm auf
(60 ± 2) · 10−3 mm abänderte.
Dieses Vorgehen ist unzulässig. Wenn die 10-fach zusammengelegten Folien eine Toleranz von ±2 · 10−3 mm einhalten, ist damit noch nicht gesagt, daß die einzelnen Folien die Toleranz von
±0, 2 · 10−3 mm einhalten: Ist die Stärke der einzelnen Folien mit
einer Varianz a2 um den Erwartungswert b verteilt, so ist nach
(6.6/??) die Stärke des Päckchens von 10 Folien (Summe) verteilt
mit Erwartungswert 10 · b und Varianz 10 · a2 . Es verzehnfacht sich
zwar die Varianz, aber nicht die für die Breite des
√ Streubereichs
maßgebende Standardabweichung; diese beträgt 10 · a.
−3
Liegen alle Folien innerhalb des Toleranzintervalls
√ ±0, 2 · 10−3
mm, so werden die Päckchen innerhalb des Bereichs ± 10·0, 2·10
mm = ±0, 63 · 10−3 mm liegen. Der Toleranzbereich ±2 · 10−3 mm
wird von den Päckchen selbst dann noch eingehalten, wenn die einzelnen Folien im Bereich ±0, 6 · 10−3 mm um den Sollwert streuen,
also einen 3mal so großen Streubereich aufweisen, als zulässig wäre.
(2) In einem Betrieb der feinmechanischen Industrie war für einen bestimmten Satz (Welle und Bohrung) vorgeschrieben, daß ein Spielraum von 2 mm mit einer Standardabweichung von ±10 · 10−3 mm,
bei einem Wellendurchmesser von 1 cm eingehalten werden muß.
Wie müssen die Genauigkeitsanforderungen gewählt werden, um
diese Standardabweichung zu gewährleisten? Die erste Überlegung
ist, für Welle und Bohrung zu fordern:
Welle
ϑ (10 ± 5 · 10−3 ) mm
Bohrung ϑ (11 ± 5 · 10−3 ) mm.
Die genauere Überlegung ergibt jedoch für Y =< Welle >
Z =< Bohrungsdurchmesser >, < Spielraum >= Z − Y .
Zu garantieren ist
p
10 · 10−3 mm ≤ Var(Z − Y )
Nach (8.12/6.4) ist Var(Z − Y ) = VarZ + Var(−Y ) = VarZ +
(−1)2 VarY = VarZ + VarY .
Zu fordern ist also
√
10 · 10−3 mm ≤ VarZ + VarY .
Dazu genügt es zum Beispiel, wenn VarZ und VarY beide klei−3 2
ner als (10·102 ) mm = 12 · 10−4 mm2 sind, also
q
Welle
φ (10 ± 12 · 10−2 mm = 10 ± 7.07 · 10−3 )mm
Bohrung φ (11 ± 7.07 · 10−3 )mm.
KAPITEL 9
Poisson-Verteilung
Literatur: [Pfanzagl II, 6.5 – 6.6]
9.1. Beispiel für die Problemstellung:
Die Anzahl der Erythrozyten pro Volumeneinheit (Erythrozytendichte)
X in einer Suspension ist zu bestimmen. Idee: Man nehme eine Volumeneinheit und zähle sie unter dem Mikroskop aus; die so gewonnene Anzahl k
nehme man als Schätzer für die mittlere Dichte X.
Das Verfahren erscheint plausibel; es stellt sich wieder die Frage nach
der Verläßlichkeit.
auszählen! Ergibt: k = 3 + 4 + 2 + 3 = 12.
Modellvorstellung: Man stelle sich ein Zählraster vor, das sich verfeinern
läßt; ∆Vi . sei das Volumen in der i. Rasterstelle: Xi . das Zählergebnis in der
i. Zelle. Wir machen folgende Modellannahmen:
1.) P (Xi. = 1) λ · ∆Vi , λ die Dichte.
2.) P (Xi. = k) = P (Xj. = k), wenn ∆Vi. = ∆Vj. ,
d.h. die Durchmischung soll gleichmäßig sein.
3.) (Xi , Xj. , . . .) unabhängig voneinander.
4.) P (Xi. > 1) → 0, wenn ∆Vi. → 0.
Es läßt sich zeigen, daß aus diesen Modellannahmen folgt: Für das
Zählergebnis x in einer Stichproben-Volumeneinheit gilt:
P (X = k; λ) =
9-1
λk −λ
e .
k!
9-2
9. POISSON-VERTEILUNG
9.2. Modell: Auftreten seltener Ereignisse
λ relative Dichte (Häufigkeit) der ausgezeichneten Elemente.
Das Wahrscheinlichkeitsmaß mit PPois (k; λ) =
teilung).
Beispiel 9.1. Für λ = 12 erhält man
k
PPois (k; λ)
00
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
0.00001
0.00007
0.00044
0.00177
0.00531
0.01274
0.02548
0.04368
0.06552
0.08736
0.10484
0.11437
0.11437
0.10557
0.09049
0.07239
0.05429
0.03832
0.02555
0.01614
0.00968
0.00553
0.00302
0.00157
0.00079
0.00038
λk −λ
k! e
(kurz: Poissonver-
9.2. MODELL: AUFTRETEN SELTENER EREIGNISSE
9-3
9.2.1. Erwartungswert und Varianz. Für Erwartungswert und Varianz erhalten wir:
E(x; λ) =
=
∞
X
k=0
∞
X
k=1
k · PPois (x = k; λ) =
∞
X
λk
k e−λ
k!
k=0
λk −k
k
e =λ·
k!
λ
X
k=1
0
∞
X
λk−1 −λ
λk −λ
e =λ·
e
(k − 1)!
k0 !
0
k =0
= λ · PPois (X ≥ 0; ) = λ · 1 = λ
Var(X; λ) = E(X 2 ; λ) − (E(X; λ))2
= E(X(X − 1); λ) + E(X; λ) − (E(X; λ))2
= λ2 + λ − λ2 = λ.
9.2.2. Praktische Berechnung.
Software: In R stehen unter anderem folgende Funktionen für die PoissonVerteilung zur Verfügung:
9-4
9. POISSON-VERTEILUNG
R-Aufruf
Funktion
dpois(x, lambda)
Ppois (X = x; λ = lambda)
dpois(x, lambda, log=TRUE)
ln(Ppois (X = x; λ = lambda))
ppois(q, lambda)
Ppois (X ≤ x; λ = lambda)
qpois(q, lambda)
minx :
Ppois (X ≤ x; λ = lambda) ≥ q
rpois(nn, lambda)
erzeugt
nn
Zufallszahlen
Ppois ( · ; λ = lambda)
aus
Approximationen:
a) Für große k kann k! mit der Stirling–Formel
angenähert
berechnet
werden
√
k
k! ≈ 2πk( e ) (genau bis auf 1 % für k ≥ 9
bis auf 5 % für k ≥ 17).
Damit ist
PPois (k; λ) ≈ (
e·λ k √
) · ( 2πk)−1 · e−λ .
k
b) Die Verteilungsfunktion der Poissonverteilung hängt mit der
X 2 -Verteilung zusammen über die Beziehung
PPois (X ≥ k; λ) = α ⇔ 2 · λ = Xα2 (2k).
9.3. Grundprobleme
9.3.1. Schätzproblem.
Beispiel 9.2. In (9.1) haben wir für die Dichte λ geschätzt:
b = k = 12.
λ
Wie genau ist diese Schätzung?
Als Vertrauensniveau für die Schätzung gehen wir vor: 1 − α = 98 %,
d.h. zugelassene Irrtumswahrscheinlichkeit α = 2 % .
Wir suchen einen Schätzbereich der Form {λ < λ < λ} .
Nach der Methode “Abschneiden gleicher Schwänze” bestimmen wir
λ, λ, so, daß
PPois (X ≥ k; λ) ≤ α/2
PPois (X ≤ k; λ) ≤ α/2.
Mit (9.5.b)
2
PPois (X ≥ k; λ) ≤ α/2 ⇔ 2 · λ ≤ Xα/2
(2 · k)
9.3. GRUNDPROBLEME
9-5
also
2
(2 · k)}
λ = max{λ : 2 · λ ≤ Xα/2
1
· X12% (2 · 12)}
2
1
= max{λ : λ ≤ · 10.9 = 5.45} = 5.45.
2
= max{λ : λ ≤
Für die obere Grenze λ entsprechend:
PPois (X ≤ k; λ) ≤ α/2 ⇔ PPois (X > k; λ) ≥ 1 − α/2
⇔ PPois (X ≥ k + 1; λ) ≥ 1 − α/2 ⇔ 2 · λ ≥ χ21−α/2 (2 · (k + 1))
und daraus
λ=
1 2
1
· χ99% (2 · 13) = · 45.6 = 22.8.
2
2
9.3.2. Testprobleme. Test für den Parameter λ:
X sei poissonverteilt mit Parameter λ.
Einseitiges Testproblem:
Niveau α-Test für
gegen
H = {λ ≤ λ0 } (oder H = {λ = λ0 })
K {λ > λ0 }.
Setze als Verwerfungsbereich
V
= {x :
∞
X
PPois (k; λ0 ) ≤ α}
k=x
= {x : λ0 ≤
1 2
χ (2 · k)}.
2 α
Entsprechend der Niveau α-Test für H = {λ ≥ λ0 } gegen K = {λ <
λ0 }:
Verwerfungsbereich V = {x : λ0 ≥ 12 χ21−α (2 · (k + 1)).
9.3.3. Vergleichstest. Eine ähnliche Rechnung wie in (??) ergibt:
Ist X poissonverteilt mit dem Parameter λ und X 0 poissonverteilt mit
dem Parameter λ0 , λ = κ · λ0 und sind X, X 0 stochastisch unabhängig, so
gilt:
κ
P (X = x | X + X 0 = e
k) = Pbin (x; n = e
k,
).
1+κ
Damit können wir einen Vergleichstest berechnen:
Vergleichstest: X, X 0 seien poissonverteilt mit Parametern λ, λ0 , κ0 fest.
Niveau α-Test für H = {λ = κ0 · λ0 } gegen K = {λ > κ0 · λ0 }:
Verwerfungsbereich
Pk+k0
V = {(k, k 0 ) : x=k
Pbin (x; n = k + k 0 , p =
κ0
1+κ0
≤ α}.
Einseitiges Testproblem
9-6
9. POISSON-VERTEILUNG
Beispiel 9.3. Die Veränderung der Wasserqualität eines Baches entlang eines bestimmten Teilstücks soll untersucht werden. Dazu macht man
Auszählungen an der Fischpopulation und beobachtet einen einzeln lebenden Fisch, der als Indikator betrachtet wird; vermutet ist, daß sich dessen
Lebensbedingungen verschlechtern.
Meßort
Ausgezählte Strecke Anzahl
Anfang des
5m
17
2m
2
Teilstücks
Ende des
Teilstücks
Ist damit die Vermutung gesichert?
1. Meßstrecke
Anfang
2. Meßstrecke
Ende
∗ Der Querschnitt des Baches soll sich entlang des Teilstücks nicht
ändern; die Streckenlänge ist damit proportional zur untersuchten Wassermenge.
Dazu bezeichne h1 die mittlere Häufigkeit des Fisches pro m3 am oberen,
h2 die am unteren Meßpunkt.
Die Modellvorstellungen aus 9.1 können wir auf diese Situation übertragen.
Dann sind die beobachteten Anzahlen aufzufassen als Realisationen von
Poissonverteilten Zufallsvariablen X1 , X2 mit Parametern λ1 = V1 · h1 λ2 =
V2 · h2 , wobei V1 , V2 die ausgezählten Volumina sind, also V1 = 5m Q,
V2 = 2m · Q und Q die als konstant angenommene Querschnittsfläche.
Angenommen, die Lebensbedingungen wären gleichbleibend. Dann wäre
λ1/V1 = h1 = h2 = λ2/V2 , also λ1 = V1/V2 · λ2 = 5/2 · λ2 , und es wäre
λ1 > 5/2 · λ2 , falls h1 > h2 .
Zu Testen ist also H = {λ1 = 5/2 · λ2 } gegen K = {λ1 > 5/2 · λ2 }. Das
Problem ist ein Testproblem und kann nach (9.3.3) behandelt werden.
Lösung:
p=
19
X
i=17
5
5/2
=
1 + 5/2
7
5
Pbin (i; n = 19, p = ) = 0.0602.
7
Das beobachtete Ereignis hat zwar unter der Hypothese gleichbleibender
Lebensbedingungen eine geringe Wahrscheinlichkeit. Diese ist jedoch noch
9.3. GRUNDPROBLEME
9-7
nicht so gering, daß die Hypothese als widerlegt anzusehen ist. - Die Vermutung ist durch diese Beobachtung noch nicht hinreichend gesichert.
Literaturverzeichnis
Appendix-1
Index
’ ToDo’, 3-7, 3-13, 4-8, 4-16, 5-3,
6-22, 7-1, 7-10
(Tschebyscheff’sche Ungleichung):,
8-2
Hypothese
zusammengesetzte, 5-2
a priori Verteilung, 7-6
a priori Wahrscheinlichkeit, 7-7
a-posteriori Verteilung, 7-6
abhängig, 6-10
Abschneiden gleicher Schwänze, 5-5
Alternative, 1-5, 4-7, 5-2
Annahmebereich, 5-2
Ansatz
Laplace, 2-5
Bayes-Formel, 7-5
Bayes-Verfahren, 7-9
Bereichsschätzer, 1-7
bedingte Wahrscheinlichkeit, 3-3
Bereichsschätzer, 4-11, 5-6
Beta-Verteilung, 7-10
Binomialverteilung, 6-4
Dichte, 3-8
einseitig, 1-6, 1-8, 5-6
Einseitiges Testproblem, 9-5
empirische Wahrscheinlichkeit, 3-7
Ereignis, 3-1
Ereignis-(Sigma)algebra, 3-4
Ereignismenge, 3-2
Ergebnismenge, 3-2, 3-4
Erwartungswert, 8-1
Fehler 2. Art, 1-6
Fehler 1. Art, 1-6
frequentistischer Ansatz, 3-7
Güte, 4-7
Gütefunktion, 5-2
Gegenhypothese, 1-5, 5-2
gemeinsame Verteilung, 7-6
hypergeometrische Verteilung, 3-7
Hypothese, 4-7
hypergeometrische Verteilung, 4-2
Hypothese, 1-4
einfache, 5-2
Irrtumswahrscheinlichkeit, 1-6, 4-7,
5-2, 5-6
Irrtumswahrscheinlichkeit, 1-7
Irrtumswahrscheinlichkeit, 1-8
kanonische Zerlegung, 3-10
Konfidenzbereich, 1-7
Konfidenzniveau, 1-7
Kovarianz, 8-6
kritischer Bereich, 1-5
Laplace-Ansatz, 2-5
lgeometrische Wahrscheinlichkeit, 3-6
logische Wahrscheinlichkeit, 3-6
Minimax-Theorem, 7-9
Mittelwert der Messungen, 8-9
monoton, 5-10
Neyman-Pearson-Verfahren, 7-9
Niveau, 5-2
oder, 7-3
Ordinalskala, 3-5
Parameter, 1-4, 3-9
Parametertests, 6-21
Prognosebereich, 5-8
Prognosebereichsschätzer, 5-9
Prognose, 1-4
Prognosebereich, 1-8
Prognosebereich, 4-16
proportional, 3-10
Punktschätzer, 4-11
Appendix-3
Appendix-4
Quantil, 3-11
Randverteilung, 7-6
relativen Standardfehler, 8-8
Realisierung, 4-11
relativen Fehler, 8-8
Relay-Experiment, 7-6
Schärfe, 5-2
Schätzbereich, 1-7
Schätzer, 8-7
Schätzproblem, 1-4
Sicherheitswahrscheinlichkeit, 5-6
Sicherheitswahrscheinlichkeit, 1-7
Signifikanzniveau, 5-2
Standardabweichung, 8-4
Stichprobe, 4-10
Stichprobenplanung, 1-8
stochastisch
unabhägig, 6-10
stochastisch kleiner, 3-13
stochastisch unabhängig, 7-1, 7-2
Streuung, 8-2
Test, 4-7, 5-1
randomisiert, 5-4
Testfunktion, 5-1
Testprobleme, 1-4
Toleranzbereiche, 1-7
Toleranzbereiche, 5-10
Trefferwahrscheinlichkeit, 5-8
Trefferwahrscheinlichkeit, 1-8
unabhägig, 6-10
uniform, 3-8
unverzerrte, 6-1
Variationskoeffizienten, 8-8
Varianz, 8-4
Verteilungsfunktion, 3-6
Verwerfungsbereich, 4-7
Verwerfungsbereich, 1-5
Verzerrung der Stichprobe, 4-4
Vergleichstests, 6-21
Versuchsplanung, 1-4, 1-8
Verteilung, 3-5
Vertrauensniveau, 1-7, 5-6
Verwerfungsbereich, 5-1
Wahrscheinlichkeitsmaß, 3-3, 3-4
Wahrscheinlichkeitsraum, 3-4, 5-1
Wahrscheinlichkeit
bedingte, 3-3
empirische, 3-7
INDEX
Laplace, 2-5
zensiert, 6-16
Zufallsvariable, 3-5, 5-1
zweiseitig, 1-6, 1-8, 5-6
Herunterladen