Statistik Wahrscheinlichkeitsrechnung und

Werbung
Statistik
Wahrscheinlichkeitsrechnung und
Schätzverfahren
Internetsupplement
Heinz Holling & Günther Gediga
21. Februar 2013
Inhaltsverzeichnis
1
Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.11
1.12
1.13
1.14
1.15
1.16
1.17
1.18
1.19
1.20
1.21
1.22
1.23
1.24
1.25
1.26
1.27
1.28
1.29
1.30
1.31
1.32
1.33
1.34
1.35
1.36
1.37
1.38
1.39
1.40
1.41
1.42
Mengendarstellung (S. 22) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Potenzmengen und deren Größe (S. 20) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Die kleinste Sigma-Algebra (S.27) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wette mit Zweierpotenzen (S. 30) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Einfache Folgerungen aus den Axiomen von Kolmogorov (S. 37) . . . . . . . . . . . . . . . . . . . . . . . . .
Wahrscheinlichkeit der Vereinigung von drei und mehr disjunkten Ereignissen (S. 38) . .
Wahrscheinlichkeit der Vereinigung von drei und mehr Ereignissen (S. 39) . . . . . . . . . . . . . . .
Stochastische Unabhängigkeit gilt auch für Komplemente (S. 43) . . . . . . . . . . . . . . . . . . . . . . . . .
Rechenregeln für Binomialkoeffizienten (S. 58) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Binomialverteilungen bei gleich wahrscheinlichen Alternativen (S. 58) . . . . . . . . . . . . . . . . . . . .
Urnenmodell mit Zurücklegen ohne Beachtung der Reihenfolge (S. 59) . . . . . . . . . . . . . . . . . .
Die Gamma-Funktion (S. 59) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Messbare Funktionen (S. 70) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Messbarkeit von 0-1-Zufallsvariablen in Borel-Mengen (S. 70) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wahrscheinlichkeiten von Antwortmustern und Scores (S. 75) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das Riemann-Integral (S. 83) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Die Punktwahrscheinlichkeit ist Null bei stetigen Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . .
Dichten und deren Maximum (S. 83) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Verteilungsfunktion der stetigen Gleichverteilung (S. 87) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Schiefe und Exzess stetiger Verteilungen (S. 91) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Eine Verteilung ohne Mittelwert und Varianz (S. 98) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rechentechnisch günstige Formel für die Varianz von Zufallsvariablen (S. 99) . . . . . . . . . . .
Berechnung von Var(g(Y )) (S. 99) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Die Standardnormalverteilung, deren Erwartungswert und Varianz (S. 100) . . . . . . . . . . . . . .
Parameter der Normalverteilung (S. 100) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Additivität des Erwartungswertes (S. 100) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rechenregeln für Erwartungswerte und Varianzen (S. 101-104) . . . . . . . . . . . . . . . . . . . . . . . . . .
Randverteilung allgemeiner zweidimensionaler Gleichverteilungen (S. 111) . . . . . . . . . . . . .
Stochastischer Unabhängigkeit von Zufallsvariablen (S. 113) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rechnen mit Kovarianzen von Zufallsvariablen (S. 116) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Nullkorrelation bei stochastischer Unabhängigkeit (S. 117) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bei Nullkorrelation liegt kein linearer Zusammenhang vor (S. 117) . . . . . . . . . . . . . . . . . . . . . . . .
Berechnung der Varianz bei Addition (S. 118) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Der Multinomialkoeffizient (S. 147) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kovarianz und Korrelation multinomialverteilter Zufallsvariablen (S. 148) . . . . . . . . . . . . . . . . .
Beta-Verteilungen (S. 150) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Die χ 2 -Verteilung (S. 154) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Vergleich einer empirischen Varianz mit einer theoretisch vorgegebenen Varianz . . . . . . .
Erwartungswert und Varianz der nicht zentralen χ 2 -Verteilung (S. 158) . . . . . . . . . . . . . . . . . . .
Freiheitsgrade des Residuums in der linearen Regression (S. 161) . . . . . . . . . . . . . . . . . . . . . . .
Zur Herleitung der t -Verteilung (S. 162) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Erwartungswert und Varianz der nicht-zentralen t -Verteilung (S. 165) . . . . . . . . . . . . . . . . . . . .
6
7
7
8
9
9
10
11
12
13
14
14
15
15
16
16
16
17
17
18
18
19
19
19
20
20
21
22
22
22
23
24
24
25
25
26
26
27
28
28
29
30
1.61
1.62
1.63
1.64
1.65
Das Verhältnis von Varianzen und die F -Verteilung (S. 166) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Die Summe von normalverteilten Zufallsvariablen ist normalverteilt (S. 185) . . . . . . . . . . . . .
Arithmetisches Mittel von 0-1-Variablen (S. 193) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exakte Berechnung der Verteilung von Anteilswerten (S. 197) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Anzahl von Bootstrapstichproben (S. 200) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Schätzeigenschaften des Medians (S. 214) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Momentenerzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Erwartungstreue der Varianz (S. 217) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Die Standardabweichung ist nicht erwartungstreu (S. 217) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Starke und schwache Konsistenz von Schätzern (S. 218) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Zweite Ableitung der Log-Likelihood (S. 227) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Die Rao-Cramer-Schranke (S. 220) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Likelihood und Dichte im Falle der Binomialverteilung (S. 228) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Zweite Ableitung der Log-Likelihood einer normalverteilter Zufallsvariablen (S. 231) . . . .
Maximum-Likelihood-Schätzungen (S. 231) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Regressionskoeffizienten in der linearen Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Der Satz von Bayes auf der Basis stetiger Dichten (S. 240) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Berechnung einer EAP-Schätzung (S. 241) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Erwartungswert und Varianz der A-posteriori-Verteilung bei normalverteilten Zufallsvariablen (S. 242) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Konfidenzintervalle von Varianzen ohne Verteilungsannahme (S. 266) . . . . . . . . . . . . . . . . . . .
Maximale Stichprobengröße für ein Konfidenzintervall eines Anteilswertes (S. 269) . . . . .
Varianz eines Schätzers in der multiplen Regression (S. 270) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
t -Verteilung der Testwerte in der multiplen Regression (S. 270) . . . . . . . . . . . . . . . . . . . . . . . . . . .
Konfidenzintervalle für Odds Ratios (S. 272) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
Übung 1: Kapitel 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Übung 2: Kapitel 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Übung 3: Kapitel 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Übung 4: Kapitel 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Übung 5: Kapitel 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Übung 6: Kapitel 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Übung 7: Kapitel 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Übung 8: Kapitel 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Übung 9: Kapitel 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Übung 10: Kapitel 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Übung 11: Kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Übung 12: Kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Übung 13: Kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Lösung der Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.1
Lösung zur Übung 1: Kapitel 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
1.43
1.44
1.45
1.46
1.47
1.48
1.49
1.50
1.51
1.52
1.53
1.54
1.55
1.56
1.57
1.57.1
1.57.2
1.57.3
1.58
1.59
1.60
–4–
30
30
30
30
31
31
32
33
34
34
34
35
35
36
36
36
37
37
38
38
39
39
40
40
41
42
44
45
46
47
48
49
50
51
52
53
54
55
56
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
Lösung zur Übung 2: Kapitel 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lösung zur Übung 3: Kapitel 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lösung zur Übung 4: Kapitel 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lösung zur Übung 5: Kapitel 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lösung zur Übung 6: Kapitel 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lösung zur Übung 7: Kapitel 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lösung zur Übung 8: Kapitel 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lösung zur Übung 9: Kapitel 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lösung zur Übung 10: Kapitel 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lösung zur Übung 11: Kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lösung zur Übung 12: Kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lösung zur Übung 13: Kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
–5–
58
59
60
61
62
64
65
66
67
68
69
70
1 Ableitungen
1.1 Mengendarstellung (S. 22)
Die Mengendarstellung ist das wichtigste Werkzeug der Mathematik. Systematisch eingeführt wurde
sie von Cantor (1895), der die Definition einer Menge wie folgt verfasste:
Unter einer „Menge“ verstehen wir jede Zusammenfassung M von bestimmten wohl unterschiedenen Objekten m unserer Anschauung oder unseres Denkens (welche die „Elemente“ von M genannt werden) zu einem Ganzen.
Sind m1 , ..., mk Elemente, dann wird die Menge, die aus diesen Objekten besteht mit
M = {m1 , ..., mk }
bezeichnet.
Es gibt einige Strukturaussagen und weitere Definitionen für Mengen:
• Eine Menge A heißt Teilmenge einer Menge B, wenn jedes Element von A auch Element von
B ist. In Symbolen: A ⊆ B.
• Zwei Mengen A und B sind gleich, wenn gleichzeitig A ⊆ B und B ⊆ A. In Symbolen: A = B.
• Zwei Mengen A und B sind und ungleich, wenn sie nicht gleich sind. In Symbolen: A 6= B.
• Eine Menge A heißt echte Teilmenge einer Menge B, wenn A ⊆ B und A 6= B gilt. In Symbolen:
A ⊂ B.
• Eine Menge M heißt leere Menge, wenn sie kein Element enthält. In Symbolen M = {} oder
M = 0.
/
• Die Potenzmenge einer Menge M ist die Menge aller Teilmengen von M. Die Potenzmenge
einer leeren Menge ist nicht leer! In Symbolen: P(M).
• Die Anzahl der Elemente einer Menge wird mit |M| bezeichnet.
• Auf zwei oder mehr Mengen lassen sich Schnittmengen und Vereinigungsmengen definieren.
Diese Operationen sind im Buch dargestellt.
6
1.2 Potenzmengen und deren Größe (S. 20)
Die Potenzmenge der leeren Menge hat genau ein Element, da P({}) = {{}} gilt.
Besitzt M ein Element, dann besteht die Potenzmenge aus zwei Elementen, da P({a}) = {{}, {a}}
gilt.
Wir zeigen nun, dass bei einer n-elementigen Menge M die Anzahl der Elemente der Potenzmengen
2n beträgt. Der Beweis erfolgt über vollständige Induktion.
Wir nehmen an, dass für n − 1-elementige Mengen die Anzahl der Elemente der Potenzmenge 2n−1
beträgt. Ist an das neue Element, dann gibt es nach der Voraussetzung zunächst 2n−1 Teilmengen
von M, die aus den ersten n − 1 Elementen bestehen. Zu jeder dieser Teilmengen kann eine weitere
Teilmenge aus M erzeugt werden, in dem wir diese Mengen um an erweitern. Diese wiederum 2n−1
Teilmengen sind ungleich mit den Teilmengen ohne an . Sie sind aber auch wegen der Induktionsvoraussetzung untereinander ungleich. Wir erhalten somit 2 × 2n−1 = 2n verschiedene Teilmengen, was
zu zeigen war.
1.3 Die kleinste Sigma-Algebra (S.27)
Behauptung: Die kleinste Sigma-Algebra mit Ω als Ergebnisraum ist {0,
/ Ω}.
• Da 0/̄ = Ω und Ω̄ = 0/ gilt, haben wir für möglichen Mengen die erste Bedingung für eine
Sigma-Algebra nachgewiesen.
• Die zweite Bedingung gilt ebenfalls, da alle möglichen Vereinigungsmengen entweder 0/ oder
Ω ergeben.
• Eine kleinere Sigma-Algebra gibt es nicht, da Ω als Element gesetzt ist und die leere Menge
wegen der ersten Bedingung benötigt wird.
Behauptung: Die kleinste Sigma-Algebra mit Ω als Ergebnisraum und Ereignis A als Element ist
{0,
/ A, Ā, Ω}.
• Da 0/̄ = Ω, Ω̄ = 0/ gilt, und A sowie Ā in der Sigma-Algebra vorhanden sind, gibt es für alle
möglichen Mengen in der Sigma-Algebra ein Komplement. Die erste Bedingung gilt somit.
• Die zweite Bedingung gilt ebenfalls, da alle möglichen Vereinigungsmengen entweder 0,
/ A, Ā
oder Ω ergeben.
• Eine kleinere Sigma-Algebra gibt es nicht, da Ω und A als Elemente gesetzt sind und deshalb
Ā und die leere Menge wegen der ersten Bedingung benötigt werden.
–7–
1.4 Wette mit Zweierpotenzen (S. 30)
Angenommen, wir hätten einen Zufallszahlengenerator, der jede natürliche Zahl generieren kann. Der
Zufallszahlengenerator sei so gebaut, dass p(1) = .5, p(2) = .52 ... p(k) = .5k gilt.
Zunächst muss überprüft werden, ob es sich hier wirklich um Wahrscheinlichkeiten handelt: Es muss
gelten
∞
∑ p(i) = 1
i=1
Wir haben
∞
∞
∑ p(i) =
i=1
1
∑ 2i
i=1
∞
1
i
i=0 2
1
= −1 + ∑
= −1 +
1
2
= −1 + 2 = 1
1
Die Summe ∑∞
i=0 2i ist eine geometrische Reihe mit p=0.5.
Wir bieten nun die Wette W an, 2k Euro zu zahlen, wenn die Zahl k getroffen wird. Ist so eine Wette
„vernünftig”, obwohl 2k Euro „beliebig” viel sein kann?
Zunächst berechnen wir folgende Summe
i
d ∑∞
i=0 q
q×
dq
1
d 1−q
q×
dq
1
q×
(1 − q)2
q
(1 − q)2
∞
∑i×q
i
=
i=0
=
=
=
Nun berechnen wir den Erwartungswert, also das, was wir über einen langen Zeitraum zahlen müssten, wenn wir die Wette anbieten:
∞
E[W ] =
∑ 2i × p(i)
i=0
∞
= 2∑i×
i=0
= 2
1
)
2i
.5
(1 − .5)2
= 4
Wenn wir also diese Wette für fünf Euro anbieten, hätten wir im Schnitt einen Euro Gewinn.
–8–
1.5 Einfache Folgerungen aus den Axiomen von Kolmogorov (S. 37)
Die Axiome von Kolmogorov lauten:
P : Σ → R ist eine Wahrscheinlichkeit, wenn gilt:
• Nicht-Negativität: P(A) ≥ 0 für alle A ⊂ Ω
• Normierung: P(Ω) = 1
• Additivität: Sind A1 , . . . , Ak ... paarweise disjunkte Mengen aus Σ, so ist
P(A1 ∪ . . . ∪ Ak ∪ ...) = P(A1 ) + . . . + P(Ak ) + ...
Abzuleiten sind die folgenden Behauptungen:
• Wahrscheinlichkeiten liegen immer zwischen 0 und 1.
Zunächst einmal sind alle P(A) ≥ 0. Dies gilt wegen der Nicht-Negativität. Gäbe es eine Menge
mit P(A) > 1, dann ist wegen der Additität auch P(A ∪ Ā) = P(Ω) > 1. Dies ist aber wegen der
Normierung ausgeschlossen. Also muss auch P(A) ≤ 1 gelten.
• Es gilt P(0)
/ = 0 für die Wahrscheinlichkeit des unmöglichen Ereignisses.
Wäre P(0)
/ > 0, wäre P(Ω) wegen der Additivität beliebig groß. Dies führt also zu einem Widerspruch. Wir müssen P(0)
/ = 0 annehmen.
• Die Wahrscheinlichkeit des sicheren Ereignisses ist P(Ω) = 1.
Dies ist die Normierungsbedingung.
• für das Komplementärereignis A von A gilt:
P(A) = 1 − P(A)
Da A ∪ A = Ω gilt, ist P(A) + P(Ā) = P(A ∪ Ā) = P(Ω) = 1. Umstellen ergibt: P(A) = 1 − P(A)
• Ist ein Ereignis A in einem Ereignis B enthalten, so ist die Wahrscheinlichkeit von A höchstens
so groß wie die von B:
A ⊆ B → P(A) ≤ P(B)
Wir nutzen die Mengendifferenz B \ A. In dieser Menge befinden sich alle Elemente aus B, die
nicht in A liegen. Die B \ A ist nach Voraussetzung nicht leer. Weiterhin ist die Schnittmenge
B \ A mit A nach Konstruktion leer. Damit gilt wegen der Additivität P(B) = P(B \ A) + P(A),
oder P(B \ A) = P(B) − P(A). Da wegen der Nicht-Negativität P(B \ A) ≥ 0 sein muss, gilt auch
P(B) ≥ P(A).
1.6 Wahrscheinlichkeit der Vereinigung von drei und mehr disjunkten Ereignissen
(S. 38)
Sind die Ereignisse diskunkt, bedeutet dies, dass beliebig konstruierte Schnittmengen der Ereignisse
leer sind. Damit gilt nach der Siebformel (nächster Abschnitt):
P(
n
[
n
Ai ) =
∑ P(Ai )
i
i=1
bzw. für drei Ereignisse:
P(A1 ∪ A2 ∪ A3 ) = P(A1 ) + P(A2 ) + P(A3 )
–9–
1.7 Wahrscheinlichkeit der Vereinigung von drei und mehr Ereignissen (S. 39)
In diesem Abschnitt soll die Formel
P(A1 ∪ A2 ∪ A3 ) = P(A1 ) + P(A2 ) + P(A3 )
−P(A1 ∩ A2 ) − P(A1 ∩ A3 ) − P(A2 ∩ A3 )
+P(A1 ∩ A2 ∩ A3 )
und Verallgemeinerungen dieser Formel bewiesen werden. Es handelt sich um die sogenannte Siebformel von Poincaré und Sylvester.
Aus der Kenntnis von P(A1 ∪ A2 ) = P(A1 ) + P(A2 ) − P(A1 ∩ A2 ) lüsst sich der Fall für 3 Mengen wie
folgt ableiten:
P(A1 ∪ A2 ∪ A3 ) = P((A1 ∪ A2 ) ∪ A3 )
= P(A1 ∪ A2 ) + P(A3 ) − P((A1 ∪ A2 ) ∩ A3 )
= P(A1 ) + P(A2 ) − P(A1 ∩ A2 ) + P(A3 ) − P((A1 ∪ A2 ) ∩ A3 )
= P(A1 ) + P(A2 ) − P(A1 ∩ A2 ) + P(A3 ) − P((A1 ∩ A3 ) ∪ (A2 ∩ A3 ))
= P(A1 ) + P(A2 ) − P(A1 ∩ A2 ) + P(A3 ) − (P(A1 ∩ A3 ) + P(A2 ∩ A3 ) − P((A1 ∩ A3 ) ∩ (A2 ∩ A3 ))
= P(A1 ) + P(A2 ) − P(A1 ∩ A2 ) + P(A3 ) − P(A1 ∩ A3 ) − P(A2 ∩ A3 ) + P((A1 ∩ A3 ) ∩ (A2 ∩ A3 ))
= P(A1 ) + P(A2 ) − P(A1 ∩ A2 ) + P(A3 ) − P(A1 ∩ A3 ) − P(A2 ∩ A3 ) + P(A1 ∩ A2 ∩ A3 )
= P(A1 ) + P(A2 ) + P(A3 ) − P(A1 ∩ A2 ) − P(A1 ∩ A3 ) − P(A2 ∩ A3 ) + P(A1 ∩ A2 ∩ A3 )
Allgemein gilt
P(
n
[
i=1
n
n
Ai ) = (−1)1−1 ∑ P(Ai ) + (−1)2−1 ∑ P(Ai ∩ A j ) + ... + (−1)n−1 P(A1 ∩ A2 ∩ ... ∩ An )
i
i< j
Der Beweis erfolgt über vollständige Induktion. Es gelte also die Behauptung für n − 1. Dann gilt:
P(An ∪
n−1
[
n−1
[
Ai ) = P(An ) + P(
i=1
i=1
n−1
[
= P(An ) + P(
i=1
Ai ) − P(An ∩
n−1
[
Ai )
i=1
n−1
[
Ai ) − P(
(An ∩ Ai )
i=1
Schauen wir uns die drei Glieder der Summe an: Zunächst wird mit P( n−1
i=1 Ai ) die Induktionsvoraussetzung eingestellt – es fehlen aber noch alle Schnittmengen mit An und An selbst. Der erste Term
S
P(An ) fällt ∑ni P(Ai ) korrekt auf. In P( n−1
i=1 (An ∩ Ai ) sind hingegen alle möglichen Schnitte mit An
versammelt, wobei die Schnittmengen mit gerader Mengenanzahl ein negatives Vorzeichen und die
Schnittmengen mit ungerade Mengenanzahl ein positives Vorzeichen erhalten. Es tauchen damit alle
Schnittmengenkombinationen in der Summe auf und die Vorzeichen der Summanden ist ebenfalls
wie vorhergesagt. Die Beziehung ist somit bewiesen.
S
– 10 –
1.8 Stochastische Unabhängigkeit gilt auch für Komplemente (S. 43)
Es gelte
P(A ∩ B) = P(A|B) × P(B) = P(A) × P(B)
bzw.
P(B|A) =
P(A ∩ B) P(A) × P(B)
=
= P(B)
P(A)
P(A)
P(A) = P(A ∩ (B ∪ B̄))
= P((A ∩ B) ∪ (A ∩ B̄))
= P((A ∩ B)) + P(A ∩ B̄))
weiterhin gilt
P(Ā) = 1 − P(A)
= 1 − (P((A ∩ B)) + P(A ∩ B̄)))
Damit ist
P(B̄|A) =
P(A ∩ B̄) P(A) − P(A ∩ B)
=
= 1 − P(B) = P(B̄)
P(A)
P(A)
und
P(Ā ∩ B)
P(Ā)
P(B) − P(A) × P(B)
=
1 − P(A)
= P(B)
P(B|Ā) =
und
P(Ā ∩ B̄)
P(Ā)
P(Ā ∩ B̄)
=
1 − P(A)
1 − P(A) P(Ā ∩ B)
=
−
1 − P(A) 1 − P(A)
= 1 − P(B)
P(B̄|Ā) =
= P(B̄)
3c
– 11 –
1.9 Rechenregeln für Binomialkoeffizienten (S. 58)
Die erste Rechenregel betrifft die Symmetrie der Binomialkoeffizienten
n
n
=
k
n−k
Dies ist einfach zu zeigen:
n
n!
n
n!
=
=
=
n−k
k!(n − k)! (n − k)!k!
k
Der Additionssatz
n
n−1
n−1
=
+
k
k−1
k
kann wie folgt nachgewiesen werden:
n−1
n−1
+
=
k−1
k
(n − 1)!
(n − 1)!
+
(k − 1)!(n − k)! k!(n − k − 1)!
1
1
(n − 1)!
+
(k − 1)!(n − k − 1)! n − k k
(n − 1)!
k + (n − k)
×
(k − 1)!(n − k − 1)!
k(n − k)
(n − 1)!
n
×
(k − 1)!(n − k − 1)! k(n − k)
n!
k!(n − k)!
n
k
=
=
=
=
=
Mithilfe des Additionssatzes kann nun gezeigt werden, dass
n
n
∑ k = 2n
k=0
gilt.
– 12 –
Zunächst gilt der Satz für n = 1. für n > 1 erhalten wir:
n
n−1 n
n
n
n
∑ k = 0 + n +∑ k
k=0
k=1
n−1 n−1
n−1
= 2+ ∑
+
k
k=1 k − 1
n−1
n−1
n−1
n−1
= 2+ ∑
+∑
k
k=1 k − 1
k=1
n−2
n−1
n−1
n−1
= 2+ ∑
+∑
k
k
k=0
k=1
n−1
n−1 n−1
n−1
= 2+ ∑
−1+ ∑
−1
k
k
k=0
k=0
n−1 n−1
= 2∑
k
k=0
= 2 × 2n−1
= 2n
Per Induktion gilt die Behauptung somit für alle n ≥ 1.
1.10 Binomialverteilungen bei gleich wahrscheinlichen Alternativen (S. 58)
Sind in einem Bernoulliprozess beide Alternativen gleich wahrscheinlich, ist die Erfolgswahrscheinlichkeit π = .5. Dies hat zur Folge, dass auch jedes Muster von Erfolgen und Misserfolgen der Länge
n gleich wahrscheinlich ist, d.h. jedes Muster der Länge n besitzt die Auftretenswahrscheinlichkeit
1/2n . Die Wahrscheinlichkeit k Erfolge bei n Durchgängen zu erzielen ist damit
n
P(Y = k|n, π = 1/2) =
k
2n
für n = 4 ergibt sich damit
4
P(Y = 0|n = 4, π = 1/2) =
/16 = 1/16
0
4
P(Y = 1|n = 4, π = 1/2) =
/16 = 4/16 = 1/4
1
4
P(Y = 2|n = 4, π = 1/2) =
/16 = 6/16 = 3/8
2
4
P(Y = 3|n = 4, π = 1/2) =
/16 = 4/16 = 1/4
3
4
P(Y = 4|n = 4, π = 1/2) =
/16 = 1/16
4
– 13 –
Die Verteilungen für π = 1/2 sind symmetrisch, da auch die Binomialkoeffizienten wegen
n
n
=
k
n−k
symmetrisch sind.
1.11 Urnenmodell mit Zurücklegen ohne Beachtung der Reihenfolge (S. 59)
n+k−1
(n + k − 1)!
K(n, r) =
=
k
(n − 1)!k!
Die Anzahl K(n, k) der Auswahlen von k aus n Elementen mit Zurücklegen entspricht der Anzahl der
r-Tupel
(a1 , a2 , . . . , ak )
von ganzen Zahlen mit
1 ≤ a1 ≤ a2 ≤ . . . ≤ ak ≤ n
Wegen der ≤-Relation können einige oder alle der ai identisch sein. Wir machen die Auswahlen
eindeutig, in dem wir auf jede Zahl den Wert (Index − 1) addieren, d.h. wir erhalten
(b1 , b2 , b3 , . . . , bk−1 , bk ) := (a1 , a2 + 1, a3 + 2, . . . , ak−1 + k − 2, ak + k − 1)
für die neue Folge gilt: 1 ≤ b1 < b2 < . . . < bk ≤ n + k − 1. Hierfür können wir nun die Anzahl der
Auswahlen ohne Zurücklegen berechnen. Dies ist
(n + k − 1)!
(n − 1)!k!
Da wir eine eineindeutige Zuordnung der Elemente vorgenommen haben, ist die Anzahl auch die
gesuchte Anzahl K(n, k).
1.12 Die Gamma-Funktion (S. 59)
für die Herleitung vieler Ergebnisse in diesem Supplement wird die Gamma-Funktion und deren
Eigenschaften benutzt.
Die Gamma-Funktion Γ(a) für a > 0 ist definiert durch das Integral
Z ∞
Γ(a) =
xa−1 e−x dx.
0
Der Wert für a = 1 ist Γ(1) = 1, da
Z ∞
Γ(1) =
0
e−x dx = −e−x )∞
0 =1
gilt.
– 14 –
Jeden Wert der Γ-Funktion Γ(a) mit a > 1, kann man auf einen Wert der Γ-Funktion im Intervall
(0, 1) zurückführen, da Γ(a + 1) = aΓ(a) wegen der folgenden partiellen Integration gilt:
Z ∞
ax
a−1 −x
e dx =
0
Z ∞
a
xa−1 e−x dx =
0
xa e−x )∞
0 +
Z ∞
Z ∞
xa e−x dx
0
xa e−x dx
0
aΓ(a) = Γ(a + 1).
Damit gilt für jede natürliche Zahl n: Γ(n + 1) = n!. Die Gamma-Funktion ist somit die Erweiterung
auf die positiven reellen Zahlen.
Um die Erweiterung vollständig zu machen, müssen noch die Werte zwischen 0 und 1 berechenbar
werden. Eine Hilfe ist hier der Eulersche Ergänzungssatz:
Γ(a)Γ(1 − a) =
π
sin(aπ)
Damit lassen sich ein paar weitere wichtige Werte für die Gamma-Funktion ableiten:
√
Γ(1/2) =
π
√
π
Γ(3/2) =
2√
3 π
Γ(5/2) =
22 √
5×3 π
Γ(7/2) =
23
Weitere Eigenschaften der Gamma-Funktion werden im Folgenden nicht benötigt.
1.13 Messbare Funktionen (S. 70)
Eine Funktion f : X → Y mit den Messräumen (X, A ), (Y, B ist messbar, wenn für jede Menge B ∈ B
gilt
f −1 (B) ∈ A
1.14 Messbarkeit von 0-1-Zufallsvariablen in Borel-Mengen (S. 70)
Wir nutzen für das Ereignis A eine 6 zu würfeln das halboffene Intervall (0, 1] und für das Ereignis
B Augen zwischen 1 und 5 zu würfeln das halboffene Intervall (−1, 0]. Als Dichtefunktion nutzen
wir
f (y) = 0, für y < −1,
f (y) = 5/6, für − 1 < y ≤ 0
f (y) = 1/6, für 0 < y ≤ 1
f (y) = 0, für y > 1,
– 15 –
Damit werden den Ereignissen A und B die korrekten Wahrscheinlichkeiten mit P(A) = F(1) − F(0)
und P(B) = F(0) − F(−1) zugeordnet. Für eine passende Borelmenge lassen wir nun nur noch die
folgenden Ereignisse zu: Ω = (−1, 1] und Ā mit dem Intervall (R \ (0, 1]) ∩ (−1, 1]) = (−1, 0] und B̄
mit dem Intervall (R \ (−1, 0]) ∩ (−1, 1]) = (0, 1]. Wir erhalten eine Sigma-Algebra und die Zuordnung der Wahrscheinlichkeiten ist für alle Mengen korrekt.
1.15 Wahrscheinlichkeiten von Antwortmustern und Scores (S. 75)
Betrachten wir zunächst 4 Items mit ”richtig-falsch”-Möglichkeiten.
Insgesamt gibt es 24 = 16 unterschiedliche Anwortmuster aber nur 5 unterschiedliche Scores (0,1,2,3,4,5).
Ein realistischer Test kann aber durchaus aus 20 Aufgaben bestehen. In diesem Fall gibt es 220 =
1 048 576 unterschiedliche Antwortmuster aber nur 21 unterschiedliche Scores.
Wenn also die Scores die benötigten Informationen gut abbilden, braucht man bei n Items nur n + 1
Wahrscheinlichkeiten angeben, um die Scores adäquat abzubilden. Bei den Antwortmustern ist dies
für n > 20 sicherlich problematisch.
1.16 Das Riemann-Integral (S. 83)
Gegeben ist eine Funktion f , die wir der Einfachheit halber als stetig annehmen. Gefragt ist die Fläche
unter der Funktion f über dem Intervall [a, b]. Das Riemann-Integral (nach der Umformulierung von
Darboux) ist ein Grenzwert von Flächen unter Treppenfunktionen (also einfachen Rechtecken). Es
wird das Intervall [a, b] in n Teilintervalle der Form [a = x0 , x1 ], [x1 , x2 ], ..., [xn−1 , b = xn ] mit a < x1 <
x2 < ... < xn−1 < b gebildet.
Die Obersumme
n
O(n) = ∑ (xi − xi−1 )supx∈[xi−1 ,xi ] f (x)
i=1
gibt eine obere Grenze für die gesuchte Fläche an, während die Untersumme
n
U(n) = ∑ (xi − xi−1 )in fx∈[xi−1 ,xi ] f (x)
i=1
eine untere Grenze für gesuchte Fläche bildet.
Wird n beliebig groß, wird auch der Unterschied zwischen O(n) und U(n) beliebig klein und im
Grenzfall gleich Null. Dies ist dann das Riemann-Integral für f auf dem Intervall a, b.
1.17 Die Punktwahrscheinlichkeit ist Null bei stetigen Zufallsvariablen
Wir zeigen, dass P(Y = y) = 0 für eine stetige Zufallsvariable Y .
– 16 –
Wir betrachten y und y − δ mit δ > 0. Es gilt dann zunächst: P(y − δ < Y = y) = F(y) − F(y − δ )
also
P(Y = y) =
=
=
lim P(y − δ < Y = y)
δ →0
lim F(y) − F(y − δ )
δ →0
lim F(y) − F(y) = 0
δ →0
1.18 Dichten und deren Maximum (S. 83)
Das Maximum einer Dichtefunktion kann über 1 liegen. Als Beispiel nehmen wir die stetige Gleichverteilung (nächster Abschnitt).
U(a, b) ist für y < a und y > b Null und in diesem Intervall gleich dem Wert 1/(b − a).
Ist somit b − a < 1, ist die Dichtefunktion für die stetige Gleichverteilung für alle Werte im Intervall
[a, b] größer als 1.
1.19 Verteilungsfunktion der stetigen Gleichverteilung (S. 87)
Die stetige Gleichverteilung U(a, b) mit b > a besitzt eine Dichte, die für y < a und y > b den Wert 0
aufweist und die innerhalb des Intervalls [a, b] den Wert 1/(b − a) besitzt.
Für eine festen Wert yc ist die Verteilungsfunktion F(yc ) formal definiert durch
Z yc
F(yc ) =
f (y)dy
−∞
Für yc < a ist F(yc ) = 0, da bis dahin keine Wahrscheinlichkeitsmasse vorliegt.
Für a ≤ yc ≤ b ist
Z yc
F(yc ) =
f (y)dy
−∞
Z yc
=
f (y)dy
a
=
Z yc
dy
b−a
y yc
]
b−a a
yc − a
b−a
a
=
=
Für yc = b gilt F(b) = 1. Da keine Wahrscheinlichkeitsmasse für yc > b vorliegt, ist F(yc ) = 1 auch
für alle yc > b.
– 17 –
1.20 Schiefe und Exzess stetiger Verteilungen (S. 91)
Die Varianz einer Zufallsvariablen wird auch als zweites zentrales Moment bezeichnet, die hier für
eine Zufallsvariablen der Erwartungswert der quadrierten Abweichungen von µ berechnet wird.
Also:
σ 2 = E (Y − µ)2
Wir definieren allgemein das k-te zentrale Moment mit
µk = E (Y − µ)k
für die Varianz gilt σ 2 = µ2 .
Für die Schiefe ν einer Verteilung wird das dritte Moment mit der dritten Potenz der Standardabweichung verglichen:
µ3
ν= 3
σ
Bei symmetrischen Verteilungen ist die Schiefe Null. Ist ν > 0, ist die Verteilung rechtsschief. Ist
ν < 0, ist die Verteilung linksschief.
Der Index der Wölbung γ2 (der Exzess) einer Verteilung hängt mit dem vierten Moment zusammen:
γ2 =
µ4
−3
σ4
Der Exzess einer normalverteilten Zufallsvariablen ist immer Null. Ist γ2 > 0, dann verläuft die Verteilung steiler als eine Normalverteilung mit gleicher Varianz. Ist γ2 < 0, dann ist die Verteilung breiter
als eine Normalverteilung mit gleicher Varianz.
1.21 Eine Verteilung ohne Mittelwert und Varianz (S. 98)
Ein Beispiel für eine Verteilung ohne Erwartungswert ist die so genannte Cauchy-Verteilung mit der
Dichte
1
f (y) =
π(1 + y2 )
oder allgemeiner mit
f (y|s, m) =
s
π(s2 + (y − m)2 )
mit s > 0.
Das Integral
y
dy
2
−∞ π(1 + y )
Z ∞
existiert nicht, ebenso wenig wie
Z ∞
−∞
sy
π(s2 + (y − m)2 )
dy
da die untere und obere Grenze des Integrals gegen ∞ strebt.
Dennoch existiert der Median und auch der Modalwert: Beide haben den Wert m (bzw. 0 in der
einfachen Form).
– 18 –
Eine Varianz kann ebenfalls nicht berechnet werden. Dennoch wird die Breite der Verteilung durch
den Parameter s bestimmt: Je größer s, desto breiter ist die Verteilung. Dies kann man etwa an größer
werdenden Interquartilabständen festmachen, die für diese Verteilung bestimmbar sind.
1.22 Rechentechnisch günstige Formel für die Varianz von Zufallsvariablen (S. 99)
Zu zeigen ist, dass E((Y − µ)2 ) = E(Y 2 ) − µ 2 gilt.
E (Y − µ)2 = E Y 2 − 2Y µ + µ 2
= E Y 2 − E(2Y µ) + E µ 2
= E Y 2 − 2µE(Y ) + µ 2
= E Y 2 − 2µ µ + µ 2
= E Y 2 − µ2
1.23 Berechnung von Var(g(Y )) (S. 99)
Es gilt zunächst Var(Y ) = E(Y 2 ) − (E(Y ))2
für diskrete Zufallsvariablen gilt damit:
!2
Var(g(Y )) = ∑(g(yi ))2 pi −
∑ g(yi )pi
i
i
Bei stetigen Zufallsvariablen erhalten wir:
Z ∞
Var(g(Y )) =
g2 (y) f (y)d(y) −
Z
−∞
∞
2
g(y) f (y)d(y)
−∞
1.24 Die Standardnormalverteilung, deren Erwartungswert und Varianz (S. 100)
Zunächst muss gezeigt werden, dass die Fläche unter der Dichtefunktion der Normalverteilung tatsächlich 1 ergibt – und es sich somit wirklich um eine Verteilung handelt:
1
√
2π
Z ∞
e−x
2 /2
dx
−∞
Da die Funktion symmetrisch um Null verläuft, reicht es
2
√
2π
Z ∞
e−x
2 /2
dx
0
anzuschauen. Wir substituieren x2 /2 durch t und erhalten wegen dx =
2 p
√
1/2
2π
Z ∞
p
1/2t −1/2 dt das Integral
1
√ Γ(1/2)
pi
1 √
= √
π
π
= 1
t −1/2 e−t dt =
0
– 19 –
Wegen der Symmetrie um Null ist der Erwartungswert gleich dem Symmetriepunkt, also Null.
Letztlich ist die Varianz der Standardnormalverteilung wie folgt zu berechnen (wieder durch die Substitutionsmethode):
∞
2
2
√
x2 e−x /2 dx
2π 0
Z ∞
dt
2
√
2te−t √
2π 0
2t
Z ∞
4
√
t 1/2 e−t dt
2 π 0
2
√ Γ(3/2)
π
2 √
√
π/2
π
1
Z
Var(X) =
=
=
=
=
=
1.25 Parameter der Normalverteilung (S. 100)
Die Familie der Normalverteilung mit den Parametern µ und σ erhält man, wenn man eine standardnormalverteilte Zufallsvariable Z mit der Transformation Y = µ + σ Z (σ > 0) in eine neue Variable
transformiert.
Da z den Erwartungswert 0 und die Standardabweichung 1 besitzt, ist der Erwartungswert von E(Y ) =
µ und die Varianz von Y entsprechend E((Y − µ)2 ) = σ 2 .
Bleibt noch die Berechnung der Dichte von Y .
Wir wissen, dass
∞
2
1
√
e−z /2 dz = 1
2π −∞
gilt. für die Dichte von Y muss dieses Integral ebenfalls 1 ergeben. Wir wissen, dass Y = µ + σ Z gilt
und somit
dy
=σ
dz
oder dz = dy/σ gelten muss. Damit erhalten wir
Z
f (y) =
=
2
2
1
√ e−(y−µ) /(2σ ) /σ
2π
2
2
1
√
e−(y−µ) /(2σ )
2πσ
1.26 Additivität des Erwartungswertes (S. 100)
Betrachten wir die Zufallsvariablen Y1 und Y2 , so haben diese die gemeinsame Dichte f (y1 , y2 )
Bei einer Summe X = Y1 +Y2 können wir für ein festes x alle Werte aus Y1 und Y2 bestimmen, die x
in der Summe ergeben, da die Identität x = y1 + (x − y1 ) gilt.
Für jeden Wert x lässt sich somit der Wert der Dichte fX (x) ebenfalls bestimmen durch
– 20 –
Z ∞
fX (x) =
−∞
f (y1 , x − y1 )dy1
Der Erwartungswert von X = Y1 +Y2 ergibt sich dann zu:
Z ∞
E(X) =
−∞
Z ∞
=
x fX (x)dx
Z ∞
x
x=−∞
Z ∞
y1 =−∞
f (y1 , x − y1 )dy1 dx
Z ∞
=
(y1 + y2 ) f (y1 , y2 )dy1 dy2
Z
f (y1 , y2 )dy2 dy1 +
y1 =−∞ y2 =−∞
Z ∞
Z ∞
=
y =−∞
y1
Z 1∞
=
x=y1 =−∞
y2 =−∞
Z
∞
y2 =−∞
y1 × 1 × dy1 +
Z ∞
y2 =−∞
y2
∞
y1 =−∞
f (y1 , y2 )dy1 dy2
y2 × 1 × dy2
= E(Y1 ) + E(Y2 )
Der Nachweis der Additivität bei n Summanden erfolgt durch vollständige Induktion, da bei Annahme
von E(Y1 + ... +Yn−1 ) = E(Y1 ) + ... + E(Yn−1 ) und der vorhergehenden Überlegungen sofort E(Y1 +
... +Yn ) = E(Y1 ) + ... + E(Yn ) folgt.
1.27 Rechenregeln für Erwartungswerte und Varianzen (S. 101-104)
Zu zeigen ist, dass für Konstanten a, b folgende Regeln gelten:
E(a + bX) = a + bE(X)
Var(a + bX) = b2Var(X)
Für den Erwartungswert der transformierten Variablen gilt:
Z ∞
E(a + bX) =
Z−∞
∞
(a + bx) fX (x)dx
=
Z ∞
adx + b
−∞
−∞
x fX (x)dx
= a + bE(X)dx
Für die Varianz der transformierten Variablen gilt:
Z ∞
Var(a + bX) =
Z−∞
∞
=
−∞
= b2
(a + bx − (a + bE(X))2 fX (x)dx
(bx − bE(X))2 fX (x)dx
Z ∞
−∞
(x − E(X))2 fX (x)dx
= b2Var(X)
– 21 –
1.28 Randverteilung allgemeiner zweidimensionaler Gleichverteilungen (S. 111)
Der Träger einer zweidimensionalen Gleichverteilung ist ein Rechteck mit den Koordinaten (x0 , y0 ),
(x0 + a, y0 + b), (x0 + c, y0 + d), (x0 + a + c, y0 + b + d). Die Dichte über diesem Rechteck ist konstant
und größer als Null, ansonsten 0.
Die Randverteilungen der zweidimensionalen Gleichverteilung sind in der Regel nicht gleichverteilt.
Wir wählen als einfaches Beispiel eine Gleichverteilung
√ auf dem Träger (−1, 0), (0, 1), (1, 0), (0, −1).
Der Träger ist dann ein Quadrat mit der Seitenlänge 2.
Als Randverteilung ergibt sowohl für als X als auch für Y eine Dreiecksverteilung der Form.


0, x < −1



x + 1, −1 ≤ x < 0
f (x) =
1 − x, 0 ≤ x < 1



0, x ≥ 1
1.29 Stochastischer Unabhängigkeit von Zufallsvariablen (S. 113)
Zwei stetige Zufallsvariablen X und Y sind stochastisch unabhängig, wenn für alle x und y
P(X ≤ x,Y ≤ y) = P(X ≤ x)P(Y ≤ y) = FX (x)FY (y)
gilt. Für die Dichten muss gelten:
f (x, y) = fX (x) fY (y)
Mehrere stetige Zufallsvariablen X1 , . . . , Xk sind stochstisch unabhängig, wenn fü all x1 , . . . , xk
P(X1 ≤ x1 , X2 ≤ x2 , . . . , Xk ≤ xk ) = P(X1 ≤ x1 )P(X2 ≤ x2 ) . . . P(Xk ≤ xk )
gilt. Für die Dichten muss gelten:
f (x1 , x2 , . . . xk ) = fX1 (x1 ) fX2 (x2 ) . . . fXk (xk )
1.30 Rechnen mit Kovarianzen von Zufallsvariablen (S. 116)
Die Kovarianz ist durch
COV (X,Y ) = E(XY ) − E(X)E(Y )
festgelegt.
Die einzelnen Rechenregeln lassen sich schnell nachvollziehen:
Kommutativität:
COV (X,Y ) = E(XY ) − E(X)E(Y ) = E(Y X) − E(Y )E(X) = Cov(Y, X)
Varianz bei identischen Zufallsvariablen:
COV (Y,Y ) = E(YY ) − E(Y )E(Y ) = E(Y 2 ) − (E(Y ))2 = Var(Y )
– 22 –
Cov = 0, wenn eine (oder beide) Variablen konstant sind:
COV (X, a) = E(X × a) − E(X)E(a) = aE(X) − E(X)a = 0
Linearität bei Faktoren:
COV (b1 X, b2Y ) = E(b1 Xb2Y ) − E(b1 X)E(b2Y ) = b1 b2 E(Y X) − b1 b2 E(Y )E(X) = b1 b2Cov(Y, X)
Die Kovarianz bleibt identisch bei Verschiebungen
COV (X + a1 ,Y + a2 ) = E((X + a1 )(Y + a2 )) − E(X + a1 )E(Y + a2 )
= E(XY ) + E(a1Y ) + E(a2 X) + E(a1 a2 ) − (E(X) + a1 )(E(Y ) + a2 )
= E(XY ) + a1 E(Y ) + a2 E(X) + a1 a2 − (E(X)E(Y ) + a1 E(Y ) + a2 E(X) + a1 a2 )
= E(XY ) − E(X)E(Y )
= COV (X,Y )
1.31 Nullkorrelation bei stochastischer Unabhängigkeit (S. 117)
Sind die Zufallsvariablen Y1 (mit Dichte g) und Y2 (mit Dichte h) stochastisch unabhängig, so gilt für
die gemeinsame Dichte:
f (y1 , y2 ) = g(y1 )h(y2 )
Allgemein lässt sich die Kovarianz mithilfe der gemeinsamen Dichte als Erwartungswert schreiben:
Z ∞Z ∞
COV (Y1 ,Y2 ) =
−∞
Z−∞
∞ Z ∞
(y1 − E(Y1 ))(y2 − E(Y2 )) f (y1 , y2 )dy1 dy2
(y1 − E(Y1 ))(y2 − E(Y2 ))g(y1 )h(y2 )dy1 dy2
−∞
−∞
Z ∞
Z ∞
=
(y1 − E(Y1 ))g(y1 )dy1
(y2 − E(Y2 ))h(y2 )dy2
−∞
−∞
Z ∞
Z ∞
=
y1 g(y1 )dy1 − E(Y1 )
y2 h(y2 )dy2 − E(Y2 )
=
−∞
−∞
= (E(Y1 ) − E(Y1 ))(E(Y2 ) − E(Y2 ))
= 0
Da die Kovarianz bei Unabhängigkeit Null sein muss, ist – wegen der Definition der Korrelation –
auch die Korrelation der beiden Variablen Null.
– 23 –
1.32 Bei Nullkorrelation liegt kein linearer Zusammenhang vor (S. 117)
Nehmen wir an, dass es einen linearen Zusammenhang zwischen X und Y gibt. Dann lässt sich Y
zerlegen in einen Anteil, der linear von X abhängt und eine weitere Variable, von der wir annehmen
können, dass sie zumindest unkorreliert von X ist. Weiter nehmen wir an, dass X nicht konstant ist,
also VAR(X) > 0 gilt.
Annahmen: Y = bX +U mit b 6= 0 und COV (X,U) = 0 und VAR(X).
Wir erhalten
COV (X,Y ) = COV (X, bX +U) = COV (X, bX) +COV (X,U) = bVAR(X) 6= 0
Bei linearen Zusammenhängen ist damit die Kovarianz und damit die Korrelation ungleich Null.
Damit gilt aber auch die Umkehrung: Liegt eine Nullkorrelation vor, so kann kein linearer Zusammenhang vorliegen.
1.33 Berechnung der Varianz bei Addition (S. 118)
Var(Y1 +Y2 ) = E((Y1 +Y2 )2 ) − (E(Y1 +Y2 ))2
= E(Y12 ) + E(Y22 ) + 2E(Y1Y2 ) − (E(Y1 ))2 − (E(Y2 ))2 − 2E(Y1 )E(Y2 )
= E(Y12 ) − (E(Y1 ))2 + E(Y22 ) − (E(Y2 ))2 + 2E(Y1Y2 ) − 2E(Y1 )E(Y2 )
= Var(Y1 ) +Var(Y2 ) + 2COV (Y1 ,Y2 ))
Sind die Zufallsvariablen Y1 und Y2 stochastisch unabhängig, dann gilt COV (Y1 ,Y2 ) = 0 (s.o.) und
somit:
Var(Y1 +Y2 ) = Var(Y1 ) +Var(Y2 )
Wieder mit vollständiger Induktion kann nachgewiesen werden, dass die Varianz einer Summe von n
unabhängigen Zufallsvariablen durch
Var(Y1 +Y2 + ... +Yn ) = Var(Y1 ) +Var(Y2 ) + ... +Var(Yn )
gegeben ist.
Sind die Verteilungen zudem identisch, d. h. Y1 = Y , ..., Yn = Y , so gilt
Var(Y1 +Y2 + ... +Yn ) = nVar(Y )
Damit gilt für die Varianz des Mittelwertes bei i.i.d. (unabhängig und identisch verteilten) Zufallsvariablen:
Var(1/n(Y1 +Y2 + ... +Yn )) = Var(Y )/n
– 24 –
1.34 Der Multinomialkoeffizient (S. 147)
Der Multinomialkoeffizient:
n
n1 , n2 , ..., nm
ist die Anzahl von Möglichkeiten um n unterschiedliche Objekte in m Gruppen mit Größen n1 , n2 , ..., nm
aufzuteilen. Es hierbei n1 + n2 + ... + nm = n gelten.
Innerhalb jeder Gruppe spielt die Reihenfolge der Elemente keine Rolle. In einer Gruppe k sind das
somit nk ! irrelevante Reihenfolgen. Wir bilden (wie beim Binomialkoeffizienten) wieder das Verhältnis aller Reihenfolgen durch die Anzahl der irrelevanten Reihenfolgen und erhalten damit bereits die
gewünschte Anzahl:
n
n!
=
n1 , n2 , ..., nm
n1 !n2 ! . . . nm !
1.35 Kovarianz und Korrelation multinomialverteilter Zufallsvariablen (S. 148)
Sei X die Zufallsvariable der Anzahlen für eine Kategorie j und Y die Zufallsvariable der Anzahlen
für eine Kategorie k.
Die Zufallsvariable X ist dann durch
n
X = ∑ Xi
i=1
mit E[Xi ] = π j und VAR[X] = nπ j (1 − π j ) beschrieben.
Analog ist die Zufallsvariable Y durch
n
Y = ∑ Yi
i=1
mit E[Yi ] = πk und VAR[X] = nπk (1 − πk ) beschrieben.
Da genau eine Kategorie beobachtet werden (also entweder j oder k oder eine andere) ist
E[XiYi ] = 0
Damit gilt
"
COV [X,Y ] = COV
n
n
#
∑ Xi , ∑ Yi
i=1
i=1
n
=
∑ COV [Xi ,Yi ]
i=1
n
=
∑ E[XiYi ] − E[Xi ]E[Yi ]
i=1
n
=
∑ +0 − π j πk
i=1
= −nπ j πk
– 25 –
Die Korrelation erhält man, wenn die ermittelte Kovarianz durch die Standardabweichungen von X
und Y teilt.
−π j πk
ρ[X,Y ] = p
π j (1 − π j )πk (1 − πk )
1.36 Beta-Verteilungen (S. 150)
Die Familie der Beta-Verteilungen ist auf dem Intervall [0, 1] definiert und wird oft als Verteilung von
Wahrscheinlichkeiten in der Bayesianischen Statistik genutzt (s. nächstes Kapitel). Die Familie der
Beta-Verteilungen wird durch zwei Parameter p, q bestimmt, wobei p > 0 und q > 0 angenommen
wird.
Wir definieren die Dichte der B(p, q)-Verteilung durch
f (x) =
Γ(p)Γ(q) p−1
x (1 − x)q−1
Γ(p + q)
Für p = q = 1 ergibt sich die Gleichverteilung auf dem Intervall [0, 1].
Ist X B(p, q)-verteilt, dann ist der Erwartungswert
E(X) =
p
p+q
Ist p = q, ist E(X) = 1/2. Weiterhin ist für p = q die Verteilung von X symmetrisch um 1/2.
Die Varianz einer Beta-verteilten Zufallsvariablen X ist
Var(X) =
pq
(p + q + q)(p + q)2
Je größer p und q werden, desto kleiner wird somit die Varianz einer Beta-Verteilung. Die Verteilung schmiegt sich also immer enger um den Erwartungswert, wenn p und q ansteigen. In der Baysianischen Statistik wird auf diese Weise der Einfluß der Stichprobengröße auf die Verteilung des
Mittelwertes modelliert.
1.37 Die χ 2 -Verteilung (S. 154)
Bei einem Freiheitsgrad ist die χ 2 -Verteilung gleich dem Quadrat einer Standardnormalverteilung.
Damit ist die Varianz der Standardnormalverteilung identisch mit dem Erwartungswert der χ 2 -Verteilung
mit einem Freiheitsgrad.
Addiert man die Quadrate von k unabhängigen Standardnormalverteilungen, ist die Summe der Erwartungswerte identisch mit k, womit der Erwartungswert für eine Chi-Quadrat-Verteilung mit k Freiheitsgraden bestimmt ist.
– 26 –
Zur Berechnung der Varianz nehmen wir zunächst den Erwartungswert der vierten Potenz der Normalverteilung (µ4 ):
∞
2
2
√
x4 e−x /2 dx
2π 0
Z ∞
p
2
√ × 4 1/2
t 3/2 e−t dt
0
2π
p
2
√ × 4 1/2Γ(5/2)
2π
p
√
2
√ × 4 1/2 × 3 π/4
2π
3
Z
µ4 =
=
=
=
=
Die Varianz der χ 2 -Verteilung mit einem Freiheitsgrad ergibt sich dann über:
Var(χ 2 (1)) = E((χ 2 (1) − 1)2 )
= E(χ 2 (1)2 ) − 2E(χ 2 (1))) − 1
= µ4 − 2 + 1
= 3−2+1
= 2
Die Varianz einer χ 2 -Verteilung mit einem Freiheitsgrad ist somit 2.
Wenn die Normalverteilungen unabhängig sind, sind auch die Quadrate der Normalverteilungen unabhängig (den Nachweis ersparen wir uns) und somit ist die Summe der Varianzen identisch mit der
Varianz der Summe der Quadrate der Normalverteilungen. Bei k Freiheitsgraden ergibt sich somit
Var(χ 2 (k)) = 2k
1.38 Vergleich einer empirischen Varianz mit einer theoretisch vorgegebenen
Varianz
Wir starten mit der Annahme, dass die Beobachtungen Repräsentationen normalverteilter, i.i.d Verteilungen sind. Die Frage ist nun, wie sich
X2 =
(n − 1)S2
σ2
– 27 –
verteilt, wenn S2 eine Schätzung von σ 2 ist.
(n − 1)S2
σ2
=
=
=
=
=
=
=
=
=
∑ni=1 (Yi − ȳ)2
σ2
n
∑i=1 (Yi − µ + µ − ȳ)2
σ2
n
∑i=1 (Yi − µ)2 + 2(Yi − µ)(µ − ȳ) + (µ − ȳ)2
σ2
n
2
∑i=1 (Yi − µ) + 2(µ − ȳ) ∑ni=1 (Yi − µ) + ∑ni=1 (µ − ȳ)2
σ2
n
2
∑i=1 (Yi − µ) + 2(µ − ȳ) × n(ȳ − µ) + n(µ − ȳ)2
σ2
n
2
∑i=1 (Yi − µ) − n(µ − ȳ)2
σ2
n
∑i=1 (Yi − µ)2 n(µ − ȳ)2
−
σ2
σ2
2
n Yi − µ
(µ − ȳ)2
−
∑ σ
σ 2 /n
i=1
n
µ − ȳ 2
2
√
Z
−
∑ i σ/ n
i=1
= χ 2 (n) − χ 2 (1)
= χ 2 (n − 1)
Die letzten Umformungen sind wie folgt zu begründen:
• Die Summe von quadrierten, i.i.d und standardnormalverteilten Zufallsvariablen ist χ 2 (n)verteilt.
•
µ−
√ȳ
σ/ n
ist standardnormalverteilt, d.h. das Quadrat ist χ 2 (1)-verteilt.
• χ 2 (n) − χ 2 (1) = χ 2 (n − 1) gilt wegen der Additivität der χ 2 -Quadratverteilung.
• Die Verteilung von X 2 =
(n−1)S2
σ2
besitzt somit n − 1 Freiheitsgrade.
1.39 Erwartungswert und Varianz der nicht zentralen χ 2 -Verteilung (S. 158)
Wegen der doch sehr komplexen Ableitungen soll hier auf Spezialliteratur verwiesen werden:
Abramowitz & Stegun (1972), Abschnitt 26.4.25.
1.40 Freiheitsgrade des Residuums in der linearen Regression (S. 161)
Die Freiheitsgrade bei der Schätzung der Varianz ergeben sich durch die Festlegung des, Mittelwerts
und dass alle Werte um den Mittelwert so streuuen, dass der Mittelwert der Abweichungen Null
ergibt. Wir erhalten mit ei = xi − x̄ dann die Restriktion
e1 + e2 + ... + en = 0
– 28 –
Damit können nur n − 1 der Abweichungswerte frei variieren.
Bei der linearen Regression ist der Fehler durch
ei = yi − a − bxi
definiert. Wie oben bei der Varianz ist wieder
e1 + e2 + ... + en = 0
anzunehmen. Aber da die Korrelation (bzw. Kovarianz) zwischen Fehler und Prädiktor Null sein soll,
gilt
COV (E, X) = (e1 − 0)(x1 − x̄) + (e2 − 0)(x2 − x̄) + ... + (en − 0)(xn − x̄) = 0
e1 (x1 − x̄) + e2 (x2 − x̄) + ... + en (xn − x̄) = 0
e1 x1 + e2 x2 + ... + en xn + e1 x̄ + e2 x̄ + ... + en x̄ = 0
e1 x1 + e2 x2 + ... + en xn + (e1 + e2 + ... + en )x̄ = 0
e1 x1 + e2 x2 + ... + en xn = 0
Wir erhalten also eine zweite Gleichung, die die Residuen ei erfüllen müssen. Damit können nur n − 2
der Residualwerte frei variieren. Wir sprechen dann davon, dass n − 2 Freiheitsgrade vorliegen.
1.41 Zur Herleitung der t -Verteilung (S. 162)
Wie oben (Kapitel 1.37) gezeigt wurde, gilt
n
∑
i=1
Yi − µ
σ
2
n
=
∑
i=1
Yi − Ȳ
σ
2
Ȳ − µ
+
σȲ
2
einer χ 2 -Verteilung mit n Freiheitsgraden und Ȳσ−µ
ist χ 2 -verteilt mit
Ȳ
2
einem Freiheitsgrad. Mithin ist ∑ni=1 Yi σ−Ȳ
χ 2 -verteilt mit (n − 1) Freiheitsgraden. Wir definieren
2
C = ∑ni=1 Yi σ−Ȳ .
Nun folgt ∑ni=1
Yi −µ
σ
2
2
Der Nenner der t-Verteilung ist S/σ . Die Zufallsvariable S ist durch
s
1 n
S=
∑ (Yi − Ȳ )2
n − 1 i=1
definiert. Es gilt somit
q
S
σ
=
1
n−1
∑ni=1 (Yi − Ȳ )2
σ
v
u
u 1 n Yi − Ȳ 2
= t
∑ σ
n − 1 i=1
r
C
=
n−1
– 29 –
Damit folgt der Nenner der t-Verteilung einer Verteilung der Form
q
χ 2 (n−1)
n−1 .
1.42 Erwartungswert und Varianz der nicht-zentralen t -Verteilung (S. 165)
Auch hier soll wegen der komplizierten Ableitungen auf die Literatur (Hogben & Wilk, 1961) verwiesen werden.
1.43 Das Verhältnis von Varianzen und die F -Verteilung (S. 166)
Sind S12 und S22 Varianzschätzungen auf der Basis von statistisch unabhängigen normalverteilten Zufallsvariablen, dann ist S12 χ 2 (n1 − 1)-verteilt und entsprechend S22 χ 2 (n2 − 1)-verteilt. Damit ist S12 /S22
F(n1 , n2 )-verteilt.
1.44 Die Summe von normalverteilten Zufallsvariablen ist normalverteilt (S. 185)
Ob unkorreliert oder nicht, die Summe von normalverteilten Zufallsvariablen ist normalverteilt. Da
die Korrelation(en) berücksichtigt werden müssen, ist die Ableitung wieder sehr aufwändig. Hier
deshalb der Verweis auf Weisstein(2003).
1.45 Arithmetisches Mittel von 0-1-Variablen (S. 193)
Wird das interessierende Ereignis bei der Beobachtung i mit yi = 1 kodiert und alles andere mit Null,
so ergibt sich aus
n
ȳ = 1/n ∑ yi = k/n,
i=1
wobei k die Anzahl der interessierenden Ereignisse ist. ȳ ist somit die relative Häufigkeit.
1.46 Exakte Berechnung der Verteilung von Anteilswerten (S. 197)
Tatsächlich ist der Aufwand den exakten Wert P(Y > 15) = 1 − P(Y ≤ 15) zu bestimmen ist mit
Computerhilfe nicht besoders hoch. Die Ausgangswerte sind n = 300, y = 15, π = 0.04. Wir erhalten
die folgende Tabelle
– 30 –
y
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Dichte
0.0000
0.0001
0.0004
0.0015
0.0048
0.0118
0.0242
0.0423
0.0646
0.0873
0.1059
0.1163
0.1167
0.1077
0.0920
0.0731
Wahrscheinlichkeitsfunktion
0.0000
0.0001
0.0004
0.0020
0.0068
0.0186
0.0428
0.0851
0.1497
0.2370
0.3429
0.4593
0.5760
0.6837
0.7758
0.8489
Mehr als 15 Fälle zu beobachten hat somit die Wahrscheinlichkeit P(Y > 15) = 1 − P(Y ≤ 15) =
1 − 0.8489 = 0.1511.
Noch einfacher läßt sich P(Y ≤ 15) ermitteln, wenn man R oder ein Kalkulationsblatt (OpenOffice/Excel) nutzt. Im letzten Fall liefert die Formel
= BINOMV ERT (15; 300; 0, 04; 1)
das gewünschte Ergebnis.
1.47 Anzahl von Bootstrapstichproben (S. 200)
Die Frage ist, wieviele unterschiedliche Bootstrapstichproben der Größe n sich aus n unterschiedlichen Beobachtungen erzeugen lassen.
Man überlegt sich leicht, dass es sich hier um ein Urnenmodell mit Zurücklegen ohne Beachtung
der Reihenfolge handelt. Wie gezeigt wurde, gibt es in diesem Fall bei k Ziehungen aus n Werten
insgesamt
n+k−1
k
mögliche Tupel. Im Falle der Bootstrapstichproben ist k = n und wir erhalten
2n − 1
n
unterschiedliche Stichproben, die allerdings nicht gleichwahrscheinlich sind.
1.48 Schätzeigenschaften des Medians (S. 214)
Ist Y normalverteilt, ist ymed eine erwartungstreue Schätzung der Medians (und damit des Parameters
µ) der Verteilung.
– 31 –
Der Mittelwert ist allerdings ein effizienter Schätzer, da für jede Stichprobengröße n gilt: Var[ȳ] ≤
Var[ymed ] und für grosses n das Verhältnis
Var[ȳ]
2
= = 0.637
Var[ymed ] π
berechnet werden kann.
Im allgemeinen ist der Median auf kein erwartungstreuer Schätzer! Nehmen wir eine schiefe, diskrete
Verteilung, z.B. die Verteilung (1, p(1) = 0.49), (2.p(2) = 0.31), (3, p(3)) = 0.2). Ziehen wir nun
eine Stichprobe von 3 Elementen aus dieser Verteilung, dann kann man Wahrscheinlichkeiten der
Wertekombinationen über eine Multinomialverteilung berechnen:
Wert 1
1
1
1
1
1
1
2
2
2
3
Wert 2
1
1
1
2
2
3
2
2
3
3
Wert 3
1
2
3
2
3
3
2
3
3
3
p
0,1176
0,2233
0,1441
0,1413
0,1823
0,0588
0,0298
0,0577
0,0372
0,0080
Stichprobenmedian
1
1
1
2
2
3
2
2
3
3
Es läßt sich nun leicht ausrechnen, dass der Erwartungswert der Stichprobenmedian 1,619 ist –
das entspricht natürlich nicht dem Median der Populationsmedian, den man mit 2 leicht bestimmen
kann.
Offensichtlich ist die Bildung des Erwartungswertes für die Berechnung des Bias das Problem. Es gibt
ein alternatives Konzept, den sog. Median-Bias. Hier wird nicht der Erwartungswert der geschätzten
Stichprobenparameter genutzt, sondern der Median. Nutzt man dieses Konzept ist ist der Median
„Median unbiased”.
1.49 Momentenerzeugende Funktionen
Für kompliziertere Verteilungen (wie etwa t- oder F-Verteilungen) lohnt es sich zu überlegen, wie
man – mehr oder weniger – direkt zu Erwartungswerten, Varianzen etc. gelangt. Dies erfolgt über die
momentenerzeugende Funktion, die oftmals unkomplizierter zu berechnen ist als die direkte Berechnung der gewüschten Werte.
Für eine Verteilung einer Zufallsvariablen Y mit Dichtefunktion fY ist die momentenerzeugende
Funktion MY (t) definiert durch
Z ∞
MY (t) =
ety f (y)dy
−∞
= 1 + tmY1 +
t2 2
tn
mY + ... + mYn + ...
2
n!
Hierbei sind
E(Y ) = mY1
Var(Y ) = mY2 − (mY1 )2
– 32 –
1.50 Erwartungstreue der Varianz (S. 217)
Gegeben sind n Zufallsvariablen Y1 , ...,Yn , die identisch und unabhängig verteilt sind (i.i.d.) mit gemeinsamer Varianz σ 2 und gemeinsamen Erwartungswert µ.
Zu zeigen ist: Für S2 = 1/(n − 1) ∑i (Yi − Ȳ )2 gilt
E(S2 ) = σ 2 .
2
E(S ) = E
1 n
(Yi − Ȳ )2
n−1 ∑
i
!
=
1 n
E (Yi − Ȳ )2
∑
n − 1 i=1
=
1 n
E (Yi − µ + µ − Ȳ )2
∑
n − 1 i=1
=
=
1 n
E (Yi − µ)2 + (µ − Ȳ )2 + 2(Yi − µ)(µ − Ȳ )
∑
n − 1 i=1
1 n
E (Yi − µ)2 + E (µ − Ȳ )2 + 2E ((Yi − µ)(µ − Ȳ ))
∑
n − 1 i=1
=
1 n 2 σ2
∑ σ + n + 2E ((Yi − µ)(µ − Ȳ ))
n − 1 i=1
=
1
n−1
=
=
=
=
=
=
1
n−1
1
n−1
1
n−1
1
n−1
1
n−1
1
n−1
!
n
2
(n + 1)σ + ∑ 2E ((Yi − µ)(µ − Ȳ ))
i=1
!!
n
2
(n + 1)σ + 2E
∑ (Yi − µ)(µ − Ȳ )
i=1
!!
n
(n + 1)σ 2 + 2E
∑ (Yi µ −YiȲ − µ 2 + µȲ )
i=1
(n + 1)σ 2 + 2E nȲ µ − nȲ Ȳ − nµ 2 + nµ Ȳ )
(n + 1)σ 2 + 2nE Ȳ µ − Ȳ 2 − µ 2 + µ Ȳ )
(n + 1)σ 2 − 2nE Ȳ 2 + µ 2 − 2µ Ȳ )
(n + 1)σ 2 − 2nE (Ȳ − µ)2
σ2
1
2
E(S ) =
(n + 1)σ − 2n
n−1
n
1
=
(n − 1)σ 2
n−1
= σ2
2
– 33 –
1.51 Die Standardabweichung ist nicht erwartungstreu (S. 217)
Nach der sog. Jensenschen Ungleichung gilt für eine konkave Funktion f
!
f
∑ λi xi
i
≥ ∑ λi f (xi )
i
Da die Quadratwurzel eine konkave Funktion ist, gilt
q q
E [sX ] = E
s2X ≤ E[s2X ] = σX
Die geschätzte Standardabweichung als Wurzel der erwartungstreuen Schätzung der Varianz wird die
wahre Standardabweichung also in der Regel unterschätzen.
Ist X normalverteilt, kann man den Faktor der Unterschätzung in Abhängigkeit von der Stichprobengröße berechnen:
Stichprobengröße
2
5
10
15
Korrekturfaktor
1.253314
1.063846
1.028109
1.018002
Für n > 15 spielt damit diese Verzerrung so gut wie keine Rolle mehr.
1.52 Starke und schwache Konsistenz von Schätzern (S. 218)
Ein Schätzer θ̂ heisst stark konsistent oder konsistent im quadratischen Mittel, wenn
lim VAR(θ̂ ) + Bias(θ̂ )2 = 0
n→∞
gilt. Für grosses n tendieren somit sowohl die Varianz als auch der Bias des Schätzers gegen 0.
Etwas allgemeiner ist die schwache Konsistenz eines Schätzers. Ein Schätzer heißt schwach konsistent, wenn für beliebig kleines ε gilt
lim P(|θ̂ − θ | ≥ ε) = 0
n→∞
1.53 Zweite Ableitung der Log-Likelihood (S. 227)
Die Funktion
H(x) =
∂ 2 LL(θ )
(x)
∂θ2
ist bei Gültigkeit gewisser Regularitätsbedingungen mit der Varianz von θ̂ verknüpft. Es gilt:
−
1
= Var(θ̂ )
H(θ̂ )
– 34 –
Beispielsweise ist die zweite Ableitung der LogLikelihood nach µ bei einer Normalverteilung:
H(x) = −
Damit ist
−
n
σ2
σ2
1
=
H(µ̂)
n
Dies ist identisch mit dem Standardfehler des Mittelwerts.
1.54 Die Rao-Cramer-Schranke (S. 220)
Der Nachweis, dass −1/H(θ̂ ) tatsächlich eine untere Schranke für die Varianz bildet ist relativ aufwändig. Hier ein paar Verweise auf Internetressourcen, in denen der Beweis durchgerechnet wird:
Scott & Novack(2004) oder Cizek, Härdle & Weron (2005).
1.55 Likelihood und Dichte im Falle der Binomialverteilung (S. 228)
Zu zeigen ist:
Z 1 n
0
y
py (1 − p)n−y d p =
1
<1
n+1
Zunächst einmal lassen sich die Fälle y = 0 und y = n sehr leicht zeigen:
Z 1 Z 1
n 0
n−0
p (1 − p) d p =
(1 − p)n
0
0
0
−(1 − p)n+1 1
=
0
n+1
−(1 − 0)n+1
1
= 0−
=
n+1
n+1
sowie
Z 1 n n
p (1 − p)n−n d p
0
n
Z 1
=
=
pn
0
pn+1
1
n+1
0
=
1
n+1
für den allgemeinen Fall 0 < y < n führen wir das Integral auf den Fall y = n zurück. Hierfür nutzen
wir die folgende Iterationsformel, die mittels partieller Integration berechnet wird:
Z 1 n
0
y
y
n−y
p (1 − p)
y+1
Z 1 n py+1
n p
n−y 1
dp =
(1 − p)
−
(−1)(n − y)(1 − p)n−y−1 d p
0
y y+1
y y+1
0
Z 1 n n − y y+1
= 0+
p (1 − p)n−(y+1) d p
y y+1
0
Z 1
n
=
py+1 (1 − p)n−(y+1) d p
y+1
0
– 35 –
Durch mehrmaliges Anwenden der Iterationsgleichung ergibt sich
Z 1 Z 1 n y
n n
n−y
p (1 − p) d p =
p (1 − p)n−n d p
y
n
0
0
1
=
n+1
1.56 Zweite Ableitung der Log-Likelihood einer normalverteilter Zufallsvariablen (S.
231)
Für eine normalverteilte Zufallsvariable gilt
∂ LL
1
= 2 ∑(yi − µ)
∂µ
σ i
Die zweite Ableitung nach µ damit
∂ 2 LL
1
n
= 2 ∑ −1 = − 2 < 0
2
∂µ
σ i
σ
1.57 Maximum-Likelihood-Schätzungen (S. 231)
1.57.1 Poissonverteilung
Es liegen die (ganzzahligen und nicht-negativen) Beobachtungen y1 , ..., yn vor. Gesucht ist der Parameter λ der Poissonverteilung, die die Daten am besten beschreibt.
Für jeden Datenpunkt i ist der Likelihoodanteil
λ yi exp(−λ )
yi !
bzw. als Log-Likelihood-Anteil
ln(λ )yi − λ − ln(yi !)
Aufsummiert über alle Beoachtungen ergibt sich
LL(λ ) = ln(λ ) ∑ yi − nλ − ∑ ln(yi !)
i
i
Ableiten nach λ ergibt
∂ LL(λ ) ∑i yi
=
−n
∂λ
λ
Nullsetzen ergibt
∑i yi
−n = 0
λ̂
∑i yi
= n
λ̂
∑ yi = nλ̂
i
λ̂
=
– 36 –
∑i yi
= ȳ
n
1.57.2 Geometrische Verteilung
Es liegen die (ganzzahligen und positiven) Beobachtungen y1 , ..., yn vor. Gesucht ist der Parameter π
der geometrischen Verteilung, die die Daten am besten beschreibt.
Für jeden Datenpunkt i ist der Likelihoodanteil
π(1 − π)yi −1
bzw. als Log-Likelihood-Anteil
ln(π) − ln(1 − π)(yi − 1)
Aufsummiert über alle Beoachtungen ergibt sich
LL(π) = n ln(π) − ln(1 − π)(n − ∑ yi )
i
Ableiten nach π ergibt
∂ LL(π)
n n − ∑i yi
= +
∂π
π
1−π
Nullsetzen ergibt
n n − ∑i yi
+
= 0
π̂
1 − π̂
n
∑i yi − n
=
π̂
1 − π̂
n(1 − π̂) = π̂(∑ yi − n)
i
ˆ y − nπ̂
n − nπ̂ = ∑
i i
n = π̂ ∑ yi
i
1 = π̂ ȳ
1
π̂ =
ȳ
1.57.3 Regressionskoeffizienten in der linearen Regression
Wir nehmen an, dass der Fehler Y − Ŷ eine Zufallsvariable bildet, die N(0, σ )-verteilt ist.
Dann ist die Zufallsvariable für die Vorhersage eines Wertes Yi N(b0 + b1xi , σ )-verteilt.
Die Likelihood der Werte y1 , ..., yn ist somit:
n
L(Y |b0 , b1 , σ ) = ∏ f (Yi |b0 , b1 , σ )
i=1
Die LogLikelihood ist dann entsprechend
n
LL = −n/2log(2π) − n/2log(σ 2 ) − 1/(2σ 2 ) ∑ (Yi − b0 − b1 xi )2
i=1
– 37 –
Ableiten nach b0 , b1 und σ 2 ergibt folgende Bestimmungsgleichungen
n
∑ (yi − b̂0 − b̂1 xi ) = 0
i=1
n
∑ xi (yi − b̂0 − b̂1 xi ) = 0
i=1
n
∑ (yi − b̂0 − b̂1 xi )2 = nσ̂ 2
i=1
Wir erhalten
b̂1 =
Sx,y
Sx
b̂0 = ȳ − b̂1 x̄
n
σ̂ 2 = 1/n ∑ (yi − b̂0 − b̂1 xi )2
i=1
Der Schätzer für die Residualvarianz ist bei der ML-Schätzung nur asymptotisch erwartungstreu!
1.58 Der Satz von Bayes auf der Basis stetiger Dichten (S. 240)
Die gemeinsame Dichtefunktion von X und Y sei f (x, y) dann gilt:
f (x|y) f (y)
−∞ f (x|y) f (y)dy
f (y|x) = R ∞
Dies gilt, da
f (y|x) =
f (y|x) f (y)
f (x, y
=
f (x)
f (x)
Die Randdichte f (x) läßt sich durch
Z ∞
f (x) =
Z ∞
f (x, y)dy =
−∞
f (x|y) f (y)dy
−∞
berechnen. Beides zusammen ergibt die Behauptung.
1.59 Berechnung einer EAP-Schätzung (S. 241)
Die A-posterio-Verteilung für das Beispiel mit y = 4 war
π
0,1
0,3
0,5
0,7
P A-posteriori
0,007
0,238
0,733
0,022
Damit ergibt sich für den Erwartungswert:
π̂EAP = 0.1 · 0, 007 + 0.3 · 0, 238 + 0, 5 · 0, 733 + 0.7 · 0, 022 = 0.455.
– 38 –
1.60 Erwartungswert und Varianz der A-posteriori-Verteilung bei normalverteilten
Zufallsvariablen (S. 242)
2
Für die Ableitung nutzen wir die Abkürzungen µ0 = µ prior und σ02 = σ prior
.
Da f (µ|D) = f (D|µ) f (µ|µ0 , σ0 )/ f (µ) gilt, erhalten wir (bis auf uninteressante Konstanten)
!
= exp −1/(2σ 2 ) ∑(xi2 + µ 2 − 2xi µ) − 1/(2σ02 )(µ 2 + µ02 − 2µ µ0 )
i
!
= exp −µ
2
/2(1/σ02 + n/σ 2 ) + µ(µ0 /σ02 + nx̄/σ 2 ) − (µ02 /(2σ 2 ) +
∑
xi2 /(2σ 2 )
i
Diese Funktion muss der folgenden Funktion entsprechen:
2
2
2
exp(−1/(2σ post
)(µ − µ post )2 = exp(−1/(2σ post
)(µ 2 + µ post
− 2µ µ post )
Koeffizientenvergleich ergibt:
2
−µ 2 /(2σ post
) = −µ 2 /2(1/σ02 + n/σ 2 )
2
1/σ post
2
σ post
= 1/σ02 + n/σ 2
=
σ2
n + σ 2 /σ02
... und noch ein weiterer Koeffizientenvergleich (für µ) ergibt:
nx̄ µ0
2
−2µ µ post /(−2sigma post ) = µ
+
σ 2 σ02
nx̄ µ0
µ post /sigma2post =
+
σ 2 σ02
µ post
=
σ02 nx̄ + σ 2 µ0
σ02 σ 2
=
σ02 nx̄ + σ 2 µ0
σ2
n + σ 2 /σ02
σ02 σ 2
=
nσ02
σ2
x̄
+
µ0
nσ02 + σ 2
nσ02 + σ 2 )
1.61 Konfidenzintervalle von Varianzen ohne Verteilungsannahme (S. 266)
Das Problem bei nicht normalverteilten Zufallsvariablen ist für die Bildung eines Konfidenzintervalls
einer Varianz die Kurtosis γ („Steilheit” bzw. „Flachheit”) der Verteilung. Eine relativ einfache Methode besteht darin, die asymptotische Approximation der Verteilung der Stichprobenvarianz durch
eine Normalverteilung mit Erwartungswert σ 2 und Varianz
Var(S2 ) =
(γ − 1)σ 4
n
– 39 –
Dies führt dann zu dem Konfidenzintervall
S2
1 + z1−α/2
q
S2
≤ σ2 ≤
γ̂−1
n
1 − z1−α/2
q
γ̂−1
n
Die Approximation liefert für kleines n unbefriedigende Ergebnisse. Etwas besser ist es, wenn man
die Normalverteilungsapproximation von ln(S2 ) nutzt. In diesem Fall lautet das Konfidenzintervall
!
!
r
r
γ̂ − 1
γ̂ − 1
2
2
2
S exp −z1−α/2
≤ σ ≤ S exp z1−α/2
n
n
Alternativ lassen natürlich auch Bootstrap-Methoden anwenden.
Weitere Informationen finden sich hier: Hummel, R., Banga, S., & Hettmansperger, T.P. (2005). Better
confidence intervals for the variance in a random sample. Minitab Technical Report.
http://www.minitab.com/support/documentation/answers/OneVariance.pdf
1.62 Maximale Stichprobengröße für ein Konfidenzintervall eines Anteilswertes (S.
269)
Hat man die Vermutung, dass einen fester Wert π das Ergebnis sein wird, nimmt man diesen Wert
p = π zur Bestimmung der Stichprobengröße. Realistischer ist die Annahme, dass sich π irgendwo
in einem Intervall πmin , πmax befindet. Ist 0.5 ein Element des Intervalls, setzt man p = 0.5, ansonsten
nimmt man die Intervallgrenze, die den kleinsten Abstand von 0.5 aufweist.
Will man nun ein (1 − α)-Konfidenzintervall mit maximaler Größe m berechnen, gilt für die gesuchte
Stichprobengröße:
p(1 − p)
n ≤ z21−α/2
m2
1.63 Varianz eines Schätzers in der multiplen Regression (S. 270)
Um die Varianz eines Schätzers in der multiplen Regression zu berechnen, müssen wir uns der Matrixalgebra bedienen. Hier ist X die Datenmatrix der Prädiktoren und y der Datenvektor des Kriteriums.
Um die Rechnungen einfacher zu gestalten, sollen alle Variablen Mittelwert Null aufweisen.
Zunächst ermitteln wir mittels
b = (X 0 X)−1 X 0 y
Die b-Gewichte sind hierbei Schätzungen der wahren Werte β . Wenn wir die wahren Werte β wüßten
und Fehlervekrot ε, können wir y = Xβ + ε genau bestimmen. Wir erhalten
b = (X 0 X)−1 X 0 y
= (X 0 X)−1 X 0 (Xβ + ε)
= (X 0 X)−1 X 0 Xβ + (X 0 X)−1 X 0 ε
= β + (X 0 X)−1 X 0 ε
– 40 –
Da die die Werte der Prädiktoren als fest angenommen werden, ist E((X 0 X)−1 X 0 ε) = (X 0 X)−1 X 0 E(ε)
und da E(ε) = 0 angenommen wird, ist
E(b) = β
Bleibt noch die Varianz von b zu bestimmen. In Matrixschreibweise ist
Var(b) = E((b − E(b))(b − E(b)0 )
Wir wissen, dass b = β + (X 0 X)−1 X 0 ε gilt, somit ist
Var(b) = E((b − E(b))(b − E(b)0 )
= E((X 0 X)−1 X 0 ε((X 0 X)−1 X 0 ε)0 )
= E((X 0 X)−1 X 0 εε 0 X(X 0 X)−1
Hierfür muss die Varianz von ε
Var(ε) = εε 0
berechnet werden. Wir nehmen an, dass Homoskedastizität vorliegt, dh dass für jeden Datenpunkt
die gleiche Varianz σ 2 vorliegt und dass die Fehler zwischen den Datenpunkten nicht korrelieren. In
diesem Fall ist
Var(ε) = Iσ 2
mit I als Einheitsmatrix. Da wir wieder die Ausprägungen der Prädiktoren als konstant annehmen,
gilt
Var(b) = E((X 0 X)−1 X 0 εε 0 X(X 0 X)−1
= (X 0 X)−1 X 0 E(εε 0 )X(X 0 X)−1
= (X 0 X)−1 X 0 Iσ 2 X(X 0 X)−1
= σ 2 (X 0 X)−1 X 0 X(X 0 X)−1
= σ 2 (X 0 X)−1
Die Diagonalterme der resultierenden Matrix ergeben die Varianz der Schätzung des jeweiligen bKoeffizienten. Die Werte außerhalb der Diagonalen sind die Kovarianzen der Schätzungen der bKoeffizienten.
1.64 t -Verteilung der Testwerte in der multiplen Regression (S. 270)
Liegt eine multivariate Normalverteilung vor und ist σi2 die Varianz der Schätzung des Koeffizienten
bi , die wir der Matrix Var(b) aus dem vorherigen Abschnitt entnommen haben, dann ist
z=
bi − β
σi
standardnormalverteilt.
Leider ist σ 2 nicht bekannt. Wir können allerdings aus den beoabchteten Fehlerwerten e mittels e0 e
die Summe der Abweichungsquadrate von der Regressionsgeraden berechnen. Um σ 2 zu bestimmen
muss die Summe der Abweichungsquadrate durch die adäquante Anzahl von Freiheitsgraden dividiert
– 41 –
werden. Bei k Prädiktoren und n Beoachtungen liegen dann n − k Freiheitsgrade vor. Wir schätzen σ
also durch
e0 e
σ̂ =
n−k
Damit erhalten wir eine Schätzung für die Varianz-Kovarianzmatrix der Schätzungen der b-Gewichte:
0
\ = e e (X 0 X)−1
Var(b)
n−k
Ist nun σ̂i2 die Schätzung der Varianz der Schätzung des Koeffizienten bi , so ist (unter der Annahme
einer multivariaten Normalverteilung
bi − β
t=
σ̂i
t-verteilt mit (n − k) Freiheitsgraden.
1.65 Konfidenzintervalle für Odds Ratios (S. 272)
Odds Ratios werden zur Beschreibung von Zusammenhängen in 2x2-Tabellen genutzt. In unserem
ersten Band haben wir als Beispiel den Zusammenhang zwischen Arbeitslosigkeit und Angststörungen diskutiert (Holling & Gediga, 2011, S. 202). Die Daten waren wie folgt:
Arbeitslos
Erwerbstätig
Angststörung
n11 = 231
n21 = 125
keine Angststörung
n12 = 769
n22 = 875
Gesamt
n1• = 1 000
n2• = 1 000
Das Chancenverhältnis in der Gruppe der Arbeitslosen zu erkranken im Vergleich zur Erkrankung
von erwerbstätigen Personen, ist nach dem Beispiel 2.1:1. Berechnet wurde dieses Verhältnis durch
das sogenannte Kreuzprodukt
n11 n22
OR =
n21 n12
Die Frage, die geklärt werden muss, ist, ob ein Konfidenzintervall das Verhältnis 1:1 (also gleiche
Erkrankungschancen für Arbeitslose und Erwerbstätige) überdeckt oder nicht.
Man kann zeigen, dass LOR = ln(OR) näherungsweise normalverteilt ist mit der Varianz
2
σLOR
=
1
1
1
1
+
+
+
n11 n12 n21 n22
2
Mit LOR und σLOR
kann man dann die Konfidenzgrenzen in den logarithmierten Odds Ratios berechnen und dann mittels der Exponentialfunktion wieder zurücktransformieren.
– 42 –
Beispiel : Konfidenzintervalle für Odds Ratios
Die Daten sind n11 = 231, n12 = 769, n21 = 125 und n22 = 875.
Damit ist OR = 2.1 und LOR = ln(OR) = 0.7432.
Die geschätzte Varianz des LOR ist:
2
σ̂LOR
=
1
1
1
1
+
+
+
= 0.01477,
231 769 125 875
bzw. σ̂LOR = 0.1215.
Damit sind die Intervallgrenzen für ein 95%-Konfidenzintervall festgelegt:
LORo = LOR + z1−α/2 × σ̂LOR = 0.7432 + 1.96 × 0.1215 = 0.9813
LORu = LOR + z1−α/2 × σ̂LOR = 0.7432 − 1.96 × 0.1215 = 0.5051
Die Rücktransformation der LOR-Werte ergibt die Grenzen des Konfidenzintervalls für das Odds
Ratio.
ORo = exp(LORoben ) = exp(0.9813) = 2.6679
ORu = exp(LORunten ) = exp(0.5051) = 1.6572
Das Konfidenzintervall [1.6572, 2.6679] überdeckt den Wert 1 nicht. Wir können davon ausgehen,
dass das Erkrankungsrisiko bei Arbeitslosen größer ist als bei Erwerbstätigen.
– 43 –
2 Übungsaufgaben
2.1 Übung 1: Kapitel 2
Die folgende Tabelle stellt die Wahrscheinlichkeitsfunktion für die Anzahl der richtig gelösten Aufgaben bei einem Test mit sechs Aufgaben dar:
yi
P(Y = yi )
0
0.10
1
0.10
2
0.20
3
0.27
4
0.25
5
0.05
6
0.03
1. Wie groß ist die Wahrscheinlichkeit, mindestens fünf Aufgaben richtig zu lösen?
2. Mit welcher Wahrscheinlichkeit werden höchstens vier Aufgaben richtig gelöst?
3. Nehmen Sie an, Sie würden nicht die vollständige in der Tabelle angegebene Wahrscheinlichkeitsfunktion kennen, sondern nur die Wahrscheinlichkeit für das Ereignis, dass höchstens zwei
Aufgaben richtig gelöst werden, d. h. P(Y ≤ 2) = 0.4. Können Sie trotzdem die Wahrscheinlichkeit für das Ereignis ausrechnen, dass mehr als zwei Aufgaben richtig gelöst werden? Wenn
ja, bestimmen Sie diese Wahrscheinlichkeit.
44
2.2 Übung 2: Kapitel 2
Die Häufigkeit mit der Brustkrebs in einer typischen Population von Frauen in Deutschland, die an
Vorsorgeuntersuchungen teilnehmen, vorkommt, beträgt ungefähr 0.15%. Bei der Vorsorgeuntersuchung für Brustkrebs kommen falsch positive Befunde sehr selten vor, wenn sie von einem erfahrenen Gynäkologen bzw. einer erfahrenen Gynäkologin durchgeführt wird. Die Rate beträgt lediglich
0.27%. Falsch negativ sind etwa 10% der Ergebnisse, d.h. jeder zehnte Fall von Brustkrebs wird bei
der Mammographie übersehen. Wie groß ist die Wahrscheinlichkeit, dass eine Frau bei einem positiven Ergebnis der Vorsorgeuntersuchung tatsächlich Brustkrebs hat?
– 45 –
2.3 Übung 3: Kapitel 3
In der differentiellen Psychologie interessiert man sich für interindividuelle Unterschiede hinsichtlich
Fähigkeiten, Persönlichkeitsmerkmalen usw. Häufig wird angenommen, dass eine interessierende Fähigkeit in einer bestimmten Population normalverteilt ist.
Nehmen Sie an, dass die Ergebnisse in einem Intelligenztest eine Normalverteilung mit dem Erwartungswert 100 und der Standardabweichung 10 besitzen.
Wie ist bei diesem Test ein Ergebnis von 120 zu beurteilen?
Hinweis: Betrachten Sie den Wert von 120 relativ zur Verteilung der Testergebnisse in der Population.
– 46 –
2.4 Übung 4: Kapitel 3
Die Werte eines Hochschuleingangstests, der von einer Universität für einen attraktiven Studiengang
durchgeführt wird, seien normalverteilt mit Erwartungswert µ = 22 und Varianz σ 2 = 16. Wie groß
ist die Wahrscheinlichkeit, zufällig auf einen Studierenden zu treffen, der in dem Test mit einem
Ergebnis über 32 abgeschnitten hat?
Nutzen Sie hierbei sowohl die Tabellen im ANhang oder alternativ die angebotenen Möglichkeiten von R – entweder das Verteilungs-Menü vom R-Commander oder die R-Funktion pnorm(y,
mean=wert, sd=wert).
– 47 –
2.5 Übung 5: Kapitel 4
Diese Aufgabe soll Sie mit der Bestimmung von Wahrscheinlichkeiten an Hand der tabellierten Verteilungsfunktion der Standardnormalverteilung Φ vertraut machen. Nehmen Sie an, die Verteilung
eines Intelligenztests in einer Population sei nach geeigneter Standardisierung standardnormalverteilt.
Wie groß ist die Wahrscheinlichkeit, dass...
1. ... eine zufällig ausgewählte Person einen Wert kleiner als 2 erreicht?
2. ... eine zufällig ausgewählte Person einen Wert zwischen −1 und 2 erreicht?
3. ... eine zufällig ausgewählte Person einen Wert von höchstens −1.28 erreicht?
4. ... eine zufällig ausgewählte Person einen Wert größer als −1.64 erreicht?
5. ... eine zufällig ausgewählte Person einen Wert (i) zwischen −2.33 und 2.33, (ii) oberhalb von
2.33 oder (iii) unterhalb von 2.33 erreicht?
6. Wie viel Prozent der Personen in der Population erreichen einen Wert von mindestens 1? Wie
viel Prozent der Personen in der Population erreichen einen Wert von höchstens −1?
7. Oberhalb von welchem Wert liegen (i) 1 Prozent, (ii) 5 Prozent, (iii) 10 Prozent der Personen?
8. In welchem um den Erwartungswert symmetrischen Intervall liegen 95 Prozent der Werte?
– 48 –
2.6 Übung 6: Kapitel 4
Nehmen Sie an, Sie interessieren sich für Parapsychologie, insbesondere für Phänomene aus dem
Bereich der übersinnlichen Wahrnehmung. Sie haben nun die Gelegenheit, eine Person (Philipp) zu
untersuchen, die von sich behauptet telepathische Fähigkeiten zu besitzen. Sie führen folgendes Experiment mit Philipp durch: Sie bitten ihn, sich in einen Raum zu setzen. Sie setzen eine andere Person
(Gesa) in einen anderen Raum und legen ihr eine farbige Karte vor, die sie sich die ganze Zeit ansehen
soll. Die Karte kann eine der Farben Blau, Grün oder Rot haben. Philipp, der weiß um welche drei
Farben es geht, soll nun die Farbe der Karte benennen, die Gesa sieht. Sie stellen fest, ob Philipp die
richtige Farbe nennt. Sie führen dieses Experiment mit den beiden Personen 12 mal durch. Philipp
kann sieben mal die richtige Farbe benennen.
1. Sie sind skeptisch, ob Philipp wirklich telepathische Fähigkeiten besitzt und nehmen an, dass er
die Farben rät. Bestimmen Sie die Wahrscheinlichkeiten für alle möglichen Ausgänge (Anzahl
der richtig genannten Farben) dieses Experiments. Wie wahrscheinlich ist unter der Annahme
des Ratens das Ergebnis von Philipp?
2. Wie wahrscheinlich ist es, ein solches Ergebnis wie Philipp oder eine noch höhere Trefferanzahl
zu erreichen?
3. Wie wahrscheinlich ist es, dass ein Ergebnis zwischen (inklusive) zwei und sechs Treffern
resultiert?
4. Kann das Ergebnis des Experiments Ihrer Meinung nach so interpretiert werden, dass Philipp
tatsächlich telepathische Fähigkeiten besitzt?
– 49 –
2.7 Übung 7: Kapitel 4
1. Bestimmen Sie das .90-Quantil und das .95-Quantil für die zentrale χ 2 -Verteilung mit 1 FG
unter Verwendung der Standardnormalverteilung.
2. Bestimmen Sie das .05-Quantil und das .99-Quantil für die zentrale t-Verteilung mit 5 FG und
weiterhin mit 15 FG unter Verwendung der F-Verteilung.
– 50 –
2.8 Übung 8: Kapitel 5
Deutschlandweit sei bei den Psychologiestudierenden mit p = .50 die Statistik das unbeliebteste Fach.
In Münster finden Sie in einer Zufallstichprobe von 121 Studierenden der Psychologie eine relataive
Häufigkeit von 0.45, dass die Statistik das ungeliebteste Fach ist (das sind alles fiktive Daten!)
1. Kann der zentrale Grenzwertsatz für Binomialverteilungen genutzt werden?
2. Berechnen Sie den z-Wert der realativen Häufigkeit in deren Verteilung.
3. Beurteilen Sie den z-Wert: Ist es plausibel anzunehmen, dass der Unterschied durch Zufall
entstanden ist?
– 51 –
2.9 Übung 9: Kapitel 6
Im Rahmen ihrer Forschungen zur Eheberatung erhebt eine Forscherin unter anderem das Einkommen
der Lebenspartner (Ym der Männer und Y f der Frauen). Sie interessiert sich besonders für Situationen,
in denen beide Partner berufstätig sind.
1. Ist es aus statistischer Sicht zu rechtfertigen, dass sie in ihren Stichproben den Mittelwert von
Ym +Y f nimmt, um µm + µ f zu schätzen?
2. Sie nimmt außerdem die Varianz des Gesamteinkommens, um σm2 + σ 2f zu schätzen. Was sagen
Sie dazu?
– 52 –
2.10 Übung 10: Kapitel 6
Sie untersuchen vier Versuchspersonen mit einem Test mit 10 Aufgaben. Sie gehen davon aus, dass
alle Aufgaben für alle Personen die gleiche Lösungswahrscheinlichkeit p aufweisen.
Sie erhalten von den vier Personen folgende Anzahl gelöster Aufgaben: 0, 3, 6 und 9.
Es stellt sich die Frage: „Wie sieht die Maximum-Likelihood-Schätzung für p aus?”
Für die Lösung ist zusätzlich folgende Tabelle der Dichte der Binomialverteilung gegeben:
k
0
1
2
3
4
5
6
7
8
9
10
p=.33
.01823
.08978
.19899
.26136
.22528
.13315
.05465
.01538
.00284
.00031
.00002
p=.37
.00985
.05785
.15288
.23943
.24608
.17343
.08488
.02848
.00627
.00082
.00005
p=.43
.00362
.02731
.09271
.18651
.24623
.22290
.14013
.06041
.01709
.00286
.00022
p=.45
.00253
.02072
.07630
.16648
.23837
.23403
.15957
.07460
.02289
.00416
.00034
p=.57
.00022
.00286
.01709
.06041
.14013
.22290
.24623
.18651
.09271
.02731
.00362
1. Welcher von den in der Tabelle angegebenen Werten für p hat die höchste Likelihood?
2. Zeigen Sie, dass in diesem Fall der Likelihood-Schätzer das gleiche Ergebnis wie ein Mittelwertschätzer ergibt.
– 53 –
2.11 Übung 11: Kapitel 7
Sie haben eine Untersuchung mit einer (Zufalls-)Stichprobe vom Umfang n = 29 Personen im Alter
über 65 durchgeführt. Sie interessieren sich für die Gedächtnisleistungen der Personen in einem entsprechenden Test. Auf Basis der Ergebnisse vieler Untersuchungen mit diesem Test an Stichproben
aus dem gleichen Altersbereich wissen Sie, dass die Annahme einer Normalverteilung in der Grundgesamtheit gerechtfertigt ist. Sie haben für die vorliegende Stichprobe einen Mittelwert von ȳ = 31
und eine Varianz von s2 = 39.0625 berechnet.
1. Bestimmen Sie ein (zweiseitiges) 95%-Konfidenzintervall für µ.
2. Bestimmen Sie bei einer Fehlerwahrscheinlichkeit von 5% ein Konfidenzintervall für σ 2 .
3. Welche Möglichkeiten sehen Sie, die Fehlerspanne bei Teilaufgabe b) zu verringern?
4. Gehen Sie davon aus, dass Sie erneut eine Untersuchung durchführen wollen, aber mit dem
Ergebnis aus a) für die Fehlerspanne unzufrieden sind. Sie möchten beim nächsten Mal eine
präzisere Schätzung für µ vornehmen und fragen sich, wie viele Personen Sie untersuchen müssen, wenn Sie 1) begründet annehmen können, dass die Populationsvarianz σ 2 = 36 betrage, 2)
Sie eine Fehlerwahrscheinlichkeit von α = .01 zu akzeptieren bereit sind und 3) ihre angezielte
Fehlerspanne 3 betragen soll.
– 54 –
2.12 Übung 12: Kapitel 7
Ein Proband möchte seinen zu hohen diastolischen Blutdruck durch ein tägliches autogenes Training
reduzieren. Er misst, nachdem er schon eine geraume Zeit täglich das autogene Training praktiziert,
an 11 Tagen unter kontrollierten Bedingungen den Blutdruck.
Es resultieren die folgenden Werte für den diastolischen Blutdruck:
84
84
86
86
87
87
87
88
88
90
90
Gehen Sie davon aus, dass die Daten Realisierungen von unabhängig identisch normalverteilten Zufallsvariablen sind.
1. Sie möchten überprüfen, ob ein für die Gesundheit kritischer Wert von 90 für den diastolischen
Blutdruck unterschritten wird. Wie lautet die entsprechende statistische Hypothese?
2. Bestimmen Sie das entsprechende einseitige Konfidenzintervall. Interpretieren Sie das Ergebnis
mit Bezug zur Hypothese aus a).
3. Bestimmen Sie das zweiseitige 95%-Konfidenzintervall für die Varianz der Blutdruckwerte.
– 55 –
2.13 Übung 13: Kapitel 7
Nach einer Verhaltenstherapie ist bei 35 von 100 Schülern eine deutliche Reduktion der Prüfungsangst
zu verzeichnen. Berechnen Sie das einseitige Konfidenzintervall, um den Anspruch der Therapeuten
zu überprüfen, bei mindestens einem Drittel der Schüler eine deutliche Reduktion der Prüfungsangst
zu erzielen. Berechnen Sie zusätzlich das zweiseitige Konfidenzintervall.
Nutzen Sie jeweils das klassische Wald-Konfidenzintervall auf der Basis der Varianzschätzung.
– 56 –
3 Lösung der Übungsaufgaben
3.1 Lösung zur Übung 1: Kapitel 2
1. Die Wahrscheinlichkeit, mindestens fünf Aufgaben richtig zu lösen, ist P(Y ≥ 5). Dieser Wert
wird berechnet, indem man die Wahrscheinlichkeiten P(Y = yi ) für alle möglichen Werte yi von
Y addiert, die zu dem Ereignis {Y ≥ 5} gehören. Im vorliegen Fall sind das die Wahrscheinlichkeiten für fünf oder sechs richtig gelöste Aufgaben. Es ergibt sich der Wert
P(Y ≥ 5) = P(Y = 5) + P(Y = 6) = 0.05 + 0.03 = 0.08.
Dass man die Wahrscheinlichkeit P(Y ≥ 5) berechnen kann, indem man die Wahrscheinlichkeiten P(Y = 5) und P(Y = 6) addiert, kann man sich folgendermaßen klar machen: P(Y ≥ 5) ist
die Wahrscheinlichkeit des Ereignisses {Y ≥ 5}. Da die Zufallsvariable Y nur die Werte 0, 1, 2,
3, 4, 5 und 6 annehmen kann, ist {Y ≥ 5} = {Y = 5} ∪ {Y = 6}. Die beiden Ereignisse {Y = 5}
und {Y = 6} sind weiterhin disjunkt. Daher gilt nach dem dritten Axiom von Kolmogoroff
P(Y ≥ 5) = P(Y = 5) + P(Y = 6).
2. Die Wahrscheinlichkeit, dass höchstens vier Aufgaben gelöst werden, ist P(Y ≤ 4). Es ergibt
sich der Wert
P(Y ≤ 4) = P(Y = 0) + P(Y = 1) + P(Y = 2) + P(Y = 3) + P(Y = 4)
= 0.10 + 0.10 + 0.20 + 0.27 + 0.25 = 0.92.
Unter Verwendung des Ergebnisses aus Teilaufgabe a) kann der Wert auch schneller berechnet
werden. Dazu muss man nur erkennen, dass das Ereignis {Y ≤ 4} das Komplementärereignis
von {Y ≥ 5} ist. Auf den ersten Blick ist das vielleicht nicht offensichtlich, da das Komplement
von {Y ≤ 4} das Ereignis {Y > 4} ist. Da die Zufallsvariable Y aber nur die Werte 0, 1, 2, 3, 4,
5 und 6 annehmen kann, sind die beiden Ereignisse {Y > 4} („Y nimmt einen Wert größer als
4 an“) und {Y ≥ 5} („Y nimmt einen Wert von mindestens 5 an“) identisch. Also gilt
P(Y ≤ 4) = 1 − P(Y > 4) = 1 − P(Y ≥ 5) = 1 − 0.08 = 0.92.
3. Auch wenn man nur die Wahrscheinlichkeit P(Y ≤ 2) = 0.4 kennt, kann man die Wahrscheinlichkeit dafür ausrechnen, dass mehr als zwei Aufgaben richtig gelöst werden, d. h. P(Y > 2).
Das Ereignis {Y > 2} ist das Komplementärereignis von {Y ≤ 2}. Daher gilt P(Y > 2) =
1 − P(Y ≤ 2) = 1 − 0.4 = 0.6.
57
3.2 Lösung zur Übung 2: Kapitel 2
Zur Bestimmung der gesuchten Wahrscheinlichkeit wird der Satz von Bayes verwendet. Dabei werden die folgenden Ereignisse betrachtet:
Ereignis
A1
A2
B
Beschreibung
„Untersuchte Frau hat Brustkrebs.“
„Untersuchte Frau hat keinen Brustkrebs.“
„Das Testergebnis ist positiv.“
Fasst man die in der Aufgabenstellung angegebenen Prozentangaben als Wahrscheinlichkeiten auf, so
kann man dem Text die folgenden Wahrscheinlichkeiten entnehmen: P(A1 ) = .0015, P(A2 ) = .9985,
P(B|A1 ) = .90, P(B|A2 ) = .0027. Gesucht ist die Wahrscheinlichkeit P(A1 |B). Alle zur Anwendung
des Satzes von Bayes erforderlichen Größen sind bekannt, so dass sich
P(B|A1 ) × P(A1 )
P(B|A1 ) × P(A1 ) + P(B|A2 ) × P(A2 )
.90 × .0015
=
.90 × .0015 + .0027 × .9985
= .33
P(A1 |B) =
ergibt. Die Wahrscheinlichkeit bei einem positiven Testergebnis tatsächlich an Brustkrebs erkrankt zu
sein, beträgt also 33%.
– 58 –
3.3 Lösung zur Übung 3: Kapitel 3
Aufgrund der Aufgabenstellung können wir die Ergebnisse in dem Intelligenztest als Werte einer
normalverteilten Zufallsvariablen Y mit Erwartungswert µ = 100 und Standardabweichung σ = 10
auffassen. Die Zufallsvariable Y besitzt also eine N(100, 10)-Verteilung.
Wie ist bei diesem Test ein Ergebnis von 120 zu beurteilen?
Zunächst erkennen wir, dass ein Ergebnis von 120 um zwei Standardabweichungen größer ist als der
Erwartungswert 100, den wir als Populationsmittelwert auffassen. Aufgrund der 68-95-99.7-Regel
können wir sagen, dass ein derartiges Ergebnis ziemlich selten ist. Die Regel besagt ja, dass bei
jeder Normalverteilung zwischen µ − 2σ und µ + 2σ ein Anteil von 95% der Verteilung liegt. Im
vorliegenden Fall mit µ = 100 und σ = 10 ist das also der Bereich von 80 bis 120. Außerhalb dieses
Bereiches liegt nur noch ein Anteil von 5% der Verteilung und da die Dichte der Normalverteilung
symmetrisch ist, können wir uns weiterhin überlegen, dass nur ein Anteil von 2.5% der Verteilung der
Ergebnisse in dem Test größer als 120 ist. Mit anderen Worten heißt das, dass die Wahrscheinlichkeit
für ein Testergebnis von 120 oder größer den Wert 0.025 besitzt. Indem wir das Testergebnis von 120
relativ zur Verteilung der Testergebnisse in der Population beurteilen, können wir also sagen, dass ein
Wert von 120 sehr gut ist. Zu dieser Aussage kommen wir dabei aber nicht einfach, weil die Zahl 120
„groß“ ist, sondern weil Testergebnisse von 120 oder größer in der Population selten sind.
Bei der angegebenen Begründung sind wir ohne jede Berechnung ausgekommen. Der Vollständigkeit
halber soll aber nun noch nachgerechnet werden, welchen Wert die Wahrscheinlichkeit P(Y > 120)
genau besitzt. Der „genaue“ Wert der Wahrscheinlichkeit P(Y > 120) weicht leicht von dem oben
ausgehend von der 68-95-99.7-Regel bestimmten Wert von 0.025 ab. Das liegt daran, dass es sich bei
der „95“ in der 68-95-99.7-Regel um einen gerundeten Wert handelt.
Um die Wahrscheinlichkeit P(Y > 120) zu berechnen, verwenden wir wieder die Standardisierung.
Es folgt
P(Y > 120) = P( Y −100
10 >
| {z
}
120−100
)
10
= P(Z > 2)
Z
= 1 − P(Z ≤ 2) = 1 − Φ(2)
= 1 − 0.9772 = 0.0228.
– 59 –
3.4 Lösung zur Übung 4: Kapitel 3
Wir bezeichnen die Zufallsvariable, welche die Ergebnisse des Eingangstests angibt, mit Y . Die Zufallsvariable Y ist normalverteilt√mit Erwartungswert µ = 22 und Varianz σ 2 = 16. Die Standardabweichung von Y ist somit σ = 16 = 4. Also besitzt Y eine N(22, 4)-Verteilung. Die Wahrscheinlichkeit, zufällig auf einen Studierenden mit einem Ergebnis über 32 zu treffen, ist
P(Y > 32) = P( Y −22
4 >
|{z}
32−22
4 )
= P(Z > 2.5),
Z
wobei die Standardisierung Z = (Y − µ)/σ sowohl auf die Zufallsvariable Y als auch die Grenze 32
angewendet wurde.
Der Grund dafür, dass die Standardisierung sowohl auf Y als auch die Grenze 32 angewendet wird,
besteht darin, dass Y genau dann größer als 32 ist, wenn Z größer als die transformierte Grenze 2.5 ist.
Das kann man sich leicht überlegen: Wenn Y größer als 32 ist, dann ist auch Y − 22 größer als 32 − 22
(und umgekehrt). Weiterhin ist Y − 22 genau dann größer als 32 − 22, wenn Z = (Y − 22)/4 größer als
(32 − 22)/4 = 2.5 ist. Das heißt aber, dass die Ereignisse {Y > 32} und {Z > 2.5} identisch sind und
folglich auch die gleiche Wahrscheinlichkeit besitzen. Machen Sie sich an dieser Stelle nochmal klar,
dass {Y > 32} eine Kurzschreibweise für die Menge aller Elemente ω (Personen) im Ergebnisraum
Ω (der Population) ist, für die Y (ω) größer als 32 ist, d. h. für die Menge {ω ∈ Ω : Y (ω) > 32}.
Entsprechend ist {Z > 2.5} die Kurzschreibweise für die Menge aller ω, für die Z(ω) größer als 2.5
ist, d. h. für die Menge {ω ∈ Ω : Z(ω) > 2.5}. Da aber für jedes ω, für das Y (ω) > 32 gilt, auch
Z(ω) > 2.5 gilt (und umgekehrt), erkennt man, dass die beiden Ereignisse {ω ∈ Ω : Y (ω) > 32} und
{ω ∈ Ω : Z(ω) > 2.5} aus den gleichen ω bestehen und folglich identisch sind.
Da Y normalverteilt ist, besitzt die Zufallsvariable Z eine Standardnormalverteilung. Die Wahrscheinlichkeit, dass Z einen Wert größer als 2.5 annimmt, ist 1 minus der Wahrscheinlichkeit, dass Z einen
Wert annimmt, der höchstens so groß wie 2.5 ist, d. h. 1 minus dem Wert der Verteilungsfunktion Φ
der Standardnormalverteilung an der Stelle 2.5:
P(Z > 2.5) = 1 − P(Z ≤ 2.5) = 1 − Φ(2.5).
Der Wert Φ(2.5) = .9938 kann der Tabelle von Φ entnommen werden. Es ergibt sich somit das
Endergebnis
P(Y > 32) = P(Z > 2.5) = 1 − Φ(2.5) = 1 − .9938 = .0062.
Die Wahrscheinlichkeit, zufällig auf eine Person zu treffen, die in dem Test einen Wert über 32 erreicht, liegt also unter .01 (entsprechend 1%).
– 60 –
3.5 Lösung zur Übung 5: Kapitel 4
1. Die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person einen Wert kleiner als 2 erreicht
beträgt Φ(2) = .9772. Diesen Wert erhält man, indem man in der Tabelle in die mit 2 bezeichnete Zeile und von dort in die mit 0.000 überschriebene Spalte geht. An dieser Stelle findet man
den Wert für die Wahrscheinlichkeit, dass eine Person einen Wert ≤ 2 erreicht.
2. Die Wahrscheinlichkeit, einen Wert zwischen −1 und 2 zu erreichen ermittelt man in mehreren Schritten. Zunächst sucht man in der Tabelle den Wert für Φ(2), den wir schon in der
vorherigen Aufgabe als Φ(2) = .9772 bestimmt haben. Desweiteren benötigen wir die Wahrscheinlichkeit, einen Wert von mindestens −1 zu erhalten. Da in der Tabelle nur positive zWerte verzeichnet sind, berechnet man diese Wahrscheinlichkeit über die Formel Φ(−1) =
1 − Φ(1) = 1 − .8413 = .1587. Um nun die Wahrscheinlichkeit eines Wertes zwischen −1 und
2 zu erhalten berechnet man: Φ(2) − Φ(−1) = .9772 − .1587 = .8185.
3. Die Wahrscheinlichkeit, höchstens einen Wert von −1.28 zu erreichen beträgt Φ(−1.28) =
1 − Φ(1.28) = 1 − .8997 = .1003.
4. Ein Wert größer als −1.64 ergibt sich auf Grund der Symmetrie der Standardnormalverteilung
mit einer Wahrscheinlichkeit von Φ(1.64) = .9495. Die Wahrscheinlichkeit, einen Wert größer
als −1.64 zu erreichen, entspricht also der Wahrscheinlichkeit, einen Wert kleiner als 1.64 zu
erreichen. Berechnet man zunächst nach der in c) verwendeten Formel die Wahrscheinlichkeit
für einen Wert von Φ(−1.64), so ergibt sich der Wert 1 − Φ(1.64) = 1 − .9495 = .0505. Da die
Gesamtwahrscheinlichkeit aller Werte 1 ist, erhält man auch mit 1 − Φ(−1.64) = 1 − .0505 =
.9495.
5. (i) Ein Wert zwischen −2.33 und 2.33 ergibt sich mit einer Wahrscheinlichkeit von 98 Prozent.
(ii) Ein Wert oberhalb von 2.33 ergibt sich mit einer Wahrscheinlichkeit von 1 Prozent und (iii)
ein Wert unterhalb von 2.33 mit einer Wahrscheinlichkeit von 99 Prozent.
6. 16 Prozent der Personen erreichen einen Wert von mindestens 1. Ein Wert von höchstens −1
wird wegen der bereits erwähnten Symmetrie ebenfalls von 16 Prozent der Personen erreicht.
7. (i) Um zu bestimmen, oberhalb von welchem Wert nur noch 1 Prozent der Personen liegen,
sucht man in der Tabelle den Wert, unterhalb dessen 99 der Fläche der Dichte liegt. Dies ist
der Wert 2.325. (ii) Oberhalb von 1.645 liegen 5 Prozent und (iii) oberhalb von 1.281 liegen 10
Prozent.
8. Ober- und unterhalb dieses symmetrischen Intervalls liegen jeweils 2.5 Prozent. Aus der Tabelle ergibt sich, dass unterhalb von Φ(1.96) 97.5 Prozent der Werte liegen und auf Grund der
Symmetrie liegen unterhalb von Φ(−1.96) 2.5 Prozent der Werte. Das gesuchte Intervall reicht
somit von −1.96 bis 1.96.
– 61 –
3.6 Lösung zur Übung 6: Kapitel 4
1. Unter der Annahme, dass Philipp jedes Mal eine Antwort rät, kann die Anzahl der richtig genannten Farben in der beschriebenen Situation als binomialverteilte Zufallsvariable aufgefasst
werden, genauer als B(12, .3)-verteilte Zufallsvariable. Die folgende Tabelle enthält die Wahrscheinlichkeiten für alle möglichen Ausgänge. Diese Wahrscheinlichkeiten wurden nach den
folgenden Formel berechnet:
n
× py × qn−y
P(Y = y) =
y
P(Y = y)
y
0
1
2
3
4
5
6
7
8
9
10
11
12
0
12
1 × .3 × .6 = .00771
11
1
12 × .3 × .6 = .04624
10
2
66 × .3 × .6 = .12717
9
3
220 × .3 × .6 = .21195
8
4
495 × .3 × .6 = .23845
7
5
792 × .3 × .6 = .19076
6
6
924 × .3 × .6 = .11128
5
7
792 × .3 × .6 = .04769
4
8
495 × .3 × .6 = .01490
3
9
220 × .3 × .6 = .00331
2
10
66 × .3 × .6 = .00050
1
11
12 × .3 × .6 = .00005
0
12
1 × .3 × .6 = 1.9 × 10−6
Die Wahrscheinlichkeit für 7 richtige Antworten beträgt also (gerundet)
P (Y = 7) = .05.
2. Die Wahrscheinlichkeit beim Raten 7 oder mehr Treffer zu erreichen, ist
P(Y ≥ 7) = P(Y = 7) + P(Y = 8) + . . . + P(Y = 12)
= .04769 + .01490 + .00331 +
.00050 + .00005 + 1.9 × 10−6
= .0664519
3. Die Wahrscheinlichkeit für ein Ergebnis zwischen inklusive zwei und sechs Treffern wird wie
folgt berechnet:
P(2 ≤ Y ≤ 6) = P(Y = 2) + P(Y = 3) + . . . + P(Y = 6)
= .12717 + .21195 + .23845 + .19076 + .11128
= .87961
– 62 –
4. Die Wahrscheinlichkeit, durch bloßes Raten mindestens so viele Treffer wie Philipp zu erreichen ist relativ gering. Sie beträgt nur ca. 7%. Andererseits bedeutet sie aber auch, dass von
100 Personen, die das Experiment durchführen und dabei raten, 7 ebenso gut wie Philipp oder
noch besser abschneiden. Ob man aus Philipps Ergebnis den Schluss ableiten will, dass er telepathische Fähigkeiten besitzt, hängt davon ab, welche Wahrscheinlichkeit für das zufällige
Zustandekommen eines derartigen Ergebnisses und damit für eine Fehlentscheidung in Kauf
genommen werden soll.
– 63 –
3.7 Lösung zur Übung 7: Kapitel 4
Zur Lösung dieser Aufgabe sind die Beziehungen zwischen der Normal, χ 2 , t und F-Verteilung wichtig.
1. Die zentrale χ 2 -Verteilung mit einem Freiheitsgrad entspricht einer quadrierten Standardnormalverteilung.
Das .90-Quantil der χ 2 -Verteilung mit einem Freiheitsgrad entspricht jedoch nicht einfach dem
quadrierten .90-Quantil der Standardnormalverteilung, da in das .90-Quantil der χ 2 -Verteilung
lediglich die Fläche der N(0, 1)-Verteilung zwischen z.05 und z.95 eingeht. Zur Bestimmung des
.90-Quantils der χ 2 (1)-Verteilung muss also das .95-Quantil der N(0, 1)-Verteilung abgelesen
und quadriert werden. Es ergibt sich:
2
χ.90
(1) = 1.6452 = 2.6896
Das Vorgehen hier ist analog zum Vorgehen in Aufgabenteil a). Um das .95-Quantil der χ 2 Verteilung mit einem Freiheitsgrad zu berechnen, muss das .975-Quantil Standardnormalverteilung abgelesen und quadriert werden:
2
χ.95
(1) = 1.962 = 3.8419
2. Aus den Vorlesungsfolien kennen Sie auch den Zusammenhang zwischen der t-Verteilung und
der F-Verteilung: tυ2 = F(1, υ2 )
Zur Bestimmung des .05-Quantils der zentralen t-Verteilung mit 5 Freiheitsgraden muss zunächst das .90-Quantil der F-Verteilung mit 1 Freiheitsgrad im Zähler und 5 Freiheitsgraden
im Nenner aus der tabellierten Verteilungsfunktion zur F-Verteilung abgelesen werden:
F.90 (1, 5) = 4.0604
Aus diesem Wert ist die Wurzel zu ziehen. Außerdem muss ein negatives Vorzeichen ergänzt
werden, weil das .05-Quantil der t-Verteilung im negativen x-Achsen Bereich liegt:
√
t.05 (5) = − 4.0604 = −2.0150
Für die weiteren Quantile ergeben sich folgende Werte:
√
t.05 (15) = − 3.0732 = −1.7531
t.99 (5) =
√
11.32 = 3.3645
t.99 (15) =
√
6.77 = 2.602
– 64 –
3.8 Lösung zur Übung 8: Kapitel 5
Deutschlandweit sei bei den Psychologiestudierenden mit p = .50 die Statistik das unbeliebteste Fach.
In Münster finden Sie in einer Zufallstichprobe von 121 Studierenden der Psychologie eine relative
Häufigkeit von .45, dass die Statistik das ungeliebteste Fach ist (das sind alles fiktive Daten!)
1. Kann der zentrale Grenzwertsatz für Binomialverteilungen genutzt werden?
Ja, das geht, da p × n = .50 × 121 = 60.5 > 9 und (1 − p) × n > 9 gilt und so die Bedingung
für die Normalverteilungapproximation gegeben ist.
2. Berechnen Sie den z-Wert der relativen Häufigkeit in deren Verteilung.
Hierfür benötigen wir zunächst die Standardabweisung der relativen Häufigkeiten für n = 121
Für die Varianz der Verteilung der relaitven Häufigkeiten wissen wir:
σ 2 = p(1 − p)/n = 0.25/121
Die Standardabweichung ist damit
σ=
√
σ 2 = 0.5/11
Nun können wir den z-Wert bestimmen:
z=
.45 − .50
= −1.1
.5/11
3. Beurteilen Sie den z-Wert: Ist es plausibel anzunehmen, dass der Unterschied durch Zufall
entstanden ist?
Eher ja. Der z-Wert ist mit −1.1 unauffällig.
– 65 –
3.9 Lösung zur Übung 9: Kapitel 6
1. Die Verwendung der Summe Ym +Y f als Schätzer für das gemeinsame Einkommen µm + µ f ist
gerechtfertigt, da dieser Schätzer erwartungstreu ist, d. h. es gilt E(Ym +Y f ) = E(Ym ) + E(Y f ) =
µm + µ f , egal welchen Wert µm und µ f aufweisen. Dazu brauchen wir keine Annahmen über
die Verteilung von Ym und/oder Y f zu machen, insbesondere müssen wir nicht voraussetzen,
dass Ym und Y f unabhängig sind.
2. Die Verwendung der Varianz sY2m +Y f des Gesamteinkommens als Schätzer für σm2 + σ 2f ist im
Gegensatz zur Teilaufgabe a) nur dann korrekt, wenn man annehmen kann, dass die Zufallsvariablen Ym und Y f unabhängig sind. Zwar gilt
E(sY2m +Y f ) = σY2m +Y f ,
im Allgemeinen sind aber σY2m +Y f und σm2 + σ 2f verschieden. Kann die Annahme der Unabhängigkeit vertreten werden, wäre das Vorgehen in Ordnung. Da aufgrund von Plausibilitätsüberlegungen diese Annahme in Zweifel gezogen werden kann (das Einkommen von Ehepartnern
dürfte abhängig sein), wird es wohl zu einer Unterschätzung kommen.
– 66 –
3.10 Lösung zur Übung 10: Kapitel 6
Sie untersuchen vier Versuchspersonen mit einem Test mit 10 Aufgaben. Sie gehen davon aus, dass
alle Aufgaben für alle Personen die gleiche Lösungswahrscheinlichkeit p aufweisen.
Sie erhalten von den vier Personen folgende Anzahl gelöster Aufgaben: 0, 3, 6 und 9.
Es stellt sich die Frage: „Wie sieht die Maximum-Likelihood-Schätzung für p aus?”
Für die Lösung ist zusätzlich folgende Tabelle der Dichte der Binomialverteilung gegeben:
k
0
1
2
3
4
5
6
7
8
9
10
p=.33
.01823
.08978
.19899
.26136
.22528
.13315
.05465
.01538
.00284
.00031
.00002
p=.37
.00985
.05785
.15288
.23943
.24608
.17343
.08488
.02848
.00627
.00082
.00005
p=.43
.00362
.02731
.09271
.18651
.24623
.22290
.14013
.06041
.01709
.00286
.00022
p=.45
.00253
.02072
.07630
.16648
.23837
.23403
.15957
.07460
.02289
.00416
.00034
p=.57
.00022
.00286
.01709
.06041
.14013
.22290
.24623
.18651
.09271
.02731
.00362
1. Welcher von den in der Tabelle angegebenen Werten für p hat die höchste Likelihood?
Die Likelihood gegeben p ist das Produkt der Dichtewerte für die beobachteten Werte in der
Dichte von p
Beispielsweise ist
L((0, 3, 6, 9); p = .33) = .01823 × .26136 × .05465 × 00031 = 0.8 × 10−7
Berechnet man die Likelihood-Werte für die vorgegebene Tabelle findet man weiterhin
L((0, 3, 6, 9); p = .37) = 1.6 × 10−7
L((0, 3, 6, 9); p = .43) = 2.7 × 10−7
L((0, 3, 6, 9); p = .45) = 2.8 × 10−7
L((0, 3, 6, 9); p = .57) = 0.9 × 10−7
Die Likelihood ist für die angebenen Werte von p bei p = .45 (bzw. 0.43 nach dem Übungsblatt)
maximal. Tatsächlich ist dieser Wert auch die Maximum-Likelihood-Schätzung für p.
2. Zeigen Sie, dass in diesem Fall der Likelihood-Schätzer das gleiche Ergebnis wie ein Mittelwertschätzer ergibt.
Wir rechnen einfach die mittlere Erfolgsquote gemittelt über alle Personen aus:
p̂Mittelwert =
0+3+6+9
10+10+10+10
=
18
40
= .45
– 67 –
3.11 Lösung zur Übung 11: Kapitel 7
1. Das 95%-Konfidenzintervall wird unter den gegebenen Voraussetzungen nach folgender Regel
bestimmt:
S
Ȳ ± t1−α/2 (n − 1) √ ,
n
also
6.25
31 ± t.975 (28) √ = 31 ± 2.048 × 1.161 = 31 ± 2.3769,
29
woraus sich die Intervallgrenzen [28.6231, 33.3769] ergeben.
2. Das Konfidenzintervall für σ 2 ergibt folgende untere Grenze:
28 × 39.0625
(n − 1) s2
=
= 24.60
2
44.461
χ
(n−1)
1−α/2
und die obere Grenze als:
(n − 1) s2 28 × 39.0625
= 71.45.
=
15.308
χ 2 (n−1)
α/2
Es fällt auf, dass bei einem Intervall [24.60, 71.45] die Varianz unter den gegebenen Voraussetzungen nicht sehr präzise geschätzt wird, da das Konfidenzintervall recht breit ist.
3. Als Möglichkeiten kämen eine Erhöhung der Stichprobengröße oder eine Erhöhung der Fehlerwahrscheinlichkeit in Frage. Da es im Fall der Bestimmung von Konfidenzintervallen für σ 2
keine weiteren Einflussgrößen gibt, liegt bei konstant gehaltener Vertrauenswahrscheinlichkeit
eine Erhöhung der Stichprobengröße nahe.
4. Wir bedienen uns für die Beantwortung der Fragestellung folgender Beziehung:
σY 2
n = z1−α/2 ×
.
m
Die gesuchte Stichprobengröße ergibt sich damit zu:
6 2
n = 2.5758 ×
= 26.54 ≈ 27.
3
– 68 –
3.12 Lösung zur Übung 12: Kapitel 7
1. Die statistische Hypothese, dass ein Wert von µ0 = 90 nicht unterschritten wird lautet:
H0 : µ ≥ µ0 gegen H1 : µ < µ0
2. Aus der Fragestellung wissen Sie bereits, dass es sich um unabhängig identisch normalverteilte
Zufallsvariablen handelt. Desweiteren ist das σ unbekannt, so dass Sie das Konfidenzintervall
mit unbekannter Varianz berechnen müssen. Aus der Aufgabenstellung kennen Sie den Stichprobenumfang n = 11 und die Vertrauenswahrscheinlichkeit 1−α, die immer .95 beträgt, wenn
sie nicht explizit in der Aufgabenstellung genannt wird. Daraus folgt: t.95 (10) = 1.8125. Sie
müssen nun den Mittelwert und die Standardabweichung der 11 angegebenen Werte berechnen
und erhalten ȳ = 87 und s = 2.
Das 95%-Konfidenzintervall wird unter den gegebenen Voraussetzungen wie folgt bestimmt:
S
Ȳ + t1−α (n − 1) √ ,
n
also
2
87 + t.95 (10) √ = 87 + 1.8125 × .603 = 87 + 1.093 = 88.093
11
Das einseitige Konfidenzintervall hat folgende Grenzen (-∞, 88.093], so dass Sie mit einer
Sicherheit von 95 Prozent sagen können, dass der Proband seinen diastolischen Blutdruck durch
das autogege Training gesenkt hat.
3. Beachten Sie bitte bei dieser Aufgabe, dass es sich bei der χ 2 - Verteilung nicht um eine symmetrische Verteilung handelt und somit die verschiedenen Werte für die Quantile der zentralen
χ 2 -Verteilung betragsmäßig nicht gleich sind. Sie müsssen also im Unterschied zur Standardnormalverteilung oder zur zentralen t-Verteilung zwei χ 2 -Werte in der Tabelle nachschauen:
2
2 (n − 1) !
χ1−α/2
(n − 1) und χα/2
Zur Berechnung benötigen Sie die Varianz s2 = 4 und die jeweiligen χ 2 -Werte.
2 (10) = 3.247
χ.025
2 (10) = 20.483
χ.975
Das Konfidenzintervall für die Varianz σ 2 ergibt folgende untere Grenze:
(n − 1)s2
10 × 4
10 × 4
= 2
=
= 1.9528
2
χ1−α/2 (n − 1) χ.975 (10) 20.483
und die obere Grenze als:
10 × 4
(n − 1)s2
10 × 4
=
= 12.319
= 2
2 (n − 1)
3.247
χα/2
χ.025 (10)
Das Intervall [1.9528; 12.319] schätzt die Varianz σ 2 mit einer Vertrauenswahrscheinlichkeit
von 95%.
– 69 –
3.13 Lösung zur Übung 13: Kapitel 7
Gefragt ist nach dem Konfidenzintervall für p. Der Parameter p wird durch die relative Häufigkeit p̂
geschätzt. Das einseitige Konfidenzintervall berechnet sich nach der Formel
√
p̂ × q̂
p̂ − z1−α √
n
Aus der Aufgabenstellung kennen Sie bereits folgende Werte:
n = 100
p̂ =
35
100
= .35
q̂ = 1 − p̂ = .65
z1−α = z.95 = 1.64
Durch Einsetzen in die Formel erhalten Sie das Ergebnis:
√
.35 × .65
.35 − 1.64 √
= .35 − 1.64 × .0477 = .35 − .0782
100
Damit ergeben sich für das einseitige Intervall die Grenzen [.2718, ∞). Der Anspruch, dass mindestens einem Drittel der Schüler durch die Angsttherapie geholfen wurde, kann durch das berechnete
Intervall nicht bestätigt werden, da die untere Grenze unterhalb des Parameters p = 1/3 liegt.
Zur Berechnung des zweiseitigen Konfidenzintervalls muss die Formel
√
p̂ × q̂
p̂ ± z1−α/2 √
n
verwendet werden. Man erhält
√
.35 × .65
.35 ± 1.96 √
= .35 ± 1.96 × .0477 = .35 ± .093
100
Für das zweiseitige Intervall ergeben sich also folgende Grenzen [.257,.4435]. Dieses Intervall überdeckt also mit einer Vertrauenswahrscheinlichkeit von 95 Prozent den Parameter p.
Die Hypothese des Therapeuten, bei mindestens einem Drittel der Schüler eine deutliche Reduktion
der Prüfungsangst erzielt zu haben, kann also in beiden Fällen nicht bestätigt werden.
– 70 –
4 Literatur
Abramowitz, M. & Stegun, I.A. (1972). Handbook of Mathematical Functions. Dover Publications &
National Bureau of Standards, Applied Mathematic Series 55. Im Internet unter
http://people.math.sfu.ca/c̃bm/aands/abramowitz_and_stegun.pdf frei verfügbar (letzter Zugriff: 21.02.2013).
Cizek, P., Härdle, W. & Weron, R. (2005). Statistical Tools for Finance and Insurance. http://sfb649.wiwi.huberlin.de/fedc_homepage/xplore/tutorials/mvahtmlnode46.html (letzter Zugriff: 21.02.2013)
Hogben, D. & Wilk, M.B. (1961). The moments of the non-central t-distribution. Biometrika 48,
465–468.
Holling, H. & Gediga, G. (2011). Statistik – Deskriptive Verfahren. Göttingen: Hogrefe Verlag.
Hummel, R., Banga, S., & Hettmansperger, T.P. (2005). Better confidence intervals for the variance
in a random sample. Minitab Technical Report. http://www.hgstat.de/other/OneVariance.pdf (letzter
Zugriff: 21.02.2013).
Scott & Novack (2004). The Cramer-Rao Lower Bound. http://cnx.org/content/m11429/latest/ (letzter
Zugriff: 21.02.2013).
Weisstein, E.W. (2003). Normal Sum Distribution. http://mathworld.wolfram.com/NormalSumDistribution.html
(letzter Zugriff: 21.02.2013)
71
Herunterladen