StatWiSo - Departement Mathematik und Statistik

Werbung
Einführung in die Statistik
für Wirtschafts- und Sozialwissenschaften
c Lutz Dümbgen
Juli 2009
Dozenten im akademischen Jahr 2009/2010:
Riccardo Gatto (Herbstsemester 2009)
Dirk Klingbiel (Frühjahrssemester 2010)
Inhaltsverzeichnis
1
Überblick
7
I
Beschreibende Statistik
9
2
Beschreibende Statistik
11
2.1
Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.1.1
Variablentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.1.2
Datenmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.2
Beschreibung kategorieller Merkmale . . . . . . . . . . . . . . . . . . . . . . .
12
2.3
Beschreibung numerischer Merkmale . . . . . . . . . . . . . . . . . . . . . . .
13
2.3.1
Die (empirische) Verteilungsfunktion . . . . . . . . . . . . . . . . . . .
14
2.3.2
Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.3.3
Quantile und Quartile . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
2.3.4
Lageparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.3.5
Skalenparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.3.6
Lorenz-Kurve und Gini-Index . . . . . . . . . . . . . . . . . . . . . . .
30
2.3.7
Formparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
Simultane Beschreibung zweier Merkmale . . . . . . . . . . . . . . . . . . . . .
36
2.4.1
Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
2.4.2
Box–Plots und Box–Whisker–Plots . . . . . . . . . . . . . . . . . . . .
44
2.4.3
Regression und Korrelation . . . . . . . . . . . . . . . . . . . . . . . .
48
2.4
62
3
4
II
3
INHALTSVERZEICHNIS
Wahrscheinlichkeitsrechnung und statistische Modelle
63
Wahrscheinlichkeitsrechnung
65
3.1
Beschreibung eines Zufallsexperiments . . . . . . . . . . . . . . . . . . . . . .
65
3.1.1
Grundraum und Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . .
65
3.1.2
Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . .
68
3.2.1
Exkurs in die Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . .
68
3.2.2
Laplace–Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
3.2.3
Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
3.2.4
Rechenregeln für Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . .
72
3.2.5
Die Siebformel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
3.2.6
Bonferroni–Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . .
77
Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
3.3.1
Die Bayessche Formel . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
Stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
3.4.1
Stochastische Unabhängigkeit zweier Ereignisse . . . . . . . . . . . . .
82
3.4.2
Stochastische Unabhängigkeit beliebig vieler Ereignisse . . . . . . . . .
83
3.5
Zufallsvariablen und deren Verteilung . . . . . . . . . . . . . . . . . . . . . . .
86
3.6
Spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
3.6.1
Hypergeometrische Verteilungen . . . . . . . . . . . . . . . . . . . . . .
89
3.6.2
Binomialverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
93
3.6.3
Geometrische Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . .
99
3.6.4
Poissonverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
3.2
3.3
3.4
3.7
3.8
Erwartungswerte und davon abgeleitete Kenngrößen . . . . . . . . . . . . . . . 105
3.7.1
Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
3.7.2
Die Markov–Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.7.3
Varianzen und Standardabweichungen . . . . . . . . . . . . . . . . . . . 113
3.7.4
Produkte und Kovarianzen . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.7.5
Allgemeine Überlegungen zum Stichprobenziehen . . . . . . . . . . . . 123
Erste Anwendungsbeispiele statistischer Modelle . . . . . . . . . . . . . . . . . 125
3.8.1
Die Bestimmung eines optimalen Preises . . . . . . . . . . . . . . . . . 126
3.8.2
Bestimmung einer optimalen Vorratsgröße. . . . . . . . . . . . . . . . . 127
INHALTSVERZEICHNIS
3.8.3
4
131
4.1
Von Histogrammen zu Wahrscheinlichkeitsdichten . . . . . . . . . . . . . . . . 131
4.2
Rechnen mit Wahrscheinlichkeitsdichten . . . . . . . . . . . . . . . . . . . . . . 135
4.4
4.5
5
Ein Beispiel einer “verzerrten Stichprobe” . . . . . . . . . . . . . . . . . 128
Dichtefunktionen und Normalverteilungen
4.3
III
5
4.2.1
Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
4.2.2
Erwartungswert, Varianz und Standardabweichung . . . . . . . . . . . . 136
Beispiele von Dichtefunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 138
4.3.1
Exponentialverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 138
4.3.2
Gammaverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.3.3
Einige nützliche Integrale . . . . . . . . . . . . . . . . . . . . . . . . . 140
Uniforme Verteilungen und Anwendungen . . . . . . . . . . . . . . . . . . . . . 142
4.4.1
Pseudozufallszahlen und uniforme Verteilungen . . . . . . . . . . . . . . 142
4.4.2
Simulationsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.4.3
Benfords Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
Normalverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
4.5.1
Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 146
4.5.2
Beliebige Normalverteilungen . . . . . . . . . . . . . . . . . . . . . . . 147
4.5.3
Anwendungsbeispiele und weitere Eigenschaften . . . . . . . . . . . . . 149
4.5.4
Warum ausgerechnet die Gaußsche Glockenkurve? . . . . . . . . . . . . 152
Schließende Statistik
Konfidenzbereiche
157
159
5.1
Allgemeine Beschreibung von Konfidenzbereichen . . . . . . . . . . . . . . . . 159
5.2
Konfidenzintervalle nach Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
5.3
5.2.1
Z–Konfidenzschranken für µ . . . . . . . . . . . . . . . . . . . . . . . . 160
5.2.2
Walds Methode allgemein . . . . . . . . . . . . . . . . . . . . . . . . . 162
Verfeinerte Konfidenzbereiche für Mittelwerte . . . . . . . . . . . . . . . . . . . 164
5.3.1
Student– und Chiquadrat–Verteilungen . . . . . . . . . . . . . . . . . . 164
5.3.2
Student–Konfidenzschranken für µ . . . . . . . . . . . . . . . . . . . . . 166
5.3.3
Schranken für σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
5.3.4
Vergleich zweier Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . 168
6
INHALTSVERZEICHNIS
5.4
5.5
6
Konfidenzbereiche für eine Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . 169
5.4.1
Walds Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.4.2
Wilsons Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
Konfidenzbereiche für Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
5.5.1
Punktschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.5.2
Vertrauensbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
Tests
181
6.1
Grundideen des Testens an Hand von Fishers exaktem Test . . . . . . . . . . . . 181
6.2
Das allgemeine Prinzip statistischer Tests . . . . . . . . . . . . . . . . . . . . . 186
6.3
Der χ2 –Test für Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . . 187
6.4
Binomialtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
6.5
Der χ2 –Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
6.6
Vergleiche zweier Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
6.7
6.6.1
“Verbundene Stichproben” . . . . . . . . . . . . . . . . . . . . . . . . . 201
6.6.2
“Freie/Unabhängige Stichproben” . . . . . . . . . . . . . . . . . . . . . 203
Tests auf Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
A Tabellen
207
Die Standardnormalverteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . 207
Einige Student–Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
Einige χ2 –Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
Die wichtigsten diskreten Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 210
Danksagung. Zahlreiche Studierende halfen mir durch Rückmeldungen. Besonders danke ich
Jasmin Furrer, Matthias Kirchner, Sophia Schwindt und Simon Wandel herzlich für ihre Unterstützung und Mitarbeit.
Kapitel 1
Überblick
Zum Stichwort Statistik hört man oft das Zitat: “Traue keiner Statistik, die Du nicht selbst gefälscht
hast!”. Aber die vielen Zahlen und Graphiken, die in Zeitungen und anderen Medien publiziert
werden, sind nur ein mögliches Mittel, das die Statistik zur Auswertung empirischer Daten anbietet. Daher machen sich viele Leute ein falsches Bild von dieser Disziplin.
Tatsächlich handelt es sich bei der Statistik um eine präzise Wissenschaft mit starker Anbindung an die Mathematik und Informatik; die Grenzen sind fliessend. Sie wird in verschiedenen
naturwissenschaftlichen (biologischen, geographischen, ökologischen), wirtschaftlichen, medizinischen und industriellen sowie amtlichen und versicherungstechnischen Gebieten verlangt und
eingesetzt. Dabei nimmt ihre Bedeutung zu, da Fortschritte in der elektronischen Datenverarbeitung die Erhebung immer umfangreicherer Datensätze ermöglichen.
Der vorliegende Kurs besteht grob gesagt aus drei Teilen:
• Beschreibende (Deskriptive) Statistik: Hier geht es um die quantitative Beschreibung und
graphische Darstellungen von Datensätzen.
• Wahrscheinlichkeitsrechnung und statistische Modelle: In diesem Teil werden die wichtigsten Grundlagen der Wahrscheinlichkeitstheorie vermittelt. Ferner werden wichtige Modelle
der Statistik (sogenannte Verteilungen) eingeführt. Dies alles sind wesentliche Hilfsmittel für
die schließende Statistik.
• Schließende (Induktive) Statistik: Mit einer gewissen Sicherheit möchte man aus empirischen Daten Rückschlüsse ziehen, selbst wenn die Daten fehlerbehaftet oder unvollständig
sind (Messfehler oder Stichprobenfehler).
Das erste Semester umfasst den ersten und einen Großteil des zweiten Teils. Im zweiten Semester
wird der zweite Teil abgeschlossen und darauf aufbauend der dritte Teil behandelt.
7
8
KAPITEL 1. ÜBERBLICK
'
$
Beschreibende
'
$
Statistik
Wahrscheinlichkeits$
'
&
%
Schließende
Rechnung
&
%
Statistik
&
%
Teil I
Beschreibende Statistik
9
Kapitel 2
Beschreibende Statistik
Die zwei Hauptaufgaben der beschreibenden Statistik sind (a) die quantitative Beschreibung und
Zusammenfassung sowie (b) die graphische Darstellung von Datenmaterial.
2.1
Datensätze
Ein Datensatz (Stichprobe, data set, sample) besteht aus mehreren Beobachtungen (Fällen, observations, cases). Zu jeder Beobachtung gibt es Werte von einer oder mehreren Variablen (Merkmalen, variables). Die Anzahl der Beobachtungen nennt man den Stichprobenumfang (sample size).
Beispiel 2.1 (Befragung von Studierenden) In der Vorlesung “Einführung in die Statistik für
Wirtschafts– und Sozialwissenschaften” (Bern, WS 2003/2004) füllten 263 Studierende einen Fragebogen aus. Jede(r) Studierende entspricht einer Beobachtung. Erhoben wurden die Werte von
folgenden elf Variablen:
(1) Geschlecht : w oder m
(2) Alter : in Jahren
(3) Geburtsmonat : eine Zahl aus {1, 2, . . . , 12}
(4) Herkunft : Geburtskanton bzw. -land
(5,6) Körpergröße und -gewicht : in cm bzw. kg
(7) Monatsmiete : Nettomiete in CHF
(8) Rauchen : nein = 0, gelegentlich = 1, regelmäßig = 2
(9) Zufallsziffer : eine in Gedanken “rein zufällig” gewählte Ziffer aus {0, 1, . . . , 9}
(10) Anzahl Geschwister : eine Zahl aus {0, 1, 2, . . .}
(11) Geschätzte Größe des Dozenten : in cm
11
12
KAPITEL 2. BESCHREIBENDE STATISTIK
2.1.1
Variablentypen
Die Werte, welche eine bestimmte Variable annehmen kann, nennt man auch Merkmalsausprägungen. Man unterscheidet zwei bzw. drei Typen von Variablen:
Kategorielle (Qualitative) Variablen: Diese können endlich viele Werte in irgendeinem Bereich
annehmen.
In Beispiel 2.1 sind folgende Variablen kategoriell: Geschlecht, Geburtsmonat, Herkunft, Rauchen, Zufallsziffer.
Numerische (Quantitative) Variablen: Diese nehmen einen Zahlenwert mit einer objektiven
Bedeutung an.
In Beispiel 2.1 sind folgende Variablen numerisch: Alter, Körpergröße und -gewicht, Monatsmiete, Anzahl Geschwister, gesch. Größe des Dozenten. Die Variable Raucher ist zwar ebenfalls zahlenkodiert, aber die Ausprägungen wurden willkürlich gewählt.
Ordinal(skaliert)e Variablen: Dies sind kategorielle Variablen, deren Ausprägungen in einer
natürlichen Reihenfolge stehen mit einem “kleinsten” und einem “größten” Wert.
In Beispiel 2.1 ist die Variable Rauchen ordinalskaliert: 0 (nein) ≤ 1 (gelegentlich) ≤ 2 (regelmäßig).
Solche Variablen sind gerade in Medizin, Psychologie und Sozialwissenschaften sehr verbreitet. Man denke beispielsweise an Fragen zur Zufriedenheit mit irgendetwas, bei denen z.B. eine
der folgenden Antworten anzukreuzen ist: unzufrieden, teilweise zufrieden, überwiegend zufrieden, rundum zufrieden. Auch Schul– oder Prüfungsnoten kann man als ordinale Variablen
auffassen. Mitunter entstehen ordinale Variablen aus numerischen Merkmalen durch Einteilung
ihres Wertebereichs in endlich viele Intervalle.
2.1.2
Datenmatrizen
Datensätze werden typischerweise in Form einer Tabelle, auch Datenmatrix genannt, gespeichert.
Dabei entspricht jede Zeile einer Beobachtung, und jede Spalte entspricht einer Variable. Oftmals
enthält die erste Zeile die Variablenbezeichnungen.
2.2
Beschreibung kategorieller Merkmale
Wir betrachten eine kategorielle Variable (X) mit Ausprägungen x1 , x2 , . . . , xL . Die Stichprobenwerte dieser Variable seien X1 , X2 , . . . , Xn ; dies sind also die Einträge einer Spalte der Datenmatrix, und n ist der Stichprobenumfang.
2.3. BESCHREIBUNG NUMERISCHER MERKMALE
13
Quantitative Auswertung. Für j = 1, 2, . . . , L bezeichnen wir mit Hj die absolute Häufigkeit
des Wertes xj in der Stichprobe:
Hj
:= # i ∈ {1, . . . , n} : Xi = xj
=
Anzahl aller Beobachtungen mit Wert xj .
Hier und im Folgenden verwenden wir die Notation #M für die Anzahl einer Menge M .
An Stelle absoluter Häufigkeiten kann man auch relative Häufigkeiten berechnen:
fj
:=
=
Hj
n
relativer Anteil von Beobachtungen mit Wert xj .
Graphische Darstellung. Die absoluten oder relativen Häufigkeiten Hj bzw. fj kann man durch
ein Stabdiagramm (Balkendiagramm, bar chart) oder ein Kuchendiagramm (pie chart) graphisch
darstellen.
Für das Stabdiagramm werden die Ausprägungen xj horizontal aufgelistet, und vertikal zeichnet
man zu jedem xj einen Stab mit Höhe Hj bzw. fj .
Für das Kuchendiagramm wird eine Kreisscheibe in L Sektoren (“Kuchenstücke”) unterteilt. Jeder
Sektor entspricht einer Ausprägung xj , und seine Fläche ist proportional zu Hj bzw. fj .
Beispiel 2.1 (Befr. von Stud., Forts.) Die Frage nach dem Rauchen wurde von n = 261 Studierenden beantwortet. In Kategorie ‘nein’ fallen 171 Beobachtungen, Kategorie ‘gelegentlich’
enthält 47 und Kategorie ‘regelmäßig’ 43 Beobachtungen. Hieraus ergibt sich folgende Tabelle
j
(xj )
Hj
fj
1
(nein)
171
0.655
2
(gelegentl.)
47
0.180
3
(regelm.)
43
0.165
Abbildung 2.1 zeigt das entsprechende Stab- und Kuchendiagramm (basierend auf relativen Häufigkeiten). Die Kreissektoren haben folgende Größen: f1 = 0.655·360o ≈ 236o , f2 = 0.180·360o ≈
65o , f3 = 0.165 · 360o ≈ 59o .
2.3
Beschreibung numerischer Merkmale
Nun betrachten wir eine numerische Variable (X) mit Stichprobenwerten X1 , X2 , . . . , Xn . Die
Reihenfolge der Beobachtungen ist in vielen Fällen irrelevant. Dann kann man die Werte Xi sortieren, ohne wesentliche Informationen zu verlieren, und erhält die Ordnungsstatistiken
X(1) ≤ X(2) ≤ · · · ≤ X(n) .
Man nennt X(i) die i–te Ordnungsstatistik. Insbesondere ist X(1) das Minimum und X(n) das
Maximum aller X–Werte in der Stichprobe.
14
KAPITEL 2. BESCHREIBENDE STATISTIK
Abbildung 2.1: Stab- und Kuchendiagramm des Merkmals ‘Rauchen’ in Beispiel 2.1.
2.3.1
Die (empirische) Verteilungsfunktion
Für eine beliebige Schranke r definieren wir
F (r) := #{i : Xi ≤ r}/n
=
rel. Anteil von Beobachtungen mit X ≤ r.
Dies liefert eine Funktion F : R → [0, 1], die sogenannte (empirische) Verteilungsfunktion. Von
ihrem Graphen kann man ablesen, “wie die X–Werte in der Stichprobe verteilt sind”.
Mit Hilfe der Ordnungsstatistiken X(i) kann man die Verteilungsfunktion F wie folgt beschreiben
und konstruieren: Es handelt sich um eine monoton wachsende Treppenfunktion, und zwar ist

 0 für r < X(1) ,
i/n für r ∈ [X(i) , X(i+1) ) und 1 ≤ i < n,
F (r) =

1 für r ≥ X(n) .
Der Wert von F nimmt also an den Stellen X(i) sprunghaft um ein Vielfaches von 1/n zu.
Beispiel 2.2 Angenommen, die Stichprobe enthält n = 8 Beobachtungen mit X–Werten
180, 195, 180, 182, 169, 176, 176, 150.
Die entsprechenden Ordnungsstatistiken sind
150, 169, 176, 176, 180, 180, 182, 195.
Abbildung 2.2 zeigt den Graphen ihrer Verteilungsfunktion. Wie man sieht, springt der Wert von
F an der Stelle
◦ X(1) = 150 von 0 auf 1/8 = 0.125,
◦ X(2) = 169 von 1/8 auf 2/8,
◦ X(3) = X(4) = 176 von 2/8 auf 4/8,
2.3. BESCHREIBUNG NUMERISCHER MERKMALE
15
◦ X(5) = X(6) = 180 von 4/8 auf 6/8,
◦ X(7) = 182 von 6/8 auf 7/8 und
◦ X(8) = 195 von 7/8 auf 1.
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
150
155
160
165
170
175
180
185
190
195
Abbildung 2.2: Empirische Verteilungsfunktion für Beispiel 2.2.
Allgemein kann man folgende Informationen ablesen:
• F (r) ist der relative Anteil von Beobachtungen mit X ≤ r.
• Der linksseitige Grenzwert F (r −) ist der relative Anteil von Beobachtungen mit X < r.
• Die Sprunghöhe an der Stelle r, also die Differenz F (r) − F (r −), ist der relative Anteil von
Beobachtungen mit X = r.
• Für r ≤ s ist F (s) − F (r −) der relative Anteil von Beobachtungen mit r ≤ X ≤ s.
Beispiel 2.1 (Befr. von Stud., Forts.) Abbildung 2.3 zeigt die empirische Verteilungsfunktion
der Variable ‘Alter’ (in Jahren). Man sieht deutlich, dass der minimale Stichprobenwert X(1) = 18
ist und das Maximum bei X(263) = 42 liegt. Die Sprunghöhe der Verteilungsfunktion an den
Stellen 18, 19, 20, . . . , 42 ist der relative Anteil der Hörer mit genau diesem Alter. Am stärksten
vertreten sind die 20–jährigen mit einem relativen Anteil von F (20)−F (20 −) = 0.513−0.228 =
0.285.
Die Abbildungen 2.4 und 2.5 zeigen die empirische Verteilungsfunktion der Variable ‘Körpergröße’ (in cm), nach Damen und Herren getrennt. Bei den Damen gab es nD = 113 Werte, bei
den Herren waren es nH = 145.
16
KAPITEL 2. BESCHREIBENDE STATISTIK
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
20
25
30
35
40
Abbildung 2.3: Emp. Verteilungsfunktion der Variable ‘Alter’
Alle Werte der Damen liegen im Intervall [155, 185]. Es ist F (168) = 0.531 und F (168 −) =
0.416. Demnach sind weniger als 50% aller Damen (strikt) kleiner als 168 cm, und weniger als
50% sind (strikt) größer als 168 cm. Daher ist 168 der “Median” dieser Stichprobe; siehe auch den
späteren Abschnitt über Quantile und andere Kenngrößen.
Bei den Herren liegen alle Werte im Intervall [163, 194]. Hier ist der Median gleich 179, denn
F (179) = 0.531 und F (179 −) = 0.497.
Zuguterletzt zeigt Abbildung 2.6 noch die empirische Verteilungsfunktion der Variable ‘Gesch.
Größe des Doz.”. Hier gaben n = 261 Studierende einen Schätzwert an. Der kleinste und größte
Schätzwert war 150 bzw. 187 (cm). Bei aufmerksamer Betrachtung sieht man, dass die “glatten”
Werte 165, 170, 175, 180, 185 stärker vertreten sind als ihre jeweiligen Nachbarn. Dies zeigt, dass
die meisten Personen beim Schätzen zu gerundeten Werten tendieren. Der richtige Wert, 176, ist
nicht besonders häufig vertreten.
Unter dem Aspekt der Rundung sollten Sie noch einmal die Abbildungen 2.4 und 2.5 betrachten
...
2.3.2
Histogramme
Aus dem Graphen der empirischen Verteilungsfunktion F kann man im Prinzip alle Ordnungsstatistiken X(i) rekonstruieren. Man verliert also bis auf die Reihenfolge der Beobachtungen keinerlei
Information. Dies ist ein Vorteil gegenüber einer anderen, viel populäreren Art der graphischen
Darstellung, den Histogrammen. Diese sind eng verwandt mit den Balkendiagrammen für katego-
2.3. BESCHREIBUNG NUMERISCHER MERKMALE
17
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
155
160
165
170
175
180
185
190
195
Abbildung 2.4: Emp. Verteilungsfunktion der Variable ‘Körpergröße’ unter den Damen
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
155
160
165
170
175
180
185
190
195
Abbildung 2.5: Emp. Verteilungsfunktion der Variable ‘Körpergröße’ unter den Herren
18
KAPITEL 2. BESCHREIBENDE STATISTIK
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
150
155
160
165
170
175
180
185
Abbildung 2.6: Emp. Verteilungsfunktion der Variable ‘Gsch. Größe des Doz.’
rielle Variablen.
Man wählt endlich viele, nicht überlappende Intervalle I1 , I2 , . . . , IL , die alle Stichprobenwerte
Xi überdecken; beispielsweise nehme man
[a0 , a1 ), [a1 , a2 ), [a2 , a3 ), . . . , [aL−1 , aL )
mit a0 < a1 < a2 < · · · < aL und X(1) , X(n) ∈ [a0 , aL ).
Dann berechnet man für j = 1, 2, . . . , L die absoluten Häufigkeiten
Hj := #{i : Xi ∈ Ij },
also die Anzahl aller Beobachtungen mit X–Wert in Ij , sowie die relativen Häufigkeiten
fj := Hj /n.
Nun zeichnet man für jedes Intervall Ij ein Rechteck mit horizontaler Grundseite Ij und vertikal
von Null bis zu einer bestimmten Höhe. Für diese Höhe gibt es zwei verschiedene Konventionen:
Konvention 1: Die Höhe ist gleich Hj .
Konvention 2: Die Höhe ist gleich fj /Länge(Ij ).
Bei Konvention 2 ist die Fläche des j–ten Rechtecks proportional zum relativen Anteil aller Beobachtungen mit X ∈ Ij .
2.3. BESCHREIBUNG NUMERISCHER MERKMALE
19
Wenn alle Intervalle Ij gleich groß sind, liefern beide Konventionen das gleiche Bild bis auf einen
Skalenfaktor in vertikaler Richtung. Ansonsten sollte man aber unbedingt Konvention 2 verwenden. Einerseits vermeidet man dadurch Verzerrungen durch die unterschiedlich langen Intervalle,
da beim Betrachten vor allem die Flächen der Rechtecke wahrgenommen werden. Außerdem kann
man mit Konvention 2 die Histogramme unterschiedlicher (Teil–) Stichproben gut vergleichen,
selbst wenn unterschiedliche Intervalleinteilungen oder unterschiedliche Stichprobenumfänge vorliegen.
Beispiel 2.3 Angenommen, die Stichprobe enthält n = 20 X–Werte, die in einem der folgenden
fünf Intervalle liegen: [150, 160), [160, 170), [170, 175), [175, 180), [180, 190). Die entsprechenden Häufigkeiten seien H1 = 2, H2 = 5, H3 = 3, H4 = 6 und H5 = 4. Dann liefern die beiden
Konventionen die in Abbildung 2.7 gezeigten Histogramme. Man erkennt (hoffentlich) die aus
Konvention 1 resultierende Verzerrung.
6
0.06
5
0.05
4
0.04
3
0.03
2
0.02
1
0.01
0
150
155
160
165
170
175
180
185
190
0
150
155
160
165
170
175
180
185
190
Abbildung 2.7: Histogramme für Beispiel 2.3, links Konvention 1 und rechts Konvention 2.
Histogramme liefern einen Eindruck, in welchem Bereich wieviele Werte liegen. Allerdings hängt
das Bild sehr stark von der Auswahl der Intervalle Ij ab. Selbst wenn man sich auf Intervalle mit
einer festen Länge festlegt, können bei Variation des Randpunktes sehr unterschiedliche Bilder
entstehen. Ein weiteres Problem ist die Zuordnung der Randpunkte: Einem Histogramm sieht
man nicht an, ob der Randpunkt zweier benachbarter Intervalle zum linken oder rechten Intervall
gezählt wurde.
Beispiel 2.1 (Befr. von Stud., Forts.) Abbildung 2.8 zeigt vier verschiedene Histogramme der
Variable ‘Körpergröße’ unter den 113 Damen. In der ersten Zeile wurden Intervalle der Länge 3
(cm) verwendet, in der zweiten Intervalle der Länge 4.
20
KAPITEL 2. BESCHREIBENDE STATISTIK
0.07
0.07
0.06
0.06
0.05
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0
150
155
160
165
170
175
180
185
190
0
150
0.07
0.07
0.06
0.06
0.05
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0
150
155
160
165
170
175
180
185
190
0
150
155
160
165
170
175
180
185
190
155
160
165
170
175
180
185
190
Abbildung 2.8: Histogramme für die Variable ‘Körpergröße’ unter den Damen
2.3.3
Quantile und Quartile
Vom Graphen der Verteilungsfunktion F kann man sogenannte Quantile ablesen. Dabei sucht man
für eine vorgegebene Zahl β ∈ (0, 1) eine Schranke Qβ mit folgenden zwei Eigenschaften:
• Höchstens nβ der X–Werte sind strikt kleiner als Qβ ;
• mindestens nβ der X–Werte sind kleiner oder gleich Qβ .
Mit Hilfe der Verteilungsfunktion F kann man auch sagen, F (Qβ −) ≤ β und F (Qβ ) ≥ β.
Gleichbedeutend mit diesen Forderungen sind folgende zwei Eigenschaften:
• Mindestens nβ der X–Werte sind kleiner oder gleich Qβ ;
• mindestens n(1 − β) der X–Werte sind größer oder gleich Qβ .
Eine Schranke Qβ mit diesen Eigenschaften heißt β–Quantil. Grob gesagt unterteilt sie den Datensatz im Verhältnis β zu 1 − β in Beobachtungen mit kleinerem bzw. größerem X–Wert. Um
2.3. BESCHREIBUNG NUMERISCHER MERKMALE
21
Qβ konkret zu bestimmen, gibt es zwei Möglichkeiten:
Graphische Methode: Man betrachtet den Graphen der Verteilungsfunktion F und sucht einen
Punkt Qβ , an welchem sie den Wert β annimmt bzw. überspringt.
Numerische Methode: Man sortiert die X–Werte und erhält die Ordnungstatistiken X(1) ≤
X(2) ≤ · · · ≤ X(n) . Ist nβ eine ganze Zahl, dann ist jede Schranke aus [X(nβ) , X(nβ+1) ] ein
β–Quantil. In diesem Fall wählen wir den Mittelpunkt dieses Intervalls, setzen also
Qβ =
X(nβ) + X(nβ+1)
.
2
Ist aber nβ keine ganze Zahl, dann gibt es genau ein β–Quantil, nämlich
Qβ = X(dnβe) .
Dabei schreibt man bac und dae, wenn eine Zahl a nach unten bzw. oben gerundet wird.
Es gibt noch eine allgemeine Formel, die ohne Fallunterscheidung bezüglich nβ auskommt:
Qβ =
X(dnβe) + X(bnβ+1c)
2
.
Beispiel 2.1 (Befr. von Stud., Forts.) Wir betrachten den Datensatz der VorlesungsteilnehmerInnen und die Variable ‘Monatsmiete’ (netto, in CHF). Dabei interessiert uns nur die Teilgruppe
derjenigen Studierenden, die nicht bei Angehörigen umsonst wohnen. Wir reduzieren also den Datensatz auf die n = 129 Beobachtungen mit strikt positiver Monatsmiete. Abbildung 2.9 zeigt die
Verteilungsfunktion dieser 129 Werte. Wenn man genau hinschaut (bzw. bestimmte Ausschnitte stark vergößert), erkennt man den minimalen Wert X(1) = 220 und den maximalen Wert
X(n) = 2000.
• Als “typischen” Wert für die Monatsmiete berechnen wir das 50%–Quantil (Median) Q0.5 . Wenn
man die Graphik entsprechend vergrößert, sieht man, dass F (550 −) = 0.473 < 0.5 < F (550) =
0.535. Daher ist das 50%–Quantil gleich 550.
Mit der numerischen Methode kommt man (natürlich) zum gleichen Ergebnis: Hier ist nβ =
129 · 0.5 = 64.5. Somit ist Q0.5 = X(65) = 550.
• Um einen Eindruck von den günstigen Mieten zu bekommen, berechnen wir das 20%–Quantil
Q0.2 . Vom Graphen der Verteilungsfunktion kann man ablesen, dass F (420 −) = 0.178 < 0.2 <
F (420) = 0.217. Daher ist das 20%–Quantil gleich 420.
Nun die numerische Methode: Wegen nβ = 129 · 0.2 = 25.8 ist Q0.2 = X(26) = 420.
• Schließlich betrachten wir noch die teuren Mieten und berechnen das 80%–Quantil Q0.8 . Wegen
F (700 −) = 0.791 < 0.8 < F (700) = 0.830 ist das 80%–Quantil gleich 700.
Nun die numerische Methode: Wegen nβ = 129 · 0.8 = 103.2 ist Q0.8 = X(104) = 700.
Spezielle Quantile: Quartile und Median
Drei spezielle Quantile sind die sogenannten Quartile:
22
KAPITEL 2. BESCHREIBENDE STATISTIK
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
200
400
600
800
1000
1200
1400
1600
1800
2000
Abbildung 2.9: Emp. Verteilungsfunktion der Variable ‘Monatsmiete’
• Erstes Quartil : Q0.25
• Zweites Quartil oder Median : Q0.5
• Drittes Quartil : Q0.75
Grob gesagt unterteilen die Quartile den Datensatz an Hand der Variable X in vier etwa gleich
große Teile.
Beispiel 2.4 Angenommen, der Stichprobenumfang ist n = 20. Dann ergeben sich die drei Quartile wie folgt:
• n · 0.25 = 5, also Q0.25 = (X(5) + X(6) )/2
• n · 0.5 = 10, also Q0.5 = (X(10) + X(11) )/2
• n · 0.75 = 15, also Q0.75 = (X(15) + X(16) )/2
In allen drei Fällen ist nβ eine ganze Zahl, so dass zwei Ordnungsstatistiken gemittelt werden.
Nun noch zwei andere Quantile:
• n · 1/3 = 6.66, also Q1/3 = X(7)
• n · 2/3 = 13.33, also Q2/3 = X(14)
Quantile sind ein erstes Beispiel für Kenngrößen einer Variable. Allgemein möchte man die “Verteilung” der X–Werte in der Stichprobe mit wenigen Zahlen charakterisieren. Dabei unterscheidet
man drei Arten von Parametern:
• Lageparameter (location parameters, centers)
• Skalenparameter (scale parameters, measures of spread)
2.3. BESCHREIBUNG NUMERISCHER MERKMALE
23
• Formparameter (shape parameters)
2.3.4
Lageparameter
Ein Lageparameter (center, location parameter) ist eine Zahl, die
◦ “möglichst nah” an allen X–Werten liegt bzw.
◦ einen typischen Wert der X–Werte angibt.
Hier beschreiben wir drei von vielen möglichen Kenngrößen dieser Art:
Mittelwert (mean). Der gängigste Lageparameter ist das arithmetische Mittel der Zahlen Xi :
n
X̄ :=
1X
X1 + X2 + · · · + Xn
=
Xi .
n
n
i=1
Median. Ein weiterer Lageparameter ist das 50%–Quantil, also
X((n+1)/2)
falls n ungerade
Med := Q0.5 =
(X(n/2) + X(n/2+1) )/2 falls n gerade
Getrimmter Mittelwert (trimmed mean). Mitunter misstraut man den größten und kleinsten
X–Werten in der Stichprobe. In diesem Falle fixiert man eine Zahl α ∈ (0, 1), zum Beispiel
α = 10%, und berechnet den arithmetischen Mittelwert X̄α aller Ordnungsstatistiken X(i) mit
nα/2 < i < n + 1 − nα/2:
X̄α =
n−k
X
1
X(i)
n − 2k
mit k := bnα/2c.
i=k+1
Beispielsweise ergibt sich bei n = 100 Beobachtungen und α = 0.1 der getrimmte Mittelwert
95
X̄α
1 X
X(i) .
=
90
i=6
Beispiel 2.1 (Befr. von Stud., Forts.) Betrachten wir noch einmal die Variable ‘Körpergröße’
(in cm) der Damen. Dann haben wir n = 113 Werte zur Verfügung. Deren Summe ist gleich
18995.5, also
18995.5
X̄ =
≈ 168.102.
113
Wie schon früher gezeigt wurde, ist der Median gleich Med = X(57) = 168.
Betrachten wir stattdessen die Variable ‘Monatsmiete’ (in CHF) in der Teilstichprobe aller Studierenden, die überhaupt Miete bezahlen, dann ist die Summe aller n = 129 Werte gleich 78577.5,
so dass
78577.5
X̄ =
≈ 609.128.
129
Dieser Wert ist deutlich höher als der Median, Med = X(65) = 550. Dies liegt daran, dass die
X–Werte recht unsymmetrisch um den Median verteilt sind.
24
KAPITEL 2. BESCHREIBENDE STATISTIK
Robustheit
Der Mittelwert ist einfacher zu berechnen als der Median, da keine Sortierung der X–Werte notwendig ist. Andererseits reagiert er empfindlich auf “Ausreißer” in den Daten. Dabei verstehen
wir unter “Ausreißern” Werte, die entweder falsch eingetragen wurden (z.B. durch falsches Setzen
von Dezimalpunkten, unsinnige Angaben auf Fragebögen) oder tatsächlich ungewöhnlich groß
oder klein sind. Ein einziger extremer Wert kann dafür sorgen, dass der Mittelwert X̄ von den
meisten Werten Xi sehr weit entfernt ist. Im Gegensatz dazu ist der Median robust gegenüber
Ausreißern. Dies werden wir in den Übungen noch genauer untersuchen.
Dass gerade Ökonomen lieber mit Mittelwerten als mit Quantilen arbeiten, liegt vermutlich daran,
dass man mit Mittelwerten leicht rechnen und sie gut extrapolieren kann. Wenn man beispielsweise
schätzt, dass Studierende, die nicht bei Angehörigen wohnen, monatlich und pro Person ca. 600
CHF Miete zahlen, und wenn man davon ausgeht, dass in der Agglomeration Bern ca. 3’500 solche
Personen leben, dann beträgt ihr gesamtes Mietaufkommen ca. 30 500 · 600 = 20 1000 000 CHF pro
Monat.
Mathematische Charakterisierung von Median und Mittelwert
Wie schon gesagt, ist ein Lageparameter eine Zahl, die “möglichst nahe” an allen X–Werten liegt.
Dies wollen wir nun präzisieren:
Optimalität des Medians. Für eine beliebige Zahl r betrachten wir die Abstandssumme
A(r) = |r − X1 | + |r − X2 | + · · · + |r − Xn | =
n
X
|r − Xi |.
i=1
Man denke beispielsweise an eine lange Straße, an welcher n Häuser an den Positionen X1 , . . . ,
Xn liegen. Nun möchte man einen Briefkasten an einer Stelle r anbringen, so dass die Summe
aller Entfernungen von den Häusern zum Briefkasten möglichst klein wird.
Die Abstandssumme A(r) ist genau dann minimal, wenn r ein Median der Zahlen X1 , . . . , Xn
ist! Dies kann man wie folgt begründen:
Angenommen, der Briefkasten befindet sich momentan an einer Stelle r < X(1) . Wenn man ihn
um eine kleine Strecke ∆ nach rechts versetzt, sind alle Haushalte zufrieden, denn die Entfernung nimmt jeweils um ∆ ab. Mathematisch gesprochen hat die Funktion A auf dem Intervall
(−∞, X(1) ] die Steigung −n.
Angenommen, der Briefkasten befindet sich momentan an einer Stelle r ∈ (X(i) , X(i+1) ). Wenn
man ihn nun um ein kleines Stück ∆ nach rechts verschiebt, werden sich die i Haushalte zur
linken Seite beschweren, aber die n−i Haushalte zur rechten sind zufrieden(er). Auf dem Intervall
[X(i) , X(i+1) ] hat die Funktion A die Steigung i − (n − i) = 2i − n.
Auf dem Intervall [X(n) , ∞) hat A die Steigung n.
2.3. BESCHREIBUNG NUMERISCHER MERKMALE
25
Diese Überlegungen zeigen, dass man den Briefkasten im Falle einer geraden Zahl n irgendwo
im Intervall [X(n/2) , X(n/2+1) ] platzieren sollte. Im Falle einer ungeraden Zahl n sollte er an der
Stelle X((n+1)/2) stehen.
Optimalität des Mittelwertes. An Stelle der Summe aller Abstände |r − Xi | betrachten wir nun
die Quadratsumme
2
2
2
Q(r) := (r − X1 ) + (r − X2 ) + · · · + (r − Xn ) =
n
X
(r − Xi )2 .
i=1
Diese ist minimal genau dann, wenn r gleich dem Mittelwert X̄ ist. Denn zweimaliges Anwenden
der binomischen Formel (a − b)2 = a2 − 2ab + b2 liefert:
n
X
Q(r) =
(r2 − 2rXi + Xi2 )
i=1
2
= nr − 2r
n
X
Xi +
i=1
n
X
Xi2
i=1
= n(r2 − 2rX̄) +
n
X
Xi2
i=1
= n(r − X̄)2 +
n
X
Xi2 − nX̄ 2 .
i=1
Dies zeigt, dass der Graph von r 7→ Q(r) eine nach oben offene Parabel mit Scheitelpunkt an der
Stelle r = X̄ ist.
Beispiel 2.5 (Illustration beider Kriterien) Abbildung 2.10 zeigt die Funktion r 7→ A(r) im
Falle von n = 5 und X(1) = 0.5, X(2) = 1, X(3) = 2.5, X(4) = 5, X(5) = 15. In diesem Beispiel
ist X̄ = 4.8, und Abbildung 2.11 zeigt die entsprechende Funktion r 7→ Q(r).
2.3.5
Skalenparameter
Ein Skalenparameter (measure of spread, variation, variability) ist eine Zahl, welche angibt, wie
groß “typischerweise” die
◦ Abweichungen der X–Werte von ihrem “Zentrum” sind bzw.
◦ Abstände der X–Werte untereinander sind.
Nachfolgend beschreiben wir die fünf gängigsten Skalenparameter:
Spannweite (range): Die Spannweite der X–Werte in der Stichprobe ist
X(n) − X(1) ,
also die Differenz von Maximum und Minimum der Stichprobenwerte.
26
KAPITEL 2. BESCHREIBENDE STATISTIK
60
50
A(r)
40
30
20
10
0
−2
0
2
4
6
Abbildung 2.10: r 7→ A(r) =
r
8
Pn
i=1 |Xi
10
12
14
16
18
− r| für Beispiel 2.5.
Interquartilabstand (inter quartile range): Der Interquartilabstand ist definiert als die Differenz
zwischen drittem und erstem Quartil, also
IQR := Q0.75 − Q0.25 .
Mit anderen Worten, es ist die Länge des Intervalls [Q0.25 , Q0.75 ], von dem wir wissen, dass es
mindestens 50% aller X–Werte enthält.
Standardabweichung (standard deviation): Die (Stichproben-) Standardabweichung ist definiert als
v
u
n
u 1 X
S := t
(Xi − X̄)2 .
n−1
i=1
Diese Zahl ist ein Maß für die mittlere Abweichung der X–Werte vom Stichprobenmittelwert
P
X̄. Eine naheliegendere Größe wäre eigentlich n−1 ni=1 |Xi − X̄|. Warum man stattdessen die
Differenzen erst quadriert, mit (n − 1)−1 an Stelle von n−1 normiert und dann die Quadratwurzel
zieht, werden wir erst später erklären können.
P
Die Kenngröße innerhalb der Quadratwurzel, (n − 1)−1 ni=1 (Xi − X̄)2 , ist die sogenannte
(Stichproben-) Varianz.
Die konkrete Berechnung der Standardabweichung kann nach obiger Formel erfolgen, oder man
2.3. BESCHREIBUNG NUMERISCHER MERKMALE
27
800
700
600
Q(r)
500
400
300
200
100
0
0
2
4
6
Abbildung 2.11: r 7→ Q(r) =
r
Pn
8
i=1 (Xi
10
12
14
16
− r)2 für Beispiel 2.5.
nutzt aus, dass
n
n
X
X
(Xi − X̄)2 =
(Xi2 − 2X̄Xi + X̄ 2 )
i=1
=
i=1
n
X
Xi2 − 2X̄
i=1
=
n
X
n
X
Xi + nX̄ 2
|i=1{z }
= nX̄
Xi2 − nX̄ 2 .
i=1
Daher ist
v
u
u
S = t
n
1 X 2
Xi − nX̄ 2 .
n−1
i=1
Allerdings ist diese Variante numerisch heikel! Wenn man den Mittelwert X̄ etwas rundet und
dann in diese Formel einsetzt, kann sich durch das Quadrieren und Multiplizieren mit n ein deutlicher Fehler einschleichen.
Ginis Skalenparameter: Dieser Skalenparameter wurde von dem italienischen Ökonometriker
Corrado Gini (1884-1965) vorgeschlagen. (Bekannter ist allerdings der Gini–Index; siehe den Abschnitt über Formparameter). Es handelt sich um den arithmetischen Mittelwert der Abstände
28
KAPITEL 2. BESCHREIBENDE STATISTIK
|Xi − Xj | über alle möglichen Paare von Beobachtungen:
G :=
n−1 n
1 X X
|Xi − Xj |.
n
2
i=1 j=i+1
In der Doppelsumme kommen alle Paare (i, j) von Indizes mit 1 ≤ i < j ≤ n vor, und hiervon
gibt es n2 = n(n − 1)/2 Stück.
Diese Definition des Skalenparameters von Gini ist intuitiv einleuchtend, aber die Berchnung nach
dieser Formel würde eine Summe von n(n − 1)/2 Zahlen bedeuten. Viel einfacher ist folgende
Formel, bei der man die Ordnungsstatistiken, also die sortierten X–Werte, benötigt:
n
G =
X
2
(2i − n − 1)X(i) .
n(n − 1)
i=1
Den Beweis dieser Formel stellen wir als Übungsaufgabe.
Median der absoluten Abweichungen (median absolute deviation): Ähnlich wie bei der Standardabweichung, geht es hier um typische Abweichungen vom Zentrum, diesmal dem Median:
Zunächst berechnet man den Median Med = Med(X1 , . . . , Xn ) der X–Werte, und dann den
Median der Abweichungen |Xi − Med |:
MAD := Med |X1 − Med |, |X2 − Med |, . . . , |Xn − Med | .
Man kann also sagen, dass |Xi − Med | < MAD für höchstens 50% aller Beobachtungen und
|Xi − Med | ≤ MAD für mindestens 50% aller Beobachtungen.
Wenn die Abstände des Medians zu den beiden anderen Quartilen identisch sind, ist MAD =
IQR/2. Denn nach Definition der Quartile ist dann |Xi − Med | ≤ IQR/2 für mindestens 50%
aller Beobachtungen und |Xi − Med | < IQR/2 für höchstens 50% aller Beobachtungen.
Beispiel 2.6 Angenommen, n = 8 und die Stichprobenwerte von X seien nach Sortierung gleich
0.5, 1, 2, 3, 3.5, 4.2, 7, 11. Hier ist
Q0.25 = (X(2) + X(3) )/2 = 1.5,
Med = (X(4) + X(5) )/2 = 3.25,
Q0.75 = (X(6) + X(7) )/2 = 5.6,
X̄ = (X1 + · · · + X8 )/8 = 4.025.
2.3. BESCHREIBUNG NUMERISCHER MERKMALE
29
Folglich ist
Range = X(8) − X(1) = 11 − 0.5 = 10.5,
IQR = Q0.75 − Q0.25 = 5.6 − 1.5 = 4.1,
v
u
8
u
X
√
t
−1
7
S =
(Xi − 4.025)2 = 7−1 84.535 ≈ 3.475,
i=1
−1 X
7 X
8
8
G =
|Xi − Xj | = 28−1 110.6 = 3.95,
2
i=1 j=i+1
MAD = Med(|X1 − 3.25|, |X2 − 3.25|, . . . , |X8 − 3.25|)
= Med(2.75, 2.25, 1.25, 0.25, 0.25, 0.95, 3.75, 7.75)
= Med(0.25, 0.25, 0.95, 1.25, 2.25, 2.75, 3.75, 7.75) = 1.75.
Die alternativen Formeln für S und G liefern natürlich die gleichen Resultate:
v
u
8
X
u
p
7−1 (214.14 − 8 · 4.0252 ) ≈ 3.475,
Xi2 − 8 · 4.0252 =
S = t7−1
i=1
G =
2
8·7
8
X
(2i − 9)X(i) = 28−1 110.6 = 3.95.
i=1
Beispiel 2.1 (Befr. von Stud., Forts.) Betrachten wir noch einmal die Variable ‘Körpergröße’
(in cm) der Damen mit n = 113 Werten. Wir wissen bereits, dass Med = 168, X̄ ≈ 168.102.
Ferner ist Q0.25 = X(29) = 164 und Q0.75 = X(85) = 172. Folglich ist
Range = X(113) − X(1) = 185 − 155 = 30,
IQR = Q0.75 − Q0.25 = 8,

v
u
113

u
X


t112−1


(Xi − 168.102)2




i=1
S ≈
v


u

113
X

u


t112−1
2 − 113 · 168.1022

X

i

i=1










≈
√
112−1 · 4007.08 ≈ 5.981,









113
X
2
(2i − 114)X(i) = 6328−1 · 42881 ≈ 6.776,
113 · 112
i=1


 Med(|X1 − 168|, |X2 − 168|, . . . , |X113 − 168|) 
MAD =
= 4.


hier: IQR/2, da Q0.75 − Med = Med −Q0.25
G =
Betrachten wir stattdessen die Variable ‘Monatsmiete’ (in CHF) in der Teilstichprobe aller Studierenden, die überhaupt Miete bezahlen, also n = 129. Hier ist Med = 550 und X̄ ≈ 609.128.
30
KAPITEL 2. BESCHREIBENDE STATISTIK
Ferner ist Q0.25 = X(33) = 440 und Q0.75 = 665. Daher ist
Range = X(129) − X(1) = 2000 − 220 = 1780,
IQR = Q0.75 − Q0.25 = 225,
v
u
129
u
X
√
S ≈ t128−1
(Xi − 609.128)2 ≈ 128−1 · 10702041.14 ≈ 289.153,
i=1
129
G =
X
2
(2i − 130)X(i) = 8256−1 · 2312830 ≈ 280.139,
129 · 128
i=1
MAD = Med(|X1 − 550|, |X2 − 550|, . . . , |X129 − 550|) = 110.
Robustheit
Von den fünf behandelten Skalenparametern reagieren drei empfindlich auf einzelne Ausreißer,
nämlich die Spannweite, die Standardabweichung und Ginis Skalenparameter. Im Gegensatz dazu sind der Interquartilabstand und der Median der absoluten Abweichungen robust. Man kann
zeigen, dass man bis zu
• bn/4c − 1 der X–Werte beliebig verändern kann, ohne dass der IQR beliebig stark entartet,
• bn/2c − 1 der X–Werte beliebig verändern kann, ohne dass der MAD beliebig stark entartet.
2.3.6
Lorenz-Kurve und Gini-Index
Im Falle einer Variable X mit nichtnegativen Werten und X̄ > 0 möchte man vielleicht quantifizieren, wie stark die Quotienten Xi /X̄ von Eins abweichen. Hierfür gibt es im Prinzip viele
Möglichkeiten; man nehme den Quotient aus irgendeinem Skalenparameter und dem Mittelwert,
z.B. den “Variationskoeffizienten” S/X̄. In der Ökonometrie wurde ein anderes Maß hierfür entwickelt.
Im Zusammenhang mit Einkommensverteilungen führte der amerikanische Ökonometriker Max
O. Lorenz die nach ihm benannten Lorenz-Kurven ein. Dabei dachte er primär an eine Population
von n Individuen mit Einkommen X1 , X2 , . . . , Xn (z.B. Jahreseinkommen). Das Gesamteinkommen der Population ist also
n
X
Xi = nX̄.
i=1
Nun sortiert man die X–Werte und erhält die Ordnungsstatistiken X(1) ≤ X(2) ≤ · · · ≤ X(n) .
Dann betrachtet man für eine beliebige Zahl k ∈ {1, 2, . . . , n} das Gesamteinkommen der k
ärmsten Individuen, also die Summe
X(1) + X(2) + · · · + X(k) =
k
X
X(i) .
i=1
Dieses vergleicht man mit dem Gesamteinkommen der Population und bildet den Quotienten
Pk
i=1 X(i)
.
nX̄
2.3. BESCHREIBUNG NUMERISCHER MERKMALE
31
Die Lorenzkurve ist ein Streckenzug, der die Punkte (0, 0) und
k Pk X (i)
, i=1
n
nX̄
für k = 1, 2, . . . , n verbindet. Dabei ist k/n der relative Anteil der k ärmsten Individuen an
P
der Gesamtpopulation, und ki=1 X(i) /(nX̄) ist der relative Anteil ihres Gesamteinkommens am
Populationseinkommen.
Beispiel 2.7 Angenommen, n = 10, und die sortierten X–Werte seien 1, 1, 2, 2, 2, 3, 3, 4, 7,
9 (z.B. wöchentliches Taschengeld von 10 Schulanfängern in Euro). Das Gesamteinkommen ist
nX̄ = 34, und die Lorenz-Kurve verbindet die Punkte
1 1
2 2
3 4
4 6
5 8
0, 0 ,
,
,
,
,
,
,
,
,
,
10 34
10 34
10 34
10 34
10 34 ,
6 11
10 , 34
,
7 14
10 , 34
,
8 18
10 , 34
,
9 25
10 , 34
,
1, 1 ;
siehe Abbildung 2.12.
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Abbildung 2.12: Lorenzkurve für Beispiel 2.7.
Ganz allgemein ist die Lorenzkurve monoton wachsend und konvex. Das heißt, von links nach
rechts nehmen der Funktionswert sowie die Steigung zu. Je ungleichmäßiger die Einkommen in
der Population verteilt sind, desto weiter ist die Lorenzkurve von der ersten Winkelhalbierenden
entfernt. Wären alle X–Werte identisch, dann würde die Lorenzkurve der ersten Winkelhalbierenden folgen. Wären dagegen alle X–Werte bis auf einen gleich Null, so würde die Lorenzkurve fast
durchgehend der horizontalen Achse folgen. Im obigen Beispiel mit n = 10 Werten sähen diese
Extremfälle wie in Abbildung 2.13 aus.
32
KAPITEL 2. BESCHREIBENDE STATISTIK
1
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Abbildung 2.13: Extremfälle für die Lorenzkurve
Gini–Index. Als Maß für die ungleiche Verteilung der X–Werte verwenden Ökonometriker
häufig die Zahl
GI := 2 · Fläche zwischen Lorenzkurve und 1. Winkelhalbierender.
Diese Zahl liegt stets zwischen Null und Eins. Diese Extremwerte entsprechen der Situation, dass
X(1) = X(2) = · · · = X(n)
bzw.
X(1) = · · · = X(n−1) = 0,
X(n) > 0
und n → ∞.
Mit Hilfe der Formel für den Flächeninhalt von Trapezen und einfachen algebraischen Umformungen kann man zeigen, dass
GI =
n
n+1
2 X
i · X(i) −
.
2
n
n X̄ i=1
In der Literatur gibt es noch mindestens drei andere äquivalente Formeln für den Gini–Index.
Beispiel 2.7 (Forts.) Hier ist n = 10 und n2 · X̄ = 340, also
2 11
1 · 1 + 2 · 1 + 3 · 2 + 4 · 2 + 5 · 2 + 6 · 3 + 7 · 3 + 8 · 4 + 9 · 7 + 10 · 9) −
340
10
≈ 0.3765.
GI =
Beispiel 2.8 (Gehälter professioneller Baseballspieler) Als weiteres Beispiel betrachten wir
einen Datensatz mit den Jahresgehältern von n = 263 US-amerikanischen Baseballspielern aus
der Profiliga. Die Einheit ist 1000 USD. Der linke Plot in Abbildung 2.14 zeigt die entsprechende
empirische Verteilungsfunktion. Minimum und Maximum der X–Werte sind X(1) = 67.5 bzw.
X(n) = 2460, der Median ist Med = X(132) = 425, und der Mittelwert ist X̄ ≈ 535.926.
2.3. BESCHREIBUNG NUMERISCHER MERKMALE
33
Die entsprechende Lorenzkurve sieht man im rechten Plot von Abbildung 2.14. Die allgemeine
Formel für den Gini-Index liefert hier
263
X
264
2
iX(i) −
≈ 0.435.
GI ≈
2632 · 535.926
263
i=1
Die Graphik und die Kenngröße zeigen, dass die Quotienten Xi /X̄ recht stark von Eins abweichen.
1
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
0
500
1000
1500
2000
2500
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Abbildung 2.14: Empirische Verteilungsfunktion (links) und Lorenzkurve (rechts) der Gehälter in
Beispiel 2.8.
2.3.7
Formparameter
Nun kommen wir zur dritten Kategorie von Kenngrößen, die sich mit der “Form” der Verteilung
der X–Werte befassen. Ein Aspekt der Form ist zum Beispiel die Symmetrie.
Schiefe (skewness). Der Mittelwert X̄ ist der Schwerpunkt aller X–Werte in dem Sinne, dass
n
X
(Xi − X̄) = 0.
i=1
Anschaulich bedeutet dies Folgendes: Angenommen, n Personen nehmen auf einer Wippe Platz,
und zwar an den Positionen X1 , . . . , Xn . Wenn der Drehpunkt mit X̄ übereinstimmt, dann befindet
sich die Wippe im Gleichgewicht.
Um nun zu quantifizieren, wie unsymmetrisch die Werte Xi um den Schwerpunkt X̄ herum liegen,
betrachtet man die Summe
n
X
(Xi − X̄)3 .
i=1
Nun werden also die Abweichungen vom Mittelwert überproportional gewichtet. Diese Summe
34
KAPITEL 2. BESCHREIBENDE STATISTIK
wird noch standardisiert, und man erhält die
Schiefe :=
n
1 X
(Xi − X̄)3
nS 3
=
n
1 X Xi − X̄ 3
.
n
S
i=1
i=1
Angenommen, die X–Werte sind in etwa symmetrisch um den Mittelwert X̄ verteilt. Anschaulich
bedeutet dies, dass ein Histogramm der X–Werte in etwa symmetrisch um X̄ verläuft. In diesem
Falle ist die Schiefe nahezu gleich Null.
Ist die Verteilung der X–Werte rechtsschief, so ist Schiefe > 0. Dabei bedeutet rechtsschief, dass
(a) mehr als 50% der Werte Xi links vom Mittelwert liegen, viele davon relativ nahe, und
(b) weniger als 50% der Werte Xi rechts vom Mittelwert liegen, einige davon relativ weit entfernt.
Analog ist Schiefe < 0, wenn die Verteilung der X–Werte linksschief ist. Das heißt,
(a) mehr als 50% der Werte Xi liegen rechts vom Mittelwert, viele davon relativ nahe, und
(b) weniger als 50% der Werte Xi links vom Mittelwert, einige davon relativ weit entfernt.
Typische Verläufe von Histogrammen bei einer rechts- bzw. linksschiefen Verteilung sind in Abbildung 2.15 skizziert.
Abbildung 2.15: Karikaturen von Histogrammen bei links- bzw. rechtsschiefer Verteilung.
Beispiel 2.1 (Befr. von Stud., Forts.) Für die n = 113 Werte der Körpergröße der Damen hatten
wir bereits Histogramme gesehen. Eine deutliche Schieflage ist nicht erkennbar. Dies wird auch
durch den Zahlenwert der Schiefe bestätigt:
X̄ ≈ 168.102,
S ≈ 5.981,
n
X
(Xi − X̄)3 ≈ 4966.856,
i=1
also
Schiefe ≈
4966.856
≈ 0.2054.
113 · 5.9813
Nun betrachten wir zum Vergleich die strikt positiven Monatsmieten in CHF: Hier gibt es n = 129
Werte, und das Histogramm bezüglich der Intervalle [150, 250), [250, 350), . . . , [1950, 2050) zeigt
2.3. BESCHREIBUNG NUMERISCHER MERKMALE
35
eine rechtsschiefe Verteilung der Monatsmieten; siehe Abbildung 2.16. Die Schiefe berechnet sich
wie folgt:
n
X
X̄ ≈ 609.128, S ≈ 289.153,
(Xi − X̄)3 ≈ 6.481 · 109 ,
i=1
also
Schiefe ≈
6.481 · 109
≈ 2.0781.
129 · 289.1533
−3
x 10
2.5
2
1.5
1
0.5
0
200
400
600
800
1000
1200
1400
1600
1800
2000
Abbildung 2.16: Histogramm der Monatsmieten in Beispiel 2.1.
Kurtose (kurtosis). Der zweite und letzte hier besprochene Formparameter ist die Kurtose. Dabei handelt es sich um die Zahl
Kurtose :=
n
1 X
(Xi − X̄)4 − 3,
nS 4
i=1
=
n
1 X Xi − X̄ 4
− 3.
n
S
i=1
Die Idee hinter dieser Kenngröße ist folgende: Viele numerische Merkmale ergeben bei großem
Stichprobenumfang n und recht kleinen Intervallen ein Histogramm, welches einer Gaußschen
Glockenkurve ähnelt. Genauer: Mit unserer zweiten Konvention für die Histogramme erinnern
diese an die Funktion
(x − X̄)2 1
exp −
.
(2.1)
f (x) := √
2S 2
2πS 2
Dabei bezeichnet exp(·) die Exponentialfunktion, (r) = er . In diesem Falle ist der Wert der
Kurtose nahe an Null. Warum ausgerechnet diese, zugegebenermaßen komplizierte, Glockenkurve
auftritt, werden wir in einem späteren Abschnitt noch besprechen.
36
KAPITEL 2. BESCHREIBENDE STATISTIK
Beispiel 2.9 In den Abbildungen 2.17, 2.18 bzw. 2.19 zeigen wir Histogramme von drei simulierten Datensätzen, zusammen mit der entsprechenden Gaußschen Glockenkurve aus (2.1). Der
Stichprobenumfang ist jeweils n = 500, und die Daten wurden so skaliert und verschoben, dass
stets X̄ = 100 sowie S = 15. Die Histogramme wurden jeweils mit Intervallen der Länge 3
erzeugt.
P
Im ersten Beispiel ist ni=1 (Xi − X̄)4 ≈ 7.824 · 107 , also
Kurtose ≈
7.824 · 107
− 3 ≈ 0.091.
500 · 154
Dieser Wert ist (absolut) recht klein, und auch die Übereinstimmung von Histogramm und Gaußscher Glockenkurve ist recht gut im Vergleich zu den zwei späteren Beispielen:
P
Im zweiten Beispiel ist ni=1 (Xi − X̄)4 ≈ 4.755 · 107 , also
4.557 · 107
− 3 ≈ −1.1213.
500 · 154
Im Vergleich zur Glockenkurve fällt das Histogramm in den Randbereichen zu schnell ab:
P
In unserem letzten Beispiel ist ni=1 (Xi − X̄)4 ≈ 2.983 · 108 , also
Kurtose ≈
2.983 · 108
− 3 ≈ 8.784.
500 · 154
Im Vergleich zur Glockenkurve fällt das Histogramm in den Randbereichen zu langsam ab:
Kurtose ≈
Abbildung 2.17: Beispiel 1 zur Kurtose.
2.4
Simultane Beschreibung zweier Merkmale
Nun betrachten wir zwei Variablen, X und Y , von ein und demselben Datensatz. Mit Hilfe geeigneter Graphiken oder Kenngrößen wollen wir den augenscheinlichen Zusammenhang zwischen
2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE
37
Abbildung 2.18: Beispiel 2 zur Kurtose.
X– und Y –Werten beschreiben. Je nach Typ von X und Y gibt es hierfür verschiedene Verfahren.
2.4.1
Kontingenztafeln
Beide Variablen X und Y seien kategoriell mit Werten in {x1 , . . . , xL } bzw. {y1 , . . . , yM }. Dann
kann man die n Paare (Xi , Yi ) zu einer Kontingenztafel (contingency table) zusammenfassen:
y2
H1,2
H2,2
..
.
···
···
···
..
.
x1
x2
..
.
y1
H1,1
H2,1
..
.
xL
HL,1 HL,2 · · ·
yM
H1,M
H2,M .
..
.
HL,M
Dabei ist
Hj,k := # {i : Xi = xj und Yi = yk }
=
Anzahl aller Beobachtungen mit X = xj und Y = yk .
Beispiel 2.1 (Befr. von Stud., Forts.) Für die Variablen X = Geschlecht und Y = Rauchen
ergibt sich folgende Kontingenztafel:
m
w
0
100
71
1
21
26
2
24
19
Dabei wurden zwei der 263 Beobachtungen wegen fehlender Y –Werte herausgenommen.
38
KAPITEL 2. BESCHREIBENDE STATISTIK
Abbildung 2.19: Beispiel 3 zur Kurtose.
Oftmals ergänzt man diese Tabelle noch um die Zeilensummen
Hj,+ :=
M
X
Hj,k = # {i : Xi = xj } ,
k=1
die Spaltensummen
H+,k :=
L
X
Hj,k = # {i : Yi = yk }
j=1
sowie den Stichprobenumfang
n =
 PL

j=1 Hj,+ ,
 PM
k=1 H+,k .
Dies ergibt die erweiterte Kontingentafel
x1
x2
..
.
xL
···
···
···
..
.
yM
H1,M
H2,M
..
.
H1,+
H2,+
.. .
.
HL,1 HL,2 · · ·
H+,1 H+,2 · · ·
HL,M
H+,M
HL,+
n
y1
H1,1
H2,1
..
.
y2
H1,2
H2,2
..
.
Beispiel 2.1 (Befr. von Stud., Forts.) Für das obige Beispiel ist die erweiterte Tabelle gleich
m
w
0
100
71
171
1
21
26
47
2
24
19
43
145
116
261
2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE
39
Wenn man nun den augenscheinlichen Zusammenhang zwischen X– und Y –Werten verdeutlichen
will, gibt es zwei Möglichkeiten:
(a) Man unterteilt den Datensatz anhand der Variable X in L Teilgruppen und schaut, ob die Y –
Werte in diesen Teilgruppen ähnlich oder sehr unterschiedlich verteilt sind. Mit anderen Worten,
man normiert alle Zeilen der Kontingenztafel auf Summe Eins (100%).
(b) Man unterteilt den Datensatz anhand der Variable Y in M Teilgruppen und schaut, ob die X–
Werte in diesen Teilgruppen ähnlich oder sehr unterschiedlich verteilt sind. Mit anderen Worten,
man normiert alle Spalten der Kontingenztafel auf Summe Eins (100%).
Beispiel 2.1 (Befr. von Stud., Forts.) Mit der Zeilennormierung ergibt sich folgende Tabelle:
m
w
0
0.690
0.612
0.655
1
0.145
0.224
0.180
2
0.165
0.164
0.165
Dagegen liefert die Spaltennormierung die Tabelle
m
w
0
0.585
0.415
1
0.447
0.553
2
0.558
0.442
0.556
0.444
Man sieht, dass der relative Anteil der regelmäßigen RaucherInnen unter den Männern und Frauen
fast identisch ist. Dagegen ist der relative Anteil von NichtraucherInnen unter den Männern höher
als unter den Frauen. Bei den Frauen ist der relative Anteil von GelegenheitsraucherInnen höher
als bei den Männern.
Kenngröße 1: Chiquadrat–Statistik
Wenn es keinerlei Zusammnhang zwischen den X– und Y –Werten gäbe, würde man damit rechnen, dass je zwei Zeilen bzw. Spalten proportional zueinander sind. Tatsächlich kann man zeigen,
dass die folgenden drei Aussagen äquivalent sind:
(a) Die normierten Zeilen der Kontingenztafel sind identisch.
(b) Die normierten Spalten der Kontingenztafel sind identisch.
(c) Für alle j ∈ {1, . . . , L} und k ∈ {1, . . . , M } ist
Hj,k =
Hj,+ H+,k
.
n
Eine (und damit alle) dieser drei Bedingungen ist selten perfekt erfüllt. Aber um den Zusammenhang zwischen X– und Y –Werten zu quantifizieren, kann man messen, wie sehr sich die
tatsächlichen Tabelleneinträge Hj,k von den “idealisierten Werten”
H̄j,k :=
Hj,+ H+,k
n
40
KAPITEL 2. BESCHREIBENDE STATISTIK
unterscheiden. (Letztere sind im allgemeinen nicht ganzzahlig.) Je größer die Abweichungen
|Hj,k − H̄j,k | sind, desto größer ist der augenscheinliche Zusammenhang zwischen X– und Y –
Werten.
Eine konkrete Kenngröße für diesen Unterschied ist die Chiquadrat–Statistik (χ2 –statistic)
2
χ :=
L X
M
X
(Hj,k − H̄j,k )2
H̄j,k
j=1 k=1
.
Dass ausgerechnet diese spezielle Normierung sinnvoll ist, werden wir später im Zusammnhang
P P
P P
mit statistischen Tests noch sehen. Aus den Gleichungen j k Hjk = j k H̄jk = n kann
man eine vereinfachte Formel ableiten:
χ2 :=
L X
M
2
X
Hj,k
j=1 k=1
H̄j,k
− n.
Eine Faustregel. Es ist noch nicht klar, wie man diese Zahl χ2 nun beurteilen soll. Welche Werte
sind “auffallend groß”, welche Werte sind “normal groß”. Bei keinem “echten” Zusammenhang
zwischen X– und Y –Werten rechnet man mit einem Wert χ2 von der Größenordnung (L−1)(M −
1). Etwas genauer: Wenn χ2 größer ist als die Schranke
(L − 1)(M − 1) + 2
p
2(L − 1)(M − 1),
so kann man mit einer Sicherheit von ca. 95% davon ausgehen, dass es einen “echten” Zusammenhang gibt; siehe das Kapitel über statistische Tests.
Zusammenhang und Kausalität. Kontingenztafeln und daraus abgeleitete Kenngrößen werden
oft überinterpretiert. Ein großer Wert von χ2 spricht für einen Zusammenhang zwischen X– und
Y –Werten, doch sagt dies nichts über Ursache und Wirkung aus! Ein Zusammenhang zwischen
zwei Merkmalen heißt noch nicht, dass sich eines der beiden ursächlich auf das andere auswirkt
(“correlation is not causation”).
Beispiel 2.1 (Befr. von Stud., Forts.) Wir ergänzen die Kontingenztafel mit den idealisierten
Werten H̄j,k (in Klammern und auf zwei Nachkommastellen gerundet):
m
w
0
100
(95.00)
71
(76.00)
171
1
21
(26.11)
26
(20.89)
47
2
24
(23.89)
19
(19.11)
43
145
116
261
Zum Beispiel ist H̄1,1 = 145 · 171/261 ≈ 95.00, und H̄2,3 = 116 · 43/261 ≈ 19.11. Die χ2 –
2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE
41
Statistik ist gleich
(100 − 95.00)2 (21 − 26.11)2 (24 − 23.89)2
+
+
95.00
26.11
23.89
(71 − 76.00)2 (26 − 20.89)2 (19 − 19.11)2
+
+
+
76.00
20.89
19.11
≈ 2.84.
χ2 =
Die obige Faustregel liefert (L − 1)(M − 1) = 2, und die genauere Schranke ist gleich 2 + 2 ·
√
2 · 2 = 6. Der Zusammenhang zwischen Geschlecht und Rauchverhalten scheint also nicht sehr
stark zu sein.
Beispiel 2.10 (Herzerkrankungen und Schnarchen) In einer medizinischen Studie über den
möglichen Zusammenhang zwischen Herzerkrankungen und Schnarchen wurden n = 2484 Männer untersucht. Zum einen wurde festgestellt, ob eine Erkrankung des Herzens vorliegt oder nicht.
Dies ergab eine Variable X mit möglichen Werten ‘ja’ und ‘nein’. Desweiteren wurden sie anhand
von Aussagen ihrer Lebenspartnerinnen in vier Kategorien bezüglich Schnarchens unterteilt, und
man erhielt eine Variable Y mit möglichen Werten ‘nie’, ‘manchmal’, ‘oft’ (mind. jede zweite
Nacht) und ‘immer’ (jede Nacht). Hier ist die entsprechende Kontingenztafel:
Herzkrank?
ja
nein
nie
24
1355
1379
Schnarchen?
manchm. oft
35
21
603 192
638 213
immer
30
224
254
110
2374
2484
Die Gruppe der Herzkranken ist wesentlich kleiner als die Gruppe der Gesunden, und die Gruppe
der Nichtschnarchenden ist deutlich größer als die Gruppe der Schnarchenden. Daher sieht man
dieser Tabelle nicht auf Anhieb einen augenscheinlichen Unterschied zwischen X– und Y –Werten
an. Also betrachten wir die Zeilennormierung auf drei Nachkommastellen:
ja
nein
nie
0.218
0.571
0.555
manchm.
0.318
0.254
0.257
oft
0.191
0.081
0.086
immer
0.273
0.094
0.102
Jetzt wird deutlich, dass der relative Anteil von Schnarchenden bei den Herzkranken deutlich
höher ist als bei den Gesunden. Auch bei der Spaltennormierung wird dies deutlich:
ja
nein
nie
0.017
0.983
manchm.
0.055
0.945
oft
0.099
0.901
immer
0.118
0.882
0.044
0.956
Mit der ordinalen Variable Y wächst der relative Anteil von Herzkranken an.
Nun die Berechnung der χ2 –Statistik: Die um die idealisierten Werte H̄j,k ergänzte Kontingenztafel ist
42
KAPITEL 2. BESCHREIBENDE STATISTIK
ja
nein
nie
24
(61.07)
1355
(1317.93)
1379
manchm.
35
(28.25)
603
(609.75)
638
oft
21
(9.43)
192
(203.57)
213
immer
30
(11.25)
224
(242.75)
254
110
2374
2484
Dies ergibt den Wert
(24 − 61.07)2 (35 − 28.25)2
(224 − 242.75)2
+
+ ··· +
≈ 72.78.
61.07
28.25
242.75
√
Vergleicht man dies mit (L − 1)(M − 1) = 3 bzw. 3 + 2 2 · 3 ≈ 7.899, so scheint ein echter
Zusammenhang zwischen Schnarchen und Herzerkrankungen vorzuliegen. Dies sagt noch nichts
über mögliche Ursachen aus. Denkbar wäre beispielsweise, dass (i) Schnarchen zu Herzerkrankungen führt, (ii) Herzerkrankungen das Schnarchen mitverursachen oder (iii) sowohl Schnarchen
als auch Herzerkrankungen von gemeinsamen genetischen Faktoren beinflusst werden. Die χ2 –
Testgröße beurteilt auch nicht die Richtung des Zusammenhangs!
χ2 =
Kenngröße 2: Chancenquotient
Wenn beide Merkmale nur zwei mögliche Ausprägungen haben (binäre oder dichotome Merkmale), also L = M = 2, so ergibt sich eine Vierfeldertafel
H1,1 H1,2
.
H2,1 H2,2
Hier kann man die Zahlenverhältnisse innerhalb der Zeilen (oder Spalten) berechnen und miteinander vergleichen. Eine entsprechende Kenngröße ist der Chancenquotient (Kreuzproduktverhältnis,
odds ratio)

H1,1 /H1,2


,


 H2,1 /H2,2
H1,1 H2,2
OR :=
=

H1,2 H2,1

 H1,1 /H2,1

.

H1,2 /H2,2
Die Namen “Chancenquotient” und “odds ratio” versteht man am besten an Hand eines Beispiels.
Beispiel 2.11 (ManagerInnen) Im Rahmen einer Fortbildungsveranstaltung nahmen 48 angehende ManagerInnen an einem Experiment teil, ohne dies zu wissen. Jede(r) von ihnen erhielt eine
(fiktive) Personalakte und sollte entscheiden, ob die betreffende Person befördert wird oder nicht.
Die 48 Personalakten waren identisch bis auf den Namen der Person und wurden rein zufällig
verteilt. In 24 Fällen handelte es sich um die Akte eines Herrn, in 24 Fällen um die einer Dame.
Dieses Experiment lieferte einen Datensatz mit n = 48 Beobachtungen (ManagerInnen) und den
Variablen X ∈ {m, w} (Geschlecht der beurteilten Person) sowie Y ∈ {ja, nein} (Entscheidung
über Beförderung). Die entsprechende Vierfeldertafel war:
2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE
m
w
ja
21
14
35
nein
3
10
13
43
24
24
48
Interpretieren wir die Tabelle zeilenweise: Die Chancen einer Beförderung sind für die 24 (fiktiven) Herren gleich 21/3 = 7; für die 24 Damen sind sie gleich 14/10 = 1.4. Die Chancen für
Herren sind also um den Faktor 7/1.4 = 5 höher als diejenigen für Damen.
Nun die spaltenweise Betrachtung: Die Chancen unter den 35 Beförderten einen Mann anzutreffen
sind gleich 21/14 = 1.5; bei den 13 Nichtbeförderten sind diese Chancen gleich 3/10 = 0.3. Der
Quotient dieser Chancen beträgt 1.5/0.3 = 5.
Kurzum:
OR =
21 · 10
= 5.
14 · 3
Inwieweit diese Daten eine Benachteiligung von Frauen belegen, werden wir später noch diskutieren.
Beispiel 2.12 Ein neues Medikament zur Heilung oder Linderung eines bestimmten Hautausschlags sollte in einer klinischen Studie getestet werden. Hierzu wurden dreißig Probanden mit
dem besagten Hautausschlag rein zufällig in zwei Gruppen aufgeteilt: Einer Gruppe von 15 Probanden wurde das neue Medikament verabreicht, die übrigen 15 Personen erhielten ein Placebo.
Die Behandlungsergebnisse waren wie folgt:
Medikament
Placebo
Besserung
12
5
17
keine Bess.
3
10
13
15
15
30
Die Chancen einer Heilung/Linderung mit Medikament sind schätzungsweise gleich 12/3 = 4,
die Chancen für eine spontane Besserung sind schätzungsweise gleich 5/10 = 0.5. Der Chancenquotient ist also gleich 4/0.5 = 8 = 12 · 10/(5 · 3).
Noch etwas zur Allgemeinbildung: Man spricht hier von einer randomisierten Studie, da die Gruppeneinteilung, d.h. Medikament oder Placebo, zufällig erfolgte. (Auch das Experiment in Beispiel 2.11 war eine randomisierte Studie.) Außerdem war den Patienten während der Studie nicht
bekannt, ob sie Medikament oder Placebo zu sich nahmen. In diesem Falle spricht man von einer
Blindstudie. Wenn sogar die behandelnden Ärzte während der Studie die Gruppenzugehörigkeiten
der Probanden nicht kennen, spricht man von einer Doppelblindstudie.
Das Simpson-Paradoxon
Auf die mögliche Fehlinterpretation von Kontingenztafeln haben wir bereits hingewiesen. Insbesondere kann es bei der Zusammenfassung mehrerer Kontingenztafeln zu einer Gesamttafel zu
Fehlschlüssen kommen. Dies illustrieren wir an einem Beispiel.
44
KAPITEL 2. BESCHREIBENDE STATISTIK
Beispiel 2.13 In den sechziger Jahren wurden Daten über Bewerbungen um einen Studienplatz
an der University of California in Berkeley erhoben. Insbesondere interessierte man sich für die
Gesamtzahlen und Zulassungsquoten der Bewerberinnen und Bewerber. Von den insgesamt 8442
Bewerbern wurden in etwa 44 % zugelassen, von den 4321 Bewerberinnen dagegen nur 35 %.
Für die Zulassung zum Studium bei Männern im Vergleich zu Frauen ergibt sich also der Chancenquotient OR ≈ 1.46, was eine Benachteiligung von Frauen suggeriert. Als man diese Daten
einzelnen Departments vorlegte, wiesen sie fast ausnahmslos den Vorwurf der Benachteiligung
von sich. Hier sieht man die entsprechenden Zahlen für die sechs größten Fachbereiche, die durch
Buchstaben kodiert wurden:
Dept.
A
B
C
D
E
F
Männer
Anzahl Zul.quote
825
0.621
560
0.630
325
0.369
417
0.331
191
0.277
373
0.059
Frauen
Anzahl Zul.quote
108
0.824
25
0.680
593
0.341
375
0.349
393
0.239
341
0.070
OR
0.350
0.801
1.130
0.923
1.220
0.833
Kein einziger Chancenquotient der einzelnen Fachbereiche ist größer als 1.3; vier von sechs Quotienten sind sogar kleiner als Eins! Man sieht jedoch, dass die Zulassungsquoten in den einzelnen
Fachbereichen unterschiedlich hoch sind. Die Frauen tendierten eher zu den Fächern C–F mit relativ niedrigen Zulassungsquoten. In den Fächern A–B mit hohen Zulassungsquoten wurden sogar
die Männer etwas benachteiligt, doch bewarben sich dort relativ wenige Frauen.
Das Simpson–Paradoxon tritt auf, wenn man mehrere Vierfeldertafeln zu einer Gesamttafel zusammenfasst und folgendes passiert: Alle oder zumindest die meisten Einzeltafeln ergeben einen
Chancenquotienten kleiner (größer) als Eins, doch der Chancenquotient für die Gesamttafel ist
größer (kleiner) als Eins. In den Übungen werden wir ein weiteres Zahlenbeispiel konstruieren.
Beispiel 2.13 zeigt auch den Unterschied zwischen Zusammenhang und Kausalität. Zwischen den
Variablen ‘Geschlecht’ und ‘Zulassung’ gibt es einen deutlichen Zusammenhang. Dieser beruht
aber vermutlich auf dem Zusammenhang beider Variablen mit einer weiteren Variable, nämlich
der gewählten Studienrichtung.
2.4.2
Box–Plots und Box–Whisker–Plots
Die Variable X sei kategoriell mit Werten in {x1 , x2 , . . . , xL }, und Y sei ein numerisches Merkmal. Nun unterteilen wir den Datensatz an Hand von X in L Teilgruppen und möchten die Verteilung der Y –Werte in diesen Teilgruppen graphisch darstellen, so dass mögliche Unterschiede je
nach X–Wert deutlich werden.
Im Prinzip könnte man für jede der L Teilgruppen eine empirische Verteilungsfunktion oder ein
Histogramm der Y –Werte zeichnen. Allerdings wird dies bei größeren Zahlen L schnell unübersichtlich. Als Alternative erfand John W. Tukey die sogenannten Box–Plots und Box–Whisker–
Plots.
2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE
45
Konstruktion eines Box–Plots
Wir betrachten eine einzelne Teilgruppe. Für diese berechnen wir folgende fünf Kenngrößen der
Y –Werte:
Minimum, erstes Quartil, Median, drittes Quartil, Maximum.
Diese fünf Werte werden nun graphisch dargestellt: Die vertikale Achse entspicht den möglichen
Y –Werten. Nun zeichnet man ein Rechteck mit unterer Kante in Höhe des ersten Quartils und
oberer Kante in Höhe des dritten Quartils. In Höhe des Medians wird das Rechteck zusätzlich
durch eine horizontale Linie unterteilt. Zusätzlich zeichnet man eine einfache Linie von der Mitte
der unteren Kante bis zum Minimum und eine Linie von der Mitte der oberen Kante bis zum
Maximum. Minimum und Maximum werden oftmals durch einen kleinen Querbalken zusätzlich
hervorgehoben.
Beispiel 2.14 Angenommen, die sortierten Y –Werte der Teilgruppe sind 0, 1, 5, 6, 7, 7, 8, 9, 14,
18. Dann ist
Minimum = 0, Q0.25 = 5, Median = 7, Q0.75 = 9, Maximum = 18.
Den entsprechenden Box-Plot sieht man auf der linken Seite von Abbildung 2.20.
Konstruktion eines Box–Whisker–Plots
Ein möglicher Schwachpunkt des Box–Plots ist die fehlende Detailinformation für den Bereich
zwischen Minimum und erstem Quartil bzw. drittem Quartil und Maximum. Um diesen Bereich
präziser darzustellen, definiert man einen Y –Wert als
◦ “extrem klein”, falls Y < 1. Quartil − 1.5 · IQR,
◦ “extrem groß”, falls Y > h3. Quartil + 1.5 · IQR,
i
◦ “nichtextrem”, falls Y ∈ 1. Quartil − 1.5 · IQR, 3. Quartil + 1.5 · IQR .
Die einfache Linie des Box–Plots vom Minimum zum ersten Quartil wird nun durch eine einfache
Linie vom kleinsten nichtextremen Stichprobenwert zum ersten Quartil ersetzt. Analog ersetzt
man die einfache Linie vom dritten Quartil zum Maximum durch eine Linie vom dritten Quartil
zum größten nichtextremen Wert. Falls es extrem kleine oder extrem große Werte gibt, werden
diese durch Punkte, Kreise oder Sterne einzeln markiert.
Beispiel 2.14 (Forts.) Der Interquartilabstand ist hier IQR = 9 − 5 = 4. Ein Y –Wert gilt also
als extrem klein, wenn er kleiner ist als 5 − 1.5 · 4 = −1, und als extrem groß, wenn er größer ist
als 9 + 1.5 · 4 = 15.
In der Stichprobe ist der kleinste nichtextreme Werte gleich 0, und der größte nichtextreme Wert
ist 14. Es gibt genau einen extremen Wert, nämlich 18. Daher sieht der Box–Whisker–Plot wie auf
der rechten Seite von Abbildung 2.20 aus.
46
KAPITEL 2. BESCHREIBENDE STATISTIK
16
16
14
14
12
12
10
10
Y
18
Y
18
8
8
6
6
4
4
2
2
0
0
Abbildung 2.20: Box-Plot (links) und Box-Whiskers-Plot (rechts) für Beispiel 2.14.
Anmerkungen. Die Grenzen Q0.25 − 1.5 · IQR und Q0.75 + 1.5 · IQR selbst werden nicht
eingezeichnet. Sie dienen nur der Festlegung, welche Y –Werte extrem sind und welche nicht.
Bei kleinen Stichproben oder vielen identischen Y –Werten kann der Box– (Whisker–) Plot auch
entarten in dem Sinne, dass z.B. einfache Linien fehlen oder die Median–Linie mit einer der Rechteckkanten zusammenfällt.
Nun zeigen wir multiple Box–Whiskers–Plots für zwei umfangreichere Datenbeispiele:
Beispiel 2.8 (Baseballspieler, Forts.) Zusätzlich zur Variable Y = Jahresgehalt (in 1000 USD)
enthält dieser Datensatz die Variable X = Jahre. Letztere gibt an, wieviele Jahre der betreffende
Spieler bereits in der Profiliga spielt (einschließlich des laufenden Jahres). Hier behandeln wir X
als kategorielle (ordinale) Variable. Der Box–Whiskers–Plot von Y in Abhängigkeit von X wird
in Abbildung 2.21 gezeigt. Man sieht deutlich, dass die Gehälter innerhalb der ersten drei bis vier
Jahre deutlich ansteigen. Danach ist kein deutlicher Abwärts- oder Aufwärtstrend erkennbar. Bemerkenswert sind auch die extrem großen Werte in den verschiedenen Teilgruppen. Einige wenige
sehr junge Spieler verdienen von Anfang an mehr als so mancher “alte Hase”.
Insgesamt sind nur 25 X–Werte größer als 14. Die Größe der Teildatensätze sieht man dem Box–
Whisker–Plot nicht an; nur die entarteten Plots am rechten Rand lassen vermuten, dass die entsprechenden Teilgruppen recht klein sind. Um die Lesbarkeit zu erhöhen, kann man die Beobachtungen mit X–Wert größer als 14 zu einer Teilgruppe zusammenfassen. Dann ergibt sich der
Box–Whiskers–Plot in Abbildung 2.22.
Beispiel 2.15 (Hamburg-Marathon 2000) Nun betrachten wir die Netto-Laufzeiten (Y , in Stunden) der n = 13049 Teilnehmer des Hamburg–Marathons 2000, welche das Ziel erreichten. (Gemeldet waren ca. 16000 Personen). Zunächst zeigen wir die empirische Verteilungsfunktion dieser
Variable Y in Abbildung 2.23. Der schnellste Läufer erreichte das Ziel nach 2 Stunden, 11 Minuten und 6 Sekunden; der langsamste Läufer kam nach 5 Stunden, 32 Minuten und 21 Sekunden an.
2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE
47
2500
2000
Salary
1500
1000
500
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
24
Years
Abbildung 2.21: Box-Whiskers-Plot für die Gehälter (Y ) in Abhängigkeit von der Berufserfahrung
(X), Beispiel 2.8.
Der Median der Laufzeit liegt bei Y(6525) , und das sind 3 Stunden, 52 Minuten und 10 Sekunden.
Aus Sicht von Veranstaltern solcher Volksläufe ist diese Verteilungsfunktion sehr interessant. Von
ihrem stärksten Anstieg hängt beispielsweise ab, wie groß im Zielbereich die Verpflegungsstände,
Duschräume und Umkleidekabinen ausgelegt werden müssen.
Noch ein interessantes Phänomen ist der leichte Knick der Verteilungsfunktion an den Stellen 3,
3.5 und 4. Dies hat vermutlich damit zu tun, dass einige LäuferInnen sich vornehmen, unter drei,
dreieinhalb bzw. vier Stunden zu laufen.
Nun wollen wir aber die Abhängigkeit der Laufzeit vom Alter und getrennt nach Geschlecht der
TeilnehmerInnen untersuchen. Der Datensatz enthält die Variable “Altersklasse’. Bei den nM =
11203 Männern nimmt diese Variable folgende Werte an:
◦ MJ : Teilnehmer wurde oder wird im laufenden Jahr 18 oder 19 Jahre alt,
◦ MH : Teilnehmer wurde oder wird im laufenden Jahr 20 – 29 Jahre alt,
◦ M30 : Teilnehmer wurde oder wird im laufenden Jahr 30 – 34 Jahre alt,
◦ M35 : Teilnehmer wurde oder wird im laufenden Jahr 35 – 39 Jahre alt,
..
.
◦ M75 : Teilnehmer wurde oder wird im laufenden Jahr 75 – 79 Jahre alt.
(Der älteste Teilnehmer gehörte dem Jahrgang 1923 an.)
Der entsprechende Box–Whiskers–Plot für die Laufzeiten der Männer in Abhängigkeit von ihrer
Altersklasse wird in Abbildung 2.24 gezeigt. Interessanterweise steigt der Median der Laufzeit
mit dem Alter nicht monoton an. Vielmehr ist er in der Gruppe der jungen Läufer (MJ) höher
48
KAPITEL 2. BESCHREIBENDE STATISTIK
2500
2000
Salary
1500
1000
500
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
> 14
Years
Abbildung 2.22: Box-Whiskers-Plot wie in Abb. 2.21, nach Zusammenfassung einiger Ausprägungen von X.
als in Gruppe MH, und dort höher als in den Gruppen M30, M35, M40, M45, wo er nahezu
konstant bleibt. Erst ab Gruppe M50 aufwärts steigt der Median mit dem Alter merklich an. Dieses
Phänomen ist aus der Sportmedizin bestens bekannt. Selbst professionellen Langstreckenläufern
erreichen ihren Leistungspeak in der Regel im Alter von 25–35 Jahren.
Abbildung 2.25 zeigt den analogen Plot für die Laufzeiten der nD = 1846 Damen. Hier gab es
die Altersklassen WJ, WH, W30, . . . , W65. (Die älteste Teilnehmerin gehörte dem Jahrgang 1931
an.) Auch hier sieht man den nahezu konstanten Median in den Altersklassen W30, W35, W40.
Ab der Klasse W45 steigt er an, etwas früher und deutlicher als bei den Männern.
2.4.3
Regression und Korrelation
Nun behandeln wir den verbleibenden Fall zweier numerischer Merkmale X und Y . Das Streudiagramm (scatter plot) liefert einen visuellen Eindruck von der gemeinsamen Verteilung der X– und
Y –Werte in der Stichprobe. Jedes Datenpaar (Xi , Yi ) wird als Punkt in einem zweidimensionalen
Koordinatensystem eingezeichnet.
Beispiel 2.16 Abbildung 2.26 zeigt Streudiagramme von vier verschiedenen Datensätzen. Im linken oberen Diagramm erkennt man einen deutlichen linearen Zusammenhang zwischen X– und
Y –Werten mit positiver Korrelation. Das heißt, die Punktepaare liegen in etwa auf einer Geraden
mit positiver Steigung. Im rechten oberen Diagramm sieht man ebenfalls einen linearen Zusammenhang, allerdings etwas schwächer und mit negativer Korrelation. Im linken unteren Diagramm
2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE
49
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
2
2.5
3
3.5
4
Laufzeit
4.5
5
5.5
Abbildung 2.23: Verteilungsfunktion der Netto-Laufzeiten des Hamburg-Marathons 2000.
erkennt man keinerlei Zusammenhang zwischen beiden Variablen, und das rechte untere Diagramm zeigt einen deutlichen nichtlinearen Zusammenhang.
Nun wollen wir solche vagen Beurteilungen von Streudiagrammen präzisieren. Unter einem “Zusammenhang” zwischen X– und Y –Werten verstehen wir, dass man entweder die Y –Werte durch
eine “einfache” Funktion der X–Werte approximieren kann, oder umgekehrt.
Der Begriff Regression bedeutet allgemein, dass man versucht, eine Variable (Y ) durch eine Funktion von einer oder mehreren anderen Variablen (X) zu approximieren. In diesem Kontext ist dann
die Korrelation eine Kenngröße, die quantifiziert, wie gut diese Approximation funktioniert.
Lineare Regression
Wir möchten quantifizieren, inwiefern ein linearer Zusammenhang zwischen X– und Y –Werten
besteht. Dazu versuchen wir zunächst, die Y –Werte möglichst gut durch eine lineare Funktion
der X–Werte zu approximieren. Genauer gesagt, suchen wir zwei Zahlen a und b, so dass die
Werte Yi möglichst gut mit den Werten f (Xi ) = a + bXi übereinstimmen in dem Sinne, dass die
Quadratsumme
n
X
Q(a, b) :=
(Yi − (a + bXi ))2
i=1
möglichst klein wird. (Ebenso könnte man versuchen die X–Werte durch eine lineare Funktion
der Y –Werte zu approximieren.) Eine Funktion f der Form f (x) = a + bx nennt man eine lineare
Funktion. Sie beschreibt eine Gerade mit y–Achsenabschnitt a = f (0) und Steigung b.
50
KAPITEL 2. BESCHREIBENDE STATISTIK
5.5
5
4.5
4
3.5
3
2.5
2
MJ
MH
M30
M35
M40
M45
M50
M55
M60
M65
M70
M75
Abbildung 2.24: Box-Whiskers-Plot der Netto-Laufzeiten der Männer in Abhängigkeit von ihrer
Altersklasse.
Beispiel 2.17 Gegeben sei ein Datensatz mit folgenden n = 10 Beobachtungen:
i
Xi
Yi
1
186.5
75.1
2
182.0
72.2
3
182.0
74.3
4
171.5
63.6
5
181.0
69.7
6
183.5
76.1
7
177.0
69.3
8
175.0
66.5
9
179.0
70.5
10
174.5
64.6
Der linke Teil von Abbildung 2.27 zeigt diese zehn Datenpaare (Xi , Yi ), eine Gerade mit Achsenabschnitt a = −20 und Steigung b = 0.5 sowie die Differenzen Yi − (a + bXi ). (Die Geradenparameter a und b wurden willkürlich gewählt.)
Nun leiten wir optimale Parameter a und b in zwei Schritten her.
Schritt 1: Bei festem b und als Funktion von a wird
Q(a, b) =
n
X
((Yi − bXi ) − a)2
i=1
genau dann minimal, wenn a das arithmetische Mittel der Zahlen Yi − bXi ist. Dies ergibt sich aus
unserer Herleitung des Stichprobenmittelwertes, wenn man dort Xi durch Yi − bXi und r durch a
ersetzt. Also sollte a gleich
n
1X
(Yi − bXi ) = Ȳ − bX̄
n
i=1
sein. Für die lineare Funktion f bedeutet dies:
f (x) = Ȳ − bX̄ + bx = Ȳ + b(x − X̄) .
2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE
51
5.5
5
4.5
4
3.5
3
2.5
WJ
WH
W30
W35
W40
W45
W50
W55
W60
W65
Abbildung 2.25: Box-Whiskers-Plot der Netto-Laufzeiten der Frauen in Abhängigkeit von ihrer
Altersklasse.
Insbesondere ist f (X̄) = Ȳ . Die gesuchte Gerade verläuft also durch den “Schwerpunkt” (X̄, Ȳ )
der Datenpaare (Xi , Yi ), und nur noch der Steigungsparameter b ist zu bestimmen.
Schritt 2: Mit dem obigen Wert Ȳ − bX̄ für a ergibt sich die Quadratsumme
Q(b) := Q(Ȳ − bX̄, b) =
n
X
((Yi − Ȳ ) − b(Xi − X̄))2 .
i=1
Bevor wir dies ausmultiplizieren und weiterrechnen, bietet es sich an, die folgenden Hilfsgrößen
einzuführen:
QSXX
:=
n
X
(Xi − X̄)2 ,
i=1
QSY Y
QSXY
:=
:=
n
X
i=1
n
X
(Yi − Ȳ )2 ,
(Xi − X̄)(Yi − Ȳ ).
i=1
Dann ist
Q(b) = QSY Y −2b QSXY +b2 QSXX
QSXY = QSY Y + QSXX b2 − 2b
QSXX
2
QS
QSXY 2
= QSY Y − XY + QSXX b −
.
QSXX
QSXX
Da die Quadratsumme QSXX strikt positiv ist (es sei denn, alle X–Werte sind identisch), wird
Q(b) als Funktion von b genau dann minimal, wenn b gleich QSXY / QSXX ist.
Yi
KAPITEL 2. BESCHREIBENDE STATISTIK
Yi
52
Yi
Xi
Yi
Xi
Xi
Xi
Abbildung 2.26: Beispiele von Streudiagrammen.
Zusammenfassung: Die Quadratsumme
b gleich
Pn
2
i=1 (Yi −(a+bXi ))
wird minimal genau dann, wenn
bb := QSXY
QSXX
ist, und wenn a gleich
b
a := Ȳ − bbX̄
ist. Die entsprechende Regressionsgerade besteht aus allen Zahlenpaaren (x, y) mit
y = b
a + bbx = Ȳ + bb(x − X̄)
und verläuft durch den Schwerpunkt (X̄, Ȳ ) der Beobachtungen (Xi , Yi ).
Alternative Formeln. Für die Quadratsummen QSXX , QSY Y , QSXY ergeben sich durch Ausmultiplizieren und Zusammenfassen noch folgende Formeln:
QSXX
=
n
X
Xi2 − nX̄ 2 ,
i=1
QSY Y
=
n
X
Yi2 − nȲ 2 ,
i=1
QSXY
=
n
X
i=1
Xi Yi − nX̄ Ȳ .
2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE
53
Allerdings sind diese Formeln wegen möglicher Rundungsfehler in den Mittelwerten X̄ und Ȳ
mit Vorsicht zu genießen.
P10
P
Beispiel 2.17 (Forts.) Hier ist 10
i=1 Yi = 701.9, also X̄ = 179.2 und
i=1 Xi = 1792 und
P10
P10 2
P
2
Ȳ = 70.19. Ferner ist i=1 Xi = 321321, i=1 Yi = 49435.75 und 10
i=1 Xi Yi = 125952.4,
also
QSXX
= 321321 − 10 · 179.22 = 194.6,
QSY Y
= 49435.75 − 10 · 70.192 = 169.389,
QSXY
= 125952.4 − 10 · 179.2 · 70.19 = 171.920.
(Die Größe QSY Y werden wir später noch brauchen.) Mit diesen Hilfsgrößen ergibt sich
bb ≈ 171.920/194.6 ≈ 0.883,
b
a ≈ 70.19 − 0.883 · 179.2 ≈ −88.125.
Der rechte Teil von Abbildung 2.27 zeigt noch einmal die zehn Beobachtungen (Xi , Yi ), ihren
Schwerpunkt (X̄, Ȳ ) sowie die entsprechende Regressionsgerade.
Abbildung 2.27: Beispiel zur linearen Regression.
Bestimmtheitsmaß und Korrelation
Gesucht ist nun eine Kenngröße, die quantifiziert, wie stark der lineare Zusammenhang zwischen
den Stichprobenwerten von X und Y ist. Hierzu dient das sogenannte Bestimmtheitsmaß
Pn
(Y − (b
a + bbXi ))2
2
Pn i
R := 1 − i=1
.
2
i=1 (Yi − Ȳ )
Man vergleicht also die Quadrate der Abweichungen Yi − (b
a + bbXi ) mit den Quadraten der Abweichungen Yi − Ȳ . Die Größe R2 liegt stets zwischen Null und Eins. Der Maximalwert Eins tritt
genau dann auf, wenn alle Punkte (Xi , Yi ) auf einer Geraden mit von Null verschiedener Steigung
liegen.
54
KAPITEL 2. BESCHREIBENDE STATISTIK
Alternative Formel für R2 . Die Herleitung der Regressionsparameter b
a und bb oder elementaP
re Rechnungen zeigen, dass i (Yi − (b
a + bbXi ))2 gleich QSY Y − QS2XY / QSXX ist, während
P
2
i (Yi − Ȳ ) = QSY Y . Hieraus kann man ableiten, dass
R2 =
QS2XY
.
QSXX QSY Y
Korrelation. Eine mit dem Bestimmtheitsmaß eng verwandte Größe ist der Korrelationskoeffizient (nach Bravais–Pearson)
QSXY
.
rXY := p
QSXX QSY Y
Dies ist stets eine Zahl in [−1, 1]. Ihr Vorzeichen ist identisch mit dem Vorzeichen von bb, und
2
R2 = rXY
.
Es ist rXY = 1 oder rXY = −1 genau dann, wenn alle Punkte (Xi , Yi ) auf einer Gerade mit
positiver bzw. negativer Steigung liegen. Außerdem bleibt rXY unverändert, wenn man
◦ die Rollen von X und Y vertauscht,
◦ zu allen X– oder Y –Werten eine Konstante addiert,
◦ alle X– oder Y –Werte mit einer positiven Konstante multipliziert.
Beispiel 2.17 (Forts.) Hier ist
rXY ≈ √
171.92
≈ 0.947 und
194.6 · 169.389
R2 ≈ 0.9472 ≈ 0.897.
Beispiel 2.18 (Ein Kalibrierungsexperiment) Den Sauerstoffgehalt des Blutes kann man mit
einer chemischen Methode sehr genau bestimmen, doch ist dieses Verfahren recht aufwendig.
Alternativ kann man die Absorption von Licht einer bestimmten Wellenlänge durch die Kuppe des
Zeigefingers messen. Bezeichnen wir den tatsächlichen Sauerstoffgehalt mit X und den Messwert
der Lichtabsorption mit Y , dann nehmen wir an, dass Y bis auf einen zufälligen und kleinen
Messfehler gleich a + bX ist, wobei die Konstanten a und b 6= 0 unbekannt sind.
Um diese Annahme zu überprüfen und die Koeffizienten a und b zu schätzen, wurde ein Kalibrierungsexperiment durchgeführt. Dabei wurde für einen Probanden n = 15 mal sowohl der exakte
Wert Xi als auch der Messwert Yi bestimmt. (Dabei unterstellte man, dass die Koeffizienten a und
b nicht personenspezifisch sind.) Hier die Beobachtungen:
Xi
Yi
68.1
43.66
69.8
45.22
69.9
45.35
71.0
45.96
71.7
46.67
Xi
Yi
78.8
50.61
79.7
51.42
80.1
50.46
80.7
51.41
81.4
51.76
Xi
Yi
88.1
55.06
89.5
56.83
90.7
56.89
91.3
58.49
91.4
57.44
2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE
55
Das Streudiagramm dieser n = 15 Punktepaare samt Regressionsgerade wird in Abbildung 2.28
gezeigt. Die Regressionsparameter ergeben sich wie folgt:
n
X
Xi = 1202.2 also X̄ = 80.15,
i=1
n
X
Yi = 767.22 also Ȳ = 51.15.
i=1
Ferner ist
n
X
i=1
n
X
Xi2 = 97381.54 also QSXX = 1029.22,
Yi2 = 39588.62 also QSY Y = 347.10,
i=1
n
X
Xi Yi = 62085.24 also QSXY = 595.31.
i=1
Hieraus folgt, dass
595.31
= 0.578,
1029.22
b
a = 51.15 − 0.578 · 80.15 = 4.791,
595.31
rXY = √
= 0.996,
1029.22 · 347.10
bb =
und das Bestimmtheitsmaß ist gleich
R2 = 0.9962 = 0.992.
Man sieht, das der Zusammenhang zwischen X– und Y –Werten recht deutlich ist.
Für eine zukünftige Beobachtung sei Xo die unbekannte wahre Sauerstoffsättigung des Blutes,
und Yo sei der entsprechende optische Messwert. Dann schätzt man Xo durch
a
bo := Yo − b
X
.
bb
Beispiel 2.1 (Befr. von Stud., Forts.) Für n = 141 Studenten (männl.) sind sowohl KörgerP
P
größe (X) als auch Körpergewicht (Y ) verfügbar. Hier ist i Xi = 25233 und i Yi = 9904.5,
P
P
also X̄ ≈ 178.957 und Ȳ ≈ 70.245. Ferner ist i Xi2 = 4521187, i Yi2 = 703039.25 und
P
i Xi Yi = 1775526.5. Dies ergibt
QSXX
≈ 4521187 − 141 · 178.9572 ≈ 5553.745,
QSY Y
≈ 703039.25 − 141 · 70.2452 ≈ 7300.809,
QSXY
≈ 1775526.5 − 141 · 178.957 · 70.245 ≈ 3042.468.
56
KAPITEL 2. BESCHREIBENDE STATISTIK
58
56
54
52
50
48
46
44
70
75
80
85
90
Abbildung 2.28: Daten und Regressionsgerade in Beispiel 2.18.
Daher ist
3042.468
≈ 0.548,
5553.745
b
a ≈ 70.245 − 0.548 · 178.957 ≈ −27.792,
3042.468
rXY ≈ √
≈ 0.478,
5553.745 · 7300.809
R2 ≈ 0.4782 ≈ 0.228.
bb ≈
Das entsprechende Streudiagramm mit Regressionsgerade wird in Abbildung 2.29 gezeigt. Die
Stichprobenkorrelation zwischen Körpergröße und Körpergewicht ist zwar positiv, aber der kleine
Wert von R2 zeigt auch, dass der lineare Zusammenhang eher schwach ist.
Bei den Studentinnen ergeben sich aus n = 109 Datenpaaren die Kenngrößen rXY ≈ 0.568,
R2 ≈ 0.322 und das Streudiagramm in Abbildung 2.30. Der lineare Zusammenhang zwischen
X– und Y –Werten ist also bei den Damen etwas stärker als bei den Herren.
Beispiel 2.8 (Baseballspieler, Forts.) Nun betrachten wir sowohl die Anzahl X von Berufsjahren als auch das Jahresgehalt Y als numerische Variable. Aus den n = 263 Beobachtungen ergeben sich für die Regressionsgerade die Parameter b
a ≈ 260.234 (Einheit: 1000 USD), bb ≈ 37.705
(Einheit: 1000 USD/Jahr) sowie rXY ≈ 0.401 und R2 ≈ 0.161. Hier kann man bb als mittlere Gehaltssteigerung pro Jahr deuten. Abbildung 2.31 zeigt ein Streudiagramm plus Regressionsgerade.
Wie bereits gesagt wurde, sind rXY und R2 invariant unter linearen Transformationen der X– und
Y –Werte. Doch bei nichtlinearen Transformationen können sie sich durchaus verändern. Ersetzen
2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE
57
105
100
95
90
85
80
75
70
65
60
55
165
170
175
180
185
190
195
Abbildung 2.29: Körpergröße und -gewicht der Herren in Beispiel 2.1.
wir beispielsweise die Y –Werte durch ihre Logarithmen zur Basis 10, dann ergibt sich R2 ≈ 0.289
und das Streudiagramm in Abbildung 2.32.
Weitere Interpretationen und Zusammenhänge
Man kann die lineare Regressionsgerade als Hilfsmittel für Vorhersagen deuten. Aus den Daten
wurde der lineare Zusammenhang zwischen den numerischen Variablen X und Y geschätzt. Für
eine zukünftige Beobachtung (Xo , Yo ), von der nur bekannt ist, dass Xo = x, würde man schätzen,
dass Yo in etwa gleich b
a + bbx ist.
Die Stichprobenstandardabweichungen der X– und Y –Werte sind
p
p
SX :=
QSXX /(n − 1) bzw. SY :=
QSY Y /(n − 1).
Mit diesen kann man schreiben:
SY
bb = r
.
XY ·
SX
Die Regressionsgerade ist also gegeben durch die Gleichung
y = Ȳ + rXY · SY ·
x − X̄
.
SX
Auf der rechten Seite steht zuerst der Stichprobenmittelwert Ȳ . Dieser ist die einfachste Vorhersage von Yo , ohne Berücksichtigung des Wertes x von Xo . Der nächste Summand,
rXY · SY ·
x − X̄
,
SX
beschreibt die Korrektur dieser einfachen Prädiktion unter Berücksichtigung von x. Und zwar bildet man die Differenz zwischen x und dem Stichprobenmittelwert X̄ in Relation zu SX . Dies
58
KAPITEL 2. BESCHREIBENDE STATISTIK
80
75
70
65
60
55
50
45
155
160
165
170
175
180
185
Abbildung 2.30: Körpergröße und -gewicht der Damen in Beispiel 2.1.
liefert die dimensionslose Größe (x − X̄)/SX , welche angibt, ob der Wert x groß oder klein im
Vergleich zu “typischen X–Werten ist. Durch Multiplikation mit SY landet man auf der Skala
der Y –Werte. Der Faktor rXY berücksichtigt Stärke und Richtung des linearen Zusammenhangs
zwischen beiden Variablen, und der Summand Ȳ rückt die Gerade in den Schwerpunkt der Datenpaare.
Insbesondere verläuft die Regressionsgerade stets zwischen den beiden Geraden, die durch die
Gleichungen
x − X̄
y = Ȳ ± SY ·
SX
beschrieben werden.
Wenn man die Rollen von X und Y vertauscht, also versucht, die X–Werte durch eine lineare
Funktion der Y –Werte zu approximieren bzw. vorherzusagen, dann ergibt sich die Geradengleichung
y − Ȳ
.
x = X̄ + rXY · SX ·
SY
Rangkorrelation
Das letzte Beispiel zum Korrelationskoeffizienten zeigte, dass dieser nicht invariant ist unter streng
monoton wachsenden, nichtlinearen Transformationen der X– oder Y –Werte. Beispiele für solche
Transformationen sind die Exponentialfunktion, Logarithmen (bei strikt positiven Merkmalen)
oder die Quadratwurzel (bei nichtnegativen Merkmalen). Ein weiteres Problem von rXY und R2
ist ihre Empfindlichkeit gegenüber Ausreißern in den Daten. Beide Probleme kann man lösen,
wenn man die Rohdaten durch Ränge ersetzt.
2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE
59
2500
2000
1500
1000
500
0
0
5
10
15
20
25
Abbildung 2.31: Berufserfahrung und Jahresgehalt von Baseballspielern.
Ränge. Für ein numerisches oder ordinales Merkmal X definiert man Ränge wie folgt: Nehmen
wir zunächst an, dass alle X–Werte in der Stichprobe verschieden sind. Die Beobachtung mit dem
kleinsten X–Wert erhält Rang 1, die Beobachtung mit dem zweitkleinsten X–Wert erhält Rang 2,
und so weiter; die Beobachtung mit dem größten X–Wert erhält Rang n.
Wenn manche X–Werte identisch sind, spricht man von Bindungen (in der Variable X). Dann
arbeitet man mit mittleren Rängen. Angenommen, für die sortierten X–Werte gilt:
X(j−1) < X(j) = X(j+1) = · · · = X(k) < X(k+1)
(wobei X(0) := −∞ und X(n+1) := ∞). Dann müsste man man den Beobachtungen mit X =
X(j) irgendwie die Ränge j, j + 1, . . . , k zuteilen. Da jede konkrete Zuordnung willkürlich wäre,
erhalten stattdessen alle diese Beobachtungen den Rang (j + k)/2.
Beispiel 2.19 Betrachten wir eine Stichprobe mit n = 7 Beobachtungen und folgenden X–
Werten:
i
Xi
1
4
2
5
3
0
4
1
5
10
6
13
7
12
Daraus ergeben sich folgende Ränge:
i
Xi
RXi
1
4
3
2
5
4
3
0
1
4
1
2
5
10
5
Beispiel 2.20 Nun betrachten wir eine andere Stichprobe:
6
13
7
7
12
6
60
KAPITEL 2. BESCHREIBENDE STATISTIK
3.4
3.2
3
2.8
2.6
2.4
2.2
2
1.8
0
5
10
15
20
25
Abbildung 2.32: Berufserfahrung und log10 (Jahresgehalt) von Baseballspielern.
i
Xi
1
4
2
10
3
0
4
0
5
10
6
13
7
10
Die Ordnungsstatistiken sind hier 0, 0, 4, 10, 10, 10, 13. Die Ränge 1 und 2 werden also durch
(1 + 2)/2 = 1.5 ersetzt, und die drei Ränge 4, 5 und 6 werden durch (4 + 5 + 6)/3 = 5 ersetzt.
Daher ergeben sich folgende Ränge:
i
Xi
RXi
1
4
3
2
10
5
3
0
1.5
4
0
1.5
5
10
5
6
13
7
7
10
5
Rangkorrelation. Man berechnet die Ränge RXi der X–Werte sowie die Ränge RYi der Y –
Werte. Dann berechnet man den Rangkorrelationskoeffizienten (nach Spearman):
(Sp)
rXY
:= rRX,RY
Pn
=
− n(n + 1)2 /4
P
.
n
n
2
2
2
2
i=1 RYi − n(n + 1) /4
i=1 RXi − n(n + 1) /4
i=1 RXi RYi
r
P
Dabei wurde ausgenutzt, dass das arithmetische Mittel aller Ränge RXi bzw. RYi stets gleich
(Sp)
(n + 1)/2 ist. Dieser Koeffizient rXY liegt ebenfalls im Intervall [−1, 1]. Er ist ein Maß für
den monotonen Zusammenhang zwischen X– und Y –Werten. Die Extremwerte 1 und −1 treten
genau dann auf, wenn die Beobachtungspaare (Xi , Yi ) auf dem Graphen einer streng monoton
wachsenden bzw. fallenden Funktion liegen. Außerdem bleibt r(Sp) unverändert, wenn man die
X– oder Y –Werte streng monoton wachsend transformiert. Schließlich ist er robust gegenüber
Ausreißern in den Daten. Er erfüllt also die anfangs genannten Forderungen.
2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE
61
Vereinfachte Formeln. In Formelsammlungen findet man die Gleichungen
n
X
i = n(n + 1)/2
n
X
und
i=1
i2 = n(n + 1)(2n + 1)/6.
i=1
P
Bei der Definition von rSP wurde die erste Formel bereits ausgenutzt, denn ni=1 RZi ist stets
P
gleich ni=1 i = n(n + 1)/2. Dabei ist Z ein Platzhalter für X oder Y . Wenn die Z–Werte
in der Stichprobe keine Bindungen aufweisen, also paarweise verschieden sind, ist außerdem
Pn
Pn 2
2
i=1 (RZi ) gleich
i=1 i = n(n + 1)(2n + 1)/6. In diesem Falle ist
n
X
(RZi )2 − n(n + 1)2 /4 = n(n + 1)(2n + 1)/6 − n(n + 1)2 /4 = n(n2 − 1)/12.
i=1
Speziell wenn weder die X– noch die Y –Werte Bindungen aufweisen, ist
Pn
2
(Sp)
i=1 RXi RYi − n(n + 1) /4
.
rXY =
n(n2 − 1)/12
Beispiel 2.21 Wir ergänzen die Stichprobe von Beispiel 2.19 um Y –Werte:
i
Xi
Yi
1
4
2.1
2
5
1.5
3
0
1.2
4
1
1.3
5
10
2.7
6
13
4.0
7
12
3.5
Weder die X– noch die Y –Werte weisen Bindungen auf, und es ergeben sich folgende Ränge:
i
RXi
RYi
1
3
4
2
4
3
3
1
1
4
2
2
5
5
5
6
7
7
7
6
6
Also kann man die vereinfachte Formel für den Rangkorrelationskoeffizienten anwenden und
erhält
P7
2
139 − 112
(Sp)
i=1 RXi RYi − 7 · 8 /4
rXY =
=
≈ 0.964.
2
7 · (7 − 1)/12
28
Beispiel 2.22 Nun ersetzen wir die X–Werte in Beispiel 2.21 durch diejenigen von Beispiel 2.20:
i
Xi
Yi
1
4
2.1
2
10
1.5
3
0
1.2
4
0
1.3
5
10
2.7
6
13
4.0
7
10
3.5
Dies führt zu folgenden Rängen:
i
RXi
RYi
1
3
4
2
5
3
3
1.5
1
4
1.5
2
5
5
5
6
7
7
7
5
6
Daher ist
(Sp)
rXY
P7
135.5 − 112
i=1 RXi RYi − 112
r
=
= p
≈ 0.880.
P
(137.5 − 112) · 28
7
2 − 112 · 28
RX
i=1
i
62
KAPITEL 2. BESCHREIBENDE STATISTIK
Beispiel 2.8 (Baseballspieler, Forts.) Hier sind weder die X–Werte noch die Y –Werte paarP
P263
P263
2
2
weise verschieden. Es ist 263
i=1 RXi = 6089630,
i=1 RYi = 6098224 und
i=1 RXi RYi =
2
2
5528264. Außerdem ist n(n + 1) /4 = 263 · 264 /4 = 4582512. Folglich ist
(Sp)
rXY = p
(5528264 − 4582512)
(6089630 − 4582512)(6098224 − 4582512)
≈ 0.626.
Interessanterweise ist dieser Wert höher als der Korrelationskoeffizient für die ursprünglichen
Variablen X und Y bzw. log10 (Y ). Abbildung 2.33 zeigt das Streudiagramm der Rangpaare
(RXi , RYi ) plus Regressionsgerade.
250
200
150
100
50
0
0
50
100
150
200
250
Abbildung 2.33: Ränge von Berufserfahrung bzw. Jahresgehalt von Baseballspielern.
Eine Faustregel. Ähnlich wie bei der χ2 –Statistik gibt es auch für Korrelationskoeffizienten
eine grobe Faustregel, welche Werte für einen “echten Zusammenhang” zwischen X– und Y –
Werten sprechen: Ist
√
(Sp) n − 1 rXY > 2 ,
dann kann man mit einer Sicherheit von ca. 95% davon ausgehen, dass es einen echten Zusammenhang zwischen beiden Variablen gibt.
Die gleiche Faustregel könnte man auch für den Korrelationskoeffizienten rXY nach BravaisPearson verwenden. Allerdings ist Letzterer empfindlich gegenüber Ausreißern in den Daten und
misst nur den linearen Zusammenhang zwischen X- und Y -Werten, weshalb wir die Verwendung
(Sp)
von rXY empfehlen.
Teil II
Wahrscheinlichkeitsrechnung und
statistische Modelle
63
Kapitel 3
Wahrscheinlichkeitsrechnung
Empirische Daten betrachtet man in der Regel als zufällig. Zum einen betrachtet man die betrachteten Objekte (z.B. Personen) oft als Zufallsstichprobe aus einer größeren Grundgesamtheit
(Population), und mit Hilfe der Stichprobe möchte man Rückschlüsse auf die Grundgesamtheit
ziehen. Zum anderen sind bei manchen Daten physikalische oder chemische Messungen im Spiel,
und man muss zufällige Messfehler berücksichtigen. Um Daten trotz solcher Fehlerquellen seriös
auszuwerten, benötigt man einige Begriffe und Werkzeuge der Wahrscheinlichkeitsrechnung, die
in diesem Kapitel behandelt werden.
3.1
Beschreibung eines Zufallsexperiments
Wir möchten einen zufälligen Vorgang, ein “Zufallsexperiment”, mathematisch beschreiben. Dies
erfolgt im wesentlichen in zwei Schritten.
3.1.1
Grundraum und Ereignisse
Zunächst legt man den Grundraum oder Ereignisraum Ω fest. Dies ist die Menge aller möglichen
Resultate, welche das Zufallsexperiment liefern kann. Ein einzelnes Element ω von Ω nennt man
Elementarereignis, und eine Teilmenge A von Ω nennt man Ereignis.
Beispiel 3.1 (Würfel) Ein Würfel wird geworfen, und wir interessieren uns nur für die Zahl auf
der Oberseite. Dann ist
Ω = {1, 2, 3, 4, 5, 6}.
Das Ereignis, eine gerade Zahl zu werfen, ist beispielsweise gleich
A = [werfe gerade Zahl] = {2, 4, 6}.
Beispiel 3.2 (Austeilen von Jass–Karten) Ein Stapel mit 4 · 9 = 36 Jass–Karten wird gemischt
und an vier Spieler gleichmäßig verteilt. Wir identizizieren den Kartenstapel nach dem Mischen
mit einem Tupel (einer Liste)
ω = (ω1 , ω2 , . . . , ω36 ),
65
66
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
welches alle 36 Karten (bzw. deren Namen) enthält. Man nennt ein solches ω auch Permutation,
und unser Grundraum Ω bestehe aus allen solchen Tupeln ω.
Die Karten des gemischten Stapels werden dann nach einem bestimmten Schema an die vier Spieler verteilt. Typischerweise geschieht dies in Dreierpaketen, aber für die nachfolgenden Rechnungen kann man sich ebenso gut vorstellen, die Karten würden in Neunerpaketen ausgeteilt:
ω =
ω1 , . . . , ω9 , ω10 , . . . , ω18 , ω19 , . . . , ω27 , ω28 , . . . , ω36 .
| {z }
|
{z
}
|
{z
}
|
{z
}
Karten für Sp. 1 Karten für Sp. 2 Karten für Sp. 3 Karten für Sp. 4
Nun zwei Beispiele für Ereignisse:
A = [Spieler 1 erhält alle Kreuz-Karten]
n
o
=
ω ∈ Ω : {ω1 , . . . , ω9 } = {Kreuz-Karten} ,
B = [Spieler 1 erhält kein Ass]
n
o
=
ω ∈ Ω : {ω1 , . . . , ω9 } ∩ {Asse} = ∅ .
Bei diesem Beispiel könnte man auch den Grundraum Ω aller Quadrupel (ω1 , ω2 , ω3 , ω4 ) verwenden, wobei jedes ωi eine Menge von neun Karten ist und ωi ∩ ωj = ∅ für 1 ≤ i < j ≤ 4.
Denn für die Spieler ist letztlich nur entscheidend, welche Menge von Karten sie erhalten. Die
Berechnungen mancher Wahrscheinlichkeiten werden dadurch aber nicht einfacher.
3.1.2
Wahrscheinlichkeiten
Nach Festlegung von Ω ordnet man jedem Ereignis A ⊂ Ω eine Wahrscheinlichkeit P (A) zu. Dies
ist eine Zahl aus dem Intervall [0, 1], die man auf zweierlei Arten interpretieren kann.
Deutung von P (A) als Wetteinsatz (subjektivistische Betrachtung)
Die Zahl P (A) ist ein subjektives Maß dafür, wie sicher man mit dem Eintreten des Ereignisses A
rechnet. Im Extremfall, dass P (A) = 1, ist man sich dessen absolut sicher; im Falle von P (A) = 0
ist man sicher, dass das Ereignis A nicht eintritt.
Angenommen, man wettet auf das Eintreten von A: Man macht einen Einsatz E, und bei Eintreten
von A erhält man den Bruttogewinn G. Wenn das Verhältnis E/G kleiner ist als P (A), lässt man
sich gerne auf die Wette ein. Wenn aber E/G größer ist als P (A), lehnt man die Wette ab.
Deutung von P (A) als Grenzwert (frequentistische Betrachtung)
Bei einer einzelnen Durchführung des Experiments kann man nicht sicher voraussagen, ob das
Ereignis A eintritt oder nicht. Aber angenommen, man könnte das Experiment beliebig oft und
“unabhängig” wiederholen. Nach den ersten n Runden berechne man die Zahl
Anzahl von Versuchen, bei denen A eintrat, unter den ersten n
.
Pbn (A) :=
n
3.1. BESCHREIBUNG EINES ZUFALLSEXPERIMENTS
67
Nun postulieren wir, dass diese empirischen Wahrscheinlichkeiten Pbn (A) mit wachsendem n gegen eine feste Zahl P (A) konvergieren:
Pbn (A) → P (A)
für n → ∞.
Ferner gehen wir davon aus, dass der Grenzwert P (A) bei jeder neuen Versuchsreihe der gleiche
ist.
Beispiel 3.1 (Würfel, Forts.) Ein bestimmter Würfel wurde 333 mal geworfen. Die ersten 20
Resultate waren
4, 5, 3, 1, 4, 2, 5, 1, 2, 4, 4, 6, 1, 5, 1, 6, 6, 2, 6, 6.
1
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
Pn(A)
n
P (A)
Für das Ereignis A = [werfe gerade Zahl] = {2, 4, 6} ergeben sich daraus die empirischen Wahrscheinlichkeiten
1 1 1 1 2 3 3 3 4 5 6 7 7 7 7 8 9 10 11 12
, , , , , , , , , , , , , , , , , , , .
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Die folgenden Abbildungen zeigen Pbn (A) in Abhängigkeit von n ≤ 20 bzw. n ≤ 333.
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
2
4
6
8
10
n
12
14
16
18
20
0
50
100
150
n
200
250
300
Augenscheinlich stabilisieren sich die empirischen Häufigkeiten bei einem Wert nahe 1/2.
Zusammenhang zwischen beiden Deutungen
Angenommen, ein Spielanbieter lässt beliebig viele Leute immer wieder auf das Eintreten von A
wetten. Bei jeder Runde setze der Spieler einen festen Betrag E und erhalte vom Anbieter den
Bruttogewinn G, falls A tatsächlich eintritt. Nach n Runden ist der Nettogewinn des Anbieters
gleich
n · E − Anzahl Runden, bei denen A eintrat, unter den ersten n · G
E
= nG ·
− Pbn (A) .
G
Der erste Faktor, nG, wächst mit n linear an, und der zweite Faktor, E/G − Pbn (A) konvergiert
mutmaßlich gegen die feste Zahl E/G − P (A). Wenn also E/G > P (A), so macht der Anbieter
auf lange Sicht beliebig große Gewinne. Im Falle von E/G < P (A) wird er früher oder später
pleite sein.
68
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Beispiel 3.3 (Becherspiel) Ein Spielanbieter legt vor den Augen eines Spielers eine weiche Kugel unter einen von drei gleichartigen Bechern. Dann beginnt er, die drei Becher beliebig zu vertauschen, wobei ihm der Spieler genau zusieht. Nach einer gewissen Zeit stoppt der Anbieter, und
der Spieler muss sagen, unter welchem Becher die Kugel liegt. Wenn ihm dies gelingt, wird sein
Einsatz E verdoppelt, also G = 2E; anderenfalls verliert er seinen Einsatz.
Hier ist E/G = 1/2, und naive Leute trauen sich zu, den richtigen Becher nicht aus den Augen
zu verlieren. Für sie hat also das Ereignis
A = [nenne richtigen Becher]
eine subjektive Wahrscheinlichkeit von nahezu Eins oder zumindest größer als 1/2. Erfahrungsgemäß kann ein geübter Spielanbieter erreichen, dass P (A) ≤ 1/3. Der Fall P (A) = 1/3 bedeutet, dass der Spieler rein zufällig auf einen der drei Becher zeigt. Wenn der Spieler aber ernsthaft
versucht, den richtigen Becher zu fixieren, können ihn besonders geschickte Spielanbieter dabei
beobachten und permutieren so lange, bis der Spieler den falschen Becher fixiert.
3.2
Wahrscheinlichkeitsverteilungen
In diesem Abschnitt beschreiben wir zwei Möglichkeiten, wie man die Wahrscheinlichkeiten
P (A) festlegen kann. Danach geben wir allgemeine Axiome für Wahrscheinlichkeiten an und
leiten daraus diverse Rechenregeln ab.
3.2.1
Exkurs in die Kombinatorik
Beim Berechnen diverser Wahrscheinlichkeiten kommen immer wieder kombinatorische Überlegungen und Hilfsgrößen zum Einsatz, die wir hier kurz erläutern. Im Folgenden sei stets M eine
endliche Menge von N Elementen.
(A) Auflistungen von M. Sei Ω die Menge aller Tupel (Listen) ω = (ω1 , ω2 , . . . , ωN ), welche
alle Elemente von M enthalten. Die Anzahl der Elemente von Ω kann man bestimmen, indem man
sich eine zunächst noch leere Liste vorstellt, deren Einträge Schritt für Schritt gesetzt werden: Für
ω1 hat man N Möglichkeiten. Nach Festlegung von ω1 gibt es noch N − 1 Möglichkeiten für ω2 ,
danach noch N − 2 Möglichkeiten für ω3 , und so weiter. Im vorletzten Schritt gibt es noch zwei
Möglichkeiten für ωN −1 , und am Ende bleibt genau ein Element für ωN übrig. Daher besteht Ω
aus
N ! := N (N − 1)(N − 2) · · · 2 · 1
(sprich: “N -Fakultät”) verschiedenen Tupeln ω.
(B) Listen mit Einträgen aus M ohne Wiederholungen. Nun fixieren wir eine Zahl K ∈
{1, 2, . . . , N } und betrachten die Menge Ω aller Tupel ω = (ω1 , ω2 , . . . , ωK ) mit K verschiedenen Einträgen ωi ∈ M. Die Anzahl der Elemente von Ω kann man ähnlich wie in Betrachtung
3.2. WAHRSCHEINLICHKEITSVERTEILUNGEN
69
(A) bestimmen: Für ω1 gibt es N Möglichkeiten, dann für ω2 noch N − 1 Möglichkeiten, und so
weiter. Am Ende stehen für ωK noch N − K + 1 Elemente zur Auswahl. Also besteht Ω aus
[N ]K := N (N − 1)(N − 2) · · · (N − K + 1)
(sprich: “N K–faktoriell”) verschiedenen Tupeln. Speziell ist [N ]N = N ! Außerdem gibt es noch
die Konvention, dass [N ]0 = 1. Man kann auch schreiben
[N ]K =
N!
(N − K)!
für 0 ≤ K ≤ N.
(C) Teilmengen von M. Wie in Betrachtung (B) fixieren wir eine Zahl K ∈ {1, 2, . . . , N },
betrachten jetzt aber die Menge Ω aller K–elementigen Teilmengen von M. Um die Anzahl
e aller Tupel ω
der Elemente von Ω zu bestimmen, betrachten wir zusätzlich die Menge Ω
e =
e
(e
ω1 , ω
e2 , . . . , ω
eK ) mit K verschiedenen Einträgen ω
ei ∈ M. Wir wissen bereits, dass Ω aus [N ]K
e die Menge {e
verschiedenen solchen Tupeln besteht. Natürlich kann man ω
e∈Ω
ω1 , ω
e2 , . . . , ω
eK } ∈
e
Ω zuordnen. Aber zu jedem Tupel ω
e gibt es noch K! − 1 andere Tupel in Ω mit den gleichen
Einträgen, nur in einer anderen Reihenfolge. Das heißt, zu jeder Menge ω ∈ Ω gibt es K! Tupel
e welche die Elemente von ω in verschiedenen Reihenfolgen enthalten. Daher besteht Ω aus
ω
e ∈ Ω,
e
[N ]K
N!
#Ω
=
=
=:
K!
K!
K!(N − K)!
N
N
=
K
N −K
verschiedenen Mengen.
(D) Beliebige Listen mit Einträgen aus M. Für eine beliebige natürliche Zahl K betrachten
wir die Menge Ω aller Tupel ω = (ω1 , ω2 , . . . , ωK ) mit K beliebigen Einträgen ωi ∈ M. Mit
anderen Worten, Ω ist das “K-fache kartesische Produkt von M”,
Ω = M
× · · · × M},
| × M {z
K mal
und enthält N K verschiedene Elemente. Denn für jeden Eintrag ωi gibt es N Möglichkeiten, egal
was an den anderen Positionen steht.
Beispiel: Sportverein. Sei M die Menge aller erwachsenen Mitglieder eines Sportvereins. Angenommen, man möchte K verschiedene Ämter (Vorsitz, Stellvertretung für Vorsitz, Kassenführer,
etc.) besetzen, wobei keine Person mit mehreren Ämtern belastet werden soll. Dann gibt es [N ]K
Möglichkeiten hierfür.
Angenommen, man lässt auch Ämterhäufungen zu. Das heißt, Personen dürfen mehr als nur ein
Amt ausüben. Dann gibt es N K Möglichkeiten.
Angenommen, man lässt Ämterhäufungen zu, nur die/der Vorsitzende und ihre/seine Stellvertretung sollen zwei verschiedene Personen sein, die jeweils keine anderen Ämter wahrnehmen.
Dann gibt es [N ]2 Möglichekeiten, die (den) Vorsitzende(n) und deren (dessen) Stellvertretung
70
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
zu wählen. Danach gibt es noch (N − 2)K−2 Möglichkeiten, die anderen Ämter zu besetzen.
Insgesamt gibt es also [N ]2 · (N − 2)K−2 Möglichkeiten.
Angenommen, der Verein sucht K Freiwillige, die den nächsten Sommerausflug organisieren.
N
Möglichkeiten, dieses Team zusammenzustellen.
Dann gibt es K
Beispiel: Casting. Für eine Sammlung mit wohltätigem Zweck soll ein Werbefilm gedreht werden, bei dem ein(e) Sänger(in) und drei Tänzer(innen) auftreten. Wie viele Möglichkeiten gibt es,
eine solche Gruppe mit Bundesrät(inn)en zu besetzen?
Lösung 1: Man wählt zunächst aus den sieben Bundesrät(inn)en den (die) Sänger(in). Danach
wählt man aus den übrigen sechs Bundesrät(inn)en die drei Tänzer(innen) aus, wofür es noch
6
3 = 20 Möglichkeiten gibt. Also gibt es insgesamt 7 · 20 = 140 Möglichkeiten.
Lösung 2: Man wählt zunächst eine Gruppe von vier Akteuren aus, wofür es 74 = 73 = 35
Möglichkeiten gibt. Danach wird eine dieser vier Personen als Sänger(in) verpflichtet. Also gibt
es insgesamt 35 · 4 = 120 Möglicheiten.
3.2.2
Laplace–Verteilungen
Sei Ω eine endliche Menge. Die Laplace–Wahrscheinlichkeit eines Ereignisses A ⊂ Ω wird definiert als
Anzahl günstiger Fälle
#A
.
P (A) :=
#Ω
Anzahl möglicher Fälle
Die entsprechende Funktion A 7→ P (A) nennt man die Laplace–Verteilung oder uniforme Verteilung auf Ω. Sie beschreibt die “rein zufällige” Auswahl eines Elementes von Ω.
Beispiel 3.1 (Würfel, Forts.) Hier ist #Ω = 6, also P (A) = #A/6. Beispielsweise ist
P [werfe gerade Zahl] = P ({2, 4, 6}) = 3/6 = 0.5,
P [werfe Zahl ≥ 5] = P ({5, 6}) = 2/6 = 0.333.
Beispiel 3.2 (Austeilen von Jasskarten, Forts.) Der Grundraum Ω enthält 36! Elementarereignisse.
Nun betrachten wir das Ereignis A, dass Spieler 1 alle Kreuz–Karten erhält. Um die Anzahl von A
zu bestimmen, stellen wir uns wieder 36 zunächst leere Positionen vor, auf welche die 36 Karten
zu verteilen sind. Setzt man in Gedanken zunächst die Kreuz–Karten und dann die übrigen 27
Karten, so sieht man, dass
#A = 9!
· 27!
Also ist
P (A) =
(wo sitzen die Kreuz–Karten)
(wo sitzen dann die übrigen 27 Karten).
9!
9!27!
=
≈ 1.062 · 10−8 .
36!
[36]9
3.2. WAHRSCHEINLICHKEITSVERTEILUNGEN
71
Das Ereignis B, dass Spieler Eins kein Ass erhält, kann man ähnlich bewerten: Setzen wir in
Gedanken zunächst die Asse und dann die übrigen 32 Karten, so ist
#B = [27]4
· 32!
Daher ist
P (B) =
(wo sitzen die Asse)
(wo sitzen dann die übrigen 32 Karten).
[27]4 · 32!
[27]4
≈ 0.2979.
=
36!
[36]4
Für das Ereignis C, dass Spieler 1 genau zwei Asse erhält, gilt:
4
#C =
(welche Asse erhält Spieler 1)
2
· [9]2
(wo sitzen diese beiden Asse)
· [27]2
· 32!
also
P (C) =
(wo sitzen die anderen beiden Asse)
(wo sitzen dann die übrigen 32 Karten),
6 · [9]2 · [27]2 · 32!
6 · [9]2 · [27]2
=
≈ 0.2145.
36!
[36]4
Als letztes Beispiel betrachten wir das Ereignis D, dass mindestens ein Spieler kein Ass hat. Hier
bietet es sich an, das Gegenereignis Dc = Ω \ D zu betrachten. Da es genau vier Asse gibt, ist
Dc = [jeder Spieler erhält genau ein Ass], und
#(Dc ) = 4!
· 94
· 32!
(welcher Spieler erhält welches Ass)
(wo sitzen dann die Asse; für jedes Ass 9 mögliche Plätze)
(wo sitzen dann die übrigen 32 Karten),
also
P (D) = 1 − P (Dc ) = 1 −
4! · 94 · 32!
4! · 94
= 1−
≈ 0.8886.
36!
[36]4
Beispiel 3.4 (Moderner Fünfkampf) Beim modernen Fünfkampf muss jede(r) Teilnehmende
unter anderem einen Hindernisritt zu Pferd absolvieren. Jede(r) Teilnehmende bringt ein Pferd
mit, allerdings werden diese dann rein zufällig zugeteilt. Bei n Teilnehmern beschreiben wir diese
Zuordnung der Pferde durch den Grundraum Ω aller Permutationen
ω = (ω1 , ω2 , . . . , ωn )
von (1, 2, . . . , n). Nach rein zufälliger Auswahl eines ω ∈ Ω reitet Teilnhmer Nr. i auf dem Pferd
von Teilnehmer Nr. ωi .
Der Grundraum Ω besteht aus n! Elementarereignissen. Für 1 ≤ i ≤ n betrachten wir das Ereignis
Ai := [Teiln. Nr. i reitet eigenes Pferd]
n
o
=
ω ∈ Ω : ωi = i .
72
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Dieses Ereignis besteht aus (n − 1)! verschiedenen Permutationen, denn n − 1 Pferde müssen auf
n − 1 Reiter verteilt werden. Also ist
P (Ai ) =
3.2.3
1
(n − 1)!
= .
n!
n
Diskrete Verteilungen
Für jedes Elementarereignis ω ∈ Ω sei p(ω) eine nichtnegative Zahl, so dass
X
p(ω) = 1.
ω∈Ω
Wir deuten p(ω) als Wahrscheinlichkeit für das Ereignis {ω} und definieren
X
p(ω)
P (A) :=
ω∈A
für beliebige Ereignisse A ⊂ Ω. Diese Abbildung A 7→ P (A) ist eine diskrete Wahrscheinlichkeitsverteilung mit Gewichtsfunktion p.
Laplace–Verteilungen sind ein Spezialfall hiervon, wenn man p(ω) gleich 1/#Ω setzt.
Beispiel 3.1 (Würfel, Forts.) Wir wollen einen realen Würfel modellieren, der bevorzugt die
Zahlen 4 und 5 und eher selten die Zahlen 1 und 6 zeigt. Dazu legen wir die Wahrscheinlichkeitsgewichte p(ω) beispielsweise wie folgt fest:
ω
p(ω)
1
2
3
4
5
6
0.1 0.15 0.15 0.3 0.2 0.1
Mit diesem Würfel ist zum Beispiel
P [werfe gerade Zahl] = p(2) + p(4) + p(6) = 0.55.
3.2.4
Rechenregeln für Wahrscheinlichkeiten
Die Wahrscheinlichkeitsverteilung P , also die Abbildung A 7→ P (A), sollte die folgenden drei
Grundregeln erfüllen:
• Für beliebige Ereignisse A ist P (A) ≥ 0;
• für zwei disjunkte Ereignisse A, B ist stets P (A ∪ B) = P (A) + P (B).
• P (Ω) = 1;
Dies sind Kolmogorovs Axiome für Wahrscheinlichkeitsverteilungen. Zwei Ereignisse heißen disjunkt, wenn sie sich gegenseitig ausschließen, also A ∩ B = ∅.
Die zuvor eingeführten Laplace–Verteilungen und diskreten Verteilungen genügen diesen Grundregeln.
3.2. WAHRSCHEINLICHKEITSVERTEILUNGEN
73
Folgerungen
Aus den drei Grundregeln für Wahrscheinlichkeiten kann man diverse andere Eigenschaften und
Formeln ableiten:
• Für zwei Ereignisse A, B mit A ⊂ B ist
P (A) ≤ P (B).
Denn B = A ∪ (B \ A), so dass P (B) = P (A) + P (B \ A) ≥ P (A).
• Für ein Ereignis A und sein komplementäres Ereignis Ac = Ω \ A ist stets
P (A) = 1 − P (Ac ).
Denn Ω ist die Vereinigung der disjunkten Ereignisse A und Ac , so dass 1 = P (Ω) = P (A ∪
Ac ) = P (A) + P (Ac ).
• P (∅) = 0. Denn für ein beliebiges Ereignis A ist A ∪ ∅ = A und A ∩ ∅ = ∅, so dass
P (A) = P (A ∪ ∅) = P (A) + P (∅).
• Für beliebige Zahlen n ≥ 2 und paarweise disjunkte Ereignisse A1 , A2 , . . . , An ist
P (A1 ∪ A2 ∪ · · · ∪ An ) = P (A1 ) + P (A2 ) + · · · + P (An ).
Dies kann man induktiv aus der zweiten Grundregel ableiten.
• Für zwei beliebige Ereignisse A, B ist
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Denn man kann A, B und A ∪ B aus den drei paarweise disjunkten Mengen A \ B, A ∩ B und
B \ A aufbauen:
P (A) = P (A \ B) + P (A ∩ B),
P (B) =
P (A ∩ B) + P (B \ A),
P (A ∪ B) = P (A \ B) + P (A ∩ B) + P (B \ A);
siehe auch Abbildung 3.1. Wenn man nun die ersten beiden Gleichungen addiert, dann ergibt
sich zusammen mit der dritten Gleichung die Formel
P (A) + P (B) = P (A \ B) + 2P (A ∩ B) + P (B \ A)
= P (A ∪ B) + P (A ∩ B).
74
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Abbildung 3.1: Zerlegung von A ∪ B in drei disjunkte Teilmengen
Beispiel 3.4 (Mod. Fünfkampf, Forts.) Mit dem Ereignis Ai = [Teiln. i reitet eigenes Pferd]
ist P (Ai ) = 1/n, und für zwei verschiedene Indizes i, j ist
P (Ai ∩ Aj ) =
(n − 2)!
1
=
.
n!
n(n − 1)
Denn das Ereignis Ai ∩ Aj besteht aus allen Permutationen ω von (1, 2, . . . , n), so dass ωi = i
und ωj = j. Es sind also noch n − 2 Pferde auf n − 2 Reiter zu verteilen.
Folglich ist
P [Teiln. i oder Teiln. j reitet eigenes Pferd]
1
2n − 3
2
−
=
.
= P (Ai ) + P (Aj ) − P (Ai ∩ Aj ) =
n n(n − 1)
n(n − 1)
3.2.5
Die Siebformel
Eine naheliegende Frage ist, wie man die zuletzt erwähnte Formel für P (A ∪ B) auf mehr als zwei
Ereignisse erweitern kann. Für drei Ereignisse A1 , A2 , A3 gilt:
P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 )
− P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 )
+ P (A1 ∩ A2 ∩ A3 ).
Dies kann man erklären, indem man A1 ∪ A2 ∪ A3 wie in Abbildung 3.2 in sieben paarweise
disjunkte Teilmengen B1 , B2 , B3 , C1 , C2 , C3 und D zerlegt. Jetzt kann man ablesen, dass
P (A1 ) + P (A2 ) + P (A3 )
= P (B1 ) + P (B2 ) + P (B3 ) + 2P (C1 ) + 2P (C2 ) + 2P (C3 ) + 3P (D),
P (A1 ∩ A2 ) + P (A1 ∩ A3 ) + P (A2 ∩ A3 )
= P (C1 ) + P (C2 ) + P (C3 ) + 3P (D),
P (A1 ∩ A2 ∩ A3 )
= P (D).
3.2. WAHRSCHEINLICHKEITSVERTEILUNGEN
75
Addiert man die erste und dritte Gleichung und subtrahiert die zweite, dann steht auf der linken
Seite
P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ),
und auf der rechten Seite steht
P (B1 ) + P (B2 ) + P (B3 ) + P (C1 ) + P (C2 ) + P (C3 ) + P (D) = P (A1 ∪ A2 ∪ A3 ).
Abbildung 3.2: Zerlegung von A1 ∪ A2 ∪ A3 in sieben disjunkte Teilmengen
Für mehr als drei Ereignisse kann man leider keine brauchbaren Skizzen anfertigen. Dennoch gibt
es eine allgemeine Formel, die sogenannte Siebformel von Sylvester- Poincaré:
X
P (A1 ∪ A2 ∪ · · · ∪ An ) =
P (Ai )
i
−
X
P (Ai ∩ Aj )
i<j
+
X
P (Ai ∩ Aj ∩ Ak )
i<j<k
∓···
+ (−1)n−1 P (A1 ∩ A2 ∩ · · · ∩ An ).
Man summiert also alle Wahrscheinlichkeiten P (Ai ) der Einzelereignisse, davon subtrahiert man
alle Wahrscheinlichkeiten P (Ai ∩ Aj ) von paarweisen Schnitten, dann addiert man die Wahrscheinlichkeiten aller dreifachen Schnitte, dann subtrahiert man die Wahrscheinlichkeiten aller
vierfachen Schnitte, und so weiter.
Kompakte Schreibweise. Die k–te Summe in der Siebformel ist gleich
X
P (Ai1 ∩ Ai2 ∩ · · · ∩ Aik ),
i1 <i2 <···<ik
76
und
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
n
X
P (A1 ∪ A2 ∪ · · · ∪ An ) =
(−1)k−1
k=1
X
P (Ai1 ∩ Ai2 ∩ · · · ∩ Aik ).
i1 <i2 <···<ik
Beispiel 3.2 (Jass, Forts.) Die Wahrscheinlichkeit
P [mindestens ein Spieler hat keine ♥–Karte]
kann man wie folgt berechnen: Mit dem Ereignis
Ai := [Spieler i hat keine ♥–Karte]
ist die gesuchte Wahrscheinlichkeit gleich P (A1 ∪ A2 ∪ A3 ∪ A4 ).
Für jedes i ist
#Ai = 27 · 26 · · · 19
· 27!
(wo sitzen die ♥–Karten)
(wo sitzen dann die übrigen Karten),
also
P (Ai ) =
27 · 26 · · · · 19 · 27!
[27]9
=
.
36!
[36]9
Dabei schreiben wir zur Abkürzung
[a]k = a · (a − 1) · (a − 2) · · · (a − k + 1).
Für 1 ≤ i < j ≤ 4 ergibt eine analoge Überlegung, dass
P (Ai ∩ Aj ) =
[18]9
,
[36]9
und für 1 ≤ i < j < k ≤ 4 ist
P (Ai ∩ Aj ∩ Ak ) =
[9]9
.
[36]9
Ferner ist P (A1 ∩ A2 ∩ A3 ∩ A4 ) = 0, denn irgendwo müssen ja die ♥–Karten landen.
Alles in allem ergibt sich aus der Siebformel
[27]9
4 [18]9
4 [9]9
P (A1 ∪ A2 ∪ A3 ∪ A4 ) = 4
−
+
[36]9
2 [36]9
3 [36]9
≈ 4 · 0.0498 − 6 · 5.165 · 10−4 + 4 · 1.062 · 10−8
≈ 0.1960.
Beispiel 3.4 (Mod. Fünfkampf, Forts.) Mit Ai = [Teiln. i reitet eigenes Pferd] ist
P [mind. ein Teiln. reitet eigenes Pferd] = P
n
[
i=1
Ai .
3.3. BEDINGTE WAHRSCHEINLICHKEITEN
77
Für beliebige Indizes i1 < · · · < ik ist Ai1 ∩ · · · ∩ Aik das Ereignis, dass die Teilnehmer mit den
Nummern i1 , . . . , ik jeweils ihr eigenes Pferd reiten. Es sind also nur noch n − k Pferde auf n − k
Reiter zu verteilen, so dass
P (Ai1 ∩ · · · ∩ Aik ) =
(n − k)!
.
n!
Setzt man dies in die Siebformel ein, dann ergibt sich
P (A1 ∪ A2 ∪ · · · ∪ An ) =
=
n
X
k=1
n
X
(−1)
n (n − k)!
k
n!
(−1)k−1
(n − k)!
n!
k!(n − k)! n!
(−1)k−1
1
k!
k−1
k=1
=
n
X
k=1
= 1−
n
X
(−1)k
k=0
k!
.
Dies ist gleich

0.5



0.666
0.625



0.633
für n = 2,
für n = 3,
für n = 4,
für n = 5.
Für n → ∞ konvergiert diese Wahrscheinlichkeit gegen
1−
∞
X
(−1)k
k=0
3.2.6
k!
= 1 − exp(−1) ≈ 0.6321.
Bonferroni–Ungleichungen
Nicht immer liefert die Siebformel eine handhabbare Formel. Wenn man schon mit Schranken für
die Wahrscheinlichkeit bestimmter Ereignisse zufrieden ist, sind oft folgende Ungleichungen von
Nutzen:
P (A1 ∪ A2 ∪ · · · ∪ An ) ≤ P (A1 ) + P (A2 ) + · · · + P (An )
und
P (A1 ∪ A2 ∪ · · · ∪ An ) ≥
X
i
3.3
P (Ai ) −
X
P (Ai ∩ Aj ).
i<j
Bedingte Wahrscheinlichkeiten
Für zwei Ereignisse A und B mit P (B) > 0 definiert man die bedingte Wahrscheinlichkeit von
A, gegeben B, als
P (A ∩ B)
.
P (A | B) :=
P (B)
78
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Dies liefert uns eine neue Wahrscheinlichkeitsverteilung P (· | B) auf Ω, wobei P (B | B) = 1 und
P (B c | B) = 0.
Deutet man P (A) als Wetteinsatz auf das Eintreten von A, dann ist P (A | B) der modifizierte
Wetteinsatz, wenn man bereits weiß, dass das Ereignis B eingetreten ist oder eintreten wird.
Beispiel 3.3 (Becherspiel, Forts.) Angenommen, von den drei Bechern ist einer aufgrund einer
kleinen Beschädigung oder Verschmutzung erkennbar, aber der Spielanbieter hat dies noch nicht
bemerkt. Nun betrachten wir die Ereignisse
A := [Spieler erkennt richtigen Becher],
B := [Anbieter legt Kugel unter den besonderen Becher].
Aus Sicht eines Spielers ist dann
P (A | B) = 1,
P (A | B c ) = 1/2.
Aus der Definition von P (A | B) folgt offensichtlich, dass
P (A ∩ B) = P (B)P (A | B),
und diese Formel werden wir oft anwenden.
Beispiel 3.5 (Medizinische Tests) Aus einer gewissen Population wird rein zufällig eine Person
herausgegriffen, und wir betrachten folgende Ereignisse
K := [Person leidet(e) an einer bestimmten Krankheit],
T
:= [Ein bestimmter med. Test liefert bei dieser Person ein positives Ergebnis].
Im Idealfall sind beide Ereignisse identisch, doch in der Realität gibt es stets Abweichungen.
Konkrete Beispiele sind Bluttests auf Hepatitis oder andere Infektionskrankheiten.
Bei der Entwicklung geeigneter Tests werden folgende Kenngrößen bestimmt (bzw. geschätzt):
Sensitivität := P (T | K)
(Wahrscheinlichkeit eines positiven Testresultats bei Kranken)
Spezifität := P (T c | K c )
(Wahrscheinlichkeit eines negativen Testresultats bei Gesunden)
Prävalenz := P (K)
(relative Häufigkeit der Kranken in der Population).
Aus Sicht von Anwendern des Tests sind allerdings folgende Größen interessant:
P (K | T )
P (K c | T c )
(bed. Wahrscheinlichkeit krank zu sein, gegeben ein pos. Testresultat),
(bed. Wahrscheinlichkeit gesund zu sein, gegeben ein neg. Testresultat).
3.3. BEDINGTE WAHRSCHEINLICHKEITEN
79
Man kann die möglichen Ereignisse und Wahrscheinlichkeiten in einer Vierfeldertafel anordnen:
K
Kc
T
Tc
P (K ∩ T ) P (K ∩ T c )
P (K c ∩ T ) P (K c ∩ T c )
P (T )
P (T c )
P (K)
P (K c )
Die Zeilennormierung dieser Tabelle führt zu den oben genannten Kenngrößen Sensitivität und
Spezifität, und die Spaltennormierung ergibt die interessanten Größen P (K | T ) und P (K c | T c ):
K
Kc
T
P (T | K)
1 − P (T c | K c )
Tc
1 − P (T | K)
P (T c | K c )
bzw.
K
Kc
T
P (K | T )
P (K c | T )
Tc
P (K | T c ) .
P (K c | T c )
Die letzteren Größen lassen sich wie folgt berechnen:
P (K ∩ T )
P (K ∩ T )
=
,
P (T )
P (K ∩ T ) + P (K c ∩ T )
P (K ∩ T ) = P (K)P (T | K),
P (K | T ) =
P (K c ∩ T ) = P (K c )P (T | K c ) = (1 − P (K))(1 − P (T c | K c )).
Setzt man die beiden letzteren Gleichungen in die erste ein, dann ergibt sich die Formel
P (K | T ) =
P (K)Sens.
.
P (K)Sens. + (1 − P (K))(1 − Spez.)
Für P (K c | T c ) kann man analog rechnen, oder man stellt eine Symmetrieüberlegung an: Wenn
man nämlich K mit K c und T mit T c vertauscht, dann vertauscht man die Sensitivität mit der
Spezifität und P (K) mit 1 − P (K). Also ist
P (K c | T c ) =
(1 − P (K))Spez.
.
(1 − P (K))Spez. + P (K)(1 − Sens.)
Zahlenbeispiel. Sei P (K) = 0.01, Sens. = 0.99 und Spez. = 0.9. Dann ist
P (K | T ) =
P (K c | T c ) =
0.01 · 0.99
0.01
=
= 0.0909,
0.01 · 0.99 + (1 − 0.01) · (1 − 0.9)
0.11
(1 − 0.01) · 0.9
0.891
=
≈ 0.9999.
(1 − 0.01) · 0.9 + 0.01 · (1 − 0.99)
0.8911
Man sieht deutlich, dass die Wahrscheinlichkeit P (K | T ) recht klein ist, obwohl Sensitivität und
Spezifität nahe bei Eins liegen, da die Wahrscheinlichkeit von K nur sehr klein ist.
Beispiel 3.6 (Spam–Filter) Ein verzweifelter Universitätsdozent ärgert sich jeden Morgen über
die vielen Spam–Mails (unerwünschte Werbung) unter den neu eingetroffenen E–Mails. Für ein
zufällig herausgegriffenes E–Mail sei
K := [E–Mail ist Spam].
Aufgrund seiner Erfahrungen in den letzten Wochen geht er davon aus, dass in etwa P (K) = 0.8.
Nach dem Betrachten vieler Spam–Mails stellt er fest, dass der Absender ofmals mit .com oder
80
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
.net endet. Daraufhin vergleicht er die Spam– mit den seriösen E–Mails und stellt fest, dass für
das Ereignis
T := [Absender endet mit .com oder .net]
in etwa gilt:
P (T | K) = 0.75,
P (T | K c ) = 0.02.
Wenn der Dozent also alle E–Mails mit Absender .com oder .net automatisch in den Papierkorb
legen lässt (den er aber vor dem Leeren noch kurz durchschaut), dann ist auf lange Sicht der
relative Anteil von Spam–Mails im Papierkorb gleich
P (K ∩ T )
P (T )
P (K ∩ T )
=
P (K ∩ T ) + P (K c ∩ T )
P (K)P (T | K)
=
P (K)P (T | K) + P (K c )P (T | K c )
0.8 · 0.75
0.6
=
=
≈ 0.9934,
0.8 · 0.75 + 0.2 · 0.02
0.604
also größer als 99%. Andererseits ist der relative Anteil von Spam–Mails im Briefkasten gleich
P (K | T ) =
P (K)P (T c | K)
P (K)P (T c | K) + P (K c )P (T c | K c )
0.8 · 0.25
0.2
=
=
≈ 0.5051;
0.8 · 0.25 + 0.2 · 0.98
0.396
er erreicht also immerhin eine Reduktion von 80% auf knapp 51%.
P (K | T c ) =
3.3.1
Die Bayessche Formel
Beide vorangehenden Beispiele kann man als Spezialfälle der Bayesschen Formel(n) betrachten. Allgemein betrachtet man ein beliebiges Ereignis A sowie paarweise disjunkte Ereignisse
B1 , . . . , BM jeweils mit strikt positiver Wahrscheinlichkeit, so dass Ω = B1 ∪ B2 ∪ · · · ∪ BM .
Dann ist A die Vereinigung der paarweise disjunkten Mengen A ∩ B1 , A ∩ B2 , . . . , A ∩ BM , so
dass
M
X
P (A) =
P (A ∩ Bj ).
j=1
Ferner gilt für jeden Summanden auf der rechten Seite: P (A ∩ Bj ) = P (Bj )P (A | Bj ). Hieraus
ergeben sich folgende Formeln:
P (A) =
M
X
P (Bj )P (A | Bj ),
j=1
und für 1 ≤ i ≤ M ist
P (Bi | A) =
(vorausgesetzt, dass P (A) > 0).
P (Bi )P (A | Bi )
P (Bi )P (A | Bi )
= PM
P (A)
j=1 P (Bj )P (A | Bj )
3.3. BEDINGTE WAHRSCHEINLICHKEITEN
81
Beispiel 3.7 (Signalübertragung) Stellen wir uns ein Gerät vor, welches Nachrichten in “Wörter” aus der Menge {00, 01, 10, 11} zerlegt und diese überträgt. (Realistischer wäre die Übertragung von Bytes, also Vierertupeln von Bits, an Stelle von Paaren, aber dann werden die Tabellen
zu unübersichtlich). Angenommen, die Übertragung ist nicht fehlerfrei. Um dies zu präzisieren
betrachten wir die Ereignisse
Bxy := [xy soll übertragen werden],
Avw := [vw wird empfangen].
Die Wahrscheinlichkeiten der Ereignisse Bxy seien:
xy
P (Bxy )
00 01
10 11
0.7 0.05 0.05 0.2
Angenommen, ein Wort wird mit Wahrscheinlichkeit 0.81 korrekt übertragen, mit Wahrscheinlichkeit 0.09 wird die erste (bzw. zweite) Ziffer korrekt und die zweite (bzw. erste) falsch übertragen,
und mit Wahrscheinlichkeit 0.01 werden beide Ziffern falsch übertragen. Dann ergeben sich folgende Übertragungswahrscheinlichkeiten P (Avw | Bxy ):
P (Avw | Bxy )
B00
B01
B10
B11
A00
0.81
0.09
0.09
0.01
A01
0.09
0.81
0.01
0.09
A10
0.09
0.01
0.81
0.09
A11
0.01
0.09
0.09
0.81
Für den Empfänger ist jetzt interessant, wie groß die bedingten Wahrscheinlichkeiten P (Bxy | Avw )
sind. Insbesondere möchte er wissen, mit welcher Wahrscheinlichkeit ein bestimmtes von ihm
empfangenes Wort tatsächlich dem zu sendenden Wort entspricht. Zu diesem Zweck berechnen
wir zunächst die Wahrscheinlichkeiten P (Avw ). Nach der Bayesschen Formel, Teil 1 ist
X
P (Avw ) =
P (Bxy )P (Avw | Bxy ).
xy=00,01,10,11
Beispielsweise ist
P (A00 ) = 0.7 · 0.81 + 0.05 · 0.09 + 0.05 · 0.09 + 0.2 · 0.01 = 0.578.
Hier sind alle Wahrscheinlichkeiten P (Avw ) als Tabelle:
vw
P (Avw )
00
01
10
11
0.578 0.122 0.122 0.178
Nun ergeben sich die bedingten Wahrscheinlichkeiten P (Bxy | Avw ) nach der Bayesschen Formel,
Teil 2:
P (Bxy )P (Avw | Bxy )
P (Bxy | Avw ) =
.
P (Avw )
Beispielsweise ist
0.7 · 0.81
P (B00 | A00 ) =
≈ 0.9810.
0.578
Hier eine Tabelle mit allen bedingten Wahrscheinlichkeiten P (Bvw | Avw ) auf vier Nachkommastellen gerundet:
vw
00
01
10
11
P (Bvw | Avw ) 0.9810 0.3320 0.3320 0.9101
82
3.4
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Stochastische Unabhängigkeit
Mitunter ist die bedingte Wahrscheinlichkeit P (A | B) identisch mit P (A). Aus der Sicht eines
Glücksspielers, der auf das Eintreten von A wettet, ist dann das Ereignis B uninteressant. Die
Gleichung P (A | B) = P (A) führt aber zu einem ganz wesentlichen Begriff der Wahrscheinlichkeitsrechnung, der stochastischen Unabhängigkeit. Mit diesem Begriff kann man präzisieren, was
es bedeutet, mehrere Zufallsexperimente unabhängig voneinander durchzuführen.
3.4.1
Stochastische Unabhängigkeit zweier Ereignisse
Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn
P (A ∩ B) = P (A)P (B).
Im Falle von P (B) > 0 ist dies gleichbedeutend mit
P (A | B) = P (A).
Die stochastische Unabhängigkeit von A und B bleibt erhalten, wenn man A durch Ac oder B
durch B c ersetzt! Denn beispielsweise ist
P (A ∩ B c ) = P (A) − P (A ∩ B)
= P (A) − P (A)P (B)
= P (A)(1 − P (B))
= P (A)P (B c ).
Beispiel 3.8 (Zweifacher Münzwurf) Eine Münze oder ein Reißnagel wird zweimal hintereinander geworfen. Kodieren wir die möglichen Ergebnisse durch Null oder Eins, so ist
n
o
Ω = (0, 0), (0, 1), (1, 0), (1, 1) .
Nun wollen wir beschreiben, dass die beiden Würfe unabhängig sind, und dass bei jedem Wurf
die Eins mit Wahrscheinlichkeit p ∈ [0, 1] auftritt. Die Ereignisse
A := [beim ersten Wurf eine Eins],
B := [beim zweiten Wurf eine Eins]
sollen also stochastisch unabhängig sein mit Wahrscheinlichkeit P (A) = P (B) = p. Dies bedeutet, dass
P (A ∩ B) = P (A)P (B) = p2 ,
P (A ∩ B c ) = P (A)P (B c ) = p(1 − p),
P (Ac ∩ B) = P (Ac )P (B) = (1 − p)p,
P (Ac ∩ B c ) = P (Ac )P (B c ) = (1 − p)2 .
3.4. STOCHASTISCHE UNABHÄNGIGKEIT
83
Wir erhalten also einen diskreten Wahrscheinlichkeitsraum (Ω, P ) mit folgenden Wahrscheinlichkeitsgewichten p(ω):
ω
p(ω)
3.4.2
(0, 0)
(0, 1)
(1, 0)
(1, 1)
2
(1 − p) p(1 − p) p(1 − p)
p2
Stochastische Unabhängigkeit beliebig vieler Ereignisse
Nun betrachten wir n ≥ 2 Ereignisse A1 , A2 , . . . , An . Diese nennt man stochastisch unabhängig,
wenn für beliebige Zahlen 2 ≤ k ≤ n und Indizes 1 ≤ i(1) < i(2) < · · · < i(k) ≤ n gilt:
P Ai(1) ∩ Ai(2) ∩ · · · ∩ Ai(k)
= P (Ai(1) )P (Ai(2) ) · · · P (Ai(k) ).
Paarweise Unabhängigkeit. Für die stochastische Unabhängigkeit der Ereignisse A1 , . . . , An
genügt es nicht, dass
P (Ai ∩ Aj ) = P (Ai )P (Aj ) für 1 ≤ i < j ≤ n.
Als Gegenbeispiel betrachten wir Ω = {0, 1, 2, 3} mit der Laplaceverteilung P sowie die Ereignisse Ai := {0, i} für i = 1, 2, 3. Hier ist
P (Ai ) = 2/4 = 0.5
P (Ai ∩ Aj ) = 1/4 = 0.52
für 1 ≤ i ≤ 3,
für 1 ≤ i < j ≤ 3.
Je zwei der drei Ereignisse sind also stochastisch unabhängig. Aber
P (A1 ∩ A2 ∩ A3 ) = 1/4 6= 0.53 .
Eine “zeitliche” Interpretation. Die stochastische Unabhängigkeit der Ereignisse A1 , . . . , An
ist gleichbedeutend mit folgender Bedingung: Für eine beliebige Zahl 1 ≤ k < n sei B irgendein Ereignis, das mit Hilfe von A1 , . . . , Ak beschrieben werden kann. Dann sind B und Ak+1
stochastisch unabhängig.
Komplementärereignisse. Die stochastische Unabhängigkeit der Ereignisse A1 , . . . , An bleibt
erhalten, wenn man beliebig viele dieser Ereignisse durch ihre Komplementärereignisse ersetzt.
(Der Beweis hierfür ist analog zu dem Beweis für zwei Ereignisse.)
Noch eine andere Charakterisierung. Die stochastische Unabhängigkeit der Ereignisse A1 ,
ei gleich Ai oder Ac .
. . . , An ist gleichbedeutend mit folgender Bedingung: Für 1 ≤ i ≤ n sei A
i
Dann ist stets
e1 ∩ A
e2 ∩ · · · ∩ A
en = P (A
e1 )P (A
e2 ) · · · P (A
en ).
P A
84
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Beispiel 3.9 (Dreifacher Münzwurf) Eine Münze oder ein Reißnagel wird dreimal hintereinander geworfen. Der Ereignisraum ist
n
o
Ω = (ω1 , ω2 , ω3 ) : ω1 , ω2 , ω3 ∈ {0, 1} ,
besteht also aus 23 = 8 Elementen. Nun möchten wir eine diskrete Wahrscheinlichkeitsverteilung
P auf Ω angeben, so dass die drei Würfe “unabhängig” sind und jeder Wurf mit einer Wahrscheinlichkeit p ∈ [0, 1] die Eins ergibt. Die drei Ereignisse
Ai := [beim i–ten Wurf eine Eins]
sollen also stochastisch unabhängig sein mit P (Ai ) = p. Dadurch ist P schon eindeutig festgelegt.
Zum Beispiel ist A1 ∩ Ac2 ∩ Ac3 = {(1, 0, 0)} und soll Wahrscheinlichkeit p(1 − p)2 haben. So
ergeben sich folgende Wahrscheinlichkeitsgewichte p(ω):
ω
p(ω)
(0, 0, 0) (1 − p)3
(0, 0, 1)
(0, 1, 0) p(1 − p)2
(1, 0, 0)
ω
p(ω)
(0, 1, 1)
(1, 0, 1) p2 (1 − p)
(1, 1, 0)
(1, 1, 1)
p3
Beispiel 3.10 (n–facher Münzwurf) Eine Münze oder ein Reißnagel wird n–mal hintereinander
geworfen. Der Ereignisraum ist
n
o
Ω = (ω1 , ω2 , . . . , ωn ) : ω1 , ω2 , . . . , ωn ∈ {0, 1}
mit 2n Elementen. Die einzelnen Würfe sollen “unabhängig” sein und jeweils mit Wahrscheinlichkeit p ∈ [0, 1] eine Eins ergeben. Dadurch sind die Wahrscheinlichkeitsgewichte p(ω) schon
eindeutig festgelegt, und zwar ist
p(ω) = pS(ω) (1 − p)n−S(ω) .
Dabei ist S(ω) :=
Pn
i=1 ωi ,
die Anzahl von Einsen in ω = (ω1 , . . . , ωn ).
Zahlenbeispiele: Sei n = 10 und p = 0.3. Dann ist
P [bei den zwei ersten Würfen eine Eins, dann nur noch Nullen]
= p((1, 1, 0, . . . , 0)) = p2 (1 − p)n−2
= 0.32 · 0.78 ≈ 0.0052,
P [insgesamt genau viermal eine Eins]
X
n 4
4
n−4
=
p(ω) = # {ω ∈ Ω : S(ω) = 4} p (1 − p)
=
p (1 − p)n−4
4
ω∈Ω : S(ω)=4
10
=
· 0.34 · 0.76 ≈ 0.2001,
4
P [mindestens eine Eins]
= 1 − P [nur Nullen] = 1 − (1 − p)n
= 1 − 0.710 ≈ 0.9718.
3.4. STOCHASTISCHE UNABHÄNGIGKEIT
85
Beispiel 3.11 (Berner “Geisterhaus”, Version I) Ein Radioreporter kommt nach Bern und fragt
fünf Passanten in der Innenstadt, ob sie wissen, wo das “Geisterhaus” steht. Angenommen, in
der Gesamtbevölkerung von Bern und seiner näheren Umgebung kennt jede zehnte Person die
Antwort. Nun betrachten wir die Ereignisse
Ai := [die i–te befragte Person weiß Bescheid]
für i = 1, 2, . . . , 5. Wir unterstellen, dass diese stochastisch unabhängig sind mit P (Ai ) = 0.1.
Dann ist
P [keine befragte Person weiß Bescheid]
= P (Ac1 ∩ Ac2 ∩ · · · ∩ Ac5 ) = P (Ac1 )P (Ac2 ) · · · P (Ac5 ) = 0.95 ≈ 0.591,
P [genau zwei befragte Personen wissen Bescheid]
5
=
· 0.12 · 0.93 ≈ 0.073.
2
Diese Überlegungen werden uns im Zusammenhang mit Binomialverteilungen noch einmal begegnen.
Beispiel 3.12 (Das Geburtstagsproblem) Man fragt insgesamt n verschiedene Personen nach
ihren Geburtstagen. Nun wüssten wir gerne, mit welcher Wahrscheinlichkeit mindestens zwei
Personen am gleichen Tag Geburtstag haben. (Dabei nehmen wir an, dass 2 ≤ n ≤ 365.) Hierzu
benötigt man erst ein geeignetes Modell. Wir vernachlässigen die Schaltjahre und den 29. Februar
und gehen von 365 möglichen Geburtstagen aus.
Ansatz 1. Die Liste der n Geburtstage bezeichnen wir mit
ω = (ω1 , ω2 , . . . , ωn ).
Die Menge Ω aller dieser Listen hat 365n Elemente. Das Ereignis A, dass alle n Befragten an
verschiedenen Tagen Geburtstag haben, besteht aus
365 · 364 · · · (365 − n + 2) · (365 − n + 1) = [365]n
möglichen Listen. Also ist die Laplace–Wahrscheinlichkeit von A gleich
P [alle n Personen haben unterschiedliche Geburtstage] =
[365]n
[364]n−1
=
.
n
365
365n−1
Ansatz 2. Wir stellen uns vor, dass bei jeder Befragung rein zufällig einer der 365 möglichen
Geburtstage auftritt, und zwar unabhängig von den vorangegangenen Befragungen. Definiert man
das Ereignis
Bi := [keine doppelten Geburtstage bei den ersten i Befragungen]
für 1 ≤ i ≤ n, dann ist B1 ⊃ B2 ⊃ B3 ⊃ · · · mit P (B1 ) = 1 und
P (Bi+1 | Bi ) =
365 − i
.
365
86
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Denn nach Eintreten von Bi stehen in der (i+1)–ten Ziehung genau 365−i von 365 Geburtstagen
zur Auswahl, wenn auch Bi+1 eintreten soll. Also ist
P [alle n Personen haben unterschiedliche Geburtstage]
= P (Bn )
= P (Bn−1 )P (Bn | Bn−1 )
= P (Bn−2 )P (Bn−1 | Bn−2 )P (Bn | Bn−1 )
..
.
= P (B1 ) P (B2 | B1 )P (B3 | B2 ) · · · P (Bn−1 | Bn−2 )P (Bn | Bn−1 )
365 − n + 2 365 − n + 1
364 363
·
···
·
= 1·
365 365
365
365
[364]n−1
=
.
365n−1
Zahlenbeispiele. Hier einige Zahlenwerte auf vier Nachkommastellen gerundet:
n
[364]n−1
365n−1
3.5
10
15
20
25
30
40
50
0.8831 0.7471 0.5886 0.4313 0.2937 0.1088 0.0296
Zufallsvariablen und deren Verteilung
Wie bisher betrachten wir ein Zufallsexperiment, das durch einen Grundraum Ω und eine Wahrscheinlichkeitsverteilung P auf Ω beschrieben wird. Oftmals interessiert man sich nur für einen
Teilaspekt des Experiments. Dies kann man durch eine Abbildung X : Ω → X beschreiben.
Jedem Elementarereignis ω wird ein Wert X(ω) im Wertebereich X zugeordnet. Die Abbildung
X nennen wir eine Zufallsvariable auf (Ω, P ) mit Werten in X oder einfach eine Zufallsvariable. Die Bezeichnung ‘Zufallsvariable’ anstelle von ‘Abbildung’ bringt zum Ausdruck, dass der
Definitionsbereich Ω von X mit einer Wahrscheinlichkeitsverteilung P versehen ist.
Für eine beliebige Menge B ⊂ X ist die Wahrscheinlichkeit, dass X einen Wert in B annimmt,
gleich
P (X ∈ B) := P ({ω ∈ Ω : X(ω) ∈ B}) .
Als Funktion von B definiert dies eine Wahrscheinlichkeitsverteilung auf X , welche wir manchmal mit P X bezeichnen, also P X (B) := P (X ∈ B). Man nennt P X die Verteilung der Zufallsvariable X; siehe auch Abbildung 3.3.
Ist der Wertebereich X endlich oder abzählbar, dann ist P X eine diskrete Wahrscheinlichkeitsverteilung, die durch die Gewichte P (X = x) für x ∈ X eindeutig festgelegt ist.
Beispiel 3.13 (Augensumme zweier Würfel) Zwei (ideale) Würfel werden geworfen. Der entsprechende Grundraum Ω besteht aus allen 36 Paaren ω = (ω1 , ω2 ) zweier Zahlen aus {1, . . . , 6},
und P sei die Laplace-Verteilung hierauf. In manchen Spielen (z.B. “Die Siedler von Catan”)
kommt es nur auf die Augensumme an. Wir betrachten daher folgende Zufallsvariable X:
X(ω) := ω1 + ω2 .
3.5. ZUFALLSVARIABLEN UND DEREN VERTEILUNG
87
'
'
$
$
' $
X
:
$
'
& %
P (X ∈ B)
&
P X (B)
B
%
{ω : X(ω) ∈ B}
&
&
X%
%
Ω
Abbildung 3.3: Zufallsvariable und deren Verteilung
Die Menge der möglichen Werte von X ist X := {2, 3, . . . , 12}. Es ist
P (X = 2) = P ({(1, 1)}) =
1
,
36
P (X = 3) = P ({(1, 2), (2, 1)}) =
2
,
36
P (X = 4) = P ({(1, 3), (2, 2), (3, 1)}) =
3
,
36
..
.
P (X = 7) = P ({(1, 6), (2, 5), . . . , (5, 2), (6, 1)}) =
P (X = 8) = P ({(2, 6), (3, 5), . . . , (6, 2)}) =
6
,
36
5
,
36
..
.
P (X = 12) = P ({(6, 6)}) =
1
.
36
Als geschlossene Formel erhalten wir
P (X = k) =
6 − |k − 7|
36
für k = 2, 3, . . . , 12.
Abbildung 3.4 zeigt ein Stabdiagramm dieser Wahrscheinlichkeiten.
Beispiel 3.14 (Ziehung der Lottozahlen) Bei der (Schweizer) Ziehung der Lottozahlen werden
aus einer Urne mit 45 Kugeln rein zufällig nacheinander sechs Kugeln gezogen, ohne bereits
gezogene Kugeln zurückzulegen. Der entsprechende Grundraum Ω besteht aus allen Tupeln
ω = (ω1 , . . . , ω6 )
von sechs verschiedenen Zahlen aus {1, 2, . . . , 45}. Es gibt
45 · 44 · · · 41 · 40 = [45]6 ≈ 5.8644 · 109
88
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
0.18
0.16
0.14
P(X = k)
0.12
0.1
0.08
0.06
0.04
0.02
0
2
3
4
5
6
7
k
8
9
10
11
12
Abbildung 3.4: Augensumme zweier Würfel
solche Elementarereignisse. Nun sei P die Laplace-Verteilung hierauf. Nach der eigentlichen Ziehung werden die Zahlen der Größe nach sortiert; es kommt also nur auf die Menge
X(ω) := {ω1 , . . . , ω6 }
an. Dies definiert eine Zufallsvariable X auf (Ω, P ) mit Wertebereich
n
o
X := alle sechs–elementigen Teilmengen von {1, 2, . . . , 45} .
Zu jeder Menge {k1 , . . . , k6 } in X gibt es genau 6! Elemtarereignisse ω mit X(ω) = {k1 , . . . , k6 },
nämlich alle 6! Permutationen von (k1 , . . . , k6 ). Daher ist
−1
6!
45
P (X = {k1 , . . . , k6 }) =
=
≈ 1.2277 · 10−7 .
[45]6
6
Mit anderen Worten, X ist uniform verteilt (Laplace-verteilt) auf der Menge X , die aus 45
6 verschiedenen Teilmengen von {1, 2, . . . , 45} besteht.
Eine Verbindung zur deskriptiven Statistik
Bei der deskriptiven Statistik betrachteten wir “Variablen”, und nun untersuchen wir “Zufallsvariablen”. Den Zusammenhang zwischen beiden Konzepten kann man an folgendem Beispiel
erkennen:
Sei Ω eine Population, und für jedes Individuum ω ∈ Ω seien X(ω), Y (ω), Z(ω) die Werte dreier
Variablen. Beispielsweise sei Ω die Menge aller wahlberechtigten Schweizerinnen und Schweizer,
und
X(ω) := Alter von Person ω,
Y (ω) := Geschlecht von Person ω,
Z(ω) := die von Person ω derzeit bevorzugte Partei bei Nationalratswahlen.
3.6. SPEZIELLE VERTEILUNGEN
89
Wenn man nun eine Person ω aus Ω rein zufällig auswählt, dann sind X, Y, Z Zufallsvariablen
auf (Ω, P ), wobei P die Laplaceverteilung auf Ω bezeichnet. Die Verteilungen P X , P Y und P Z
beschreiben dann die prozentuale Zusammensetzung der Population in Bezug auf diese Merkmale.
Im konkreten Beispiel etwa ist
P X ((0 Jahre, 65 Jahre]) = P (X ≤ 65 Jahre) =
P Z ({SVP}) = P (Z = SVP) =
3.6
#{ω ∈ Ω : X(ω) ≤ 65 Jahre}
,
#Ω
#{ω ∈ Ω : Y (ω) = SVP}
.
#Ω
Spezielle Verteilungen
In den folgenden Abschnitten leiten wir vier Typen von Verteilungen her, die in vielen Anwendungen eine wichtige Rolle spielen. Insbesondere interessieren wir uns für Verteilungen, die im
Zusammenhang mit Stichprobenerhebungen auftreten.
3.6.1
Hypergeometrische Verteilungen
Wir gehen von folgendem Urnenmodell aus: Eine Urne enthalte N Kugeln, von denen L markiert
sind. Nun ziehen wir rein zufällig und ohne Zurücklegen n Kugeln aus der Urne. Wir betrachten
also den Grundraum Ω aller Stichproben
ω = (ω1 , ω2 , . . . , ωn )
von n verschiedenen Kugeln aus der Urne. Dieser Grundraum besteht aus N (N − 1) · · · (N − n +
1) = [N ]n Stichproben. Nun interessieren wir uns für die Zahl
X(ω) := Anzahl markierter Kugeln in der Stichprobe ω.
Diese Zufallsvariable kann Werte in {0, 1, . . . , n} annehmen. Genauer gesagt, ist
X ∈
max(0, n + L − N ), . . . , min(n, L) ,
denn X kann auch nicht größer sein als die Zahl L aller markierten Kugeln in der Urne, und n−X
kann nicht größer sein als die Zahl N − L aller unmarkierten Kugeln.
Herleitung 1 der Verteilung von X. Für k ∈ {0, 1, . . . , n} ist
n
#{ω ∈ Ω : X(ω) = k} =
(bei welchen Ziehungen treten markierte Kugeln auf)
k
·[L]k
(wähle dann k markierte Kugeln)
·[N − L]n−k
(wähle dann n − k unmarkierte Kugeln).
Folglich ist
n [L]k [N − L]n−k
.
P (X = k) =
[N ]n
k
90
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Herleitung 2 der Verteilung von X. Für die Zufallsvariable X ist die Reihenfolge der Ziehungen unerheblich. Wir können das Zufallsexperiment auch so beschreiben, dass wir rein zufällig
eine n–elementige Menge von Kugeln auswählen. Es gibt insgesamt N
n solche Mengen. Außer N −L
L
dem gibt es k · n−k Teilmengen mit genau k markierten und n − k unmarkierten Kugeln. Also
ist
L N −L . N
P (X = k) =
.
k
n−k
n
(Dabei verwenden wir stets die Konventionen, dass ab := 0 falls b > a oder b < 0.)
Anmerkung 1. Die Ergebnisse dieser beiden Herleitungen sehen unterschiedlich aus, sind aber
identisch. Denn
.
L N −L . N
L!
(N − L)!
N!
=
·
k
n−k
n
k!(L − k)! (n − k)!(N − L − n + k)! n!(N − n)!
[L]k [N − L]n−k . [N ]n
·
=
k!
(n − k)!
n!
[L]k [N − L]n−k
n!
·
=
k!(n − k)!
[N ]n
n [L]k [N − L]n−k
.
=
[N ]n
k
Anmerkung 2. Die Verteilung von X bleibt die gleiche, wenn man die Zahlen L und n vertauscht.
Man könnte also ebensogut aus einer Urne mit insgesamt n markierten Kugeln eine Stichprobe
vom Umfang L ziehen. Diese Symmetrie in L und n sieht man deutlich, wenn man schreibt
L N −L . N
L!n!(N − L)!(N − n)!
=
.
k
n−k
n
k!(L − k)!(n − k)!(N − L − n + k)!N !
Definition 3.15 (Hypergeometrische Verteilung) Die hypergeometrische Verteilung mit Parametern N , L, n ist die diskrete Wahrscheinlichkeitsverteilung auf {0, 1, 2, . . .} mit Wahrscheinlichkeitsgewichten
L N −L . N
hN,L,n (k) :=
.
k
n−k
n
Als Symbol für diese Verteilung verwenden wir Hyp(N, L, n).
Eine Zufallsvariable mit Verteilung Hyp(N, L, n) heißt hypergeometrisch verteilt mit Parametern
N , L, n.
Beispiel 3.14 (Ziehung der Lottozahlen, Forts.) Hier hat man tatsächlich eine Urne mit N =
45 Kugeln und zieht eine Stichprobe vom Umfang n = 6.
(a) Aus Sicht eines bestimmten Lottospielers, der genau einen Tipp abgegeben hat, ist entscheidend, welche der von ihm angekreuzten Zahlen bei der Ziehung dabei sind. Er betrachtet also
L = 6 von ihm “markierte” Kugeln, und die Zufallsgröße
X := Anzahl seiner richtigen Tipps
3.6. SPEZIELLE VERTEILUNGEN
91
ist hypergeometrisch verteilt mit Parametern 45, 6, 6. Demnach ist
6
[6]0 [39]6
1 · [39]6
P (X = 0) =
·
= 1·
≈ 0.4006,
0
[45]6
[45]6
6 · [39]5
6
[6]1 [39]5
= 6·
≈ 0.4241,
P (X = 1) =
·
[45]6
[45]6
1
[6]2 · [39]4
6
[6]2 [39]4
= 15 ·
≈ 0.15515.
P (X = 2) =
·
[45]6
[45]6
2
0.0
0.1
0.2
0.3
0.4
Abbildung 3.5 zeigt ein Stabdiagramm mit allen sieben strikt positiven (!) Gewichten h45,6,6 (k).
0
1
2
3
4
5
6
Abbildung 3.5: Stabdiagramm der Gewichte h45,6,6 (k) von Hyp(45, 6, 6)
(b) Erfahrungsgemäß werden von Lottospielern mehr ungerade als gerade Zahlen angekreuzt.
Deshalb betrachten wir nun die Zufallsvariable
X := Anzahl der ungeraden unter den sechs Lottozahlen.
Diese ist hypergeometrisch verteilt mit Parametern 45, 23, 6. Abbildung 3.6 zeigt ein Stabdiagramm der entsprechenden Gewichte h45,23,6 (k). Das größte Gewicht liegt auf der Zahl Drei.
Die Verteilung ist nicht ganz symmetrisch um den Wert Drei, da sich in der Urne 23 Kugeln mit
ungerader und nur 22 mit gerader Zahl befinden.
Beispiel 3.16 (Berner “Geisterhaus”, Version II) Wir betrachten die gleiche Situation wie in
Beispiel 3.11, stellen uns allerdings vor, dass der Reporter nicht in der Innenstadt sondern in einer
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
0.00
0.05
0.10
0.15
0.20
0.25
0.30
92
0
1
2
3
4
5
6
Abbildung 3.6: Stabdiagramm der Gewichte h45,23,6 (k) von Hyp(45, 23, 6)
Lehrveranstaltung mit 100 Teilnehmenden rein zufällig fünf davon befragt. Die Zufallsvariable
X := Anzahl der “Wissenden” unter den fünf Befragten
ist hypergeometrisch verteilt mit Parametern 100, 10, 5. Die folgende Tabelle enthält die entsprechenden Wahrscheinlichkeiten h100,10,5 (k) auf vier Nachkommastellen gerundet:
k
h100,10,5 (k)
0
1
2
3
4
5
0.5838 0.3394 0.0702 0.0064 0.0003 0.0000
(Ein genauerer Wert für h100,10,5 (5) ist 3.35 · 10−6 .) Mit einer Wahrscheinlichkeit von knapp 60%
weiß niemand der Befragten Bescheid, obwohl immerhin 10 der einhundert Personen eingeweiht
sind.
Beispiel 2.11 (Experiment mit ManagerInnen, Forts.) Eine naheliegende Frage ist, ob dieses
Datenbeispiel belegt, dass Männer gegenüber Frauen bevorzugt werden. Angenommen, es gibt
keine Diskriminierung, sondern die 48 ManagerInnen urteilten objektiv. Dann sind 35 von ihnen
der Meinung, dass Herr oder Frau XY befördert werden sollte, und 13 von ihnen halten dies für
falsch. Nun konzentrieren wir uns auf die Zahl
X := Anzahl Beförderungen von Herrn XY,
3.6. SPEZIELLE VERTEILUNGEN
93
also den Tabelleneintrag links oben. Wegen der rein zufälligen Aufteilung der ManagerInnen in
zwei gleich große Gruppen (Beurteilung von Herrn XY bzw. Frau XY) handelt es sich um eine
Zufallsvariable mit Verteilung Hyp(48, 35, 24).
Der effektive Wertebereich von X ist {11, 12, . . . , 24}, denn Herr XY muss mindestens 35 − 24 =
11 mal befördert werden. Außerdem kann man zeigen, dass hier h48,35,24 (k) = h48,35,24 (35 − k)
für k = 0, 1, 2, . . .; siehe Übungen. Hier eine Tabelle der entsprechenden Wahrscheinlichkeiten
P (X = k):
k
P (X = k)
11, 24 12, 23 13, 22 14, 21 15, 20 16, 19 17, 18
0.0000 0.0003 0.0036 0.0206 0.0720 0.1620 0.2415
(Es ist h48,35,24 (11) = h48,35,24 (24) ≈ 1.294 · 10−5 .)
Im Zusammenhang mit statistischen Tests werden wir auf dieses Beispiel noch einmal zurückkommen.
Betrachten wir noch einmal die erste Herleitung der Verteilung von X: Die Ereignisse A1 , A2 ,
. . . , An mit
Ai := [bei der i–ten Ziehung eine markierte Kugel]
haben zwar ein und dieselbe Wahrscheinlichkeit
P (Ai ) =
L
.
N
Aber sie sind nicht stochastisch unabhängig. Denn bei jeder Ziehung verändert sich die Zusammensetzung der Urne.
Bei großen Quotienten N/n ist dieser Effekt sehr gering, und man kann näherungsweise mit unabhängigen Ereignissen rechnen. Dies führt dann zu der im nächsten Abschnitt behandelten Binomialverteilung.
3.6.2
Binomialverteilungen
Nun betrachten wir ein Zufallsexperiment mit stochastisch unabhängigen Ereignissen A1 , A2 , . . . ,
An , wobei
P (Ai ) = p
für eine Zahl p ∈ [0, 1]. Hier zwei konkrete Beispiele:
• n–facher Münzwurf. Eine Münze wird n mal geworfen, und Ai ist das Ereignis, dass beim
i–ten Wurf “Zahl” auftritt.
Anstelle des Wurfes einer Münze oder eines Reißnagels kann man auch an andere Experimente
denken. Beispielsweise sei p die Wahrscheinlichkeit, dass ein bestimmtes Gerät bei einer bestimmten Belastung ausfällt. Um etwas über p herauszufinden, werden n gleichartige Geräte
einem Belastungstest unterworfen, und wir betrachten das Ereignis Ai , dass Gerät Nr. i ausfällt.
94
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
• Stichprobenziehen. Aus einer Urne mit N Kugeln, von denen L = N p markiert sind, wird
n–mal rein zufällig eine Kugel gezogen. Nun betrachten wir das Ereignis Ai , dass bei der i–ten
Ziehung eine markierte Kugel auftritt. Diese Ereignisse haben jeweils Wahrscheinlichkeit p.
Sie sind stochastisch unabhängig, wenn wir mit Zurücklegen ziehen. Das heißt, nach jeder
Ziehung wird die die Kugel wieder in die Urne zurückgelegt.
Sie sind näherungsweise stochastisch unabhängig, wenn wir ohne Zurücklegen ziehen, aber
die Gesamtzahl N aller Kugeln sehr groß ist im Vergleich zum Stichprobenumfang n.
Anstelle einer Urne mit N Kugeln kann man beispielsweise auch an eine Population von Personen denken. Von diesen Personen werden n rein zufällig ausgewählt und befragt. Dann sei
Ai das Ereignis, dass die i–te befragte Person auf eine bestimmte Frage mit ‘Ja’ antwortet.
Nun zählen wir, wieviele der n Ereignisse Ai tatsächlich eintreten. Wir betrachten also die Zufallsvariable
n
X
X :=
Xi
i=1
mit
Xi :=
1 wenn Ereignis Ai eintritt,
0 wenn Ereignis Ai nicht eintritt.
Die möglichen Werte von X sind 0, 1, . . . , n. Für einen solchen Wert k ist
P (X = k) =
n k
p (1 − p)n−k .
k
Denn das Ereignis [X = k] kann man zerlegen in
n
k
disjunkte Ereignisse der Form
e1 ∩ A
e2 ∩ · · · ∩ A
en ,
A
ei = Ai für genau k Indizes i, und A
fi = Ac für genau n − k Indizes i. Ferner ist
wobei A
i
e1 ∩ A
e2 ∩ · · · ∩ A
en ) = P (A
e1 )P (A
e2 ) · · · P (A
en ) = pk (1 − p)n−k
P (A
wegen der stochastischen Unabhängigkeit der Ai .
Definition 3.17 (Binomialverteilung) Die Binomialverteilung mit Parametern n ∈ {1, 2, 3, . . .}
und p ∈ [0, 1] ist die diskrete Wahrscheinlichkeitsverteilung auf {0, 1, . . . , n} mit Wahrscheinlichkeitsgewichten
n k
bn,p (k) :=
p (1 − p)n−k .
k
Als Symbol für diese Verteilung verwenden wir Bin(n, p).
Eine Zufallsvariable mit Verteilung Bin(n, p) heißt binomialverteilt mit Parametern n und p.
3.6. SPEZIELLE VERTEILUNGEN
95
Zum Verlauf der Gewichtsfunktion bn,p (·) Für 0 < p < 1 wollen wir herausfinden, an welcher
Stelle die Gewichtsfunktion bn,p (·) maximal ist. Dazu betrachten wir für 1 ≤ k ≤ n die Differenz
[n]k−1 k−1
[n]k k
p (1 − p)n−k −
p (1 − p)n−k+1
k!
(k − 1)!
[n]k−1 k−1
p (1 − p)n−k · (n − k + 1)p − k(1 − p)
=
k!
[n]k−1 k−1
=
p (1 − p)n−k · (n + 1)p − k .
| k!
{z
}
bn,p (k) − bn,p (k − 1) =
>0
Also ist


 < 
=
b (k)
bn,p (k − 1)
 n,p

>
genau dann, wenn


 < 
=
k
(n + 1)p.


>
Wenn also m := (n + 1)p eine ganze Zahl ist, dann ist
bn,p (0) < bn,p (1) < · · · < bn,p (m − 1) = bn,p (m) > bn,p (m + 1) > · · · > bn,p (n).
Ist dagegen m < (n + 1)p < m + 1 für eine ganze Zahl m, dann ist
bn,p (0) < bn,p (1) < · · · < bn,p (m) > bn,p (m + 1) > · · · > bn,p (n).
Grob gesagt sind die Gewichte bn,p (k) maximal, wenn k/n in etwa gleich p ist.
Illustration der Gewichtsfunktion bn,p (·) Wir zeigen für diverse Parameterpaare (n, p) Stabdiagramme der Gewichte bn,p (k), wobei wir auf der horizontalen Achse nicht k ∈ {0, 1, . . . , n},
sondern k/n ∈ [0, 1] auftragen. Dies hat den Vorteil, dass man den Einfluss des Parameters n
(Stichprobenumfang) besser sieht.
In Abbildung 3.7 zeigen wir für n = 10 und p = 0.33, 0.5, 0.8, 0.99 jeweils ein Stabdiagramm
der Gewichte bn,p (k). Man sieht, wie die Verteilung mit p “von links nach rechts wandert”.
In Abbildung 3.8 fixieren wir p = 0.33 und zeigen die Gewichtsfunktionen bn,p (·) für n =
20, 30, 50, 100. Nun sieht man deutlich, dass die Verteilung von X/n mit wachsendem n näher
an der Stelle p konzentriert ist.
Beispiel 3.18 (Fünffacher Münzwurf) Eine perfekte Münze wird fünfmal geworfen, und wir betrachten die Anzahl X von Würfen, bei denen “Zahl” auftritt. Diese Zufallsvariable X ist binomialverteilt mit Parametern n = 5 und p = 1/2. Also gilt für eine beliebige Zahl k ∈ {0, 1, . . . , 5}:
.
n k
n
5
n−k
n
P (X = k) =
p (1 − p)
=
(1/2) =
32.
k
k
k
Beispielsweise ist
P (X ≥ 2) = 1 − P (X = 0) − P (X = 1) = 1 − 1/32 − 5/32 = 13/16 = 0.8125.
96
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Bin(10, 0.33)
Bin(10, 0.5)
0.25
0.25
0.2
bn,p(k)
bn,p(k)
0.2
0.15
0.1
0.1
0.05
0.05
0
0.15
0
0.1
0.2
0.3
0.4
0.5
k/n
0.6
0.7
0.8
0.9
0
1
0
0.1
0.2
0.3
0.4
Bin(10, 0.8)
0.5
k/n
0.6
0.7
0.8
0.9
1
0.6
0.7
0.8
0.9
1
Bin(10, 0.99)
0.9
0.3
0.8
0.25
0.7
0.6
bn,p(k)
bn,p(k)
0.2
0.15
0.5
0.4
0.3
0.1
0.2
0.05
0.1
0
0
0.1
0.2
0.3
0.4
0.5
k/n
0.6
0.7
0.8
0.9
1
0
0
0.1
0.2
0.3
0.4
0.5
k/n
Abbildung 3.7: Gewichte von Bin(10, p) für p = 0.33, 0.5, 0.8, 0.99.
Beispiel 3.19 (Qualitätskontrolle) Sei p die Wahrscheinlichkeit, dass eine bestimmte Art von
Gerät bei einer bestimmten Belastung ausfällt. Um etwas über p zu erfahren, werden n gleichartige Geräte dieser Belastung ausgesetzt, und man bestimmte die Zahl X der Testgeräte, welche
ausfallen.
Beispielsweise gilt im Falle von n = 20 und p = 0.07:
P (X = 0) = (1 − p)n = 0.9320 ≈ 0.2342.
Angenommen, der Hersteller möchte sicherstellen, dass die ihm unbekannte Ausfallwahrscheinlichkeit p kleiner ist als ein bestimmter Wert po . Hierzu könnte er obige Testserie durchführen
und wie folgt reagieren: Wenn alle Testgeräte intakt bleiben (X = 0), behauptet er, dass p < po .
Wenn aber eines oder mehrere Testgeräte ausfallen (X > 0), so werden die Geräte grundlegend
überarbeitet.
Eine unangenehme Situation bei dieser Vorgehensweise wäre, dass X = 0, obwohl p ≥ po . Dies
kann man nie mit völliger Sicherheit ausschließen! Aber im Falle von p ≥ po ist
P (X = 0) = (1 − p)n ≤ (1 − po )n ,
3.6. SPEZIELLE VERTEILUNGEN
97
Bin(20, 0.33)
Bin(30, 0.33)
0.2
0.16
0.18
0.14
0.16
0.12
0.14
0.1
bn,p(k)
bn,p(k)
0.12
0.1
0.08
0.08
0.06
0.06
0.04
0.04
0.02
0.02
0
0
0.1
0.2
0.3
0.4
0.5
k/n
0.6
0.7
0.8
0.9
0
1
0
0.1
0.2
0.3
0.4
Bin(50, 0.33)
0.5
k/n
0.6
0.7
0.8
0.9
1
0.6
0.7
0.8
0.9
1
Bin(100, 0.33)
0.09
0.12
0.08
0.1
0.07
0.06
bn,p(k)
bn,p(k)
0.08
0.06
0.05
0.04
0.03
0.04
0.02
0.02
0.01
0
0
0.1
0.2
0.3
0.4
0.5
k/n
0.6
0.7
0.8
0.9
1
0
0
0.1
0.2
0.3
0.4
0.5
k/n
Abbildung 3.8: Gewichte von Bin(n, 0.33) für n = 20, 30, 50, 100.
und die rechte Seite wird mit wachsendem n beliebig klein. Sie ist kleiner oder gleich einer vorgegebenen Schranke α ∈ (0, 1) genau dann, wenn
n ≥
log(α)
.
log(1 − po )
Dann kann der Hersteller im Falle von X = 0 mit einer Sicherheit von 1 − α davon ausgehen,
dass p < po .
Zahlenbeispiel. Der Hersteller strebt an, dass p kleiner ist als po = 0.1, und aus seiner Testserie
möchte er mit Wahrscheinlichkeit höchstens α = 0.05 einen Fehlschluss ziehen. Somit muss
gelten:
log(0.05)
≈ 28.433.
n ≥
log(0.9)
Wenn er also mindestens 29 Geräte testet und keines davon ausfällt, dann kann er mit einer Sicherheit von 1 − α = 0.95 davon ausgehen, dass die unbekannte Ausfallwahrscheinlichkeit kleiner ist
als po = 0.1.
Dieses Beispiel ist schon ein Spezialfall sogenannter statistischer Tests, die wir im zweiten Teil
der Veranstaltung systematisch behandeln werden.
98
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Beispiel 3.20 (Pseudozufallsfolgen) Bei der Befragung von Vorlesungsteilnehmenden im akad.
Jahr 2006/2007 wurde unter anderem um eine “rein zufällige” 0-1-Folge der Länge Zehn gebeten.
Dies führte zu n = 201 Tupeln
ω = (ω1 , ω2 , . . . , ω10 ) ∈ {0, 1}10 .
Erfahrungsgemäß tendieren Menschen bei dieser Aufgabe (i) zu Folgen mit ungefähr gleich vielen
Nullen wie Einsen und (ii) Folgen mit zu vielen Wechseln zwischen aufeinanderfolgenden Ziffern.
Definieren wir
X(ω) :=
Y (ω) :=
10
X
i=1
9
X
ωi
(Anzahl von Einsen in ω),
1{ωi 6= ωi+1 }
(Anzahl Wechseln in ω),
i=1
Dann wären
X ∼ Bin(10, 0.5) und
Y ∼ Bin(9, 0.5),
wenn man tatsächlich ω ∈ {0, 1}10 rein zufällig wählt. Abbildungen 3.9 und 3.10 zeigen Stabdiagramme der Gewichte dieser Binomialverteilungen zusammen mit den relativen Häufigkeiten der
n = 201 X– bzw. Y –Werte in der Stichprobe. Man erkennt deutlich die Tendenz zu Folgen ω, die
“ausgeglichenen” sind (X(ω) = 5) und viele Wechsel beinhalten (Y (ω) ≥ 5).
Abbildung 3.9: Theoretische und empirische Verteilung von X in Beispiel 3.20
3.6. SPEZIELLE VERTEILUNGEN
99
Abbildung 3.10: Theoretische und empirische Verteilung von Y in Beispiel 3.20
3.6.3
Geometrische Verteilungen
Nun behandeln wir eine Klasse von Verteilungen, die im Zusammenhang mit Wartezeiten oft
auftreten. Wir betrachten ein Zufallsexperiment, bei welchem ein bestimmtes Ereignis mit Wahrscheinlichkeit p eintritt. Nun wiederholen wir das Experiment unabhängig und so oft, bis dieses
Ereignis erstmalig eintritt. Die Frage ist, wie viele Wiederholungen des Experiments durchgeführt
werden müssen.
Um dies präziser zu beschreiben, fassen wir die unabhängigen Wiederholungen des Experiments
zu einem Gesamtexperiment (Ω, P ) zusammen. Es seien A1 , A2 , A3 , . . . stochastisch unabhängige
Ereignisse mit
P (A1 ) = P (A2 ) = P (A3 ) = · · · p ∈ (0, 1].
Nun betrachten wir die Zufallsvariable
n
o
X := min k ≥ 1 : Ak tritt ein .
Falls keines der Ereignisse Ai eintritt, definieren wir X = ∞. Dies passiert allerdings mit Wahrscheinlichkeit Null.
Die Frage ist nun, wie diese Zufallsvariable X verteilt ist. Es ist [X = 1] = A1 , [X = 2] =
Ac1 ∩ A2 , [X = 3] = Ac1 ∩ Ac2 ∩ A3 , und allgemein gilt für k > 1:
[X = k] = Ac1 ∩ · · · ∩ Ack−1 ∩ Ak .
100
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Die Wahrscheinlichkeit dieses Ereignisses ist gleich
P (Ac1 ∩ · · · ∩ Ack−1 ∩ Ak ) = P (Ac1 ) · · · P (Ack−1 )P (Ak ) = (1 − p)k−1 p.
Zusammen mit dem Spezialfall P (X = 1) = P (A1 ) = p = (1 − p)0 p ergibt sich folgende
Formel:
P (X = k) = (1 − p)k−1 p für k = 1, 2, 3, . . . .
Für eine beliebige natürliche Zahl k ist das Ereignis [X > k] identisch mit Ac1 ∩ Ac2 ∩ · · · ∩ Ack ,
und dieses Ereignis hat Wahrscheinlichkeit (1 − p)k . Wir erhalten also die allgemeine Formel
P (X > k) = (1 − p)k
für k = 0, 1, 2, . . . .
Da der Faktor 1 − p strikt kleiner ist als Eins, konvergiert (1 − p)k für k → ∞ gegen Null. Somit
hat das Ereignis [X = ∞] ⊂ [X > k] Wahrscheinlichkeit Null:
P (X = ∞) = 0.
Definition 3.21 (Geometrische Verteilung) Die geometrische Verteilung mit Parameter p ∈
(0, 1] ist die diskrete Wahrscheinlichkeitsverteilung auf {1, 2, 3, . . .} mit Wahrscheinlichkeitsgewichten
gp (k) := (1 − p)k−1 p.
Als Symbol für diese Verteilung verwenden wir Geom(p).
Eine Zufallsvariable mit Verteilung Geom(p) heißt geometrisch verteilt mit Parameter p.
Beispiel 3.11 (Berner Geisterhaus, Version I, Forts.) Wir betrachten nochmals den Radioreporter, der Passanten in der Berner Innenstadt nach dem Geisterhaus fragt. Angenommen, er
befragt nicht eine feste Zahl (n) von Personen, sondern er möchte wirklich zu diesem Haus gehen und benötigt dessen Adresse. Nun sei X die Zahl der Personen, welche er befragen muss,
um diese Auskunft zu erhalten. Gehen wir davon aus, dass er bei einer einzelnen Befragung mit
Wahrscheinlichkeit 10% Erfolg hat und die einzelnen Befragungen stochastisch unabhängig sind,
dann ist X geometrisch verteilt mit Parameter p = 0.1. Insbesondere ist
P (X > 10) = 0.910 ≈ 0.3487,
P (X > 20) = 0.920 ≈ 0.1216,
P (X > 30) = 0.930 ≈ 0.0424.
Beispiel 3.22 (Garantiefälle) Für einen bestimmten Typ von Gerät sei die Wahrscheinlichkeit,
dass es innerhalb der Garantiefrist ausfällt, gleich 0.07. Nun werden beliebig viele solche Geräte
nacheinander verkauft, und wir betrachten die Anzahl X der verkauften Geräte bis zum ersten
Garantiefall. Beispielsweise ist [X = 5] das Ereignis, dass die ersten vier verkauften Geräte die
3.6. SPEZIELLE VERTEILUNGEN
101
Garantiezeit durchhalten aber beim fünften Gerät reklamiert wird. Hier ist X geometrisch verteilt
mit Parameter p = 0.07. Beispielsweise ist
P [keine Reklamationen bei den ersten k verkauften Geräten]
0.4840 für k = 10,
= P (X > k) = 0.93k ≈
0.1630 für k = 25.
Beispiel 3.23 (“Mensch ärgere Dich nicht” bzw. “Eile mit Weile”) Bei diesem Brettspiel
kommt es in einigen Situationen darauf an, möglichst bald eine Sechs zu würfeln. Im Falle eines idealen Würfels liefert ein einzelner Wurf mit Wahrscheinlichkeit 1/6 eine Sechs. Die Anzahl
X von Versuchen bis zur ersten Sechs ist also geometrisch verteilt mit Parameter p = 1/6. Beispielsweise ist
P (X > 3) = (5/6)3 ≈ 0.5787,
P (X > 9) = (5/6)9 ≈ 0.1938.
Manche naive Spieler denken, je öfter sie bereits erfolglos um eine Sechs gewürfelt haben, desto
höher sind ihre Chancen beim nächsten Versuch. In Formeln: Sie glauben, dass
P (X = ` + 1 | X > `)
= P Erfolg beim Versuch Nr. ` + 1 kein Erfolg bei den ersten ` Versuchen
mit ` = 1, 2, 3, . . . anwächst. Leider ist dies falsch wegen der stochastischen Unabhängigkeit der
Ereignisse Ai := [beim i–ten Versuch eine Sechs]; siehe auch die nachfolgende Bemerkung.
“Gedächtnislosigkeit” der geometrischen Verteilung.
gilt:
Für beliebige natürliche Zahlen k, `
P (X = ` + k | X > `) = P (X = k),
P (X > ` + k | X > `) = P (X > k).
In Worten: Die bedingte Verteilung von X−`, gegeben dass X > `, ist identisch mit der Verteilung
von X. Diese Eigenschaft nennt man auch “Gedächtnislosigkeit”. Die obigen Gleichungen folgen
aus der stochastischen Unabhängigkeit der zugrundeliegenden Ereignisse Ai oder durch stures
Nachrechnen. Beispielsweise ist
P (X = ` + k | X > `) =
=
=
P (X = ` + k und X > `)
P (X > `)
P (X = ` + k)
P (X > `)
(1 − p)`+k−1 p
(1 − p)`
= (1 − p)k−1 p
= P (X = k).
102
3.6.4
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Poissonverteilungen
Nun behandeln wir eine Klasse von Verteilungen, die im Zusammenhang mit seltenen Ereignissen
auftreten. Genauer gesagt, seien
A1 , A2 , . . . , An
stochastisch unabhängige Ereignisse mit Wahrscheinlichkeiten
p1 , p2 , . . . , pn .
Die Wahrscheinlichkeiten pi = P (Ai ) müssen nicht identisch sein. Wir interessieren uns aber für
den Fall, dass sie alle recht klein sind, und betrachten wie bereits bei den Binomialverteilungen
die Zufallsvariable
n
X
X :=
Xi
i=1
mit
Xi :=
1 wenn Ereignis Ai eintritt,
0 wenn Ereignis Ai nicht eintritt.
Also gibt X an, wie viele der Ereignisse Ai tatsächlich eintreten.
Der Spezialfall, dass alle pi identisch sind. Es sei
p1 = p2 · · · = pn =
λ
n
für eine feste Zahl λ > 0. In diesem Falle ist X binomialverteilt mit Parametern n und p = λ/n.
Die Frage ist nun, wie sich diese Verteilung im Falle von n → ∞ entwickelt. Für eine feste ganze
Zahl k ≥ 0 ist
λ n−k
n
λ k
1−
P (X = k) =
n
n
k
[n]k λ k
λ n−k
=
1−
k! n
n
λ −k
λk λ n [n − 1]k−1 =
·
·
1
−
1−
k!
n
n
nk−1
k
λ n
1 2
k − 1 λ −k
λ
=
1−
· 1−
1−
··· 1 −
· 1−
.
k!
n
n
n
n
n
Auf der rechten Seite stehen 2k − 1 Faktoren der Form (1 − j/n) und (1 − λ/n)−1 , die alle gegen
Eins konvergieren. Also ist
λk λ n
P (X = k) ≈
1−
.
k!
n
Der Term (1 − λ/n)n ist nicht so einfach zu behandeln. Zwar konvergiert der Faktor (1 − λ/n)
gegen Eins, doch der Exponent n strebt gleichzeitig gegen Unendlich. Daher schreiben wir mit
Hilfe des natürlichen Logarithmus log(·):
1−
λ λ n
λ = exp n log 1 −
≈ exp n −
= exp(−λ).
n
n
n
3.6. SPEZIELLE VERTEILUNGEN
103
Bin(5, 0.5)
Bin(10, 0.25)
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
0
2
4
6
8
10
12
0
0
2
4
Bin(20, 0.125)
8
10
12
8
10
12
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
6
Bin(50, 0.05)
0
2
4
6
8
10
12
0
0
2
4
6
Abbildung 3.11: Von der Binomial- zur Poissonverteilung
Dabei nutzen wir aus, dass log(1 ± δ) ≈ ±δ für kleine Zahlen δ ≥ 0. Folglich ist
P (X = k) ≈ exp(−λ)
λk
k!
für festes k ≥ 0 und große Zahlen n.
Illustration dieses Grenzübergangs. Abbildung 3.11 zeigt für n = 5, 10, 20, 50 und λ = 2.5 jeweils
ein Stabdiagramm der Wahrscheinlichkeitsgewichte bn,λ/n (k) im Bereich k ∈ {0, 1, . . . , 12}.
Zusätzlich werden, etwas nach rechts verschoben, die Grenzwerte exp(−λ)λk /k! gezeichnet. Man
sieht deutlich, dass die Unterschiede zwischen den Binomialwahrscheinlichkeiten und den Grenzwerten mit wachsendem n kleiner werden.
Definition 3.24 (Poissonverteilung) Die Poissonverteilung mit Parameter λ ≥ 0 ist die diskrete
Wahrscheinlichkeitsverteilung auf {0, 1, 2, . . .} mit Wahrscheinlichkeitsgewichten
pλ (k) := exp(−λ)
λk
.
k!
Als Symbol für diese Verteilung verwenden wir Poiss(λ).
104
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Eine Zufallsvariable mit Verteilung Poiss(λ) heißt poissonverteilt mit Parameter λ.
Unsere bisherige Beobachtung zur Binomialverteilung kann man auch wie folgt formulieren: Eine Binomialverteilung mit großem Parameter n und kleinem Parameter p kann man durch die
Poissonverteilung Poiss(n · p) approximieren.
Der allgemeine Fall. Nun betrachten wir wieder den allgemeinen Fall, dass die Wahrscheinlichkeiten pi nicht unbedingt identisch sind. Auch hier kann man die Verteilung von X durch eine
Poissonverteilung approximieren, nämlich
Poiss(p1 + p2 + . . . + pn ).
Diese Approximation ist umso besser, je kleiner der Quotient
p21 + p22 + · · · + p2n
p1 + p2 + · · · + pn
ist, und diesen kann man wiederum durch
max{p1 , p2 , . . . , pn }
nach oben abschätzen. Hier ist ein präzises Resultat, das wir ohne Beweis angeben:
Satz 3.25 Für beliebige Mengen B ⊂ {0, 1, 2, . . .} ist
n
X
X
P
(X
∈
B)
−
p
(k)
≤
p2i /λ,
λ
k∈B
wobei λ :=
i=1
Pn
i=1 pi .
Beispiel 3.26 (Telefonauskunft) Sei X die Anzahl von Anfragen bei einer Telefonauskunftsstelle zwischen 8:00 und 8:15 Uhr am kommenden Freitag. Man kann diese Zahl X als Zufallsvariable
betrachten und davon ausgehen, dass sie poissonverteilt ist mit unbekanntem Parameter λ > 0.
Begründung: Es gebe eine sehr große Anzahl n von potentiellen Kunden. Wir gehen davon aus,
dass die Ereignisse
Ai := [Kunde Nr. i ruft im besagten Zeitraum an]
stochastisch unabhängig sind und alle sehr geringe Wahrscheinlichkeiten haben. Daher ist X in
etwa poissonverteilt.
Anwendung: Den unbekannten Parameter λ kann man als mittlere Zahl von Anfragen, die freitags zwischen 8:00 und 8:15 Uhr eingehen, auffassen (siehe auch den späteren Abschnitt über
Erwartungswerte) und aus empirischen Daten schätzen. Angenommen, diese mittlere Anzahl von
3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN
105
Anfragen ist gleich λ = 5. Dann kann man die Wahrscheinlichkeiten für beliebige Auslastungen
am kommenden Freitag berechnen. Beispielsweise ist
P (X = 0) = P [keine Anfrage] = exp(−5) ≈ 0.0067,
P (X = 1) = P [genau eine Anfrage] = exp(−5)5 ≈ 0.0337,
P (X > 5) = P [mehr als 5 Anfragen]
55 52
+ ··· +
≈ 0.3840,
= 1 − P (X ≤ 5) = 1 − exp(−5) 1 + 5 +
2!
5!
P (X > 10) = P [mehr als 10 Anfragen] ≈ 0.0137.
Beispiel 3.27 (Haftpflichtversicherungsfälle) Sei X die Anzahl von Schadensmeldungen, die
einer bestimmten Versicherungsgesellschaft im kommenden Monat gemeldet werden. Wenn die
Versicherungsgesllschaft sehr viele Kunden hat, und wenn jeder einzelne Kunde nur mit geringer
Wahrscheinlichkeit einen Schaden verursacht, dann ist X näherungsweise poissonverteilt. Die Begründung ist analog wie im vorigen Beispiel 3.26, und der Versicherer kann den Parameter λ aus
früheren Daten schätzen.
Die stochastische Unabhängigkeit der Ereignisse
Ai := [Versicherte(r) Nr. i meldet Schaden]
kann man bei Haftpflichtfällen annehmen. Ganz anders wäre dies beispielsweise bei Versicherungen von Hauseigentümern gegen Sturmschäden.
Beispiel 3.28 (Feuerwehreinsätze am Heiligen Abend) Sei X die Anzahl der Einsätze für eine
bestimmte Feuerwehrstelle zwischen 18 Uhr am kommenden 24. Dezember und 6 Uhr am 25.
Dezember. Angenommen, in den vergangenen zwanzig Jahren gab es in der heiligen Nacht im
Mittel 2.5 Einsätze. Nun gehen wir davon aus, dass die Zahl X eine poissonverteilte Zufallsgröße
ist mit Parameter λ = 2.5. Dies bedeutet beispielsweise, dass
P (X = 0) = P [ruhige Nacht ohne Einsatz] = exp(−2.5) ≈ 0.0821,
P (X > 3) = P [mehr als drei Einsätze]
2.52 2.53 +
≈ 0.2424.
= 1 − P (X ≤ 3) = 1 − exp(−2.5) 1 + 2.5 +
2!
3!
3.7
Erwartungswerte und davon abgeleitete Kenngrößen
In diesem Abschnitt betrachten wir reellwertige Zufallsvariablen, deren Verteilung durch ein paar
einfache Kenngrößen charakterisiert werden soll. Der Begriff des Erwartungswertes stammt ursprünglich aus der Theorie der Glücksspiele. Diesen Aspekt wollen wir zunächst erklären und
knüpfen dabei an unsere Überlegungen zu Wahrscheinlichkeiten und Wetteinsätzen an:
Gegeben sei ein Zufallsexperiment (Ω, P ) mit einer diskreten Wahrscheinlichkeitsverteilung P
auf Ω. Angenommen, ein Spieler setzt einen festen Betrag E und erhält den Gewinn X(ω), wenn
106
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
das Zufallsexperiment das Ergebnis ω ∈ Ω liefert. Die Frage ist nun, welcher Einsatz E bei diesem
Spiel “fair” wäre.
Angenommen, dieses Spiel wird nicht einmal sondern beliebig oft und unabhängig wiederholt.
Die Einzelergebnisse seien ω1 , ω2 , ω3 , . . .. Nach der n–ten Runde betrachten wir die empirischen
Wahrscheinlichkeitsgewichte
#{i ≤ n : ωi = ω}
.
n
Diese kann man als Schätzwerte für die Gewichte p(ω) = P ({ω}) betrachten. Nach n Runden ist
der Nettogewinn des Spielers gleich
n
X
X
X(ωi ) − n · E = n ·
pbn (ω)X(ω) − E .
pbn (ω) :=
i=1
ω∈Ω
Wir rechnen damit, dass der Ausdruck innerhalb der Klammer für n → ∞ gegen
X
p(ω)X(ω) − E
ω∈Ω
konvergiert. Auf lange Sicht macht der Spieler also
X
<
Gewinn
p(ω)X(ω).
falls E
beliebig großen
>
Verlust
ω∈Ω
Ein fairer Spieleinsatz ist demnach
E =
X
p(ω)X(ω).
ω∈Ω
Diese Zahl ist der sogenannte Erwartungswert der Zufallsvariable X; siehe auch den folgenden
Abschnitt.
Beispiel 3.29 (Einfache Spiele mit Würfel) Es sei P die Laplaceverteilung auf der Menge Ω =
{1, 2, . . . , 6}, also p(ω) = 1/6. Nun betrachten wir drei verschiedene Spiele:
• Für X(ω) := ω CHF wäre der faire Spieleinsatz gleich
6
X
1
· ω CHF = 3.5 CHF .
6
ω=1
• Für X(ω) := 2ω−1 CHF wäre der richtige Spieleinsatz gleich
6
X
1 ω−1
63
·2
CHF =
CHF = 10.5 CHF .
6
6
ω=1
Mit diesem Einsatz wäre das Spiel fair, obwohl der Spieler mit Wahrscheinlichkeit 4/6 Geld verliert.
• Angenommen X(1) = 15 CHF, X(2) = X(3) = X(4) = X(5) = 11 CHF und X(6) =
0 CHF. Dann wäre der faire Wetteinsatz gleich
(15 + 4 · 11)/6 CHF = 59/6 CHF = 9.833 CHF .
Würde man dieses Spiel mit einem Einsatz von 10 CHF spielen, wäre es aus Sicht des Spielers
unfair, obwohl sein Nettogewinn mit Wahrscheinlichkeit 5/6 positiv ist.
3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN
3.7.1
107
Erwartungswerte
Definition 3.30 (Erwartungswert)
(a) Sei X eine Zufallsvariable auf (Ω, P ), und P sei eine diskrete Wahrscheinlichkeitsverteilung
mit Gewichten p(ω). Dann definiert man den Erwartungswert von X als die Zahl
E(X) :=
X
p(ω)X(ω).
ω∈Ω
Dabei setzen wir voraus, dass entweder X(ω) ≥ 0 für alle ω ∈ Ω oder
P
ω∈Ω p(ω)|X(ω)|
< ∞.
(b) Sei X eine Zufallsvariable mit endlichem oder abzählbarem Wertebereich X ⊂ R. Dann ist
der Erwartungswert von X definiert als die Zahl
E(X) :=
X
P (X = x) x.
x∈X
Hier nehmen wir an, dass entweder X ⊂ [0, ∞) oder
P
P (X = x) |x| < ∞.
x∈X
Teil (a) dieser Definition liefert die gleiche Zahl wie Teil (b). Dazu muss man einfach den Raum
Ω je nach Werten von X in Teilmengen aufspalten:
X
p(ω)X(ω) =
ω∈Ω
X
X
p(ω) x
=
X
P (X = x) x.
x∈X
x∈X ω∈Ω : X(ω)=x
Bei theoretischen Überlegungen ist Teil (a) oft nützlich. Für konkrete Berechnungen verwendet
man eher Teil (b).
'
'
$
$
X
:
&
&
P
%
Ω
P
X%
P (X = x) x
x∈X
p(ω)X(ω)
ω∈Ω
Beispiel 3.31 (Poissonverteilungen) Die Zufallsvariable X sei poissonverteilt mit Parameter
λ ≥ 0. Dann ist
E(X) = λ.
108
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Denn
E(X) =
=
∞
X
k=0
∞
X
P (X = k) k
λk
k
k!
e−λ
k=1
−λ
= e
∞
X
k=1
= e−λ
λk
(k − 1)!
∞
X
λj+1
j=0
(j = k − 1)
j!
∞
X
λj
= e−λ λ
j!
j=0
| {z }
=exp(λ)=eλ
= λ.
Beispiel 3.32 (Geometrische Verteilungen) Die Zufallsvariable X sei geometrisch verteilt mit
Parameter p ∈ (0, 1]. Dann ist
1
(3.1)
E(X) = .
p
Zahlenbeispiele:
• Einen idealen Würfel muss man im Schnitt 1/p = 6 mal werfen, bis erstmalig eine Sechs fällt.
• Eine ideale Münze muss man im Mittel 1/p = 2 mal werfen, bis erstmalig “Zahl” fällt.
• Wenn ein bestimmter Gerätetyp mit Wahrschinlichkeit p = 0.07 innerhalb der Garantiefrist
ausfällt, dann kann man im Mittel 1/p ≈ 14.29 Geräte bis zum ersten Garantiefall verkaufen.
Für (3.1) gibt es zwei mögliche Herleitungen:
Beweis 1 (verwendet Ableitungen): Nach Definition von E(X) ist
E(X) =
∞
X
P (X = k) k =
k=1
= −p
∞
X
(1 − p)k−1 p k
k=1
∞
X
k=1
∞
∞
k=1
k=0
d
d X
d X
(1 − p)k = −p
(1 − p)k = −p
(1 − p)k
dp
dp
dp
−1
d 1
= −p 2
= −p
dp p
p
1
=
.
p
Dabei verwendeten wir die allgemeine Formel
a = 1 − p).
P∞
k
k=0 a
= 1/(1 − a) für −1 < a < 1 (hier mit
3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN
109
Beweis 2: Allgemein gilt für eine Zufallsvariable mit Werten in {0, 1, 2, . . .} die Formel
E(X) =
∞
X
P (X = k) k
k=1






 +
+
=


+




= 1)
= 2) + P (X = 2)
= 3) + P (X = 3) + P (X = 3)
= 4) + P (X = 4) + P (X = 4) + P (X = 4)
..
..
..
..
.
.
.
.
..
.
P (X ≥ 1) + P (X ≥ 2) + P (X ≥ 3) + P (X ≥ 4) + · · ·
=
=
P (X
P (X
P (X
P (X
∞
X
P (X ≥ k).
k=1
Speziell bei einer Zufallsvariable X mit Verteilung Geom(p) ist P (X ≥ k) = (1 − p)k−1 , also
E(X) =
∞
∞
X
X
1
(1 − p)k−1 =
(1 − p)j = .
p
2
j=0
k=1
Noch eine andere Berechnungsmethode für Erwartungswerte ist oft nützlich: Sei X eine Zufallsvariable mit beliebigem Wertebereich X und diskreter Verteilung, und sei Y := g(X) für eine
Abbildung g : X → R:
X
g
Ω −→ X −→ R.
Dann ist
E(Y ) =
X
P (X = x) g(x).
x∈X
Beispiel 3.33 (St. Petersburg–Paradoxon) Angenommen, jemand bietet Ihnen ein wertvolles
Gemälde an, wobei der Preis Y nach folgendem Spiel ermittelt wird: Sie legen einen Franken auf
den Tisch. Dann wird eine (perfekte) Münze so oft geworfen, bis erstmalig “Zahl” fällt. Jedesmal,
wenn “Kopf” auftritt, müssen Sie den Betrag auf dem Tisch verdoppeln. Mit anderen Worten,
die Münze wird X mal geworfen, wobei X nach Geom(1/2) verteilt ist, und der Preis beträgt
Y = 2X−1 (in CHF).
Je nach Gemälde wäre dieses Spiel wirklich verlockend. Erstaunlicherweise ist der entsprechende
Gegenwert des Gemäldes gleich Unendlich! Denn
E(Y ) =
∞
X
x=1
P (X = x) 2x−1 =
∞
X
x=1
2| −x{z
2x−1} = ∞.
=1/2
Das bedeutet: Würde ein hinreichend verrückter Galerist alle seine Gemälde nach diesem Schema
verkaufen, so wäre auf lange Sicht sein mittlerer Gewinn pro Gemälde beliebig groß. Der Haken dabei ist, dass er eine sehr große Anzahl von Gemälden verkaufen müsste, und alle Kunden
müssten ihr Spiel konsequent durchziehen, egal wie hoch der zu zahlende Preis wird!
110
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Beispiel 3.34 (Eine Zufallsvariable ohne Erwartungswert) In Anlehnung an das vorangehende
Beispiel betrachten wir ein Spiel für zwei Personen, sagen wir, Gabi und Klaus. Es wird eine
(perfekte) Münze so oft geworfen, bis erstmalig “Zahl” fällt. Sei X die entsprechende Anzahl von
Würfen, die geometrisch verteilt ist mit Parameter 1/2. Im Falle von X = 1 erhält Gabi 1 CHF
von Klaus, im Falle von X = 2 zahlt sie ihm 2 CHF, im Falle von X = 3 erhält sie 4 CHF, und so
weiter. Allgemein erhält sie
Y = (−1)X−1 2X−1 CHF
von Klaus. Der Erwartungswert des Gewinns X von Gabi ist nicht definiert, denn hier wäre
X
P (X = x) · x =
x
∞
X
2−x · (−1)x−1 2x−1 =
x=1
∞
X
(−1)x−1 /2 = ?
x=1
Interpretation von E(X): Das starke Gesetz der großen Zahlen. Die anfangs gemachten
Überlegungen zum Glücksspiel deuten schon an, wie man den Erwartungswert E(X) interpretieren kann: Angenommen, das zugrundeliegende Zufallsexperiment wird beliebig oft und unabhängig wiederholt. Die Werte unserer Zufallsvariable bei den Einzelexperimenten seien X1 ,
P
X2 , X3 , . . . . Dann konvergiert der arithmetische Mittelwert n−1 ni=1 Xi für n → ∞ gegen die
Zahl E(X).
Um dies zu illustrieren, zeigen wir in Abbildung 3.12 die Realisierungen von 100 (simulierten) Zufallsvariablen mit Verteilung Poiss(2.5), markiert durch ‘+’. Zusätzlich wird für n = 1, 2, . . . , 100
der arithmetische Mittelwert der ersten n Beobachtungen gezeigt. Augenscheinlich nähert sich
dieser mit wachsendem n dem Erwartungswert von 2.5.
8
7
6
5
4
3
2
1
0
10
20
30
40
50
60
70
80
90
100
Abbildung 3.12: Illustration des Gesetzes der Großen Zahlen
Rechenregeln für Erwartungswerte. Bisher kennen wir Erwartungswerte nur im Zusammenhang mit diskreten Wahrscheinlichkeitsverteilungen. Doch die nachfolgenden Rechenregeln gelten
3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN
111
für beliebige Zufallsvariablen, auch solche, die uns erst später begegnen werden.
• Regel 1. Für eine Zufallsvariable X mit reellem Erwartungswert und beliebige Konstanten a,
b ist
E(a + bX) = a + bE(X).
(Auf der linken Seite steht die neue Zufallsvariable ω 7→ a + bX(ω).)
• Regel 2. Für zwei beliebige Zufallsvariablen X und Y mit reellen Erwartungswerten bzw. mit
Werten in [0, ∞) ist
E(X + Y ) = E(X) + E(Y ).
(Auf der linken Seite steht die neue Zufallsvariable ω 7→ X(ω) + Y (ω).)
• Regel 3. Sind X und Y Zufallsvariablen, so dass stets X ≤ Y , dann ist auch
E(X) ≤ E(Y ),
sofern E(X) und E(Y ) definiert sind.
Alle drei Regeln kann man sehr leicht begründen, wenn man von Definition 3.30 (a) ausgeht. Denn
E(a + bX) ist gleich
X
p(ω)(a + bX(ω)) = a + b
ω∈Ω
X
p(ω)X(ω) = a + bE(X),
ω∈Ω
und E(X + Y ) ist gleich
X
p(ω)(X(ω) + Y (ω)) =
ω∈Ω
X
p(ω)X(ω) +
ω∈Ω
X
p(ω)Y (ω) = E(X) + E(Y ).
ω∈Ω
Außerdem ist
E(X) =
X
ω∈Ω
p(ω)X(ω) ≤
X
p(ω)Y (ω) = E(Y ),
ω∈Ω
falls X(ω) ≤ Y (ω) für alle ω ∈ Ω.
Regel 2 kann man noch auf beliebig viele Zufallsvariablen ausdehnen:
• Regel 2’. Für beliebige Zufallsvariablen X1 , X2 , . . . , Xn mit reellen Erwartungswerten ist
E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + . . . + E(Xn ).
Beispiel 3.35 (Hypergeometrische Verteilungen) Für eine Zufallsvariable X mit Verteilung
Hyp(N, L, n) ist
nL
.
E(X) =
N
P
Dies könnte man nachweisen, indem man stur die Formel E(X) = nk=1 P (X = k) k auswertet.
Stattdessen verwenden wir lieber Regel 2 für Erwartungswerte: Wir betrachten eine Urne mit N
112
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Kugeln, von denen L Stück markiert sind. Hieraus ziehen wir rein zufällig und ohne Zurücklegen
n Kugeln. Definiert man
Xi :=
1 wenn i–te gezogene Kugel markiert ist,
0 sonst,
dann ist X genauso verteilt wie X1 + X2 + . . . + Xn . Jede Variable Xi nimmt nur die Werte Null
und Eins an, und zwar ist P (Xi = 1) = L/N . Daher ist auch
E(Xi ) = P (Xi = 0) · 0 + P (Xi = 1) · 1 = P (Xi = 1) =
L
,
N
so dass
E(X) = E(X1 ) + E(X2 ) + · · · + E(Xn ) = n
L
.
N
2
Beispiel 3.36 (Binomialverteilungen) Für eine Zufallsvariable X mit Verteilung Bin(n, p) ist
E(X) = np.
Auch hier vermeiden wir aufwändige Rechnungen, indem wir Regel 2 für Erwartungswerte anwenden: Seien A1 , A2 , . . . , An stochastisch unabhängige Ereignisse, jeweils mit Wahrscheinlichkeit p. Definiert man
1 wenn Ai eintritt,
Xi :=
0 sonst,
dann ist X genauso verteilt wie X1 + X2 + . . . + Xn . Jede Variable Xi nimmt nur die Werte Null
und Eins an, so dass E(Xi ) = P (Xi = 1) = p. Folglich ist
E(X) = E(X1 ) + E(X2 ) + · · · + E(Xn ) = np.
3.7.2
2
Die Markov–Ungleichung
Oftmals verwendet man Erwartungswerte, um gewisse Wahrscheinlichkeiten grob abzuschätzen.
Dabei spielt folgende Ungleichung eine Rolle:
Lemma 3.37 (Markov–Ungleichung) Sei X eine Zufallsvariable mit Werten in [0, ∞). Für beliebige Schranken c > 0 ist dann
P (X ≥ c) ≤
E(X)
.
c
Diese Schranke ist natürlich nur von Nutzen, wenn c größer ist als E(X).
Zahlenbeispiel. Der Erwartungswert einer nichtnegativen Zufallsvariable X sei gleich 2.5. Dann
ist
2.5
1
P (X ≥ 20) ≤
=
= 0.125.
20
8
3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN
113
Beweis von Lemma 3.37. Wir definieren eine neue Zufallsvariable
(
1 falls X ≥ c,
Y :=
0 falls X < c.
Diese Zufallsvariable nimmt nur die Werte Null oder Eins an, so dass
E(Y ) = P (Y = 1) = P (X ≥ c).
Außerdem ist stets Y ≤ X/c; siehe auch Abbildung 3.13. Nach Regel 3 und Regel 1 ist also
P (X ≥ c) = E(Y ) ≤ E(X/c) = E(X)/c.
2
Abbildung 3.13: Zum Nachweis der Markov-Ungleichung
3.7.3
Varianzen und Standardabweichungen
Die Verteilung einer Zufallsvariable X wird durch ihren Erwartungswert nur sehr grob charakterisiert. Insbesondere möchten wir gerne quantifizieren, wie stark X von E(X) abweicht. Eine
mögliche Kenngröße wäre der Erwartungswert der neuen Zufallsgröße |X − E(X)|, also
X
P (X = x) |x − E(X)|.
E (|X − E(X)|) =
x∈X
Doch für konkrete Berechnungen ist diese Größe oft unhandlich. Stattdessen arbeitet man lieber
mit sogenannten Standardabweichungen.
Definition 3.38 (Varianz und Standardabweichung) Die Varianz einer Zufallsvariable X mit
reellem Erwartungswert ist definiert als die Zahl
Var(X) := E (X − E(X))2 .
114
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Die Standardabweichung von X ist dann die Zahl
Std(X) :=
p
Var(X).
Die Varianz von X ist also der Erwartungswert der neuen Zufallsgröße (X −E(X))2 . Die aussagekräftigere Größe ist jedoch die Standardabweichung, denn sie hat die gleiche Dimension (Einheit)
wie X.
Kombiniert man die Markov–Ungleichung und die Definition der Varianz, so ergibt sich die erste
der folgenden Ungleichungen:
Lemma 3.39 Für eine beliebige Zufallsvariable mit reellem Erwartungswert E(X) und beliebige
Konstanten c > 0 gelten die Tshebyshev–Ungleichung,
Var(X)
,
c2
P (|X − E(X)| ≥ c) ≤
sowie die Tshebyshev-Cantelli-Ungleichung,
P (X ≥ E(X) + c)
)
P (X ≤ E(X) − c)
≤
c2
Var(X)
.
+ Var(X)
Mit Hilfe der Standardabweichung kann man diese Ungleichungen auch wie folgt umschreiben:
Für beliebige Konstanten m ≥ 1 ist
P |X − E(X)| ≥ m Std(X) ≤
1
m2
und
P X ≥ E(X) + m Std(X)
P X ≤ E(X) − m Std(X)





≤
m2
1
.
+1
Die Wahrscheinlichkeit, dass die Zufallsgröße X um mindestens m Standardabweichungen von
der Zahl E(X) abweicht, ist also höchstens gleich 1/m2 .
Zahlenbeispiel. Angenommen, wir wissen, dass E(X) = 2.5 und Var(X) ≤ 3. Nach der Tshebyshev–Ungleichung ist dann
P (X ≥ 20) = P (X − E(X) ≥ 17.5)
≤ P (|X − E(X)| ≥ 17.5) ≤
Var(X)
3
≤
≈ 0.0098.
2
17.5
17.52
Die Tshebyshev-Cantelli-Ungleichung ergibt eine winzige Verbesserung:
P (X ≥ 20) = P (X − E(X) ≥ 17.5) ≤
3
≈ 0.0097.
17.52 + 3
3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN
115
Beweis von Lemma 3.39. Die Tshebyshev–Ungleichung lässt sich auf die Markov-Ungleichung
e :=
zurückführen. Denn die Ungleichung |X − E(X)| ≥ c ist gleichbedeutend damit, dass X
(X − E(X))2 größer oder gleich e
c := c2 ist. Also folgt aus der Markov–Ungleichung, dass
e
E(X)
Var(X)
e ≥e
.
P (|X − E(X)| ≥ c) = P X
c ≤
=
e
c
c2
Nun beschreiben wir noch einen etwas anderen Weg: Mit
(
1
Y :=
0
falls |X − E(X)| ≥ c
falls |X − E(X)| < c
ist P (|X − E(X)| ≥ c) = E(Y ). Doch Y ≤ (X − E(X))2 /c2 , siehe auch Abbildung 3.14, so
dass
P (|X − E(X)| ≥ c) ≤ E (X − E(X))2 /c2 = Var(X)/c2 .
Für den Nachweis der (ersten) Tshebyshev-Cantelli-Ungleichung definieren wir
(
1
Y :=
0
falls X ≥ E(X) + c
falls X < E(X) + c
und wählen eine beliebige Zahl s < c. Dann ist stets
Y ≤
X − (E(X) + s)
2
2
E(X) + c − (E(X) + s)
=
(X − E(X) − s)2
;
(c − s)2
siehe auch Abbildung 3.15. Nun kann man den Erwartungswert der rechten Seite bestimmen und
s so wählen, dass er minimal wird; siehe Übungen.
2
Abbildung 3.14: Zum Nachweis der Tshebyshev-Ungleichung
116
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Abbildung 3.15: Zum Nachweis der Tshebyshev-Cantelli-Ungleichung
Diverse Formeln und Rechenregeln für Varianzen. Für konkrete Berechnungen kann man
einerseits die Formeln
 X

p(ω)(X(ω) − E(X))2


ω∈Ω
X
Var(X) =

P (X = x)(x − E(X))2


x∈X
anwenden. Doch durch Ausmultiplizieren von (X − E(X))2 und Anwendung der Regeln 1 und 2
für Erwartungswerte ergibt sich noch eine alternative Formel:
Var(X) = E(X 2 ) − E(X)2 .
Dabei ist
 X

p(ω)X(ω)2 ,


ω∈Ω
X
E(X 2 ) =

P (X = x) x2 .


x∈X
Aus den Regeln 1 und 2 für Erwartungswerte kann man auch ableiten, dass
Var(a + bX) = b2 Var(X) und
Std(a + bX) = |b| Std(X)
für beliebige Konstanten a und b. Insbesondere verändern sich Varianz und Standardabweichung
nicht, wenn man eine Zufallsvariable um einen festen Wert verschiebt.
Beispiel 3.40 Eine Zufallsvariable nehme Werte in {0, 1, 2, 3} mit folgenden Wahrscheinlichkeiten an:
k
0
1
2
3
P (X = k) 0.3 0.4 0.2 0.1
3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN
117
Dann ist
E(X) =
3
X
P (X = k) k = 0.4 · 1 + 0.2 · 2 + 0.1 · 3 = 1.1,
k=1
E(X 2 ) =
3
X
P (X = k) k 2 = 0.4 · 1 + 0.2 · 4 + 0.1 · 9 = 2.1,
k=1
also
Var(X) = 2.1 − 1.12 = 0.89
und
Std(X) =
√
0.89 ≈ 0.943.
Sei X poissonverteilt mit Parameter λ = E(X).
Beispiel 3.31 (Poissonverteilungen, Forts.)
Dann ist Var(X) = λ und
√
Std(X) =
λ.
Beweis: Zunächst berechnen wir den Erwartungswert von X 2 :
E(X 2 ) =
∞
X
P (X = k) k 2
k=1
= exp(−λ)
∞
X
λk
k=1
= exp(−λ)
∞
X
k=1
= exp(−λ)
∞
X
k=1
= exp(−λ)
∞
X
k!
k2
λk
k
(k − 1)!
λk
(1 + (k − 1))
(k − 1)!
∞
X λk
λk
+ exp(−λ)
(k − 1)!
(k − 2)!
k=1
∞
X
= exp(−λ) λ
i=0
k=2
λi
i!
+ exp(−λ) λ2
∞
X
λj
j=0
j!
= λ + λ2 .
Daher ist Var(X) = E(X 2 ) − λ2 = λ.
2
Beispiel 3.32 (Geometrische Verteilungen, Forts.) Sei X geometrisch verteilt mit Parameter
p = 1/E(X). Dann ist
√
1−p
Std(X) =
.
p
Auf den Beweis dieser Formel verzichten wir aus Zeitgründen.
118
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
3.7.4
Produkte und Kovarianzen
Bevor wir Varianz und Standardabweichung von hypergeometrisch oder binomialverteilten Zufallsgrößen herleiten, wollen wir grundsätzlich überlegen, wie man die Varianz einer Summe von
Zufallsgrößen berechnen kann. Dabei kommen Produkte zweier Zufallsvariablen ins Spiel, womit
wir uns zuerst beschäftigen.
Erwartungswerte von Produkten. Ein wichtige Tatsache, die wir schon mehrfach verwendeten, ist, dass der Erwartungswert einer Summe von Zufallsvariablen gleich der Summe der einzelnen Erwartungswerte ist. Für Produkte von Zufallsvariablen ist dies im Allgemeinen falsch! Der
nachfolgende Satz liefert eine Ungleichung und eine Gleichung für einen wichtigen Spezialfall.
Satz 3.41 (Produkte und Kovarianzen) Seien X und Y Zufallsvariablen.
(a) Falls E(X 2 ) und E(Y 2 ) endlich sind, ist auch E(XY ) definiert und erfüllt die CauchySchwarz-Ungleichung
p
p
E(X 2 ) E(Y 2 ).
|E(XY )| ≤
(b) Sind die Zufallsvariablen stochastisch unabhängig im Sinne der nachfolgenden Definition 3.42
mit Erwartungswerten in R, dann ist
E(XY ) = E(X)E(Y ).
Die gleiche Formel gilt, falls X und Y nur Werte in [0, ∞) annehmen.
Definition 3.42 (Stochastische Unabhängigkeit von Zufallsvariablen) Seien X1 , X2 , . . . , Xn
Zufallsvariablen mit beliebigen Wertebereichen. Man nennt sie stochastisch unabhängig, wenn
P (X1 ∈ B1 , X2 ∈ B2 , . . . , Xn ∈ Bn ) = P (X1 ∈ B1 )P (X2 ∈ B2 ) · · · P (Xn ∈ Bn )
für beliebige Mengen B1 , B2 , . . . , Bn .
Begründung für Satz 3.41∗ .
Zunächst folgt aus
0 ≤ (|X| − |Y |)2 = X 2 + Y 2 − 2|XY |,
dass E(|XY |) ≤ E(X 2 ) + E(Y 2 ) /2. Also existiert E(XY ) in R. Im Falle von E(X 2 ) = 0
oder E(Y 2 ) = 0 ist die Ungleichung trivial, weil dann P (XY = 0) = 1, also E(XY ) = 0.
Anderenfalls gilt für jede Konstante c > 0 die Ungleichung
0 ≤ (cX ∓ Y )2 = c2 X 2 + Y 2 ∓ 2cXY,
also
±E(XY ) ≤ cE(X 2 ) + c−1 E(Y 2 ) /2.
p
Wählt man speziell c = E(Y 2 )/E(X 2 ), dann ergibt sich die Behauptung, dass |E(XY )| nicht
p
größer ist als E(X 2 )E(Y 2 ).
3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN
119
Die Produktformel für unabhängige Zufallsvariablen X, Y begründen wir nur im Spezialfall, dass
X und Y abzählbare Wertebereiche X bzw. Y haben: Hier ist
E(XY ) =
X
P (X = x, Y = y) · xy
x∈X ,y∈Y
=
X
=
X
P (X = x)P (Y = y) · xy
(Unabhängigkeit von X und Y )
x∈X ,y∈Y
X
P (X = x) · x
P (Y = y) · y
x∈X
y∈Y
= E(X)E(Y ).
2
Die Varianz einer Summe von Zufallsvariablen. Für Zufallsvariablen X und Y mit reellen
Erwartungswerten ist (X + Y − E(X + Y ))2 gleich
(X − E(X))2 + (Y − E(Y ))2 + 2(X − E(X))(Y − E(Y )).
Die Varianz von X + Y ist also die Summe von Var(X), Var(Y ) und dem zweifachen Erwartungswert von (X − E(X))(Y − E(Y )). Für die letztere Größe gibt es einen speziellen Namen:
Definition 3.43 (Kovarianz) Seien X und Y Zufallsvariablen mit reellem Erwartungswert und
endlicher Varianz. Die Kovarianz von X und Y ist definiert als die Zahl
Cov(X, Y ) := E (X − E(X))(Y − E(Y )) .
Die Kovarianz ist eine Verallgemeinerung der Varianz, denn Var(X) = Cov(X, X). Durch Ausmultiplizieren von (X − E(X))(Y − E(Y )) und Anwenden der Regeln 1 und 2 für Erwartungswerte ergibt sich noch die alternative Darstellung
Cov(X, Y ) = E(XY ) − E(X)E(Y ).
(3.2)
Wenn X und Y abzählbaren oder endlichen Wertebereich X bzw. Y haben, kann ihre Kovarianz
wie folgt berechnet werden:
Cov(X, Y ) =
XX
P (X = x, Y = y) · (x − E(X))(y − E(Y ))
x∈X y∈Y
=
XX
P (X = x, Y = y) · xy − E(X)E(Y ).
x∈X y∈Y
Angenommen, zwei Zufallsvariablen X und Y sind “gleichsinnig gekoppelt” in folgendem Sinne:
Große bzw. kleine Werte von X −E(X) gehen tendenziell mit großen bzw. kleinen Werte von Y −
E(Y ) einher. Dies bedeutet, dass das Produkt (X − E(X))(Y − E(Y )) tendenziell strikt positiv
ist, und in der Regel ist auch Cov(X, Y ) strikt positiv. Sind die Zufallsvariablen “gegensinnig
gekoppelt”, dann ist Cov(X, Y ) in der Regel strikt negativ.
Die obigen Überlegungen und der zweite Teil von Satz 3.41 ergeben folgende Aussagen:
120
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Korollar 3.44 Für Zufallsvariablen X und Y mit reellen Erwartungswerten und endlichen Varianzen ist
Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ).
Sind die Zufallsvariablen X und Y stochastisch unabhängig, dann ist
Cov(X, Y ) = 0 und
Var(X + Y ) = Var(X) + Var(Y ).
Die in Korollar 3.44 angegebenen Formeln lassen sich auf beliebig viele Summanden verallgemeinern:
Korollar 3.45 Für Zufallsvariablen X1 , X2 , . . . , Xn mit reellen Erwartungswerten und endlichen
Varianzen ist
n
n X
n
X
X
Var
Xi
=
Cov(Xi , Xj )
i=1
=
i=1 j=1
n
X
Var(Xi ) + 2
i=1
(3.3)
X
Cov(Xi , Xj ).
1≤i<j≤n
Sind die Zufallsvariablen X1 , X2 , . . . , Xn (paarweise) stochastisch unabhängig, dann ist
n
n
X
X
Var
Xi =
Var(Xi ).
i=1
(3.4)
i=1
Beispiel 3.35 (Hypergeometrische Verteilungen, Forts.) Sei X hypergeometrisch verteilt mit
Parametern N , L und n. Dann ist E(X) = nL/N und
r
Std(X) =
L
LN −n
n
1−
=
N
N N −1
s
nL(N − n)(N − L)
.
N 2 (N − 1)
P
Beweis: Wie bei der Herleitung des Erwartungswertes von X betrachten wir die Summe ni=1 Xi ,
wobei Xi ∈ {0, 1} angibt, ob die i–te gezogene Kugel markiert ist. Nun wenden wir die Varianz–
Kovarianz–Formel (3.3) an: Einerseits ist E(Xi ) = P (Xi = 1) = L/N . Außerdem ist hier Xi2
identisch mit Xi , so dass
Var(Xi ) = E(Xi ) − E(Xi )2 =
L L 2
L
L
=
−
1−
.
N
N
N
N
Für 1 ≤ i < j ≤ n kann man zeigen, dass
E(Xi Xj ) = P (Xi = Xj = 1) =
L(L − 1)
.
N (N − 1)
Daher ist
Cov(Xi , Xj ) =
L 2
L(L − 1)
1
L
L
−
= −
1−
.
N (N − 1)
N
N −1 N
N
3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN
121
Nun setzen wir dies alles zusammen:
Var(X) =
n
X
Var(Xi ) + 2
i=1
X
Cov(Xi , Xj )
1≤i<j≤n
L
= n
1−
N
L
= n
1−
N
L
= n
1−
N
L
L
n
1
L
−2
1−
N
N
2 N −1 N
L
n−1
1−
N
N −1
L N − n
.
2
N N −1
Beispiel 3.36 (Binomialverteilungen, Forts.) Sei X binomialverteilt mit Parametern n und p.
Dann ist E(X) = np und
p
np(1 − p).
Std(X) =
Beweis: Wie bei der Herleitung von E(X) betrachten wir X1 + · · · + Xn , wobei Xi ∈ {0, 1}
angibt, ob das Ereignis Ai eintritt oder nicht. Auch hier ist Var(Xi ) = E(Xi ) − E(Xi )2 =
p − p2 = p(1 − p). Ferner sind die Zufallsvariablen Xi stochastisch unabhängig, so dass (3.4)
anwendbar ist:
n
X
Var(X) =
Var(Xi ) = np(1 − p).
2
i=1
Beispiel 3.46 (Schätzung eines Binomialparameters) In vielen Anwendungen, bei denen eine
Zufallsvariable X mit Verteilung Bin(n, p) auftritt, ist p ein unbekannter Parameter, den man
durch den Quotienten pb := X/n schätzt. Für diese Zufallsvariable pb ist E(b
p) = E(X)/n und
Std(b
p) = Std(X)/n, also
p
p(1 − p)
√
.
E(b
p) = p und Std(b
p) =
n
Man sieht, dass die Standardabweichung von pb mit wachsendem n immer kleiner wird. Die Quadratwurzel hat allerdings zur Folge, dass man für eine Verdoppelung der Präzision (i.e. Halbierung
von Std(b
p)) den Parameter n vervierfachen muss. Soll die Präzision um den Faktor 10 erhöht werden, muss man sogar n mit 100 multiplizieren.
Den Faktor p(1 − p) = 1/4 − (p − 1/2)2 kann man noch durch 1/4 nach oben abschätzen, was
dem Fall p = 1/2 entspricht. Dann ergibt sich die Ungleichung
Std(b
p) ≤
1
√ .
2 n
Aus der Tshebyshev–Ungleichung folgt, dass
P [Schätzfehler von mindestens c] = P (|b
p − p| ≥ c) ≤
p(1 − p)
1
≤
.
nc2
4nc2
Zahlenbeispiel. In einer Population von Wahlberechtigten sei p der relative Anteil von Wählern einer Partei ABC. Um etwas über p herauszufinden, werden rein zufällig n = 1000 Wahlberechtigte
122
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
befragt. Sei X die Anzahl von ABC–Wählern in dieser Stichprobe. Eigentlich ist X hypergeometrisch verteilt. Doch wir gehen davon aus, dass die Population deutlich mehr als 1000 Personen
umfasst. Daher betrachten wir X als binomialverteilt mit Parametern 1000 und p. Die Standardabweichung von X ist nun
p
p(1 − p)
1
√
≤ √
≈ 0.0158.
1000
2 1000
Die Wahrscheinlichkeit, dass der Schätzer pb von p um mindestens c abweicht, kann man nach oben
abschätzen durch

 0.025 für c = 0.1,
1
1
0.1 für c = 0.05,
=
=

4nc2
4000 c2
0.4 für c = 0.025.
Stichprobenmittelwerte. Seien X1 , X2 , . . . , Xn stochastisch unabhängige Zufallsvariablen mit
P
Erwartungswert µ und Standardabweichung σ. Dann gilt für den Mittelwert X̄ = n−1 ni=1 Xi :
E(X̄) = µ
und
σ
Std(X̄) = √ .
n
Solche Zufallsvariablen X1 , X2 , . . . , Xn treten beispielsweise in folgenden Situationen auf:
• Man zieht rein zufällig eine Stichprobe vom Umfang n aus einer Population M mit Zurücklegen. Bei der i–ten Ziehung notiert man sich den Wert Xi eines bestimmten numerischen
Merkmals. Hier ist µ der arithmetische Mittelwert des Merkmals in der Population.
• Eine bestimmte Messung (z.B. mit einer Waage) wird n mal “unabhängig” wiederholt und
liefert die Messwerte X1 , X2 , . . . , Xn . Hier ist µ der zu messende Wert, und Xi ist von der
Form µ + Messfehleri , wobei wir voraussetzen, dass E(Messfehler) = 0. Das heißt, mit der
Messmethode macht man keinen systematischen Fehler.
Zahlenbeispiel: Für eine Waage sei aus umfangreichen Testserien bekannt, dass die Messfehler
Erwartungswert Null und Standardabweichung σ = 10 g haben. Mit anderen Worten, E(X) = µ
und Std(X) = σ = 10 g. Wenn man eine solche Messung n = 9 mal unabhängig wiederholt,
dann gilt für das arithmetische Mittel X̄ der Einzelwerte:
E(X̄) = µ
und
σ
Std(X̄) = √ = 3.33 g.
n
Nach der Tshebyshev–Ungleichung ist die Wahrscheinlichkeit, dass X̄ von µ um mehr als c =
20 g abweicht, nicht größer als
Var(X̄)
σ2
(10 g)2
=
=
≈ 0.0278.
c2
nc2
9 · (20 g)2
“Standardfehler”: In vielen Anwendungen ist der Parameter σ unbekannt. Um dann die Präzision
von X̄ zu quantifizieren, verwendet man entweder eine obere Schranke für σ, oder man schätzt σ
3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN
123
durch die Stichprobenstandardabweichung S. Dann ergibt sich der sogenannte Standardfehler von
X̄ (standard error of X̄) :
S
√ .
n
Dies darf man nicht verwechseln mit der theoretischen Standardabweichung σ oder der Stichprobenstandardabweichung S. Letztere Größen beziehen sich auf die Verteilung einer einzelnen
Beobachtung Xi . Beim Standardfehler handelt es sich um einen Schätzer für die Standardabweichung eines Schätzers.
3.7.5
Allgemeine Überlegungen zum Stichprobenziehen
In diesem Abschnitt wollen wir das Stichprobenziehen noch einmal etwas allgemeiner betrachten
und bei dieser Gelegenheit einen Zusammenhang zwischen der deskriptiven Statistik und den
zuletzt eingeführten Grundbegriffen der Wahrscheinlichkeitsrechnung herstellen.
Sei M eine Population von N Individuen (oder Objekten). Für jedes Individuum m ∈ M sei x(m)
der Wert eines numerischen Merkmals wie zum Beispiel Alter, Körpergröße, Intelligenzquotient,
Monatseinkommen oder Anzahl von Geschwistern.
Nun charakterisieren wir die Population durch zwei Kenngrößen: Den Mittelwert
1 X
x(m)
µ :=
N
m∈M
und die Standardabweichung
s
σ :=
1 X
(x(m) − µ)2
N
m∈M
des Merkmals in der Gesamtpopulation.
Um etwas über µ und σ herauszufinden, ziehen wir rein zufällig eine Stichprobe vom Umfang n
aus M, mit oder ohne Zurücklegen. Wenn wir für diese n Individuen den Wert unseres Merkmals
notieren, erhalten wir Zufallsvariablen X1 , X2 , . . . , Xn .
Der gleiche Sachverhalt formal: Wir wählen zufällig ein Tupel ω = (ω1 , ω2 , . . . , ωn ) bestehend
aus Individuen ω1 , ω2 , . . . , ωn ∈ M und betrachten Xi (ω) = x(ωi ).
Im Beweis von Satz 3.47 unten wird unter anderem gezeigt, dass für die einzelnen Zufallsvariablen
Xi gilt:
E(Xi ) = µ und Std(Xi ) = σ.
Nun berechnen wir aus diesen Zufallsgrößen den Stichprobenmittelwert
n
1X
Xi
X̄ =
n
i=1
als Schätzwert für µ sowie die Stichprobenstandardabweichung
v
u
n
u 1 X
S = t
(Xi − X̄)2
n−1
i=1
124
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
als Schätzwert für die Standardabweichung σ.
Die Frage ist nun, wie präzise X̄ als Schätzwert für µ ist. Um diese zu beantworten, berechnen
wir den Erwartungswert und die Standardabweichung von X̄.
Satz 3.47 Beim Ziehen mit oder ohne Zurücklegen ist
E(X̄) = µ,
und
Std(X̄) =
σ
√
n





(mit Zurücklegen),
r


N −n
σ

 √
n N −1
(ohne Zurücklegen).
Auch hier zeigt sich, dass die Standardabweichung des Schätzers X̄ mit wachsendem n beliebig
p
klein wird. Beim Ziehen ohne Zurücklegen ist sie um den Faktor (N − n)/(N − 1) kleiner als
beim Ziehen mit Zurücklegen. Dieser Faktor ist aber nahezu gleich Eins, wenn der Stichprobenumfang n klein ist im Vergleich zur Populationsgröße N .
∗
Beweis von Satz 3.47 Beim Ziehen mit Zurücklegen besteht der Grundraum Ω aus allen N n
Tupeln ω = (ω1 , ω2 , . . . , ωn ) mit Komponenten ωi ∈ M. Beim Ziehen ohne Zurücklegen besteht
Ω aus allen solchen Tupeln mit n verschiedenen Komponenten; hiervon gibt es N (N −1) · · · (N −
n + 1) = [N ]n Stück.
In beiden Fällen gilt für 1 ≤ i ≤ n und ein beliebiges m ∈ M: Die Wahrscheinlichkeit, dass das
i–te Stichprobenelement ωi gleich m ist, ist 1/N . Für die Zufallsvariable Xi bedeutet dies:
X
E(Xi ) =
P [bei der i–ten Ziehung m] · x(m) = µ.
m∈M
Insbesondere ist
n
n
i=1
i=1
1 X 1X
Xi =
E
E(Xi ) = µ.
n
n
E(X̄) =
Was die Varianz von X̄ anbelangt, so ist
Var(Xi ) =
X
P [ωi = m] · (x(m) − µ)2 = σ 2 .
m∈M
P
n
Also ist Var(X̄) = n−2 Var
X
i=1 i gleich

1 
n2
n
X
i=1

Var(Xi ) + 2
X

Cov(Xi , Xj ) =
1≤i<j≤n
=

1  2
nσ + 2
n2
σ2
n
+
2
n2
X
Cov(Xi , Xj )
1≤i<j≤n
X
1≤i<j≤n
Cov(Xi , Xj ).
3.8. ERSTE ANWENDUNGSBEISPIELE STATISTISCHER MODELLE
125
Beim Ziehen mit Zurücklegen sind die Zufallsvariablen Xi stochastisch unabhängig, so dass
Cov(Xi , Xj ) = 0. In diesem Falle ist also
Var(X̄) =
σ2
.
n
Beim Ziehen ohne Zurücklegen müssen wir etwas weiter ausholen: Für zwei verschiedene m, m̃ ∈
M und zwei verschiedene Indizes i, j ∈ {1, . . . , n} ist
P [ωi = m, ωj = m̃] =
1
[N − 2]n−2
=
.
[N ]n
N (N − 1)
Daher ist
Cov(Xi , Xj ) = E(Xi Xj ) − µ2
X
P [ωi = m, ωj = m]x(m)x(
e
m)
e − µ2
=
m,m∈M
e
: m6=m
e
=
1
N (N − 1)
=
1
N (N − 1)
=
=
=
=
=
X
x(m)x(m)
e − µ2
m,m∈M
e
: m6=m
e
X
m,m∈M
e
x(m)x(m)
e −
X
x(m)2 − µ2
m∈M
2
X
X
1
x(m) −
x(m)2 − µ2
N (N − 1)
m∈M
m∈M
X
1
(N µ)2 −
x(m)2 − µ2
N (N − 1)
m∈M
X
N
1
µ2 −
x(m)2 − µ2
N −1
N (N − 1)
m∈M
X
1
1
µ2 −
x(m)2
N −1
N (N − 1)
m∈M
1 1 X
−
x(m)2 − µ2
N −1 N
m∈M
= −
σ2
N −1
.
Beim Ziehen ohne Zurücklegen ist also
Var(X̄) =
3.8
σ 2 n(n − 1) σ 2
σ2 N − n
−
=
.
n
n2
N −1
n N −1
2
Erste Anwendungsbeispiele statistischer Modelle
In diesem Abschnitt beschreiben wir drei Beispiele von Anwendungen, in denen statistische Modelle und Erwartungswerte eine wichtige Rolle spielen. Mit der Präzision der dabei auftretenden
Schätzwerte unbekannter Größen, die aus empirischen Daten ermittelt werden, werden wir uns in
späteren Kapiteln beschäftigen.
126
3.8.1
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Die Bestimmung eines optimalen Preises
Der Hersteller eines neuen Produktes möchte festlegen, zu welchem Preis a er es anbietet. Sei X
der Preis, den eine zufällig ausgewählte Person zu zahlen bereit wäre. Ein erster naiver Ansatz
wäre vielleicht a = E(X). Tatsächlich kann der Hersteller nach Festlegung des Preises a damit
rechnen, dass ein zufällig ausgewählter und kaufwilliger Kunde den Betrag a bezahlt, wenn X ≥
a, aber das Produkt nicht kauft, wenn X < a. Die mittleren Einnahmen pro kaufwilligem Kunden
betragen also
MEK(a) := E 1{X ≥ a} · a = P(X ≥ a) · a.
Diese Größe sollte nun als Funktion von a maximiert werden.
Die Verteilung von X ist in der Regel unbekannt und wird mit Hilfe von Befragungen potentieller Kunden geschätzt. Wenn in der Stichprobe die subjektiven Preise X1 , X2 , . . . , Xn ermittelt
wurden, schätzt man MEK(a) durch
#{i : Xi ≥ a}
\
· a.
MEK(a)
:=
n
Mit Hilfe der Ordnungsstatistiken X(1) ≤ X(2) ≤ · · · ≤ X(n) kann man auch schreiben
\
MEK(a)
=


a
falls a ≤ X(1) ,
(1 − k/n) · a falls X(k) < a ≤ X(k+1) , 1 ≤ k < n,

0
falls a > X(n) .
Datenbeispiel. Zu einem Kapuzenpullover mit Universitätslogo wurden n = 813 Studierende
ausführlich befragt. Abbildung 3.16 zeigt auf der linken Seite die empirische Verteilungsfunktion
Fb der dabei ermittelten subjektiven Preise Xi in CHF, also Fb(r) = #{i : Xi ≤ r}/n. Die ent\ wird auf der rechten Seite gezeigt. Aus dieser
sprechende geschätzte Einnahmenfunktion MEK
Graphik bzw. den genauen Werten lässt sich ablesen, dass die mittleren Einnahmen pro (kaufwilligem) Kunden schätzungsweise gleich 14.791 CHF sind, wenn man den Preis a = 25 CHF
verlangt.
Anmerkung. Die Annahme, dass jeder potentielle Kunde einen bestimmten Preis im Hinterkopf
hat, ist durchaus fragwürdig. Sie setzt voraus, dass die Kunden mit dem fraglichen Produkt recht
vertraut sind. Insbesondere impliziert diese Annahme folgenden Effekt: Die Kaufbereitschaft b(a),
d.h. die Wahrscheinlichkeit, dass ein zufällig gewählter und interessierter Kunde das Produkt wirklich kauft, ist gegeben durch b(a) = P (X ≥ a), also monoton fallend im Preis a. Auf den ersten
Blick erscheint dies vernünftig. Aber bei vielen Produkten gibt es den Effekt, dass die Kaufbereitschaft b(·) monoton wachsend in einem gewissen Intervall [0, ao ] und monoton fallend im Bereich
[ao , ∞) ist. Man denke z.B. an den Kauf einer Flasche Rotwein in einem Urlaubsort, wenn man
keine der im Supermarkt angebotenen Sorten kennt. Nur wenige Leute würden jetzt den billigsten Rotwein kaufen. Ein weiterer Effekt, den viele Händler ausnutzen, ist die Beeinflussung der
Kaufbereitschaft durch Anbieten von ähnlichen Produkten zu anderen, teilweise deutlich höheren
Preisen.
3.8. ERSTE ANWENDUNGSBEISPIELE STATISTISCHER MODELLE
127
Abbildung 3.16: Datenbeispiel zur Preisgestaltung: Empirische Verteilung der subjektiven Preise
(links) und daraus geschätzte mittlere Einnahmenfunktion (rechts)
3.8.2
Bestimmung einer optimalen Vorratsgröße.
Ein Hersteller bzw. Händler eines Produktes, welches nur an einem bestimmten Tag verkauft werden kann (z.B. ein Lebensmittel mit kurzer Lebensdauer oder eine Tageszeitung), muss festlegen, wie viele Exemplare er bereit hält. Sei a die noch zu bestimmende Anzahl, und sei X die
tatsächliche Nachfrage, die wir als Zufallsvariable betrachten. Auch hier würde man vielleicht auf
den ersten Blick a = E(X) bzw. a = bE(X)c wählen. Um eine wirklich brauchbare Lösung
zu bestimmen, betrachten wir den Einkaufspreis K sowie den (Brutto-) Verkaufspreis V für ein
Exemplar. Das heißt, für jedes bereitgestellte Exemplar bezahlt der Händler den Betrag K, aber
für jedes verkaufte Exemplar erhält er den Betrag V . Offensichtlich ist das ganze Geschäft nur interessant, wenn 0 < K < V . Wenn sich der Händler entscheidet, a Exemplare vorrätig zu halten,
so ist letztlich sein Nettogewinn gleich
G(a, X) = min(a, X) · V − a · K.
Eine sinnvolle Forderung ist nun, dass der erwartete Nettogewinn,
EG(a, X),
möglichst groß sein sollte. Hierfür gibt es in der Regel keine einfache geschlossene Formel. Dennoch ist die Bestimmung einer optimalen Zahl a leicht möglich: Denn
−K falls X ≤ a
G(a + 1, X) − G(a, X) =
V − K falls X ≥ a + 1
= 1{X ≥ a + 1} · (V − K) − 1{X ≤ a} · K
= (V − K) − 1{X ≤ a} · V.
Folglich ist
EG(a + 1, X) − EG(a, X) = E G(a + 1, X) − G(a, X)
= (V − K) − P(X ≤ a) · V.
128
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Diese Differenz ist positiv genau dann, wenn P(X ≤ a) < 1 − K/V . Ein optimaler Wert für a
ist daher gleich
min a ∈ N 0 : P(X ≤ a) ≥ 1 − K/V .
Zahlenbeispiel. Angenommen, X ist poissonverteilt mit Parameter λ = 15, das heißt,
P(X ≤ a) = F15 (a) :=
a
X
e−15
k=0
15k
.
k!
Wenn das Verhältnis K/V gleich 1/3 ist, so ergibt sich a = 17, denn F15 (16) ≈ 0.6641 und
F15 (17) = 0.7489.
Die Schätzung der Verteilung von X führt übrigens auf das interessante Feld der “zensierten” bzw.
“trunkierten” Daten. Das bedeutet, man beobachtet eigentlich nur min(a1 , X1 ), min(a2 , X2 ), . . . ,
min(an , Xn ) für gewisse Auflagezahlen a1 , a2 , . . . , an .
3.8.3
Ein Beispiel einer “verzerrten Stichprobe”
Bei der Befragung von jungen Erwachsenen wurden diese unter anderem danach gefragt, wie
viele Geschwister sie mütterlicherseits haben. Sei X diese Zahl für eine rein zufällig ausgewählte
Person. Also ist X eine Zufallsvariable mit Werten in {0, 1, 2, . . .}.
Nun interessieren wir uns für die Verteilung der Anzahl Y von Kindern, die eine rein zufällig
ausgewählte Mutter hat. Diese Zufallsvariable hat per Definition Werte in {1, 2, 3, . . .}. Auf den
ersten Blick denkt man vielleicht, dass P(X = k − 1) = P(Y = k) für k = 1, 2, 3, . . ., was
aber ein Trugschluss ist! Die Zufallsvariable Y bezieht sich auf die Grundgesamtheit aller Mütter,
wohingegen X auf der Grundgesamtheit der entsprechenden Kinder basiert. Eine Mutter mit k
Kindern ist also in der Population der Kinder k–fach vertreten, was sich auf die Verteilungen von
X und Y wie folgt auswirkt:
P(Y = k) · k
P(Y = k) · k
=
,
P(X = k − 1) = P∞
P(Y
=
`)
·
`
E(Y )
`=1
also
P(X = k − 1)
(3.5)
k
für k = 1, 2, 3, . . .. Die Wahrscheinlichkeiten P(X = k − 1) auf der rechten Seite lassen sich
aus den oben erwähnten Daten schätzen, doch müssen wir noch den unbekannten Erwartungswert
E(Y ) in den Griff bekommen. Zu diesem Zweck summieren wir die Gleichung (3.5) über alle k
und erhalten die folgende Formel:
P(Y = k) = E(Y ) ·
∞
X
P(X = k − 1) −1
E(Y ) =
.
k
k=1
Mit anderen Worten,
1 1
= E
.
E(Y )
X +1
(3.6)
3.8. ERSTE ANWENDUNGSBEISPIELE STATISTISCHER MODELLE
129
Datenbeispiel. Bei der Befragung von n = 384 Vorlesungsteilnehmenden in den Jahren 2005
(Statistik für Naturwissenschaften) und 2006 (Statistik für WiSo) ergaben sich die folgenden absoluten Häufigkeiten Ng = #{i : Xi = g} und Schätzer pbg = Ng /n für pg := P(X = g):
g
Ng
pbg
0
1
2
3
4
5
6
7
8
9
10
25
186
121
32
11
5
0
1
0
0
3
.0651 .4844 .3151 .0833 .0286 .0130 .0000 .0026 .0000 .0000 .0078
Mit Hilfe von (3.6) ergibt sich daraus der Schätzwert
νb :=
∞
X
pb
k−1
k=1
k
−1
≈ (0.4421)−1 ≈ 2.2620
für die mittlere Zahl ν = E(Y ) von Kindern pro Mutter. Übrigens ist der naive, aber systematisch
zu große Schätzwert X̄ + 1 hierfür gleich 2.6406. Für die Wahrscheinlichkeiten qk := P(Y = k)
ergeben sich nun die folgenden Schätzwerte qbk := νbpbk−1 /k:
k
qbk
1
2
3
4
5
6
7
8
9
10
11
.1473 .5478 .2376 .0471 .0130 .0049 .0000 .0007 .0000 .0000 .0016
Anmerkung. Bei den obigen Betrachtungen gehen wir stillschweigend davon aus, dass die Verteilung von Y sich im Laufe der Zeit kaum verändert. Wollte man ein möglichst aktuelles Bild
erhalten, könnte man beispielsweise mehrere hundert Primarschüler befragen. Dabei tritt allerdings ein neues Problem auf: Bei Primarschülern ist es durchaus möglich, dass deren Mütter noch
weitere Kinder zur Welt bringen werden. Das heißt, die Zahlen Xi in einer solchen Stichprobe
wären systematsich zu klein! Ein möglicher Ausweg wäre, nach der Zahl der älteren Geschwister
mütterlicherseits zu fragen. Bezeichnen wir die Anzahl älterer Geschwister eines zufällig herause und Y einen
gegriffenen Kindes mit X̃, dann gibt es auch zwischen den Verteilungen von X
genauen Zusammenhang; siehe Übungen.
e erhoben, und es ergaben sich
Bei der obigen Datenerhebung wurde übrigens auch das Merkmal X
ei = g} aus n = 382 sinnvollen Antworten:
die folgenden absoluten Häufigkeiten Ñg = #{i : X
g
Ñg
0
1 2 3 4 5 6 7 8 9 10
193 125 43 13 5 2 0 0 0 0 1
130
KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG
Kapitel 4
Dichtefunktionen und
Normalverteilungen
Bisher betrachteten wir Zufallsvariablen X mit diskreter Verteilung. Das heißt, die möglichen
Werte lassen sich auflisten, und die Verteilung von X wird durch die Wahrscheinlichkeiten P (X =
x) für alle in Frage kommenden Werte x vollständig charakterisiert. Diesen Rahmen werden wir
nun erweitern.
4.1
Von Histogrammen zu Wahrscheinlichkeitsdichten
Wir betrachten eine große Population von N Individuen. Für Individuum m sei x(m) der Wert
einer numerischen Variable, z.B. eine sehr genaue Messung der Körpergröße um 12:00 Uhr.
Nun wählen wir rein zufällig ein Individuum aus der Population und bezeichnen dessen Variablenwert mit X. Dies ist eine Zufallsvariable mit diskreter Verteilung. Und zwar gilt für beliebige
Mengen B ⊂ R:
#{m : x(m) ∈ B}
.
P (X ∈ B) =
N
Nun erzeugen wir mit Hilfe aller Werte x(m) ein Histogramm: Wir unterteilen den Wertebereich
von x(·) in Intervalle
(a0 , a1 ], (a1 , a2 ], . . . , (aK−1 , aK ]
und definieren eine Histogrammfunktion f wie folgt: Für x ∈ (aj−1 , aj ] sei
f (x) :=
#{m : x(m) ∈ (aj−1 , aj ]}
P (X ∈ (aj−1 , aj ])
=
.
N (aj − aj−1 )
aj − aj−1
Für x ≤ a0 und x > aK setzen wir noch f (x) := 0. Hierbei handelt es sich um eine Treppenfunktion, und die Gesamtfläche zwischen der x–Achse und dem Graphen von f ist gleich
Z ∞
f (x) dx = 1.
−∞
Zur Illustration zeigt Abbildung 4.1 für eine hypothetische Population ein Histogramm bezüglich
der Intervalle (155, 157], (157, 159], . . . , (203, 205].
131
132
KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN
0.05
0.04
0.03
0.02
0.01
0
155
160
165
170
175
180
185
190
195
200
205
Abbildung 4.1: Histogramm 1 eines numerischen Merkmals in einer (hyp.) Population
Wenn die Intervalle so klein gewählt wurden, dass alle relativen Anteile P (X ∈ (aj−1 , aj ]) sehr
klein sind, so gilt für −∞ ≤ a < b ≤ ∞:
Z b
P (a < X ≤ b) ≈
f (x) dx.
a
Diese Formel ist sogar exakt gültig, wenn die Grenzen a und b in der Menge der Punkte −∞,
a0 , a1 , . . . , aK , ∞ liegen. Andererseits erinnert die Histogrammfunktion f bei kleinen Intervallen
aber großen Populationen oftmals an eine stetige Funktion, das heißt, die Treppenstufen sind nicht
sehr deutlich.
Zur Illustration zeigt Abbildung 4.2 für die obige hypothetische Population nun Histogramme
bezüglich Intervallen der Länge h = 1 bzw. h = 0.5.
0.05
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0
155
160
165
170
175
180
185
190
195
200
205
0
160
165
170
175
180
185
190
195
200
Abbildung 4.2: Histogramme 2 und 3 eines numerischen Merkmals in einer (hyp.) Population
Daher könnte man direkt die Verteilung von X durch eine sogenannte Dichtefunktion im Sinne
4.1. VON HISTOGRAMMEN ZU WAHRSCHEINLICHKEITSDICHTEN
133
der folgenden Definition beschreiben, zumindest näherungsweise.
Definition 4.1 (Wahrscheinlichkeitsdichtefunktion)
(a) Eine Funktion f auf R mit Werten in [0, ∞) heißt Wahrscheinlichkeitsdichtefunktion (oder
kurz: Wahrscheinlichkeitsdichte, Dichtefunktion), wenn
Z ∞
f (x) dx = 1.
−∞
(b) Eine Dichtefunktion f wie in Teil (a) induziert eine Wahrscheinlichkeitsverteilung Q auf R,
und zwar definieren wir für ein beliebiges Intervall B mit Endpunkten a < b:
Z
b
f (x) dx.
Q(B) :=
a
(c) Zu einer Dichtefunktion f wie in Teil (a) gehört eine Verteilungsfunktion F , nämlich
Z r
f (x) dx.
F (r) :=
−∞
Für das Intervall B in Teil (b) ist dann Q(B) = F (b) − F (a).
(d) Eine Zufallsvariable X ist verteilt nach einer Dichtefunktion f , wenn für beliebige Intervalle
B wie in (b) gilt:
Z b
P (X ∈ B) =
f (x) dx.
a
Abbildung 4.3 illustriert den Zusammenhang zwischen f und F . Im oberen Teil sieht man die
Dichtefunktion f und im unteren die entsprechende Verteilungsfunktion F . Den Zusammenhang
zwischen f , F und Q illustriert Abbildung 4.4. Sie zeigt ein kompaktes Intervall [a, b] und den
Rb
entsprechenden Flächeninhalt Q(B) = a f (x) dx = F (b) − F (a).
Die Deutung von f .
Bei einer Wahrscheinlichkeitsverteilung Q mit Dichtefunktion f ist
Q({x}) = 0
für einen beliebigen Punkt x. Man kann also f (x) nicht als Wahrscheinlichkeit des Punktes x
interpretieren! Vielmehr ist
f (x) = lim
↓0
Q([x − , x + ])
=
2
lim
a,b→x, a<b
Q([a, b])
= F 0 (x)
b−a
sofern f an der Stelle x stetig ist.
Anmerkung (Eigenschaften von F ). Die Verteilungsfunktion F hat folgende drei Eigenschaften:
• F ist stetig und monoton wachsend;
134
KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN
F(r)
r
1
F(r)
0.5
0
r
Abbildung 4.3: Zusammenhang zwischen Dichtefunktion f und Verteilungsfunktion F
• die Grenzwerte im Unendlichen sind F (−∞) = 0 und F (∞) = 1.
• F ist fast überall differenzierbar mit Ableitung F 0 = f ;
Umgekehrt sei eine stetige Funktion F gegeben mit Grenzwerten F (−∞) = 0 und F (∞) = 1.
Ist F überall differenzierbar mit Ausnahme von höchstens endlich vielen Stellen, und ist F 0 ≥ 0,
dann ist f := F 0 eine Wahrscheinlichkeitsdichtefunktion mit zugehöriger Verteilungsfunktion F .
Beispiel 4.2 Sei
F (r) :=
0
für r ≤ 0,
r/(1 + r) für r ≥ 0.
Dies ist eine stetige Funktion mit Grenzwerten F (−∞) = 0 und
F (∞) := lim F (r) = lim
r→∞
r→∞
1
= 1.
r−1 + 1
Außerdem ist F an jeder von Null verschiedenen Stelle differenzierbar, nämlich
0
für x < 0
0
F (x) =
≥ 0.
1/(1 + x)2 für x > 0
Daher ist F die Verteilungsfunktion der Wahrscheinlichkeitsdichte f = F 0 , wobei wir f (0) beliebig definieren können, z.B. f (0) := 0. Abbildung 4.5 zeigt F und f .
4.2. RECHNEN MIT WAHRSCHEINLICHKEITSDICHTEN
135
Q([a,b])
0
a
b
1
Q([a,b]) = F(b) − F(a)
0.5
0
a
b
Abbildung 4.4: Zusammenhang zwischen Dichtefunktion f , Verteilungsfunktion F und Verteilung
Q
4.2
Rechnen mit Wahrscheinlichkeitsdichten
Bevor wir konkrete Beispiele für Wahrscheinlichkeitsdichten behandeln, wollen wir ein paar Rechenregeln hierzu zusammenstellen. Im Folgenden sei X eine Zufallsvariable, deren Verteilung
durch eine Dichtefunktion f und Verteilungsfunktion F beschrieben wird.
4.2.1
Transformationen
Für zwei beliebige Zahlen µ und σ > 0 betrachten wir die transformierte Zufallsvariable
Y := µ + σX.
Die Verteilungsfunktion dieser Zufallsvariable bezeichnen wir mit G, also
G(r) := P (Y ≤ r).
Der Zusammenhang zwischen F und G ist wie folgt:
r − µ
r − µ
= F
,
G(r) = P (µ + σX ≤ r) = P (σX ≤ r − µ) = P X ≤
σ
σ
also
G(r) = F
r − µ
σ
.
136
KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN
1
F(x)
0.8
0.6
0.4
0.2
0
−1
0
1
2
3
4
0
1
2
3
4
x
5
6
7
8
9
10
5
6
7
8
9
10
1
f(x)
0.8
0.6
0.4
0.2
0
−1
x
Abbildung 4.5: Verteilungs- und Dichtefunktion in Beispiel 4.2.
Wenn man jetzt beide Seiten dieser Gleichung nach r ableitet, dann ergibt sich eine Dichtefunktion
für Y . Und zwar folgt aus der Kettenregel, dass
d x − µ
F
dx
σ
x − µ d x − µ
0
·
= F
σ
dx σ
x − µ 1
= f
· .
σ
σ
d
G(x) =
dx
Also wird die Verteilung von Y durch folgende Dichtefunktion g beschrieben:
g(x) =
4.2.2
1 x − µ
f
.
σ
σ
Erwartungswert, Varianz und Standardabweichung
Bei Zufallsvariablen mit diskreter Verteilung definierten wir den Erwartungswert E(X) als die
P
Summe x P (X = x) · x. Hier funktioniert dies nicht, da alle Wahrscheinlichkeiten P (X = x)
gleich Null sind. Die neue Definition für den Mittelwert lautet:
Z
∞
f (x) · x dx.
E(X) :=
−∞
4.2. RECHNEN MIT WAHRSCHEINLICHKEITSDICHTEN
137
Anschaulich kann man dies wie folgt deuten: Man unterteilt die reelle Achse in unendlich viele
sehr kleine Intervalle . . . , I−2 , I−1 , I0 , I1 , I2 , . . .. Dann ist
Z ∞
X
P (X ∈ Iz ) · mz
f (x) · x dx ≈
−∞
z=0,±1,±2,...
X
≈
Länge(Iz ) · f (mz ) · mz ,
z=0,±1,±2,...
wobei mz der Mittelpunkt des Intervalls Iz ist.
Die obige Formel für den Erwartungswert von X kann man noch auf Funktionen von X verallgemeinern: Für eine Funktion h : R → R ist
Z ∞
f (x) · h(x) dx.
E(h(X)) :=
−∞
Speziell für die Varianz von X ergeben sich zwei mögliche Formeln. Zunächst gilt allgemein
Var(X) = E (X − E(X))2
= E(X 2 ) − E(X)2 .
Daher ist
Z
∞
Var(X) =
f (x) · (x − E(X))2 dx =
Z
−∞
∞
f (x) · x2 dx − E(X)2 .
−∞
Die Standardabweichung ist nach wie vor definiert als
Std(X) =
p
Var(X).
Beispiel 4.3 Wir betrachten die Funktion
f (x) :=
0
für x ≤ 0,
xe−x für x ≥ 0.
Diese Funktion ist nichtnegativ. Dass sie sogar eine Wahrscheinlichkeitsdichte darstellt, werden
wir gleich sehen. Für r ≤ 0 ist offensichtlich
Z r
f (x) dx = 0.
−∞
Für r > 0 verwenden wir partielle Integration:
Z r
Z r
f (x) dx =
x · |{z}
e−x dx
|{z}
−∞
0
=
v 0 (x)
u(x)
Z
r
−x x
·(−e
)
−
|{z} | {z } 0
u(x)
0
v(x)
Z r
= −re−r +
e−x dx
r
= −re−r + −e−x 0
0
= 1 − (1 + r)e−r .
r
−x
1 ·(−e
|{z}
| {z }) dx
u0 (x)
v(x)
138
KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN
Da limr→∞ e−r rk = 0 für beliebige Exponenten k ≥ 0, ist der Grenzwert von 1 − (1 + r)e−r für
r → ∞ gleich Eins. Somit ist f tatsächlich eine Wahrscheinlichkeitsdichte mit Verteilungsfunktion
0
für r ≤ 0,
F (r) :=
−r
1 − (1 + r)e
für r ≥ 0.
Für eine Zufallsvariable X mit dieser Verteilung ist
Z ∞
Z ∞
x2 e−x dx = 2,
x · f (x) dx =
E(X) =
Z0 ∞
Z−∞
∞
x3 e−x dx = 6.
x2 · f (x) dx =
E(X 2 ) =
−∞
0
Dabei verwenden wir die allgemeine Formel
Z ∞
xk e−x dx = k! für k = 0, 1, 2, . . .
0
(die man ebenfalls mit partieller Integration nachweisen kann). Insbesondere ist
p
p
√
Std(X) =
Var(X) =
E(X 2 ) − E(X)2 = 2 .
4.3
Beispiele von Dichtefunktionen
In diesem Abschnitt beschreiben wir zwei Familien von Verteilungen mit Dichtefunktion. Uniforme Verteilungen und die besonders wichtigen Normalverteilungen werden in separaten Abschnitten behandelt.
4.3.1
Exponentialverteilungen
Für λ > 0 definieren wir die Wahrscheinlichkeitsdichtefunktion
(
0
für x ≤ 0,
x
fλ (x) :=
1
exp −
für x > 0.
λ
λ
Es handelt sich tatsächlich um eine Wahrscheinlichkeitsdichte, denn an jeder von Null verschiedenen Stelle ist fλ die Ableitung der folgenden Funktion Fλ :
(
0
für r ≤ 0,
r
Fλ (r) :=
1 − exp −
für r ≥ 0.
λ
Die entsprechende Verteilung nennt man Exponentialverteilung mit Parameter λ, und wir bezeichnen sie mit Exp(λ).
Der Parameter λ > 0 ist ein Skalenparameter. Ist nämlich X nach Exp(1) verteilt, dann folgt aus
unseren Überlegungen zu Transformationen, dass Y = λX nach Exp(λ) verteilt ist.
Für eine Zufallsvariable Y mit Verteilung Exp(λ) kann man zeigen, dass
E(Y ) = λ
und
Std(Y ) = λ.
Denn für X ∼ Exp(1) folgt aus (4.5) in Abschnitt 4.3.3, dass E(X) = 1 und E(X 2 ) = 2, also
Var(X) = 1.
4.3. BEISPIELE VON DICHTEFUNKTIONEN
139
Zusammenhang mit der geometrischen Verteilung. Sei Y geometrisch verteilt mit Parameter
p ∈ (0, 1); das heißt,
P(Y > k) = (1 − p)k
für k = 0, 1, 2, . . . .
Für beliebige reelle Zahlen r ist dann
(
0
P(Y ≤ r) = 1 − P(Y > r) =
1 − (1 − p)brc
für r ≤ 0,
für r ≥ 0.
Doch (1 − p)brc und (1 − p)r unterscheiden sich für jedes r ≥ 0 um weniger als p, denn
0 ≤ (1 − p)brc − (1 − p)r < (1 − p)brc − (1 − p)brc+1 = (1 − p)brc p ≤ p.
Für kleine Werte p ∈ (0, 1) ist also
P(Y ≤ r) ≈ 1 − (1 − p)r = 1 − exp(log(1 − p)r),
das heißt, Y ist näherungsweise exponentialverteilt mit Parameter λ := −1/ log(1 − p) > 0.
4.3.2
Gammaverteilungen
Nun lernen wir ein Modell für rechtsschiefe Verteilungen kennen. Dieses kommt beispielsweise
bei der Modellierung von Überlebenszeiten (Medizin, Biologie) oder Einkommensverteilungen
zum Einsatz. Für Parameter a, b > 0 sei


0
für x ≤ 0,
x a−1
x
1
fa,b (x) :=
für x > 0.
exp −

bΓ(a) b
b
Dabei ist Γ(·) die sogenannte Gammafunktion,
Z ∞
ta−1 exp(−t) dt;
Γ(a) :=
0
siehe auch Abschnitt 4.3.3. Die entsprechende Wahrscheinlichkeitsverteilung ist die Gammaverteilung mit Parametern a und b und wird im Folgenden mit Gamma(a, b) bezeichnet.
• Der erste Parameter, a, bestimmt die Form der Dichtefunktion. Für a < 1 hat fa,b an der Stelle
Null den rechtsseitigen Grenzwert ∞. Für a = 1 handelt es sich um eine Exponentialverteilung,
Gamma(1, b) = Exp(b). Für a > 1 ist fa,b an der Stelle Null stetig. Für a > 2 ist fa,b sogar
0 (0) = 0.
überall differenzierbar mit fa,b
• Der zweite Parameter, b, ist ein Skalenparameter. Wenn X nach Gamma(a, 1) verteilt ist, dann
ist Y = bX nach Gamma(a, b) verteilt.
• Im Falle von a > 1 ist die Dichtefunktion fa,b streng monoton wachsend auf [0, (a − 1)b] und
streng monoton fallend auf [(a − 1)b, ∞).
• In den Übungen werden wir zeigen, dass für eine nach Gamma(a, b) verteilte Zufallsvariable Y
gilt:
E(Y ) = ab, Std(Y ) = a1/2 b,
140
KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN
und
E (Y − E(Y ))3
Schiefe(Y ) :=
Std(Y )3
= 2a−1/2 .
Abbildung 4.6 zeigt die Dichtefunktion fa,b für a = 1, 2, 4, 8 und b = 1 (im Bereich [0, a+5a1/2 ]).
Dabei werden jeweils die Maximalstelle der Dichtefunktion ((a − 1)b) und der Mittelwert der
Verteilung (ab) durch eine vertikale Linie hervorgehoben.
Gamma(1, 1)
Gamma(2, 1)
1
0.35
0.9
0.3
0.8
0.7
0.25
f(x)
f(x)
0.6
0.5
0.2
0.15
0.4
0.3
0.1
0.2
0.05
0.1
0
0
1
2
x
3
4
5
0
6
0
1
2
Gamma(4, 1)
3
4
x
5
6
7
8
9
Gamma(8, 1)
0.15
0.2
0.1
f(x)
f(x)
0.15
0.1
0.05
0.05
0
0
2
4
6
8
x
10
12
0
14
0
5
10
x
15
20
Abbildung 4.6: Dichtfunktionen diverser Gammaverteilungen
4.3.3
Einige nützliche Integrale
Wir stellen hier einige Formeln für Integrale zusammen, die in den vorangehenden Abschnitten
und den Übungen dazu verwendet werden.
(I) Für Konstanten c 6= 0 und q ≤ r ist
Z r
r
ecx dx = c−1 ecx = c−1 ecr − c−1 ecq ,
q
q
4.3. BEISPIELE VON DICHTEFUNKTIONEN
141
denn (c−1 ecx )0 = ecx . Speziell für c = −1 und r ≥ 0 gilt also die Gleichung
Z r
e−x dx = 1 − e−r ,
(4.1)
0
und für r → ∞ ergibt sich die Formel
Z
∞
e−x dx = 1.
(4.2)
0
(II)
Für Konstanten k > 0 und r ≥ 0 ist
Z
Z r
k −x
k −r
x e dx = −r e + k
r
xk−1 e−x dx.
(4.3)
0
0
Dies ergibt sich durch partielle Integration. Denn allgemein gilt für Funktionen u(·) und v(·) die
Formel
Z r
Z r
r
0
u0 (x)v(x) dx.
u(x)v (x) dx = u(x)v(x) −
q
q
q
−e−x ,
Setzen wir speziell u(x) :=
und v(x) :=
dann ist u(x)v 0 (x) = xk e−x und u0 (x)v(x) =
−kxk−1 e−x . Lässt man in (4.3) noch r gegen ∞ laufen, dann ergibt sich die Formel
Z ∞
Z ∞
xk e−x dx = k
xk−1 e−x dx,
(4.4)
xk
0
denn limr→∞
rk e−r
0
= 0 für beliebige Exponenten k > 0.
(III) Ist k eine natürliche Zahl, dann kann man (4.4) induktiv anwenden, bis man bei Formel
(4.2) landet:
Z ∞
Z ∞
k −x
x e dx = k
xk−1 e−x dx
0
0
Z ∞
= k(k − 1)
xk−2 e−x dx
(falls k > 1)
0
Z ∞
= k(k − 1)(k − 2)
xk−3 e−x dx
(falls k > 2)
0
..
.
Z
∞
= k!
x0 e−x dx,
0
und zusammen mit (4.2) ergibt sich die Gleichung
Z ∞
xk e−x dx = k! für beliebige k ∈ N0 .
(4.5)
0
R∞
(IV) Die Gamma-Funktion. Die Berechnung des Integrals 0 xk e−x dx für beliebige Exponenten k > 0 ist schwierig; nur in Spezialfällen existieren geschlossene Formeln wie (4.5). Weil
aber solche Integrale immer wieder auftreten, verwendet man hierfür folgende Abkürzung: Die
Gamma-Funktion an der Stelle a > 0 ist definiert als
Z ∞
Γ(a) :=
xa−1 e−x dx.
(4.6)
0
Formel (4.4) ergibt dann die Gleichung
Γ(a + 1) = aΓ(a)
für beliebige a > 0.
(4.7)
142
4.4
KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN
Uniforme Verteilungen und Anwendungen
Im Rahmen von diskreten Wahrscheinlichkeitsverteilungen begegneten uns bereits Laplace-Verteilungen, das heißt, uniforme Verteilungen auf endlichen Mengen. In diesem Abschnitt betrachten
wir idealisierte Versionen solcher Verteilungen. Zur Motivation betrachten wir zunächst von Rechnern erzeugte Pseudozufallszahlen.
4.4.1
Pseudozufallszahlen und uniforme Verteilungen
Pseudozufallszahlen. Taschenrechner und Computer bieten “Zufallszahlen” zwischen Null und
Eins an. Dahinter steckt in der Regel folgendes Verfahren: Der Rechner erzeugt nach einem festen
Schema ganze Zahlen z0 , z1 , z2 , z3 , . . . in einem Intervall
{0, 1, 2, . . . , m − 1}
mit einer astronomisch großen natürlichen Zahl m. Genauer gesagt, ist zk+1 = H(zk ) für k =
0, 1, 2, . . . und eine gewisse Funktion H, so dass gilt:
{z0 , z1 , z2 , . . . , zm−1 } = {0, 1, 2, . . . , m − 1}
und
zm = z0 .
Die Zahlen von 0 bis m − 1 werden also nach einem festen und (scheinbar) schwer durchschaubaren Schema immer wieder durchlaufen. Bei jedem Aufruf der Zufallsfunktion wird die derzeitige Zufallszahl zk , die im Rechner als “random seed” gespeichert ist, durch ihre Nachfolgerin
zk+1 = H(zk ) ersetzt, und der Rechner spuckt die Pseudozufallszahl
Uk+1 :=
zk+1 + 0.5
∈ [0, 1]
m
aus.
Beim Entwurf eines Zufallsgenerators, also der Konstruktion einer Funktion H, achtet man darauf, dass die resultierende Sequenz U0 , U1 , U2 , . . . keine Regelmäßigkeiten zeigt. Genauer gesagt, möchte man sicherstellen, dass für möglichst hohe Dimensionen d noch folgende Bedingung erfüllt ist: Bildet man die d–Tupel U (1) = (U1 , . . . , Ud ), U (2) = (Ud+1 , . . . , U2d ), U (3) =
(U2d+1 , . . . , U3d ) und so weiter, dann ist der relative Anteil dieser Tupel, welche in einem “Rechteck”
[a1 , b1 ] × [a2 , b2 ] × · · · × [ad , bd ] ⊂ [0, 1] × [0, 1] × · · · × [0, 1]
landen, näherungsweise gleich dem d–dimensionalen Volumen
(b1 − a1 )(b2 − a2 ) · · · (bd − ad ).
Nun vergessen wir wieder, dass es sich um Pseudozufallszahlen handelt, und tun so, als wären
z0 , z1 , z2 , . . . stochastisch unabhängige Zufallszahlen, die jeweils auf {0, 1, . . . , m − 1} uniform
verteilt sind. Die Zufallsvariablen Uk := (zk + 0.5)/m liegen dann im Einheitsintervall [0, 1], und
für beliebige Intervalle B ⊂ [0, 1] gilt näherungsweise die Formel
P (Uk ∈ B) = Länge(B).
4.4. UNIFORME VERTEILUNGEN UND ANWENDUNGEN
143
Der Fehler bei dieser Gleichung ist höchstens 1/m, also bei großem m vernachlässigbar.
Mit anderen Worten, definiert man
f (x) :=
1 für x ∈ [0, 1],
0 für x ∈ R \ [0, 1],
dann wird die Verteilung der Zufallszahlen Uk durch diese Dichtefunktion f (näherungsweise)
beschrieben. Die entsprechende Verteilungsfunktion F ist gegeben durch

 0 für r ≤ 0,
r für 0 ≤ r ≤ 1,
F (r) =

1 für r ≥ 1.
Die entsprechende Verteilung nennt man uniforme Verteilung auf dem Intervall [0, 1] und bezeichnet sie mit dem Symbol U[0, 1].
Uniforme Verteilungen auf Intervallen. Für beliebige Zahlen −∞ < A < B < ∞ sei
(B − A)−1 für x ∈ [A, B],
fA,B (x) :=
0
für x ∈ R \ [A, B],
Dies ist eine Wahrscheinlichkeitsdichte mit Verteilungsfunktion

0
für r ≤ A,

(r − A)/(B − A) für A ≤ r ≤ B,
FA,B (r) =

1
für r ≥ B.
Die entsprechende Verteilung nennt man uniforme Verteilung auf [A, B] und bezeichnet sie mit
dem Symbol U[A, B].
4.4.2
Simulationsmethoden
Auf den ersten Blick sind uniforme Verteilungen kein realistisches Modell für irgendwelche realen
Verteilungen, doch dieser Eindruck trügt. Außerdem spielen sie eine wichtige Rolle bei Simulationsprogrammen. Denn im Prinzip kann man mit dem Rechner Zufallsvariablen X mit beliebiger
vorgegebener Verteilung simulieren. Dies erläutern wir jetzt in zwei Spezialfällen.
Simulation von Zufallsvariablen mit vorgegebener diskreter Verteilung. Angenommen, wir
möchten eine Zufallsvariable X simulieren, welche K verschiedene Werte x1 , x2 , . . . , xK mit
Wahrscheinlichkeiten p1 , p2 , . . . , pK annimmt. Zu diesem Zweck unterteilen wir das Intervall
[0, 1] in Intervalle B1 , B2 , . . . , BK derart, dass Länge(Bj ) = pj . Ausgehend von einer (simulierten) Zufallsvariable U mit Verteilung U[0, 1] definieren wir dann
X := xj
falls U ∈ Bj , 1 ≤ j ≤ K.
Diese Zufallsvariable X hat dann die gewünschte diskrete Verteilung, denn P(X = xj ) = P(U ∈
Bj ) = pj .
Hier noch ein Spezialfall dieser Konstruktion: Die Zufallsvariable X := dU · Ke ist Laplaceverteilt auf der Menge {1, 2, . . . , K}. Denn X = j genau dann, wenn U im Intervall Bj =
(j − 1)/K, j/K landet.
144
KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN
Simulation von Zufallsvariablen mit vorgegebener Verteilung auf R. Sei Q eine beliebige
Wahrscheinlichkeitsverteilung auf R mit Verteilungsfunktion F , das heißt, F (r) = Q((−∞, r])
für r ∈ R. Für eine beliebige Zahl u ∈ (0, 1) sei
F −1 (u) := min r ∈ R : F (r) ≥ u .
Ist U eine nach U[0, 1] verteilte Zufallsvarable, dann ist
X := F −1 (U )
eine Zufallsvariable mit der vorgegebenen Verteilung Q bzw. Verteilungsfunktion F . Denn nach
Definition von F −1 ist
P(X ≤ r) = P(F (r) ≥ U ) = F (r).
Beispiel: Simulation von exponentialverteilten Zufallsvariablen. Angenommen, wir möchten eine Zufallsvariable mit Verteilung Exp(λ) simulieren. Die entsprechende Verteilungsfunktion ist
gegeben durch Fλ (r) = 1 − exp(−r/λ) für r ≥ 0; siehe auch Abschnitt 4.3.1. Für u ∈ (0, 1) ist
die Gleichung F (r) = u gleichbedeutend mit 1 − exp(−r/λ) = u und hat die eindeutige Lösung
r = − log(1 − u) · λ. Also ist Fλ−1 (u) = − log(1 − u) · λ, und
X := − log(1 − U ) · λ
definiert eine exponentialverteilte Zufallsvariable mit Parameter λ.
4.4.3
Benfords Gesetz
Vor ca. 120 Jahren stellte der kanadische Astronom Simon Newcomb fest, dass die vorderen Seiten
einer Logarithmentafel viel abgegriffener waren als die hinteren. Aus dieser Beobachtung zog er
den Schluss, dass seine Kollegen öfters mit Zahlen zu tun hätten, die mit den Ziffern 1 oder 2
begannen, als mit solchen, die durch 8 oder 9 angeführt wurden. Diese These geriet alsbald in
Vergessenheit und wurde erst im Jahre 1938 von dem Physiker Frank Benford wiederentdeckt.
Dieser wertete verschiedene umfangreiche Datensätze aus. Unter anderem betrachtete er Tabellen
von Naturkonstanten, Flusslängen und Atomgewichten chemischer Elemente. Dabei stellte er fest,
dass die relative Häufigkeit von Zahlen mit führender Ziffer d, also Zahlen der Form ± d.ef g . . . ·
10z mit einer ganzen Zahl z, monoton fallend ist in d ∈ {1, 2, . . . , 9}. Nach genaueren Analysen
formulierte er folgende Gesetzmäßigkeit:
Die relative Häufigkeit von Zahlen mit führender Ziffer d ∈ {1, 2, . . . , 9} ist in etwa gleich
1
.
p(d) := log10 (d + 1) − log10 (d) = log10 1 +
d
Hier ist eine Tabelle dieser Zahlen p(d) auf drei Nachkommastellen gerundet:
d
p(d)
1
0.301
2
0.176
3
0.125
4
0.097
5
0.079
6
0.067
7
0.058
8
0.051
Für dieses Phänomen gibt es mehrere Erklärungen, von denen wir zwei skizzieren:
9
0.046
4.4. UNIFORME VERTEILUNGEN UND ANWENDUNGEN
145
Erklärung 1 (heuristisch). An Stelle eines umfangreichen Datensatzes betrachten wir eine zeitabhängige Größe x(t) > 0 über einen längeren Zeitraum. Genauer gesagt wachse oder falle diese
Größe exponentiell. Das heißt, man kann schreiben
x(t) = x(0) exp(at) für t ≥ 0
mit einer von Null verschiedenen Konstante a. Man denke beispielsweise an ein fest verzinstes
Sparguthaben oder an die Größe einer Population. Betrachtet man log10 x(t) an Stelle von x(t),
so ergibt sich ein linearer Anstieg:
log10 x(t) = log10 x(0) + bt
mit b := a/ log(10) 6= 0. Dass eine Zahl x mit der führenden Ziffer d beginnt, ist gleichbedeutend
damit, dass die Zahl log10 x in einem Intervall der Form
log10 (d · 10z ), log10 ((d + 1) · 10z ) = z + log10 (d), z + log10 (d + 1) ⊂ [z, z + 1)
mit einer ganzen Zahl z liegt; siehe auch Abbildung 4.7. Dies bedeutet, dass x(t) auf lange Sicht
mit Wahrscheinlichkeit
log10 (d + 1) − log10 (d) = p(d)
mit der führenden Ziffer d beginnt. Dabei ist ‘Wahrscheinlichkeit’ im Sinne des zeitlichen Mittels
zu verstehen.
log (0.2)
log (2)
10
log10(0.3)
log10(0.1)
−1
log (20)
10
log (200)
10
log10(3)
10
log10(30)
log10(300)
log10(1)
log10(10)
log10(100)
0
1
2
3
Abbildung 4.7: Begründung für Benfords Gesetz
Erklärung 2 (stochastisch). Nun betrachten wir eine Zufallsvariable X > 0 deren Verteilung
sich über einige Zehnerpotenzen erstreckt. Dies ist gleichbedeutend damit, dass sich die Verteilung
146
KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN
von Y := log10 X über einen großen Bereich erstreckt. Wir schreiben
Y = Z +R
mit einer zufälligen ganzen Zahl Z und einem zufälligen Rundungsrest R ∈ [0, 1). Dass X mit der
führenden Ziffer d beginnt, ist gleichbedeutend damit, dass log10 (d) ≤ R < log10 (d + 1). Wenn
die Verteilung von Y recht “diffus’ ist, dann ist R näherungsweise uniform verteilt auf [0, 1).
(Mathematisch präzise Aussagen sind möglich, würden aber hier zu weit führen.) Folglich ist
P X beginnt mir führender Ziffer d
= P log10 (d) ≤ R < log10 (d + 1) ≈ log10 (d + 1) − log10 (d) = p(d).
Anwendungen. Bei einem umfangreichen Datensatz mit Werten, die sich über mehrere Zehnerpotenzen erstrecken, und die nicht systematisch gerundet wurden, kann man also mit Benfords
Verteilung für die führende Dezimalziffer rechnen. Ein Gegenbeispiel sind Preise für Kaufhausartikel. Diese erstrecken sich zwar auch über einige Zehnerpotenzen, aber aus psychologischen
Gründen wird die führende Ziffer 9 bevorzugt (z.B. 0,95 CHF statt 1,00 CHF oder 99 CHF statt
100 CHF). Doch in Steuererklärungen sollten solche Effekte keine Rolle spielen, und manche
Steuerbehörden verwenden die Benford–Verteilung, um potentielle Steuersünder zu finden.
4.5
Normalverteilungen
Für eine Zufallsvariable X mit 0 < Std(X) < ∞ betrachten wir die standardisierte Zufallsvariable
X − E(X)
.
Z :=
Std(X)
Das Besondere an dieser Standardisierung ist, dass Z Erwartungswert Null und Standardabweichung Eins hat. Oftmals ist diese Zufallsgröße Z exakt oder zumindest approximativ standardnormalverteilt. Was dies bedeutet, erläutern wir im folgenden Abschnitt.
4.5.1
Standardnormalverteilung
Eine Zufallsvariable Z heißt standardnormalverteilt, wenn ihre Verteilung durch folgende Dichtefunktion φ beschrieben wird:
x2 1
φ(x) := √
exp −
.
2
2π
Diese Funktion nennt man auch “Gaußsche Glockenkurve”. Die entsprechende Verteilungsfunktion bezeichnen wir mit Φ:
Z r
Φ(r) :=
φ(x) dx.
−∞
Man nennt Φ auch “Gaußsche Fehlerfunktion”. Die entsprechende Verteilung ist die Standardnormalverteilung, die mit N (0, 1) bezeichnet wird. Diese Bezeichnung erklärt sich durch die erste
der folgenden Tatsachen.
4.5. NORMALVERTEILUNGEN
147
• Für eine standardnormalverteilte Zufallsvariable Z ist
E(Z) = 0 und
Std(Z) = 1.
• Die Dichtefunktion φ ist symmetrisch um Null, das heißt, φ(−x) = φ(x) für alle x. Ihr eindeutiges Maximum ist an der Stelle Null, auf dem Intervall [−1, 1] verläuft sie konkav (φ00 ≤ 0), und
auf den Intervallen (−∞, −1], [1, ∞) veläuft sie konvex (φ00 ≥ 0); siehe auch Abbildung 4.8.
0.4
0.35
0.3
φ(x)
0.25
0.2
0.15
0.1
0.05
0
−3
−2
−1
0
x
1
2
3
Abbildung 4.8: Dichtefunktion der Standardnormalverteilung
• Für die Verteilungsfunktion Φ gibt es keine geschlossene Formel. Viele Rechner bzw. Programmpakete bieten diese Funktion unter Namen wie “normal distribution function” oder “gaussian error function” an. Außerdem gibt es für Φ umfangreiche Tabellen, auch im Anhang dieses
Skriptums. Aus der Symmetrie von φ kann man ableiten, dass Φ(0) = 1/2 und
Φ(−r) = 1 − Φ(r) für alle r ∈ R;
siehe auch Abbildung 4.9. Aus diesem Grund werden die Tabellen oft nur für positive Zahlen r
angelegt.
4.5.2
Beliebige Normalverteilungen
Nun seien µ und σ > 0 beliebige Zahlen. Eine Zufallsvariable X heißt normalverteilt mit Mittelwert µ und Standardabweichung σ (Varianz σ 2 ), wenn sie sich schreiben lässt als
X − µ
X = µ + σZ
also Z =
σ
mit einer standardnormalverteilten Zufallsvariable Z. Hieraus ergibt sich unter anderem, dass
E(X) = µ
und
Std(X) = σ.
Ferner ergibt sich aus unseren allgemeinen Betrachtungen in Abschnitt 4.2.1, dass X nach der
Dichtefunktion
(x − µ)2 1 x − µ
1
f (x) =
φ
= √
exp −
σ
σ
2σ 2
2πσ 2
148
KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN
1
0.9
0.8
0.7
Φ(r)
0.6
0.5
0.4
0.3
0.2
0.1
0
−3
−2
−1
0
r
1
2
3
Abbildung 4.9: Verteilungsfunktion der Standardnormalverteilung
verteilt ist. Die entsprechende Verteilungsfunktion ist dann
F (r) = Φ
r − µ
σ
.
Diese Dichtefunktion f hat die gleiche Form wie φ. Den Graphen von f erhält man aus dem
Graphen von φ, indem man ihn in horizontaler Richtung um den Faktor σ streckt, in vertikaler
Richtung um den Faktor σ verkürzt und schließlich das Zentrum von Null nach µ verschiebt.
Abbildung 4.10 zeigt illustriert dies im Falle von µ = 3 und σ = 1/2.
0.8
0.7
0.6
f(x)
0.5
0.4
0.3
0.2
0.1
0
−3
−2
−1
0
x
1
2
3
4
Abbildung 4.10: Dichtefunktionen von N (0, 1) und N (3, (1/2)2 )
Die Verteilung von X ist die Normalverteilung mit Mittelwert µ und Varianz σ 2 (bzw. Standardabweichung σ). Bezeichnet wird sie mit dem Symbol N (µ, σ 2 ).
4.5. NORMALVERTEILUNGEN
149
Normalverteilungen sind gute Modelle für diverse numerische Merkmale wie beispielsweise Körpergröße oder –gewicht (nach Geschlecht getrennt) in größeren Populationen. Ein weiteres Beispiel sind Intelligenzquotienten. Außerdem werden physikalisch–chemische Messwerte oft durch
Normalverteilungen modelliert.
4.5.3
Anwendungsbeispiele und weitere Eigenschaften
Beispiel 4.4 (Körpergröße). In einer bestimmten Population sei die Körpergröße der Männer
(näherungsweise) normalverteilt mit Mittelwert µ = 180 cm und Standardabweichung σ = 7 cm.
Wenn beispielsweise ein Eisenbahnunternehmen neue Schlafwaggons in Auftrag gibt, ist vielleicht
folgende Frage interessant: Wie groß ist der relative Anteil von Personen mit Körpergröße 190 cm
oder mehr? Mit der Körpergröße X einer zufällig herausgegriffenen Person ist dieser Anteil gleich
P (X ≥ 190 cm) = 1 − P (X < 190 cm)
190 − 180 = 1−Φ
7
≈ 1 − Φ(1.4286)
≈ 1 − 0.9234
= 0.0766.
Beispiel 4.5 (Intelligenzquotient). Intelligenztests werden so konzipiert, dass der Intelligenzquotient (IQ) in der Gesamtbevölkerung (näherungsweise) normalverteilt ist mit Mittelwert 100
und Standardabweichung 15; siehe später. Bezeichnen wir mit X den IQ einer zufällig herausgegriffenen Person, dann ist beispielsweise der relative Anteil von Personen mit
IQ ≤ 100 : P (X ≤ 100) = 0.5
(Symmetrie von N (100, 152 ) um 100),
75 − 100 IQ ≤ 75 : P (X ≤ 75) = Φ
= Φ(−1.666) = 1 − Φ(1.666) ≈ 0.0478,
15
136 − 100 IQ ≥ 136 : 1 − P (X < 136) = 1 − Φ
≈ 0.0082.
15
Bei extrem kleinen oder großen IQ-Schranken sind die berechneten Wahrscheinlichkeiten eher
fragwürdig, wenn man die konkrete Bestimmung von Intelligenzquotienten bedenkt:
• Man entwirft einen Intelligenztest aus vielen Einzelaufgaben. Für jede einzelne Aufgabe gibt es
eine gewisse Maximalzahl von Punkten, und die Einzelergebnisse werden zu einer Gesamtzahl Y
addiert.
• Man nimmt an, dass dieses Ergebnis Y in der Gesamtpopulation näherungsweise normalverteilt
ist mit einem gewissen Mittelwert µ und einer gewissen Standardabweichung σ.
• Man unterzieht eine große Zahl n von Probandinnen und Probanden diesem Intelligenztest und
notiert deren Ergebnisse Y1 , Y2 , . . . , Yn .
• Anhand dieser Ergebnisse Yi überprüft man (hoffentlich) mit graphischen oder anderen Methoden die Modellannahme. Außerdem schätzt man die Parameter µ und σ durch Stichprobenmittelwert µ
b und –standardabweichung σ
b der Werte Yi .
150
KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN
• Für einen zukünftigen Teilnehmer des Intelligenztests mit Punktzahl Y ergibt sich dann der
IQ := 100 + 15 ·
Y −µ
b
.
σ
b
Wenn der eigentliche Test nur eine ganze Punktezahl Y zwischen Null und M ergibt, dann hat
auch der zuletzt definierte IQ nur M + 1 mögliche Werte. Die maximale Abweichung zwischen
der tatsächlichen Verteilungsfunktion F des IQ in der Bevölkerung und irgendeiner Normalverteilungsfunktion ist also immer mindestens gleich 1/(2M + 2), denn F ist eine Treppenfunktion mit
höchstens M + 1 Sprungstellen.
(Ferner ist zu sagen, dass auch bei einer einzelnen Person der IQ keine feste sondern eine zeitlich variable und sogar trainierbare Größe ist. Beispielsweise nimmt der IQ während eines reinen
Erholungsurlaubs spürbar ab, steigt aber danach in der Regel wieder an ;-))
Unabhängige Summanden. Eine wichtige Eigenschaft von Normalverteilungen ist: Die Summe stochastisch unabhängiger, normalverteilter Zufallsvariablen ist erneut normalverteilt. In Formeln bedeutet dies: Sind X und Y stochastisch unabhängig und nach N (µ, σ 2 ) bzw. N (ν, τ 2 )
verteilt, dann gilt für beliebige Konstanten a und b:
aX + bY ∼ N (aµ + bν, a2 σ 2 + b2 τ 2 ).
Induktiv kann man dieses Ergebnis auf beliebig viele Summanden verallgemeinern. Hier ist ein
wichter Spezialfall: Sind X1 , X2 , . . . , Xn stochastisch unabhängig und nach N (µ, σ 2 ) verteilt,
P
dann gilt für den arithmetischen Mittelwert X̄ = n−1 ni=1 Xi :
σ2 .
X̄ ∼ N µ,
n
Beispiel 4.6 (Messfehler). Gegeben sei eine Waage, die bei Auflegen eines Objektes mit unbekanntem Gewicht µ einen Messwert X anzeigt. Auf Grund von umfangreichen Testserien sei
bekannt, dass X normalverteilt ist mit Mittelwert µ und Standardabweichung σ = 3 g, also
X ∼ N (µ, (3 g)2 ). Dann ist
P [Messwert weicht um mehr als 8 g ab] = P (|X − µ| > 8 g)
X − µ 8 g = P >
σ }
3g
| {z
=:Z
= P (Z < −8/3) + P (Z > 8/3)
= Φ(−8/3) + 1 − Φ(8/3)
= 2(1 − Φ(8/3))
| {z }
≈0.9962
≈ 0.0077.
Anmerkung. Ohne die Annahme normalverteilter Messwerte hätten wir nur die Tshebyshev-Ungleichung anwenden können:
P (|X − µ| > 8 g) ≤
32
≈ 0.1406.
82
4.5. NORMALVERTEILUNGEN
151
Angenommen die Messung wird n–mal wiederholt. Der Mittelwert X̄ der Einzelergebnisse ist
dann verteilt nach N (µ, σ 2 /n). Für ein beliebiges c > 0 ist dann
X̄ − µ c P (|X̄ − µ| > c) = P √ > √
σ/ n
σ/ n
| {z }
=:Z
√ nc
= P |Z| >
σ
√n c = 2 1−Φ
.
σ
Speziell für n = 5 ergibt sich dann

 2.48 · 10−9 für c = 8 g,
0.0253
für c = 3 g,
P (|X̄ − µ| > c) ≈

0.4561
für c = 1 g.
Quantile von Normalverteilungen. Die Verteilungsfunktion Φ ist stetig und streng monoton
wachsend mit Grenzwerten Null und Eins im Unendlichen. Daher existiert eine Umkehrfunktion
Φ−1 : (0, 1) → R, die sogenannte Quantilfunktion der Standardnormalverteilung. Das heißt,
für 0 < γ < 1 ist Φ−1 (γ) die eindeutige Zahl r, so dass Φ(r) = γ. Auch für Φ−1 (γ) gibt es
leider keine geschlossene Formel, und man ist auf Computerprogramme oder Approximationen
angewiesen. In den Übungen wird gezeigt werden, dass
Φ−1 (1 − γ) = −Φ−1 (γ).
Hier sind einige ausgewählte Werte von Φ−1 auf vier Nachkommastellen genau:
γ
Φ−1 (γ)
0.75
0.6745
0.9
1.2816
0.95
1.6449
0.975
1.9600
0.99
2.3263
0.995
2.5758
Für eine Zufallsvariable X mit Verteilung N (µ, σ 2 ) ist ihr γ–Quantil die eindeutige Zahl r mit
der Eigenschaft, dass P (X ≤ r) = P (X < r) = γ. Dies ist aber gleichbedeutend damit, dass
P (X − µ)/σ ≤ (r − µ)/σ = γ bzw. (r − µ)/σ = Φ−1 (γ). Also ist das
γ–Quantil von N (µ, σ 2 ) = µ + σ · Φ−1 (γ).
Beispiel 4.4 (Körpergröße, Forts.) Wenn das Eisenbahnunternehmen sicherstellen will, dass
die geplanten Betten für höchstens 3% aller Männer zu kurz sind, benötigt es das 97%–Quantil
von N 180 cm, (7 cm)2 . Mit Hilfe einer Tabelle von Φ bzw. entsprechender Software ergibt sich
Φ−1 (0.97) = 1.8808. Das gesuchte Quantil ist also gleich
180 cm + 7 cm · Φ−1 (0.97) ≈ 193.17 cm.
Beispiel 4.5 (Intelligenzquotienten, Forts.) Die Quartile des IQ in der Gesamtbevölkerung entsprechen seinem 0.25–, 0.50– und 0.75–Quantil. Mit Φ−1 (0.75) = −Φ−1 (0.25) ≈ 0.6745 erge-
152
KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN
ben sich also folgende Werte:
1. Quartil : 100 + 15 · Φ−1 (0.25) ≈ 100 − 15 · 0.6745 ≈ 89.8827,
2. Quartil : 100 + 15 · Φ−1 (0.50) = 100,
3. Quartil : 100 + 15 · Φ−1 (0.75) ≈ 100 + 15 · 0.6745 ≈ 110.1173.
Beispiel 4.6 (Messfehler, Forts.) Wie groß müsste die Anzahl n von Messwiederholungen sein,
damit für ein vorgegebenes c > 0 und α ∈ (0, 1) gilt:
P (|X̄ − µ| > c) ≤ α ?
Diese Ungleichung ist äquivalent zu folgenden Ungleichungen:
√n c ≤ α,
2 1−Φ
σ
√n c α
Φ
≥ 1− ,
σ
2
√
α
nc
≥ Φ−1 1 −
,
σ
2
α 2
/c .
n ≥ σ Φ−1 1 −
2
Speziell für σ = 3 g und α = 0.01 ergibt sich die Ungleichung
n ≥ (3 g · 2.5758/c)2 .
Beispielsweise ist
P (|X̄ − µ| > 1 g) ≤ 0.01 falls n ≥ 60,
P (|X̄ − µ| > 2 g) ≤ 0.01 falls n ≥ 15.
4.5.4
Warum ausgerechnet die Gaußsche Glockenkurve?
Es gibt viele glockenförmige, um Null symmetrische Dichtefunktionen f , deren Verteilungsfunktion F und Quantilfunktion F −1 leicht zu berechnen sind. In den Übungen wird beispielsweise
die logistische Verteilung behandelt:
1
,
+ e−x + 2
er
1
F (r) =
= −r
,
r
1 +e
e +1
γ
F −1 (γ) = log
.
1−γ
f (x) =
ex
Eine Begründung dafür, dass man mit den schwierigeren Normalverteilungen arbeitet, liefert der
sogenannte Zentrale Grenzwertsatz. In Prosa lautet er wie folgt:
4.5. NORMALVERTEILUNGEN
153
Zentraler Grenzwertsatz. Die Summe von stochastisch unabhängigen Zufallsvariablen, von
denen jede einzelne nur geringen Einfluss auf die Gesamtsumme hat, ist näherungsweise normalverteilt.
Wenn man davon ausgeht, dass Merkmale wie die Körpergröße oder der IQ von vielen verschiedenen Genen und anderen Einflüssen gesteuert werden, dann wird deren Normalverteilung mit
Hilfe dieses Satzes plausibel. Auch bei Messfehlern kann man sich viele kleine Fehlerquellen auf
mikroskopischer Ebene vorstellen, die sich zu einem Gesamtfehler addieren.
In der Statistik nutzt man oft aus, dass diverse Zufallsgrößen Y näherungsweise normalverteilt
sind. Hier ein wichtiger Spezialfall: Seien X1 , X2 , X3 , . . . stochastisch unabhängig und identisch
verteilte Zufallsvariablen mit Erwartungswert E(Xi ) = µ und Standardabweichung Std(Xi ) = σ.
P
(Die einzelnen Xi müssen nicht normalverteilt sein.) Dann ist der Mittelwert X̄n = n−1 ni=1 Xi
√
näherungsweise normalverteilt mit Mittelwert µ und Standardabweichung σ/ n. Genauer gesagt
gilt:
X̄ − µ
n
√ ≤ r → Φ(r) für n → ∞.
P
σ/ n
Beispiel 4.7 (Geschwisterzahlen). In einer gewissen Population von jungen Leuten betrachten
wir die Variable
X := Anzahl von Geschwistern ∈ {0, 1, 2, . . .}.
Genauer gesagt interessiert uns die Zahl
µ := E(X) = mittlere Zahl von Geschwistern pro Person.
Angenommen in der Population ist das Merkmal X wie folgt verteilt:
k
P (X = k)
0
0.2
1
0.4
2
0.3
3
0.1
Dann wäre der gesuchte Parameter µ gleich
µ =
3
X
P (X = k) · k = 1.3.
k=0
Nun betrachten wir den Stichprobenmittelwert X̄n aus einer Stichprobe vom Umfang n mit Beobachtungen X1 , X2 , . . . , Xn . Für n = 1 ist X̄n verteilt wie X. Für n = 2, 3, . . . kann man die
Wahrscheinlichkeit, dass X̄n einen bestimmten Wert annimmt, nach folgender Induktionsformel
berechnen:
3
3
X
X
k−`
k −`
k
P X̄n =
=
P X̄n−1 =
, Xn = ` =
P X̄n−1 =
P (Xn = `).
n
n−1
n−1
`=0
`=0
Abbildung 4.11 zeigt Stabdiagramme der Wahrscheinlichkeiten P (X̄n = k/n) für Stichprobenumfänge n = 1, 2, 10, 50. Man erkennt, dass die Verteilung von X̄n mit wachsendem n zunehmend nahe bei µ = 1.3 konzentriert ist. Dieses Phänomen ist das “Gesetz der großen Zahlen”.
154
KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN
0.3
0.4
0.25
0.3
0.2
0.15
0.2
0.1
0.1
0.05
0
0
1
2
0
3
0
0.5
1
0
0.5
1
1.5
2
2.5
3
0.05
0.14
0.04
0.12
0.1
0.03
0.08
0.02
0.06
0.04
0.01
0.02
0
−0.5
0
0.5
1
1.5
2
2.5
3
3.5
0
−0.5
1.5
2
2.5
3
3.5
Abbildung 4.11: Gesetz der Großen Zahlen und Zentraler Grenzwertsatz, I
Den gleichen Sachverhalt illustrieren wir nun mit der Verteilungsfunktion Fn von X̄n , also
Fn (r) := P (X̄n ≤ r).
Abbildung 4.12 zeigt den Graph von Fn für n = 1, 2, 10, 50. Dass die Verteilung von X̄n mit
wachsendem n zunehmend nahe bei µ konzentriert ist, bedeutet auf der Ebene der Verteilungsfunktionen Fn : Für ein festes r ist
0 falls r < µ,
lim Fn (r) =
n→∞
1 falls r > µ.
Mit Hilfe des Zentralen Grenzwertsatzes können wir das Geschehen in der Nähe von µ genauer
beleuchten: Zunächst ist
v
u 3
uX
p
2
2
E(X ) − µ = t
P (X = k) · k 2 − 1.32 = 0.9.
σ := Std(X) =
k=0
√
√
Dies bedeutet, dass Std(X̄n ) = σ/ n = 0.9/ n, und der Zentrale Grenzwertsatz impliziert,
dass
X̄ − µ
r−µ
r−µ
n
√ ≤ √
√ .
≈ Φ
Fn (r) = P
σ/ n
σ/ n
σ/ n
4.5. NORMALVERTEILUNGEN
155
1
1
0.9
0.9
0.8
0.7
0.6
0.6
0.5
0.4
0.3
0.2
0.2
0.1
0
−0.5
0
0.5
1
1.5
2
2.5
3
3.5
0
−0.5
1
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
−0.5
0
0.5
1
1.5
2
2.5
3
3.5
0
−0.5
0
0.5
1
1.5
2
2.5
3
3.5
0
0.5
1
1.5
2
2.5
3
3.5
Abbildung 4.12: Gesetz der Großen Zahlen und Zentraler Grenzwertsatz, II
Abbildung
4.13 zeigt
die Verteilungsfunktion Fn (·) zusammen mit ihrer Approximation durch
√
Φ n (· − µ)/σ für n = 1, 2, 10, 50.
Der Unterschied zwischen der tatsächlichen Verteilungsfunktion Fn und der approximativen Normalverteilungsfunktion wird mit wachsendem n deutlich kleiner. Für n = 200 ist der Unterschied
nur noch sehr gering; siehe Abbildung 4.14.
156
KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN
1
1
0.9
0.9
0.8
0.7
0.6
0.6
0.5
0.4
0.3
0.2
0.2
0.1
0
−0.5
0
0.5
1
1.5
2
2.5
3
3.5
0
−0.5
1
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0.5
1
1.5
2
0
2.5
0
0.8
0.5
0.9
1
1
1.1
1.5
1.2
1.3
2
1.4
2.5
1.5
1.6
Abbildung 4.13: Gesetz der Großen Zahlen und Zentraler Grenzwertsatz, III
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
1.05
1.1
1.15
1.2
1.25
1.3
1.35
1.4
1.45
1.5
1.55
Abbildung 4.14: Gesetz der Großen Zahlen und Zentraler Grenzwertsatz, IV
3
1.7
3.5
1.8
Teil III
Schließende Statistik
157
Kapitel 5
Konfidenzbereiche
In der schließenden (induktiven) Statistik betrachtet man im wesentlichen drei Typen von Verfahren:
• Punktschätzer: Mit Hilfe der Daten berechnet man einen Schätzwert für einen unbekannten
Parameter θ, beispielsweise einen Mittelwert.
• Konfidenzbereiche: An Hand der Daten berechnet man einen Bereich, in welchem ein unbekannter Parameter θ mit einer gewissen Sicherheit liegen soll. Dabei bemüht man sich um
möglichst kleine Konfidenzbereiche.
• Tests: Mit Hilfe der Daten soll nachgewiesen werden, dass ein augenscheinlicher Effekt, z.B.
die Wirkung eines neuen Medikaments, wirklich vorhanden ist und nicht durch reinen Zufall
erklärt werden kann.
Von diesen drei Verfahren sind die Konfidenzbereiche besonders wichtig, so dass wir uns in diesem
Kapitel vorwiegend hiermit beschäftigen werden. Dabei kommen zwangsläufig auch Schätzer zur
Sprache. Im nächsten Kapitel werden wir uns mit statistischen Tests auseinandersetzen.
5.1
Allgemeine Beschreibung von Konfidenzbereichen
Gegeben seien Daten D, die wir auf Grund von Stichprobenfehlern, Messfehlern etc. als zufällig
betrachten. Die Verteilung der Daten hänge unter anderem von einem unbekannten Parameter θ
ab. Ein Konfidenzbereich (Vertrauensbereich) für θ ist eine datenabhängige Menge C(D) von
möglichen Werten für θ. Nach Berechnung dieser Menge behauptet man, dass der tatsächliche
Parameter θ in C(D) liegt.
Sicherheit bzw. Konfidenzniveau. Der Konfidenzbereich C(D) hat Konfidenzniveau (Vertrauensniveau) 1 − α, falls er den unbekannten Parameter θ mit Wahrscheinlichkeit mindestens 1 − α
enthält, also
P (θ ∈ C(D)) ≥ 1 − α.
159
(5.1)
160
KAPITEL 5. KONFIDENZBEREICHE
Man sagt dann auch kurz: C(D) ist ein (1 − α)–Konfidenzbereich für θ. Die Zahl α ∈ (0, 1) ist
eine obere Schranke für das Risiko, dass C(D) den Parameter θ nicht enthält.
Sicherheit versus Wahrscheinlichkeit. In der Ungleichung (5.1) ist C(D) ein zufälliges Objekt
und θ ein fester Parameter. Der Zufall kommt also nur über die Daten D in’s Spiel, und die Ungleichung (5.1) berücksichtigt alle möglichen Datenkonstellationen.
In einer konkreten Anwendung liegt genau ein Datensatz D vor, und die Behauptung, dass C(D)
den Parameter θ enthält, ist schlichtweg richtig oder falsch. Es würde dann keinen Sinn machen
zu sagen: “Mit Wahrscheinlichkeit 1 − α liegt θ in C(D).” Stattdessen sagt man beispielsweise:
“Mit Sicherheit 1 − α liegt θ in C(D)”.
Wenn man viele Auswertungen macht und jeweils einen (1 − α)–Konfidenzbereich für einen
gewissen Parameter berechnet, dann ist auf lange Sicht der relative Anteil von Auswertungen, bei
denen der Konfidenzbereich “daneben liegt” höchstens gleich α.
5.2
Konfidenzintervalle nach Wald
In diesem Abschnitt behandeln wir eine recht allgemeine Methode, um Konfidenzintervalle für
einen Parameter θ zu berechnen, so dass die Gleichung (5.1) zumindest approximativ für große
Stichproben erfüllt ist. Zunächst starten wir mit einem Spezialfall, nämlich der Schätzung eines
Mittelwertes. Danach erläutern und illustrieren wir den allgemeinen Zugang.
5.2.1
Z–Konfidenzschranken für µ
Seien X1 , X2 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen mit unbekanntem Erwartungswert µ und unbekannter Standardabweichung σ. Mit Hilfe von n, dem Stichprobenmittelwert X̄ und der Stichprobenstandardabweichung S kann man Vertrauensschranken für µ berechnen. Die standardisierte Größe
X̄ − µ
√
σ/ n
ist standardnormalverteilt, wenn die Beobachtungen Xi selbst normalverteilt sind. Ansonsten ist
sie zumindest approximativ standardnormalverteilt für wachsendes n. Außerdem ist der Quotient
S/σ bei wachsendem n nahe an Eins. Hieraus folgt, dass die Hilfsgröße
Z :=
X̄ − µ
√
S/ n
approximativ nach N (0, 1) verteilt ist. Insbesondere gilt für α ∈ (0, 1):

P |Z| ≤ Φ−1 (1 − α/2) 


−1
P Z ≤ Φ (1 − α)
→ 1 − α (n → ∞).



P Z ≥ −Φ−1 (1 − α)
Die Ungleichungen |Z| ≤ Φ−1 (1 − α/2), Z ≤ Φ−1 (1 − α) und Z ≥ −Φ−1 (1 − α) kann man
5.2. KONFIDENZINTERVALLE NACH WALD
jeweils nach µ auflösen und erhält folgende Aussagen:
S −1
P µ ∈ X̄ ± √ Φ (1 − α/2)
n
S −1
√
P µ ≥ X̄ −
Φ (1 − α)
n
S −1
P µ ≤ X̄ + √ Φ (1 − α)
n
161









→ 1−α
(n → ∞).








Wir haben also drei verschiedene Konfidenzbereiche für µ zur Auswahl, wobei das Konfidenzniveau approximativ gleich 1 − α ist:
• Das Konfidenzintervall
• die untere Konfidenzschranke
• die obere Konfidenzschranke
S −1
X̄ ± √ Φ (1 − α/2) ,
n
S
X̄ − √ Φ−1 (1 − α),
n
S
X̄ + √ Φ−1 (1 − α).
n
Wichtig ist, dass man sich bereits vor der Datenauswertung überlegt, ob man an einem Vertrauensintervall oder nur einer einseitigen Schranke für µ interessiert ist.
Beispiel 5.1 (Mittlere Anzahl von Geschwistern). Bei der Befragung der Vorlesungsteilnehmenden wurde unter anderem nach der Anzahl X von Geschwistern einer Person gefragt. Nun
möchten wir ein 95%–Vertrauensintervall für die unbekannte Zahl
µ := mittlere Anzahl von Geschwistern pro Person in der Grundgesamtheit
berechnen. (Als Grundgesamtheit betrachten wir beispielsweise die Menge aller Personen in der
Schweiz im Alter von 18-40 Jahren, und wir tun so, als wären die Vorlesungsteilnehmenden eine
rein zufällige Stichprobe hieraus.)
Die Stichprobenkenngrößen sind n = 260, X̄ = 1.5538 und S = 0.9711. Es ist α = 0.05, also
Φ−1 (1 − α/2) = Φ−1 (0.975) = 1.960, so dass
0.9711
S −1
1.96 = [1.4358, 1.6719].
X̄ ± √ Φ (1 − α/2) = 1.5538 ± √
n
260
Wir behaupten also mit einer Sicherheit von ca. 95%, dass die mittlere Anzahl µ von Geschwistern
pro Person zwischen 1.4358 und 1.6719 liegt.
Beispiel 5.2 (Monatsmiete von Studierenden) Sei µ die mittlere Monatsmiete (in CHF) von allen Studierenden der Universität Bern, die nicht bei Angehörigen umsonst wohnen. Um zu unterstreichen, dass dieser unbekannte Wert µ deutlich höher ist als beispielsweise in Norddeutschland,
möchten wir nun µ mit einer Sicherheit von ca. 95% nach unten abschätzen.
162
KAPITEL 5. KONFIDENZBEREICHE
Auch hier verwenden wir den Datensatz der Vorlesungsteilnehmer, reduzieren ihn aber auf diejenigen Personen, welche überhaupt Miete zahlen. Die Stichprobenkenngrößen sind n = 129,
X̄ = 609.128 und S = 289.153. Mit α = 0.05 ergibt sich Φ−1 (1 − α) = Φ−1 (0.95) = 1.645.
Die gesuchte untere Vertrauensschranke ist also
S
289.153
X̄ − √ Φ−1 (1 − α) = 609.128 − √
1.645 = 567.248.
n
129
Wir behaupten also mit einer Sicherheit von ca. 95%, dass die mittlere Monatsmiete für Studierende der Universität Bern mindestens 567 CHF beträgt.
Beispiel 5.3 (Körpergröße) Bekanntlich gibt es in Europa ein Nord–Süd–Gefälle in Bezug auf
die Körpergröße. Angenommen, man vermutet auf Grund von Alltagsbeobachtungen, dass die
mittlere Körpergröße µ (in cm) von Schweizern (männl.) im Alter von 18-40 Jahren kleiner ist als
der entsprechende Parameter z.B. für die Niederlande. Um potentielle Unterschiede zu untermauern, berechnen wir eine obere Vertrauensschranke für µ.
Der Datensatz der Vorlesungsteilnehmer, reduziert auf die Herren, liefert n = 145 Werte mit
X̄ = 178.938 und S = 6.2363. Zusammen mit Φ−1 (1 − α) = Φ−1 (0.95) = 1.645 ergibt sich die
obere Vertrauensschranke
6.2363
S
1.645 = 179.79.
X̄ + √ Φ−1 (1 − α) = 178.938 + √
n
145
Wir behaupten nun mit einer Sicherheit von ca. 95%, dass die mittlere Körpergröße µ strikt kleiner
ist als 180 cm.
5.2.2
Walds Methode allgemein
Die Z–Vertrauensbereiche für µ sind ein Spezialfall einer allgemeineren Methode, die auf Abraham Wald zurückgeht: Sei θ ∈ R ein unbekannter Parameter. Mit Hilfe der Daten D berechnet
b
man einen Schätzer θb = θ(D)
hierfür. Ferner sei τ > 0 die unbekannte Standardabweichung des
b und auch hierfür sei ein Schätzer τb = τb(D) verfügbar, ein sogenannter “StandardfehSchätzers θ,
ler”. Bei umfangreichen Datensätzen gilt oftmals:
θb − θ
∼appr. N (0, 1) und
τ
τb
≈ 1.
τ
Insbesondere gilt für die Hilfsgröße Z := (θb − θ)/b
τ:
P |Z| ≤ Φ−1 (1 − α/2)
P Z ≤ Φ−1 (1 − α)
P Z ≥ −Φ−1 (1 − α)




≈ 1 − α.



Die Ungleichungen |Z| ≤ Φ−1 (1 − α/2), Z ≤ Φ−1 (1 − α) und Z ≥ −Φ−1 (1 − α) kann man
jeweils nach θ auflösen und erhält drei verschiedene Konfidenzbereiche für θ mit Konfidenzniveau
ca. 1 − α:
5.2. KONFIDENZINTERVALLE NACH WALD
163
• Das Konfidenzintervall
h
i
θb ± τb Φ−1 (1 − α/2) ,
(5.2)
θb − τb Φ−1 (1 − α),
(5.3)
θb + τb Φ−1 (1 − α).
(5.4)
• die untere Konfidenzschranke
• die obere Konfidenzschranke
Diese Methode ist in vielen verschiedenen Anwendungen einsetzbar. Zwar ist sie bei kleinen und
moderaten Stichprobenumfängen nicht sehr präzise, aber immerhin ein guter Startpunkt für mögliche Verfeinerungen.
√
Beispiel 5.4 (Mittelwert). Bei der Schätzung von θ = µ betrachteten wir θb = X̄, und τ = σ/ n,
√
τb = S/ n.
Beispiel 5.5 (Vergleich zweier Mittelwerte). Angenommen, wir betrachten ein numerisches Merkmal in zwei unabhängigen Stichproben. Die entsprechenden Beobachtungen seien X1 , . . . , XnX
bzw. Y1 , . . . , YnY . Nun betrachten wir die unbekannten Parameter µX := E(Xi ), µY := E(Yj ),
σX := Std(Xi ) und σY := Std(Yj ). Als Schätzwerte bieten sich die Stichprobenmittelwerte X̄,
Ȳ bzw. die Stichprobenstandardabweichungen SX und SY an.
Nun möchten wir Vertrauensschranken für die Differenz θ := µX −µY angeben. Der naheliegende
Schätzwert θb := X̄ − Ȳ hat Erwartungswert θ und Standardabweichung
s
2
σ2
σX
+ Y.
τ =
nX
nY
Letztere schätzen wir durch
s
τb =
2
SX
S2
+ Y.
nX
nY
Nun können wir einen der Vertrauensbereiche (5.2), (5.3) oder (5.4) berechnen. Das Vertrauensniveau ist jeweils nahe an 1 − α, wenn beide Stichprobenumfänge nX und nY recht groß sind.
Beispiel 5.6 (Nord–Süd–Gefälle der Körpergröße). Als Zahlenbeispiel für Beispiel 5.5 betrachten wir die mittlere Körpergröße µX der Schweizer und µY der Norddeutschen (männl.)
im Alter von 18-40 Jahren. Bei einer Befragung von nX = 145 Studenten der Universität Bern
ergaben sich X̄ = 178.938 und SX = 6.2363. Eine Befragung von nY = 26 Studenten der Universität Lübeck lieferte Ȳ = 183.962 und SY = 7.5497. Daraus ergeben sich die Schätzwerte
θb = X̄ − Ȳ = −5.024 für θ und
r
6.23632 7.54972
τb =
+
= 1.5686
145
26
für τ . Ein approx. 95%–Vertrauensintervall für die Differenz θ ist also gegeben durch
[−5.024 ± 1.5686 · 1.96] = [−8.0984, −1.9496]
164
KAPITEL 5. KONFIDENZBEREICHE
Wir können also mit einer Sicherheit von ca. 95% behaupten, dass (a) die mittlere Körpergröße
µX kleiner ist als µY und (b) der Unterschied zwischen 1.9 und 8.1 cm liegt. (Das Problem, dass
keine echten Zufallsstichproben vorliegen, unterschlagen wir allerdings.)
5.3
Verfeinerte Konfidenzbereiche für Mittelwerte
Wie in Abschnitt 5.2.1 seien X1 , X2 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen
mit unbekanntem Erwartungswert µ und unbekannter Standardabweichung σ. Bisher kennen wir
nur Konfidenzbereiche mit approximativem Konfidenzniveau 1 − α. Eine naheliegende Frage ist,
ob und wie sich diese Ungenauigkeit vermeiden lässt. Zumindest im Falle von normalverteilten
Beobachtungen ist dies der Fall. Dabei stützt man sich auf Resultate der britischen Statistiker
William Gosset und Ronald A. Fisher.
5.3.1
Student– und Chiquadrat–Verteilungen
Satz 5.7 Seien X1 , X2 , . . . , Xn stochastisch unabhängig und nach N (µ, σ 2 ) verteilt. Dann ist
X̄ − µ S
√ ,
σ/ n σ
genauso verteilt wie
v
u
u
Z1 , t

1
n−1
n
X

Zi2 
i=2
mit stochastisch unabhängigen, standardnormalverteilten Zufallsvariablen Z1 , Z2 , . . . , Zn .
Übrigens publizierte W. Gosset auf Wunsch seines Arbeitgebers, der Guinness–Brauerei, unter
dem Pseudonym “student”. Daher spricht man heute von “Student–Verteilungen” (mit englisch
ausgesprochenem ‘student’) und nicht von “Gosset–” oder “G–Verteilungen”.
√
Der obige Satz impliziert, dass unsere Hilfsgröße (X̄ − µ)/(S/ n) student-verteilt ist mit n − 1
Freiheitsgraden im Sinne der folgenden Definition.
Definition 5.8 (Student’s t–Verteilungen, Chiquadrat–Verteilungen). Wir betrachten stochastisch unabhängige, standardnormalverteilte Zufallsvariablen Z1 , Z2 , Z3 , . . . .
(a) Student’s t–Verteilung (Student–Verteilung, t–Verteilung) mit k Freiheitsgraden ist definiert
als die Verteilung von
v
k+1
.u
u1 X
Z1 t
Zi2 .
k
i=2
Als Symbol für diese Verteilung verwendet man tk . Ihr β–Quantil bezeichnet man mit tk;β .
(b) Die Chiquadrat–Verteilung (χ2 –Verteilung) mit k Freiheitsgraden ist definiert als die Verteilung von
k
X
Zi2 .
i=1
5.3. VERFEINERTE KONFIDENZBEREICHE FÜR MITTELWERTE
165
Als Symbol für diese Verteilung verwendet man χ2k . Ihr β–Quantil bezeichnet man mit χ2k;β .
Anmerkungen zu tk . Die Student–Verteilung tk hat eine Dichtefunktion, nämlich
fk (x) = Ck (1 + x2 /k)−(k+1)/2
mit einer gewissen Normierungskonstante Ck > 0. Wichtig ist für uns in erster Linie, dass auch fk
eine um Null symmetrische Glockenkurve ist. Die folgende Abbildung zeigt die Dichtefunktionen
fk für k = 1, 2, 4, 9. Zusätzlich wird jeweils die Gaußsche Glockenkurve φ und die Funktion f1
gezeigt. Man erahnt (und kann auch beweisen), dass die Dichtefunktion fk für k → ∞ gegen φ
konvergiert:
k=1
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
−4
−3
−2
−1
0
1
2
3
0
4
k=4
0.4
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
−4
−3
−2
−1
0
−4
−3
−2
−1
1
2
3
4
0
0
1
2
3
4
k=9
0.4
0.35
0
k=2
0.4
−4
−3
−2
−1
0
1
2
3
4
Für die Quantile tk;β ergibt sich aus der Symmetrie von fk die Gleichung tk;1/2 = 0 und
tk;1−β = −tk;β .
Außerdem gilt für 1/2 < β < 1:
t1;β > t2;β > t3;β > · · ·
und
lim tk;β = Φ−1 (β).
k→∞
Auch bei den Studentquantilen ist man auf Computerprogramme oder Tabellen angewiesen.
Anmerkungen zu χ2k . Die Chiquadratverteilungen sind auf (0, ∞) konzentriert und unsymmetrisch. Es handelt sich um Spezialfälle der früher erwähnten Gammaverteilungen:
χ2k = Gamma(k/2, 2).
166
5.3.2
KAPITEL 5. KONFIDENZBEREICHE
Student–Konfidenzschranken für µ
Nun können wir die anfangs besprochenen Z–Vertrauensschranken für µ wie folgt verfeinern. Im
√
Falle von normalverteilten Beobachtungen Xi ist die Hilfsgröße (X̄ − µ)/(S/ n) student-verteilt
mit n − 1 Freiheitsgraden, so dass

S


P µ ∈ X̄ ± √ tn−1;1−α/2


n




S
P µ ≥ X̄ − √ tn−1;1−α
= 1 − α.

n




S



P µ ≤ X̄ + √ tn−1;1−α
n
Wir haben also drei verschiedene (1 − α)–Konfidenzbereiche für µ zur Auswahl:
• Das Konfidenzintervall
• die untere Konfidenzschranke
• die obere Konfidenzschranke
S
X̄ ± √ tn−1;1−α/2 ,
n
S
X̄ − √ tn−1;1−α ,
n
S
X̄ + √ tn−1;1−α .
n
Sind die Beobachtungen Xi nicht normalverteilt, dann haben auch diese Konfidenzbereiche zumindest asymptotisch für n → ∞ das Konfidenzniveau 1 − α. Weil tn−1;β > Φ−1 (β) für 1/2 <
β < 1, sind die Student–Schranken sicherlich zuverlässiger als die einfacheren Z–Schranken.
In unseren drei Zahlenbeispielen zu den Z–Schranken waren die Stichprobenumfänge n recht
groß, so dass sich keine drastischen Änderungen ergeben:
Beispiel 5.1 (Mittlere Anzahl von Geschwistern, Forts.). Hier müssen wir Φ−1 (0.975) = 1.960
durch t259;0.975 = 1.9692 ersetzen und erhalten das Intervall
S
0.9711
1.9692 = [1.4352, 1.6724].
X̄ ± √ tn−1;1−α/2 = 1.5538 ± √
n
260
Beispiel 5.2 (Monatsmiete von Studierenden, Forts.). An Stelle von Φ−1 (0.95) = 1.645 verwenden wir t128;0.95 = 1.6568 und gelangen zu der unteren Schranke
S
289.153
X̄ − √ tn−1;1−α = 609.128 − √
1.6568 = 565.947.
n
129
Beispiel 5.3 (Körpergröße, Forts.). Hier verwenden wir t144;0.95 = 1.6555 und erhalten die obere
Schranke
6.2363
S
X̄ + √ tn−1;1−α = 178.938 + √
1.6555 = 179.795.
n
145
5.3. VERFEINERTE KONFIDENZBEREICHE FÜR MITTELWERTE
167
Beispiel 5.9 (Mittlere Zahl von Kindern pro Mutter). Als letztes Beispiel eines Konfidenzintervalls für einen Mittelwert greifen wir noch einmal das Beispiel aus Abschnitt 3.8.3 auf: Für eine
zufällig ausgewählte Mutter betrachten wir die Anzahl Y ihrer Kinder und interessiern uns für den
Erwartungswert ν = E(Y ), also die mittlere Zahl von Kindern pro Mutter. Zu Verfügung steht
uns eine Stichprobe von n “Kindern” und deren Geschwisterzahlen X1 , X2 , . . . , Xn . Wir gehen
davon aus, dass
∞
X
P(X = g) −1
= E(W )−1
ν =
g+1
mit W :=
g=0
1
.
X +1
Daher betrachten wir die transformierten Beobachtungen Wi := 1/(Xi + 1) und berechnen
zunächst ein (1 − α)–Vertrauensintervall für E(W ), nämlich
h
i
SW
W̄ ± √ tn−1;1−α/2 .
n
Hieraus ergibt sich dann das (1 − α)–Vertrauensintervall
−1 −1 SW
SW
, W̄ − √ tn−1;1−α/2
W̄ + √ tn−1;1−α/2
n
n
√
für ν, sofern die untere Schranke W̄ − SW tn−1;1−α/2 / n strikt positiv ist. Ansonsten hätten wir
nur eine untere Vertrauensschranke für ν.
Zahlenbeispiel. Bei der Befragung von n = 384 Vorlesungsteilnehmenden ergaben sich die Werte
W̄ = 0.4421 und SW = 0.1807. Zusammen mit t383;0.975 = 1.9662 ergibt sich so das 95%–
Vertrauensintervall
h
i
0.1807
0.4421 ± √
1.9662 ≈ [0.4240, 0.4602],
384
für E(W ). Wir können also mit einer Sicherheit von ca. 96% davon ausgehen, dass die mittlere
Anzahl von Kindern pro Mutter zwischen 1/0.4602 ≈ 2.1728 und 1/0.4240 ≈ 2.3587 liegt.
5.3.3
Schranken für σ
Der Einfachheit halber betrachten wir nur den Fall normalverteilter Beobachtungen Xi . Ein typisches Anwendungsbeispiel sind Messungen mit einem Messinstrument. Hier ist σ die Standardabweichung einer Einzelmessung und beschreibt die Ungenauigkeit des Gerätes.
Aus den Resultaten von Gosset und Fisher folgt, dass (n − 1)S 2 /σ 2 chiquadrat–verteilt ist mit
n − 1 Freiheitsgraden. Insbesondere ist


P (n − 1)S 2 /σ 2 ≤ χ2n−1;1−α




2
2
2
= 1 − α.
P (n − 1)S /σ ≥ χn−1;α




P χ2n−1;α/2 ≤ (n − 1)S 2 /σ 2 ≤ χ2n−1;1−α/2 
Auch hier kann man die Ungleichungen innerhalb P (·) nach σ auflösen und erhält die folgenden
(1 − α)–Konfidenzbereiche für σ:
168
KAPITEL 5. KONFIDENZBEREICHE
• Die untere Konfidenzschranke
s
• die obere Konfidenzschranke
s
S
• das Konfidenzintervall
" s
S
n−1
,
χ2n−1;1−α
S
n−1
,
χ2n−1;α
n−1
χ2n−1;1−α/2
s
, S
n−1
χ2n−1;α/2
#
.
Auch hier ist es wichtig, sich bereits vor der Datenauswertung zu überlegen, was man eigentlich
will: Möchte man einfach einen Bereich von möglichen Werten für σ angeben, so bietet sich das
Konfidenzintervall an. Für den Hersteller eines Messinstruments, der sein Gerät seriös anpreisen
möchte, ist eine obere Vertrauensschranke von Interesse. Möchte man hingegen nachweisen, dass
ein bestimmtes Messinstrument bzw. eine bestimmte Messmethode recht ungenau ist, bietet sich
eine untere Schranke für σ an.
5.3.4
Vergleich zweier Mittelwerte
In Beispiel 5.5 betrachteten wir Konfidenzschranken für die Differenz zweier Mittelwerte nach
Wald. Diese Methode kann man noch auf zweierlei Weisen verfeinern.
Fall 1: Identische Standardabweichungen σX und σY . Wenn die X– und Y –Werte ein und
dieselbe Standardabweichung σ haben, dann ist E(X̄ − Ȳ ) = µX − µY und
q
−1
Std(X̄ − Ȳ ) = σ n−1
X + nY .
Ein möglicher Schätzer für σ ist
s
σ
b :=
2 + (n − 1)S 2
(nX − 1)SX
Y
Y
.
nX + nY − 2
Aus den Resultaten von Gosset und Fisher kann man ableiten, dass im Falle von normalverteilten
Beobachtungen gilt:
(nX + nY − 2)b
σ 2 /σ 2 ∼ χ2nX +nY −2 ,
X̄ − Ȳ
q
−1
σ
b n−1
X + nY
∼ tnX +nY −2 .
Hieraus ergeben sich die folgenden Vertrauensbereiche für µX − µY :
• Die untere Konfidenzschranke
X̄ − Ȳ − σ
b
q
−1
n−1
X + nY tnX +nY −2;1−α ,
5.4. KONFIDENZBEREICHE FÜR EINE WAHRSCHEINLICHKEIT
169
• die obere Konfidenzschranke
X̄ − Ȳ + σ
b
q
−1
n−1
X + nY tnX +nY −2;1−α ,
• das Konfidenzintervall
q
−1
−1
X̄ − Ȳ ± σ
b nX + nY tnX +nY −2;1−α/2 .
Das Vertrauensniveau ist exakt 1 − α, wenn die Einzelbeobachtungen Xi und Yi normalverteilt
sind. Ansonsten ist das Vertrauensniveau approximativ gleich 1 − α für min(nX , nY ) → ∞.
Fall 2: Welchs Methode für beliebige Standardabweichungen σX und σY . Für den allgemeinen Fall
q erwähnten wir bereits, dass X̄ − Ȳ Erwartungswert µX − µY und Standardabweichung
2 /n + σ 2 /n hat. Im Falle normalverteilter Beobachtungen kann man zeigen, dass
τ = σX
X
Y
qY
2 /n + S 2 /n von X̄ − Ȳ stochastisch unabhängig ist, und die standarder Schätzer τb = SX
X
Y
Y
disierte Größe
X̄ − Ȳ − µX + µY
τb
ist approximativ student-verteilt mit
m = m(nX , nY , σX , σY ) :=
2 /n + σ 2 /n
σX
X
Y
Y
4
2
4
σX /(nX (nX − 1)) + σY /(n2Y (nY − 1))
Freiheitsgraden. Diese Anzahl schätzt man aus den Daten durch m
b = m(nX , nY , SX , SY ) und
−1
ersetzt in den Waldschen Konfidenzschranken Φ (β) durch tm;β
b .
5.4
Konfidenzbereiche für eine Wahrscheinlichkeit
In diesem Abschnitt betrachten wir einen unbekannten Parameter p ∈ [0, 1], für den wir Vertrauensschranken berechnen wollen. Dabei stützen wir uns auf stochastisch unabhängige Beobachtungen X1 , X2 , . . . , Xn mit
P (Xi = 1) = p
und
P (Xi = 0) = 1 − p.
Hier zwei Beispiele für diese Situation:
• Sei p der relative Anteil von Wählern einer Partei ABC. Im Vorfeld einer Wahl werden n
Wahlberechtigte rein zufällig ausgewählt und befragt. Wir setzen Xi gleich Eins, wenn die i–te
befragte Person Partei ABC wählt, und sonst gleich Null.
• Sei p die Wahrscheinlichkeit, dass ein technisches Gerät unter bestimmten Bedingungen ausfällt.
In einer Testserie lässt man n solche Geräte laufen, und Xi gibt an, ob das i–te Gerät ausfällt oder
nicht.
Bildet man aus den Daten die Summe
Y :=
n
X
i=1
Xi ,
170
KAPITEL 5. KONFIDENZBEREICHE
dann ist Y binomialverteilt mit Parametern n und p, das heißt,
n k
P (Y = k) =
p (1 − p)n−k für k = 0, 1, . . . , n;
k
siehe Kapitel 3. Ein naheliegender Schätzer für p ist dann pb := Y /n, und hierfür gilt:
p
p(1 − p)
√
.
E(b
p) = p und Std(b
p) =
n
Für die Konstruktion von Konfidenzbereichen für p gibt es verschiedene Ansätze, darunter:
• Walds Methode,
• Wilsons Methode,
• exakte Methoden (z.B. von Clopper–Pearson, Sterne oder Casella).
Aus Zeitgründen behandeln wir nur die ersten beiden Ansätze. Für die exakten Methoden gibt es
keine geschlossenen Formeln, sondern man ist auf entsprechende Computerprogramme angewiesen.
5.4.1
Walds Methode
Wenn die Zahl np(1 − p) hinreichend groß ist, sagen wir, größer oder gleich Fünf, dann ist pb
p
√
näherungsweise normalverteilt mit Mittelwert p und Standardabweichung p(1 − p)/ n. Nun
p
√
schätzen wir letztere durch pb(1 − pb)/ n und erhalten das approximative (1 − α)–Vertrauensintervall
"
#
p
pb(1 − pb) −1
√
pb ±
(5.5)
Φ (1 − α/2) .
n
Dies ist eine Standardmethode, die in vielen Lehr– und Handbüchern propagiert wird. Man kann
sich einigermaßen auf sie verlassen, wenn nb
p(1 − pb) ≥ 5.
Übrigens kann man dieses Konfidenzintervall (fast) als Spezialfall der Z–Konfidenzintervalle für
einen Mittelwert auffassen. Denn p = E(Xi ) und pb = X̄. Außerdem kann man hier zeigen, dass
die Stichprobenstandardabweichung S gegeben ist durch
r
n
pb(1 − pb).
S =
n−1
Von daher könnte man im obigen Vertrauensintervall den Faktor Φ−1 (1 − α/2) durch
r
n
t
n − 1 n−1;1−α/2
ersetzen. Dies würde die Zuverlässigkeit etwas erhöhen, aber dennoch gibt es Schwierigkeiten,
wenn p bzw. pb nahe an Null oder Eins ist.
5.4.2
Wilsons Methode
Die Tatsache, dass pb bei großem np(1 − p) approximativ normalverteilt ist, beinhaltet, dass
p
P |b
p − p| ≤ c p(1 − p) ≈ 1 − α,
5.4. KONFIDENZBEREICHE FÜR EINE WAHRSCHEINLICHKEIT
wobei
c :=
171
Φ−1 (1 − α/2)
√
.
n
p
Die Ungleichung |b
p − p| ≤ c p(1 − p) kann man nach p auflösen. Sie ist erfüllt genau dann,
wenn p in dem Intervall
"
#
p
c pb(1 − pb) + c2 /4
pb + c2 /2
±
(5.6)
1 + c2
1 + c2
liegt; siehe Übungen. Dieses Intervall ist Wilsons Verfeinerung von Walds Konfidenzintervall
(5.5). Vernachlässigt man in (5.6) alle Terme c2 , dann erhält man wieder das Intervall (5.5). Mit
numerischen Rechnungen kann man zeigen, dass Wilsons Methode wesentlich zuverlässiger ist
als die klassische.
Ist man ausschließlich an einer unteren oder oberen Vertrauensschranke für p interessiert, dann
sollte man
q
0
2
c pb(1 − pb) + c0 2 /4
pb + c0 /2
−
(5.7)
1 + c0 2
1 + c0 2
bzw.
c0 2 /2
pb +
1 + c0 2
c0
+
q
pb(1 − pb) + c0 2 /4
1 + c0 2
(5.8)
berechnen, wobei
c0 :=
Φ−1 (1 − α)
√
.
n
Auch bei diesen Methoden empfehlen wir zu prüfen, ob nb
p(1−b
p) ≥ 5. Ist diese Ungleichung nicht
erfüllt, sollte man mit Hilfe entsprechender Software exakte Konfidenzintervalle bzw. -schranken
bestimmen.
p
p(1 − p).
Illustration. Abbildung 5.1 zeigt für n = 30 und α h= 0.05 die Kurven
p
→
7
p
±
c
i
p
Für einzelne Zahlen p ∈ (0, 1) werden die Intervalle p ± c p(1 − p) als vertikale Linien gezeichnet. Außerdem sieht man für einzelne Schätzwerte pb ∈ (0, 1) die entsprechenden Konfidenzintervalle (5.6) als horizontale Linien.
Beispiel 5.10 (Umfrage vor einer Abstimmung). Sei p der relative Anteil von Befürwortern einer
Initiative. Angenommen, n = 300 Wahlberechtigte werden befragt, und hiervon sind Y = 171
für die Initiative. Um ein approximatives 95%–Vertrauensintervall für p zu berechnen, benötigen
√
wir pb = 171/300 = 0.57, Φ−1 (1 − α/2) = Φ−1 (0.975) = 1.96 und c = 1.96/ 300 ≈ 0.1132.
Hieraus ergibt sich nach Formel (5.6) das Vertrauensintervall [0.5134, 0.6248]. Wir können also mit einer Sicherheit von ca. 95% davon ausgehen, dass zwischen 51.3 und 62.5 Prozent der
Wahlberechtigten die Initiative befürworten.
Hätte man stattdessen n = 2000 Personen befragt und darunter Y = 1140 Befürworter gefunden,
√
was den gleichen Schätzwert pb wie oben ergibt, dann ergäbe sich mit c = 1.96/ 2000 ≈ 0.0438
das Vertrauensintervall [0.5482, 0.5915], was deutlich kürzer ist als das erstgenannte.
172
KAPITEL 5. KONFIDENZBEREICHE
1
0.9
0.8
geschaetztes p
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
wahres p
Abbildung 5.1: Wilsons Methode
Beispiel 5.11 (Rauchen). Sei p der relative Anteil von Rauchern unter den Schweizer Studenten
(männl.). Bei einer Befragung von n = 145 Studenten fanden sich Y = 45 Raucher. Dies liefert
den Schätzwert pb = 45/145 ≈ 0.31. Um ein 90%–Vertrauensintervall für p zu berechnen, benöti√
√
gen wir c = Φ−1 (0.95)/ 145 = 1.645/ 145 ≈ 0.1366, und Formel (5.6) liefert das Intervall
[0.2408, 0.3897]. Mit einer Sicherheit von ca. 90% behaupten wir nun, dass der relative Anteil von
Rauchern zwischen 24 und 39 Prozent liegt.
Beispiel 5.12 (“mietfreie” Studierende). Sei p der relative Anteil von Studierenden der Universität
Bern, die bei Angehörigen umsonst wohnen. Um zu unterstreichen, dass dieser Anteil recht groß
ist, möchten wir eine untere 95%–Vertrauensschranke für p berechnen. Bei einer Befragung von
n = 258 Studierenden fanden sich Y = 129 “mietfreie” Personen. Dies liefert den Schätzwert
√
pb = 0.5. Mit c0 = Φ−1 (0.95)/ 258 ≈ 0.1024 ergibt sich aus Formel (5.7) die untere approx.
95%–Vertrauensschranke 0.4491. Wir behaupten also mit einer Sicherheit von ca. 95%, dass mehr
als 44,9 % aller Berner Studierenden bei Angehörigen umsonst wohnen.
5.5
Konfidenzbereiche für Quantile
Wir betrachten wieder ein numerisches Merkmal mit Stichprobenwerten X1 , X2 , . . . , Xn . Die
empirische Verteilungsfunktion dieser n Beobachtungen ist gegeben durch
Fb(r) := #{i : Xi ≤ r}/n.
5.5. KONFIDENZBEREICHE FÜR QUANTILE
173
Wir deuten Fb als Schätzer für eine theoretische Verteilungsfunktion F . Im Falle von Stichproben
aus einer Grundgesamtheit ist F (r) der relative Anteil aller Individuen in der Grundgesamtheit
mit Merkmalswert kleiner oder gleich r. Allgemein ist
F (r) = P (Xi ≤ r).
Ein Problem beim Schätzen von Mittelwert und Standardabweichung aus einer Stichprobe ist,
dass sowohl X̄ als auch S empfindlich auf “Ausreißer” in den Daten reagieren. Schon ein einziger
extremer oder fehlerhaft übertragener Wert Xi kann die Ergebnisse beliebig stark verändern. Außerdem ist bei unsymmetrischen, beispielsweise rechtsschiefen Verteilungen unklar, ob der Mittelwert überhaupt ein sinnvoller Lageparameter ist.
Als Alternative zum Mittelwert bieten sich Quantile an. Für eine Zahl 0 < γ < 1 nennt man eine
Zahl qγ ein γ–Quantil der Verteilungsfunktion F bzw. der Verteilung von X1 , wenn
≤ γ für r < qγ ,
F (r)
≥ γ für r ≥ qγ .
Eine andere Umschreibung ist, dass
P (Xi < qγ ) ≤ γ ≤ P (Xi ≤ qγ ).
Wenn die Verteilung von X1 durch eine Dichtefunktion f = F 0 beschrieben wird und die Menge
{x : f (x) > 0} ein Intervall ist, sind ihre Quantile eindeutig definiert. Abbildung 5.2 zeigt eine
theoretische Verteilungsfunktion F und das entsprechene 50%–Quantil q0.5 .
1
0.5
0
Abbildung 5.2: Eine Verteilungsfunktion samt ihrem Median.
5.5.1
Punktschätzung
Ein naheliegender Schätzer für das Quantil qγ ist das Stichprobenquantil
( X(nγ) + X(nγ+1) /2 falls nγ ganzzahlig ist,
Qγ :=
X(dnγe)
sonst.
Dabei sind X(1) ≤ X(2) ≤ · · · ≤ X(n) die Ordnungsstatistiken der Beobachtungen Xi .
174
KAPITEL 5. KONFIDENZBEREICHE
Illustration. In Abbildung 5.3 zeigen wir für vier simulierte Stichproben vom Umfang n = 70
jeweils die theoretische Verteilungsfunktion F und ihren Median q0.5 sowie die empirische Verteilungsfunktion Fb und den Stichprobenmedian Q0.5 = (X(35) + X(36) )/2. Am unteren Bildrand
sieht man außerdem einen Linienplot der Beobachtungen Xi .
Stichproben−0.5−Quantil (n = 70)
1
1
0.5
0.5
0
0
Stichproben−0.5−Quantil (n = 70)
1
1
0.5
0.5
0
0
Stichproben−0.5−Quantil (n = 70)
Stichproben−0.5−Quantil (n = 70)
Abbildung 5.3: Wahre und empirische Verteilungsfunktion, wahrer und empirischer Median.
5.5.2
Vertrauensbereiche
Manche Softwarepakete verwenden nun eine Variante von Walds Methode und berechnen Vertrauensintervalle der Form
Qγ ± τb Φ−1 (1 − α/2)
für qγ . Dabei ist τb ein Schätzwert für einen schwierig zu bestimmenden Parameter τ (F, γ) . . .
Dies ist völlig unnötig, da es eine relativ einfache exakte Methode gibt, die sich bei wachsendem
n nur wenig von der Waldschen Methode unterscheidet, und die wir nun behandeln.
Der Punktschätzer Qγ ist entweder eine einzelne Ordnungsstatistik oder das Mittel zweier aufeinanderfolgender Ordnungsstatistiken. Nun machen wir für unser Konfidenzintervall den Ansatz
h
i
X(k) , X(`)
(5.9)
5.5. KONFIDENZBEREICHE FÜR QUANTILE
175
mit festen Indizes 1 ≤ k < ` ≤ n, die noch zu bestimmen sind.
Jetzt definieren wir noch X(0) := −∞ und X(n+1) := ∞. Lässt man nun in (5.9) auch k = 0 oder
` = n + 1 zu, dann haben wir auch einen Ansatz für einseitige Konfidenzschranken.
Bei der Festlegung von k und ` hilft folgendes Resultat:
Satz 5.13 Für beliebige Indizes 0 ≤ k < ` ≤ n + 1 ist stets
h
P qγ ∈ X(k) , X(`)
i
`−1 X
n j
≥
γ (1 − γ)n−j .
j
(5.10)
i=k
Gleichheit gilt, falls P (X1 < qγ ) = γ = P (X1 ≤ qγ ).
Bestimmung der Indizes k und ` (exakt). Für vorgegebenes n und γ ∈ (0, 1) sowie eine Risikoschranke α ∈ (0, 1) wählt man Indizes 0 ≤ k < ` ≤ n + 1, so dass die rechte Seite von
(5.10) möglichst nahe an, aber nicht kleiner ist als 1 − α. Die rechte Seite von (5.10) beinhaltet die Wahrscheinlichkeitsgewichte der Binomialverteilung Bin(n, γ). Mit der entsprechenden
Verteilungsfunktion
X n
Fn,γ (c) :=
γ j (1 − γ)n−j
j
j≤c
müssen wir also sicherstellen, dass
Fn,γ (` − 1) − Fn,γ (k − 1) ≥ 1 − α.
(5.11)
• Ist man ausschließlich an einer unteren Schranke für qγ interessiert, dann setzt man ` = n + 1
und bestimmt ein möglichst großes k = k(n, γ, α), so dass noch
Fn,γ (k − 1) ≤ α
(denn Fn,γ (n) = 1).
• Für eine reine obere Schranke setzt man k = 0 und bestimmt ein möglichst kleines ` =
`(n, γ, α), so dass noch
Fn,γ (` − 1) ≥ 1 − α.
• Für ein Konfidenzintervall kann man die Indizes k = k(n, γ, α/2) und ` = `(n, γ, α/2) verwenden.
Illustration. In Abbildung 5.4 zeigen wir noch einmal vier simulierte Stichproben vom Umfang
n = 70 und die resultierenden 95%–Konfidenzintervalle für den Median q0.5 . Hier verwenden wir
die Indizes k(n, γ, α/2) = k(70, 0.5, 0.025) = 27 und `(n, γ, α/2) = `(70, 0.5, 0.025) = 44.
In Abbildung 5.5 betrachten wir Stichproben vom Umfang n = 250. Die Indizes für ein 95%–
Vertrauensintervall sind k = 110 und ` = 141.
176
KAPITEL 5. KONFIDENZBEREICHE
Abbildung 5.4: Vertrauensintervalle für den Median, n = 70.
Bestimmung der Indizes k und ` (approximativ). Im Falle von nγ(1 − γ) ≥ 5 kann man die
Indizes k(n, γ, α) und `(n, γ, α) durch die folgenden Approximationen ersetzen:
j
k
p
kappr. (n, γ, α) := nγ + 1/2 − nγ(1 − γ) Φ−1 (1 − α) ,
(5.12)
l
m
p
`appr. (n, γ, α) := nγ + 1/2 + nγ(1 − γ) Φ−1 (1 − α) .
(5.13)
Dahinter steckt mal wieder der Zentrale Grenzwertsatz: Für eine nach Bin(n, γ) verteilte Zufallsvariable Y ist
c + 1/2 − nγ P (Y ≤ c)
Fn,γ =
= P (Y ≤ c + 1/2) ≈ Φ p
,
P (Y < c + 1)
nγ(1 − γ)
wenn nγ(1 − γ) hinreichend groß ist. (Die Verschiebung um 1/2 erhöht die Approximationsgüte
erheblich.) Somit ist
k − 1/2 − nγ Fn,γ (k − 1) ≈ Φ p
,
nγ(1 − γ)
und die rechte Seite ist kleiner oder gleich α genau dann, wenn
p
p
k ≤ nγ + 1/2 + nγ(1 − γ) Φ−1 (α) = nγ + 1/2 − nγ(1 − γ) Φ−1 (1 − α).
5.5. KONFIDENZBEREICHE FÜR QUANTILE
177
Abbildung 5.5: Vertrauensintervalle für den Median, n = 250.
Analog kann man die Näherungsformel für `(n, γ, α) begründen.
Im wichtigen Spezialfall des Medians (γ = 0.5) kann man noch ausnutzen, dass
`(n, 0.5, α) = n + 1 − k(n, 0.5, α),
`appr. (n, 0.5, α) = n + 1 − kappr. (n, 0.5, α).
Beispiel 5.14 (Monatsmieten Studierender). Wir betrachten die Monatsmiete (in CHF, ohne NK)
von Berner Studierenden, wobei wir nur diejenigen betrachten, welche nicht bei Angehörigen
umsonst wohnen. Um hervorzuheben, wie teuer das Leben in Bern ist, möchten wir eine untere
90%–Vertrauensschranke für den Median q0.5 der Monatsmieten berechnen.
Zur Verfügung steht uns die (reduzierte) Stichprobe der Vorlesungsteilnehmer mit n = 129 Werten
Xi . Der Stichprobenmedian ist Q0.5 = X(65) = 550 CHF. Da nγ(1 − γ) = 129/4 > 5, verlassen
178
KAPITEL 5. KONFIDENZBEREICHE
wir uns nun auf die Approximation (5.12) an k(n, γ, α):
kappr. (n, γ, α) = kappr. (129, 0.5, 0.1)
k
j
p
= 129/2 + 1/2 − 129/4 · 1.2816
= b57.7219c
= 57.
Die gesuchte untere Schranke ist also gleich X(57) = 500 CHF. Wir behaupten also mit einer
Sicherheit von 90%, dass der Median der Monatsmieten für Studenten der Univ. Bern mindestens
500 CHF beträgt.
Angenommen, man hätte sich ein 90%–Konfidenzintervall für q0.5 vorgenommen. Hierfür benötigt
man
kappr. (n, γ, α/2) = kappr. (129, 0.5, 0.05)
k
j
p
= 129/2 + 1/2 − 129/4 · 1.645
= b55.658c
= 55
und `appr. (129, 0.5, 0.05) = 130 − kappr. (129, 0.5, 0.05) = 75. Daraus ergibt sich das Intervall
[X(55) , X(75) ] = [500 CHF, 580 CHF]. Man kann also mit einer Sicherheit von 90% behaupten,
dass der Median der Monatsmieten für Studenten der Univ. Bern zwischen 500 und 580 CHF liegt.
Noch eine andere Fragestellung für das gleiche Datenbeispiel: Um zu illustrieren, wie günstig
die Mieten beispielsweise im Vergleich zum Raum Genf oder Zürich sind, berechnen wir eine
obere 95%–Konfidenzschranke für das 2/3–Quantil q2/3 der Monatsmieten. Wegen nγ(1 − γ) =
129 · 2/9 > 5 verlassen wir uns auch hier auf die approximativen Formeln für `(n, γ, α). Nach
Formel (5.13) ist
`appr. (n, γ, α) = `appr. (129, 2/3, 0.05)
m
l
p
= 129 · 2/3 + 1/2 + 129 · 2/9 · 1.645
= d95.308e
= 96.
Die gesuchte obere Schranke ist also gleich X(96) = 650 CHF. Wir behaupten mit einer Sicherheit
von 95%, dass mindestens 2/3 aller Berner Studierenden höchstens 650 CHF Miete pro Monat
zahlen.
Beispiel 5.15 (Körpergewicht der Damen). Wir betrachten das Körpergewicht der Schweizerinnen im Alter von 18-40 Jahren und behandeln den Teildatensatz der n = 110 Vorlesungsteilnehmerinnen wie eine Zufallsstichprobe aus dieser Grundgesamtheit. Auf Grund von Gerüchten, dass
die Damen immer schwerer werden, möchten wir eine untere 90%–Vertrauensschranke für den
5.5. KONFIDENZBEREICHE FÜR QUANTILE
179
Median q0.5 des Körpergewichts berechnen. Dafür benötigen wir
kappr. (n, γ, α) = kappr. (110, 0.5, 0.1)
k
j
p
= 110/2 + 1/2 − 110/4 · 1.2816
= b48.779c
= 48.
Die gesuchte untere Schranke ist also X(48) = 56 kg. Wir behaupten nun mit einer Sicherheit
von 90%, dass mindestens 50% aller Schweizerinnen im Alter von 18-40 Jahren mindestens 56 kg
wiegen.
Beweis von Satz 5.13. Es ist
P qγ 6∈ [X(k) , X(`) ] = P qγ < X(k) oder X(`) < qγ
= P qγ < X(k) + P X(`) < qγ
= P (höchstens k − 1 Beob. sind ≤ qγ )
+ P (mindestens ` Beob. sind < qγ )
= P (Y1 ≤ k − 1) + P (Y2 ≥ `),
wobei
Y1 := #{i : Xi ≤ qγ }
und
Y2 := #{i : Xi < qγ }.
Diese Zufallsvariablen Y1 , Y2 sind binomialverteilt mit Parametern n und p1 := P (X1 ≤ qγ ) bzw.
p2 := P (X1 < qγ ). Nach Definition von qγ ist
p1 ≥ γ ≥ p2 .
Hieraus kann man ableiten, dass
X n
P (Y1 ≤ k − 1) ≤
γ j (1 − γ)n−j ,
j
j≤k−1
X n
P (Y2 ≥ `) ≤
γ j (1 − γ)n−j ,
j
j≥`
mit Gleichheit, falls p1 = γ = p2 . Denn auf der linken Seite steht Fn,p1 (k−1) bzw. 1−Fn,p2 (`−1),
und in einem späteren Abschnitt über Binomialtests werden wir zeigen, dass Fn,p (c) monoton
fallend ist in p ∈ [0, 1]. Folglich ist
P qγ ∈ [X(k) , X(`) ] = 1 − P qγ 6∈ [X(k) , X(`) ]
X n
X n
j
n−j
≥ 1−
γ (1 − γ)
−
γ j (1 − γ)n−j
j
j
j≤k−1
=
`−1 X
j=k
mit Gleichheit, falls p1 = γ = p2 .
j≥`
n j
γ (1 − γ)n−j
j
2
180
KAPITEL 5. KONFIDENZBEREICHE
Kapitel 6
Tests
6.1
Grundideen des Testens an Hand von Fishers exaktem Test
Beispiel 2.11 (Bankmanager, Forts.) Wir greifen noch einmal das Beispiel der 48 BankmanagerInnen auf. Diese sollten für eine fiktive Person entscheiden, ob sie in eine bestimmte Position
befördert wird oder nicht. Die 48 Personalakten wurden rein zufällig verteilt; in vierundzwanzig
Fällen handelte es sich um die Akte eines Herrn, in 24 Fällen um die einer Dame. Die Vermutung
war, dass Männer gegenüber Frauen bevorzugt würden. Die Ergebnisse der Beurteilung, dargestellt als Vierfeldertafel:
Beförderung keine Beförd.
Kandidat
21
3
24
Kandidatin
14
10
24
35
13
48
Belegen diese Daten die Behauptung, dass die 48 ManagerInnen voreingenommen sind? Hier sind
zwei mögliche Standpunkte:
Argument 1. “Bei gerechter Beurteilung sollten in den Gruppen 1 und 2 etwa gleichviele Kandidaten befördert beziehungsweise nicht befördert werden. Tatsächlich ist der Prozentsatz von
Beförderungen in Gruppe 1 (87, 5%) deutlich höher als in Gruppe 2 (58, 3%). Dies zeigt, dass
Männer gegenüber Frauen bevorzugt wurden!”
Argument 2. “Bei den 48 ManagerInnen handelt es sich um Personen mit unterschiedlichen Ansprüchen. Hiervon sind 35 der Ansicht, die Kandidatin oder der Kandidat sollte befördert werden,
und 13 sind gegenteiliger Meinung. Dabei spielt das Geschlecht der zu beurteilenden Person keine
Rolle. Von den 35 ManagerInnen mit positivem Urteil landeten zufällig 21 in Gruppe 1 und 14 in
Gruppe 2. Anhand der vorgelegten Daten kann man nichts beweisen.”
Das zweite Argument ist vielleicht “politisch unkorrekt” aber durchaus richtig. Beweisen kann
man an Hand der Daten nichts. Dieser Hinweis ist jedoch wenig hilfreich, denn in den wenigsten
Situationen kann man sich auf absolut beweisbare Tatsachen verlassen. Vielmehr muss man oft
Entscheidungen fällen, von deren Richtigkeit man mehr oder weniger überzeugt ist. Wenn wir
im vorliegenden Beispiel ein gewisses Risiko einer falschen Unterstellung eingehen, können wir
vielleicht die Voreingenommenheit der 48 ManagerInnen statistisch nachweisen.
181
182
KAPITEL 6. TESTS
Betrachten wir nochmals Argument 2, welches besagt, dass alle 48 ManagerInnen objektiv urteilten und sich die Unterschiede zwischen den Gruppen zufällig ergaben. In der Sprache der Statistik
beschreibt dieses Argument eine Nullhypothese, und wir unterstellen bis auf weiteres, dass diese
zutrifft. Wir haben also 35 Personen, welche für eine Beförderung plädieren, und 13 Personen,
welche dagegen sind. Die Vierfeldertafel hat dann stets die folgende Gestalt:
Gruppe 1
Gruppe 2
+
T
35 − T
35
−
24 − T
−11 + T
13
24
24
48
Wir konzentrieren uns hier auf die zufällige Zahl T von Beförderungen in Gruppe 1, die zwischen
11 und 24 liegen muss. Diese Zufallsgröße ist hypergeometrisch verteilt mit Parametern 48, 24,
35; siehe Kapitel 3. Das heißt, für k ∈ {11, 12, . . . , 24} ist
. . 35
13
48
24
24
48
P [T = k] =
=
.
k
24 − k
24
k
35 − k
35
Abbildung 6.1 zeigt ein Stabdiagramm dieser Wahrscheinlichkeiten. Nun suchen wir einen geeigneten Schwellenwert c, um im Falle von T > c zu behaupten, die Nullhypothese sei falsch. Dazu
wählen wir zunächst eine Schranke α ∈ (0, 1) für die Wahrscheinlichkeit, den ManagerInnen
Unrecht zu tun. Dann definieren wir den kritischen Wert
n
o
c(α, 48, 24, 35) := min c ∈ {11, . . . , 24} : P [T > c] ≤ α
n
o
= min c ∈ {11, . . . , 24} : P [T ≤ c] ≥ 1 − α .
Dabei erhält man die Zahlen P [T ≤ c] durch Summation von Gewichten P [T = k], nämlich
Pc
P [T ≤ c] =
k=11 P [T = k]. Im Falle von T > c(α, 48, 24, 35) behaupten wir mit einer
Sicherheit von 1−α, dass die ManagerInnen nicht objektiv urteilten. Denn unter der Nullhypothese
ist die Wahrscheinlichkeit, dass T > c(α, 48, 24, 35), höchstens gleich α. Im Falle von T ≤
c(α, 48, 24, 35) halten wir den Mund und die Nullhypothese für möglich.
Zahlenbeispiel. Sei α = 5%. Die Zahlen P [T ≤ c] sind wie folgt:
c
P [T ≤ c]
17
0.500
18
0.742
19
0.904
20
0.976
21
0.996
22
1.000
23
1.000
24
1.000
Der kritische Wert ist also c(5%, 48, 24, 35) = 20. Da im konkreten Experiment T = 21 beobachtet wurde, behaupten wir tatsächlich mit einer Sicherheit von 95%, dass die Nullhypothese nicht
zutrifft!
Ob diese Behauptung zutrifft oder nicht, werden wir leider nie erfahren. Wenn aber bei vielen
Fortbildungsveranstaltungen ein solches Experiment durchgeführt wird, und wenn es viele Gruppen von objektiv urteilenden Personen gibt, dann werden wir höchstens 100 · α Prozent dieser
Gruppen falsch beurteilen.
Beispiel 2.12 (Med. gegen Hautausschlag, Forts.) In einer randomisierten Blindstudie wurden
30 Personen mit einem bestimmten Hautausschlag rein zufällig in zwei Gruppen eingeteilt. Per-
6.1. GRUNDIDEEN DES TESTENS AN HAND VON FISHERS EXAKTEM TEST
183
Abbildung 6.1: Hypothetische Verteilung der Teststatistik T .
sonen in Gruppe 1 erhielten ein neues Medikament, Personen in Gruppe 2 ein Placebo. Hier noch
einmal die Heilungserfolge als Vierfeldertafel:
Medikament
Placebo
Besserung
12
5
17
keine Bess.
3
10
13
15
15
30
Hier möchte man die Arbeitshypothese, dass das neue Medikament wirkt, nachweisen. Dazu betrachten wir auch hier die Nullhypothese, dass das Medikament keinerlei Wirkung hat. Unter dieser Nullhypothese gibt es 17 spontane Besserungen und 13 Misserfolge. Die Vierfeldertafel hat
dann die Form
Besserung keine Bess.
Medikament
T
15 − T
15
Placebo
17 − T
T −2
15
17
13
30
und der Eintrag T ist verteilt nach Hyp(30, 15, 17). Das heißt, für k ∈ {2, 3, . . . , 15} ist

. 30
 17 13
k
15−k . 15 ,
P (T = k) =
30
 15 15
k
17−k
17 .
Auch hier wählen wir für ein vorab gewähltes α ∈ (0, 1) einen möglichst kleinen kritischen Wert
c = c(α, 30, 15, 17), so dass P [T > c] ≤ α, was gleichbedeutend ist mit P [T ≤ c] ≥ 1 − α. Hier
eine Tabelle dieser Wahrscheinlichkeiten P [T ≤ c]:
c
P [T ≤ c]
8
0.500
9
0.769
10
0.930
11
0.987
12
0.999
≥ 13
> 0.999
184
KAPITEL 6. TESTS
Speziell für α = 0.05 ergibt sich der kritische Wert c(0.05, 30, 15, 17) = 11. Da bei den konkreten Daten T = 12 > c, behaupten wir mit einer Sicherheit von 1 − α = 95%, dass das neue
Medikament positiv wirkt.
Beide Beispiele sind Spezialfälle des folgenden Verfahrens.
Fishers exakter Test
Die hier beschriebene Methode ist Fishers exakter Test. R.A. Fisher selbst konzipierte diesen Test
ausschließlich für die Auswertung randomisierter Studien. Er wird aber auch in anderen Situationen verwendet. Allgemein betrachtet man eine Vierfeldertafel an Hand zweier binärer Merkmale
X ∈ {x1 , x2 } und Y ∈ {y1 , y2 }:
X = x1
X = x2
Y = y1
H1,1
H2,1
H+,1
Y = y2
H1,2
H2,2
H+,2
H1,+
H2,+
n
Die Nullhypothese lautet, grob gesagt, dass zwischen den Merkmalen X und Y kein echter Zusammenhang besteht. Genauer gesagt, gehen wir davon aus, dass unter der Nullhypothese die
bedingte Verteilung von H1,1 , gegeben die Zeilen– und Spaltensummen Hi,+ bzw. H+,j , eine
hypergeometrische Verteilung mit Parametern n, H1,+ und H+,1 ist. Das heißt, bei gegebenen
Zeilen– und Spaltensummen ist
P (H1,1 = k) =
.
.
H1,+
H2,+
n
H+,1
H+,2
n
=
.
k
H+,1 − k
H+,1
k
H1,+ − k
H1,+
Die möglichen Werte für k reichen von max(0, H+,1 + H1,+ − n) bis min(H1,+ , H+,1 ).
Rechtsseitige Version von Fishers exaktem Test. Angenommen, die Arbeitshypothese lautet,
dass Fälle mit X = x1 tendenziell eher zu Y = y1 neigen und X = x2 eher mit Y = y2 einhergeht. Um die Nullhypothese zugunsten dieser Arbeitshypothese abzulehnen, wählt man einen
möglichst kleinen Schwellenwert c(α) = c(α, n, H1,+ , H+,1 ), so dass H1,1 diesen Wert unter der
Nullhypothese mit Wahrscheinlichkeit höchstens α überschreitet. Mit anderen Worten,
n
o
c(α, n, H1,+ , H+,1 ) = min c : Fn,H1,+ ,H+,1 (c) ≥ 1 − α .
Dabei ist Fn,H1,+ ,H+,1 die Verteilungsfunktion von Hyp(n, H1,+ , H+,1 ), also
X H1,+ n − H1,+ . n Fn,H1,+ ,H+,1 (c) =
.
k
H+,1 − k
H+,1
k≤c
(Für diese Verteilungsfunktionen gibt es umfangreiche Tabellen bzw. Computerprogramme.) Im
Falle von H1,1 > c(α) behauptet man mit einer Sicherheit von 1 − α, dass die Nullhypothese nicht
zutrifft.
6.1. GRUNDIDEEN DES TESTENS AN HAND VON FISHERS EXAKTEM TEST
185
Ein P–Wert. Eine alternative Beschreibung dieses Tests verwendet einen sogenannten P–Wert.
Genauer gesagt, betrachten wir hier den
X H1,+ n − H1,+ . n rechtss. P–Wert :=
H+,1 − k
H+,1
k
k≥H1,1
=
1 − Fn,H1,+ ,H+,1 (H1,1 − 1).
Und zwar ist H1,1 > c(α, n, H1,+ , H+,1 ) genau dann, wenn dieser P–Wert kleiner oder gleich α
ist.
Statistiksoftware liefert typischerweise P–Werte. Dies hat den Vorteil, dass Benutzer nicht vorab
ihren Wert α spezifizieren müssen. Leider wird der P–Wert oft fehlinterpretiert als die “Wahrscheinlichkeit, dass die Nullhypothese zutrifft”. Diese Deutung ist Unfug. Der P–Wert ist eine
Hilfsgröße, mit deren Hilfe beurteilt wird, wie plausibel die Nullhypothese ist.
Linksseitige Version von Fishers exaktem Test. Angenommen, die Arbeitshypothese lautet,
dass Fälle mit X = x1 tendenziell eher zu Y = y2 neigen und X = x2 eher mit Y = y1 einhergeht. Natürlich könnte man einfach die Kategorien x1 und x2 oder die Kategorien y1 und y2
vewrtauschen und dann den obigen rechtsseitigen Test durchführen. Im Hinblick auf den nachfolgenden zweiseitigen Test beschreiben wir aber auch eine linksseitige Variante. Wir wählen einen
möglichst großen Schwellenwert c0 (α) = c0 (α, n, H1,+ , H+,1 ), so dass H1,1 diesen Wert unter
der Nullhypothese mit Wahrscheinlichkeit höchstens α unterschreitet. Mit anderen Worten,
n
o
c0 (α, n, H1,+ , H+,1 ) = max c : Fn,H1,+ ,H+,1 (c − 1) ≤ α .
Im Falle von H1,1 < c0 (α) behauptet man mit einer Sicherheit von 1 − α, dass die Nullhypothese
nicht zutrifft.
Ein P–Wert. Ein entsprechender P–Wert ist gegeben durch
X H1,+ n − H1,+ . n linkss. P–Wert :=
k
H+,1 − k
H+,1
k≤H1,1
=
Fn,H1,+ ,H+,1 (H1,1 ).
Und zwar ist H1,1 < c0 (α, n, H1,+ , H+,1 ) genau dann, wenn dieser P–Wert kleiner oder gleich α
ist.
Zweiseitige Version von Fishers exaktem Test. Die Arbeitshypothese lautet einfach, dass es
zwischen X und Y einen systematischen Zusammenhang gibt; es gibt aber keine Vermutung
über die Richtung des Zusammenhangs. Deshalb achtet man darauf, ob der Tabelleneintrag H1,1
verdächtig groß oder verdächtig klein ist. (Ebensogut könnte man einen anderen der vier Tabelleneinträge betrachten.) Daher kombiniert man die beiden obigen Tests, ersetzt allerdings α durch
α/2. Das heißt, man behauptet mit einer Sicherheit von 1 − α, dass die Nullhypothese falsch ist
und ein echter Zusammenhang zwischen X und Y besteht, sofern
H1,1 < c0 (α/2)
oder H1,1 > c(α/2).
186
KAPITEL 6. TESTS
P–Wert. Auch diesen zweiseitigen Test kann man über einen P–Wert beschreiben, nämlich
zweis. P–Wert := 2 · min(links. P–Wert, rechtss. P–Wert)
=
2 · min Fn,H1,+ ,H+,1 (H1,1 ), 1 − Fn,H1,+ ,H+,1 (H1,1 − 1) .
Dieser P–Wert ist kleiner oder gleich α genau dann, wenn H1,1 < c0 (α/2) oder H1,1 > c(α/2).
Beispiel 6.1 (Geschlecht und Rauchen) Sei X das Geschlecht einer Person, und Y gebe an, ob
sie raucht oder nicht. Unsere Stichprobe der n = 261 Vorlesungsteilnehmenden ergibt folgende
Tabelle:
Raucher Nichtr.
Herren
45
100
145
Damen
45
71
116
90
171
261
Um kritische Werte zu bestimmen, benötigen wir Werte der Verteilungsfunktion F261,145,90 . Hier
eine unvollständige Tabelle:
c
F261,145,90 (c)
38
0.001
39
0.003
40
0.006
41
0.013
42
0.025
43
0.044
44
0.075
c
54
0.881
55
0.926
56
0.956
57
0.976
58
0.987
59
0.994
60
0.997
F261,145,90 (c)
Wenn wir wieder einmal mit der Schranke α = 0.05 arbeiten, ergeben sich die kritischen Werte
c0 = 43 und c = 57. Im Falle von H1,1 < 43 könnten wir also mit einer Sicherheit von 95%
behaupten, dass der relative Anteil von Rauchern unter den Männern geringer ist als unter den
Frauen. Im Falle von H1,1 > 57 könnten wir mit einer Sicherheit von 95% behaupten, dass es
sich umgekehrt verhält. Da bei unseren konkreten Daten H1,1 im Intervall [c0 , c] liegt, können wir
keine Aussage über den Zusammenhang zwischen Geschlecht und Rauchgewohnheiten machen.
Der entsprechende P–Wert ist hier gleich
2 · min(F261,145,90 (45), 1 − F261,145,90 (44)) = 2 · min(0.1192, 0.9251) = 0.2384.
6.2
Das allgemeine Prinzip statistischer Tests
In vielen Anwendungen möchte man aufgrund von Daten D ∈ D einen bestimmten “Effekt” nachweisen, beispielsweise den Erfolg oder Misserfolg einer neuen medizinischen Behandlung. Man
spricht auch von einer Arbeitshypothese. Oftmals kann man diese Arbeitshypothese nur indirekt
nachweisen. Zu diesem Zweck formuliert man eine Nullhypothese Ho : Man betrachtet die Daten
als Zufallsvariable mit Werten in D und beschreibt mögliche Wahrscheinlichkeitsverteilungen von
D unter der Annahme, dass es den besagten Effekt nicht gibt. Nun muss man anhand der Daten
entscheiden, ob man die Nullhypothese ablehnt (und damit an der Arbeitshypothese festhält) oder
nicht. Eine solche Entscheidungsregel nennt man einen statistischen Test.
Mitunter hat man auch für den Fall, dass der besagte Effekt vorhanden ist, explizite statistische
Modelle für die Daten D. Man spricht dann auch von Alternativhypothesen. In solchen Situationen
6.3. DER χ2 –TEST FÜR KONTINGENZTAFELN
187
bietet es sich an, nicht nur einen statistischen Test durchzuführen, sondern den Effekt mithilfe von
Konfidenzschranken genauer zu quantifizieren.
Bei der Durchführung eines statistischen Tests riskiert man immer einen der folgenden zwei Fehler:
Fehler der ersten Art. Man lehnt die Nullhypothese ab, obwohl sie zutrifft.
Fehler der zweiten Art. Man lehnt die Nullhypothese nicht ab, obwohl sie falsch ist.
Üblicherweise legt man eine obere Schranke α ∈ (0, 1) für die Wahrscheinlichkeit eines Fehlers
der ersten Art fest. Diese Schranke ist das sogenannte Signifikanzniveau. Gängige Werte für α
sind 0.05 und 0.01. Dann wählt man einen kritischen Bereich K(α) ⊂ D, so dass gilt:
P [D ∈ K(α)] ≤ α
unter Ho .
(6.1)
Fallen die Daten D in diesen kritischen Bereich K(α), so behauptet man mit einer Sicherheit von
1 − α, die Nullhypothese sei falsch. Anderenfalls hält man die Nullhypothese für möglich.
In einer einzelnen Anwendung kann man nicht sagen, ob und welchen Fehler man begangen hat.
Wenn man aber in sehr vielen (unabhängigen) Situationen einen Test mit Signifikanzniveau α
anwendet, so begeht man in höchstens 100α Prozent aller Fälle einen Fehler der ersten Art.
Fishers exakter Test ist ein erstes Beispiel für ein solches Verfahren. Beim einseitigen Test besteht
der kritische Bereich K(α) aus allen Vierfeldertafeln D = (Hi,j )2i,j=1 , so dass gilt:
H1,1 > c(α, n, H1,+ , H+,1 ).
Beim zweiseitigen Test besteht K(α) aus allen Vierfeldertafeln mit
H1,1 < c0 (α/2, n, H1,+ , H+,1 )
6.3
oder H1,1 > c(α/2, n, H1,+ , H+,1 ).
Der χ2 –Test für Kontingenztafeln
Nun betrachten wir zwei kategorielle Merkmale X ∈ {x1 , . . . , xK } und Y ∈ {y1 , . . . , yL } und
wollen gegebenenfalls die Arbeitshypothese nachweisen, dass zwischen diesen beiden Merkmalen
ein echter Zusammenhang besteht. Die Nullhypothese lautet, dass kein echter Zusammenhang
besteht.
In dem Spezialfall, dass wir eine Zufallsstichprobe aus einer Population betrachten, sei (X, Y )
das Merkmalspaar eines zufällig herausgegriffenen Individuums. Dann lautet die Nullhypothese:
Die beiden Zufallsvariablen X und Y sind stochastisch unabhängig. Das heißt, für die K · L
Wahrscheinlichkeiten
pi,j := P (X = xi , Y = yj )
mit 1 ≤ i ≤ K und 1 ≤ j ≤ L gilt die Gleichung
pi,j = pi,+ p+,j .
188
Dabei ist pi,+ :=
KAPITEL 6. TESTS
P
j
pi,j = P (X = xi ) und p+,j =
P
i pi,j
= P (Y = yj ).
Allgemein kann man die Nullhypothese, dass zwischen X– und Y –Werten kein echter Zusammenhang besteht, wie folgt beschreiben:
Nullhypothese Ho : Die Originaldatenmatrix

X1
 X2

 ..
 .
Y1
Y2
..
.





Xn Yn
ist genauso verteilt wie





X1
X2
..
.
YΠ(1)
YΠ(2)
..
.



.

Xn YΠ(n)
Dabei ist (Π(1), Π(2), . . . , Π(n)) eine rein zufällige und von den Daten Xi , Yj unabhängige Permutation von (1, 2, . . . , n).
Für dieses Testproblem betrachten wir die χ2 –Teststatistik aus Abschnitt 2.4.1:
T :=
K X
K X
L
L
2
X
X
Hi,j
(Hi,j − H̄i,j )2
=
− n.
H̄
H̄
i,j
i,j
i=1 j=1
i=1 j=1
Dabei ist Hi,j die Anzahl aller Beobachtungen mit (X, Y ) = (xi , yj ), H̄i,+ und H+,j sind die
entsprechenden Zeilen– bzw. Spaltensummen der Kontingenztafel, und H̄i,j = Hi,+ H+,j /n. Man
kann zeigen, dass diese Teststatistik unter der Nullhypothese und bei gegebenen Zeilen– und Spaltensummen approximativ nach
χ2(K−1)(L−1)
verteilt ist, wenn das Minimum der Hilfsgrößen H̄i,j hinreichend groß ist. Auch hier empfehlen
wir Überprüfung der Faustregel, dass mini,j H̄i,j ≥ 5. Wir verwerfen also die Nullhypothese auf
dem Niveau α, wenn
T ≥ χ2(K−1)(L−1);1−α .
Dies ist eine Verfeinerung der groben Faustregel, die bereits in Abschnitt 2.4.1 eingeführt wurde.
Ein entsprechender (rechtsseitiger) P–Wert ist hier gegeben durch
P–Wert := 1 − F(K−1)(L−1) (T ).
Wenn die Faustregel nicht erfüllt ist, sollte man einen sogenannten “Permutationstest” durchführen
(lassen).
Zusammenhang und Confounding. Wenn der hier beschriebene Test die Nullhypothese verwirft, weiß man noch nichts über Art und Richtung des Zusammenhangs! Man kann den Daten
auch nicht ansehen, ob sich X ursächlich auf Y auswirkt oder umgekehrt. Denkbar wäre beispielsweise, dass es ein drittes Merkmal gibt (z.B. Vorliegen/Nichtvorliegen eines bestimmten
6.4. BINOMIALTESTS
189
genetischen Faktors), welches sich sowohl auf X als auch auf Y auswirkt, wohingegen kein direkter Zusammenhang zwischen X– und Y –Werten besteht. Diese Abhängigkeit von einem latenten
dritten Merkmal nennt man confounding, und das zusätzliche Merkmal ist ein confounder.
Reduktion auf Vierfeldertafeln. Möchte man über Art und Richtung des Zusammenhang etwas herausfinden, so kann man beispielsweise die Kontingenztafel durch Zusammenfassen oder
Streichen bestimmter Kategorien auf eine Vierfeldertafel reduzieren und dann Fishers exakten Test
anwenden.
Beispiel 2.10 (Herzerkrankungen und Schnarchen, Forts.) Dieses Datenbeispiel betrachteten wir bereits in Abschnitt 2.4.1. Wir erhielten den Wert T = 72.782, und das Minimum der
Hilfsgrößen H̄i,j ist gleich 9.43, also größer als Fünf. Daher verwenden wir den χ2 –Test: Hier
ist (K − 1)(L − 1) = (2 − 1) · (4 − 1) = 3, und für α = 0.01 ergibt sich der kritische Wert
χ23;0.99 ≈ 11.345. Da der Wert unserer Teststatistik T größer ist als der kritische Wert, behaupten
wir mit einer Sicherheit von 99%, dass es einen echten Zusammenhang zwischen Schnarchen und
Herzerkrankungen gibt.
Alternativ fassen wir für Y die beiden ersten Kategorien (‘nie’ und ‘manchmal’) zu einer Kategorie
‘selten’ und die letzten beiden Kategorien (‘oft’ und ‘immer’) zu einer Kategorie ‘regelmäßig’
zusammen. Dann ergibt sich die folgende Vierfeldertafel:
Herzkrank?
ja
nein
Schnarchen?
selten regelm.
59
51
1958
416
2017
467
110
2374
2484
Nun testen wir mit Fishers exaktem Test (zweiseitig) auf dem Niveau α = 0.01. Der P–Wert ist
2 · min F2484,110,2017 (59), 1 − F2484,110,2017 (58) = 2 · min 1.2401 · 10−11 , 1.000 < 0.01.
Wir behaupten also mit einer Sicherheit von 99%, dass es einen echten Zusammenhang zwischen
Herzerkrankungen und Schnarchen gibt. Genauer gesagt, sind die stark Schnarchenden unter den
Herzkranken stärker vertreten als unter den Gesunden.
6.4
Binomialtests
Sei Y eine Zufallsvariable mit Verteilung Bin(n, p), wobei p ein unbekannter Parameter aus [0, 1]
ist. Wir kennen bereits approximative Konfidenzintervalle für p. Im vorliegenden Abschnitt werden wir Tests von Nullhypothesen über p kennenlernen, die letztendlich zu exakten Konfidenzschranken führen.
190
KAPITEL 6. TESTS
Tests von Ho : p ≤ po
Beispiel 6.2 (Wahlprognosen) Eine politische Partei ABC möchte wissen, wie hoch ihr derzeitiger Wähleranteil ist. Sei also p der relative Anteil von (potentiellen) ABC–Wählern unter allen
Wahlberechtigten. Um etwas über p zu erfahren, werden n Wahlberechtigte gefragt, ob sie derzeit
Partei ABC wählen würden. Sei Y die Anzahl der befragten Personen, die diese Frage bejahen.
Ein naheliegnder Schätzwert für p ist dann pb = Y /n, also der relative Anteil von ABC—Wählern
in der Stichprobe. Für eine genauere Analyse unterstellen wir, dass Y binomialverteilt ist mit
Parametern n und p. Das heißt,
n k
P [Y = k] =
p (1 − p)n−k für k ∈ {0, 1, 2, . . . , n}.
k
Angenommen, die Partei möchte wissen, ob p größer ist als ein bestimmter Wert po . Konkrete
Beispiele für po :
• Das Ergebnis der letzten Wahl. Die Partei möchte wissen, ob sie in der Wählergunst stieg.
• Fünf Prozent. Für kleine Parteien in Deutschland ist dieser Wert essentiell, denn ein Stimmenanteil von weniger als 5% wird nicht berücksichtigt.
• Fünfzig Prozent. Eine sehr einflussreiche Partei möchte wissen, ob sie mit einer absoluten Mehrheit rechnen kann.
Die Partei ABC hofft, dass p > po . Wenn die Umfrage gegen diese Arbeitshypothese spräche,
würde sie vielleicht ihren Wahlkampf intensivieren, was aber mit höheren Kosten verbunden ist.
Deshalb testet sie die Nullhypothese, dass p ≤ po , zu einem vorgegebenen Niveau α.
Zurück zu den allgemeinen Betrachtungen. Wir möchten die Nullhypothese
Ho : p ≤ po
zu einem vorgegebenen Niveau α testen. Genauer gesagt, möchten wir die Nullhypothese verwerfen, falls
Y > c,
wobei c eine Zahl aus {0, 1, . . . , n − 1} ist, die wir noch bestimmen müssen. Mit anderen Worten,
der kritische Bereich unseres Tests hat die Form K(α) = {c + 1, . . . , n}. Dass die Wahrscheinlichkeit für einen Fehler der ersten Art nicht größer ist als α (Forderung 6.1), ist gleichbedeutend
mit:
P [Y > c] ≤ α falls p ≤ po .
(6.2)
Nun betrachten wir die Verteilungsfunktion von Y . Sei
c X
n k
Fn,p (c) =
p (1 − p)n−k = P [Y ≤ c].
k
k=0
Dann ist (6.2) äquivalent zu:
Fn,p (c) ≥ 1 − α
für alle p ≤ po .
(6.3)
Auf den ersten Blick sieht dies kompliziert aus, da unendlich viele Ungleichungen erfüllt sein
müssen. Tatsächlich ist aber Fn,p (c) als Funktion von p monoton fallend:
6.4. BINOMIALTESTS
191
Lemma 6.3 Für jedes c ∈ {0, 1, . . . , n − 1} ist Fn,p (c) eine stetige und streng monoton fallende
Funktion von p ∈ [0, 1]. Ihre Randwerte sind Fn,0 (c) = 1 und Fn,1 (c) = 0.
Dieses Lemma impliziert, dass Forderung (6.3) äquivalent ist zu der einfachen Ungleichung
Fn,po (c) ≥ 1 − α.
(6.4)
Wir wählen also
o
n
c(α, n, po ) := min c : Fn,po (c) ≥ 1 − α
und verwerfen die Nullhypothese Ho auf dem Niveau α, falls Y > c(α, n, po ).
Der entsprechende rechtsseitige P-Wert ist
rechtss. P-Wert := 1 − Fn,po (Y − 1).
Beispiel 6.2 (Wahlprognosen, Forts.) Angenommen, die Partei ABC hofft, dass p > 0.2.
Zu diesem Zweck lässt sie n = 500 Wahlberechtigte befragen und möchte die Nullhypothese
Ho : p ≤ 0.2 auf dem Niveau α = 0.01 testen. Die folgende Tabelle zeigt einige Wertepaare
(c, F500,0.2 (c)):
c
F500,0.2 (c)
118
0.979
119
0.984
120
0.988
121
0.991
122
0.993
123
0.995
Folglich ist c(0.01, 500, 0.2) gleich 121. Wenn also Y größer oder gleich 122 ist, dann kann man
mit einer Sicherheit von 99% davon ausgehen, dass p größer ist als 20%.
Beweis von Lemma 6.3. Die Formel für Fn,p (c) zeigt, dass es sich um ein Polynom in p handelt.
Insbesondere ist es eine stetige Funktion von p. Dass Fn,0 (c) = 1 und Fn,1 (c) = 0, erkennt man
einfach durch Einsetzen von p = 0 und p = 1. Zu zeigen bleibt, dass Fn,p (c) streng monoton
fallend in p ∈ [0, 1] ist. Eine hinreichende Bedingung hierfür ist, dass
d
Fn,p (c) < 0
dp
für 0 < p < 1.
Zunächst ist
d
Fn,p (c) =
dp
=
=
=
=
c d X n k
p (1 − p)n−k
dp
k
k=0
c
X n d pk (1 − p)n−k
k dp
k=0
c X
n
d k
d
p (1 − p)n−k + pk (1 − p)n−k
k
dp
dp
k=0
c X
n
kpk−1 (1 − p)n−k − (n − k)pk (1 − p)n−k−1
k
k=0
c
c
X
X
n k−1
n k
n−k
k
p (1 − p)
−
(n − k)
p (1 − p)n−k−1 .
k
k
k=1
k=0
192
KAPITEL 6. TESTS
Dabei verwendeten wir im zweiten Schritt die Tatsache, dass man Summation und Ableitung vertauschen kann, und im dritten Schritt die Produktregel. Nun nutzen wir aus, dass
n
n−1
n
n−1
k
=n
und (n − k)
=n
.
k
k−1
k
k
Hieraus ergibt sich, dass
c c X
X
d
n − 1 k−1
n−1 k
n−k
Fn,p (c) = n
p (1 − p)
−n
p (1 − p)n−k−1
dp
k−1
k
k=1
k=0
[setze in der ersten Summe j = k − 1, also k = j + 1 :]
c−1 c X
X
n−1 j
n−1 k
n−j−1
= n
p (1 − p)
−n
p (1 − p)n−k−1
j
k
j=0
k=0
n−1 c
= −n
p (1 − p)n−c−1
c
< 0.
2
Tests von Ho : p ≥ po
In manchen Anwendungen möchte man eher nachweisen, dass der Parameter p eine bestimmte
Schranke po unterschreitet. Wir betrachten dann die Nullhypothese
Ho : p ≥ po .
Diese verwerfen wir, wenn Y < c0 mit einem geeigneten kritischen Wert c0 ∈ {1, . . . , n}. Forderung (6.1), dass die Wahrscheinlichkeit für einen Fehler der ersten Art höchstens α beträgt, ist
gleichbedeutend mit:
P [Y < c0 ] ≤ α
falls p ≥ po .
Mit anderen Worten,
Fn,p (c0 − 1) ≤ α
für alle p ≥ po .
(6.5)
Aus Lemma 6.3 ergibt sich die äquivalente Forderung, dass
Fn,po (c0 − 1) ≤ α.
(6.6)
Wir wählen daher den kritischen Wert
n
o
c0 (α, n, po ) := max c : Fn,po (c − 1) ≤ α .
Der entsprechende linksseitige P-Wert ist
linkss. P-Wert := Fn,po (Y ).
Beispiel 6.4 (Qualitätskontrolle) Eine Firma produziert einen Massenartikel und möchte regelmäßig prüfen, ob die Produktionsanlage zu viel Ausschuss liefert. Bei jedem produzierten Stück
6.4. BINOMIALTESTS
193
besteht eine gewisse Wahrscheinlichkeit, dass es fehlerhaft ist. Wir betrachten die von nun an
produzierten Artikel und setzen
1 wenn der i–te Artikel fehlerhaft ist,
Xi :=
0 sonst.
Wir nehmen an, dass diese Zufallsgrößen X1 , X2 , X3 , . . . stochastisch unabhängig sind mit unbekanntem und hoffentlich kleinem Parameter p := P [Xi = 1] = E(Xi ). Dieser ist also die
Ausfallwahrscheinlichkeit für ein einzelnes Teil.
Angenommen, die Kunden des Unternehmens verlangen eine Ausschussrate von höchstens po .
Das heißt, eine Lieferung von m Artikeln soll im Mittel höchstens mpo defekte Teile enthalten.
Die herstellende Firma geht davon aus, dass p deutlich geringer ist als po . Um dies zu verifizieren,
überprüft sie hin und wieder n Teile. Sei Y die Anzahl defekter Teile bei einer solchen Prüfung.
Nun testet man die Nullhypothese, dass p ≥ po auf einem vorgegebenen Niveau α. Wenn diese
Nullhypothese verworfen wird, kann die Firma mit einer Sicherheit von 1 − α davon ausgehen,
dass die Produktionsanlage die Qualitätsanforderung der Kunden übertrifft. Wenn die Anlage nicht
in Ordnung ist, also p ≥ po , dann ist die Wahrscheinlichkeit, dass dies übersehen wird, höchstens
gleich α.
Zahlenbeispiel. Sei po = 0.08. Man überprüft n = 100 Teile und möchte auf dem Niveau α =
0.05 testen. Hier einige Werte von F100,0.08 (c):
c
F100,0.08 (c)
1
0.002
2
0.011
3
0.037
4
0.090
5
0.180
6
0.303
Also ist c0 (0.05, 100, 0.08) = 4. Wenn von 100 überprüften Teilen höchstens drei defekt sind,
kann man mit einer Sicherheit von 95% davon ausgehen, dass p < 0.08.
Wir werden dieses Beispiel im Zusammenhang mit Gütefunktionen noch genauer untersuchen.
Normalapproximation der Binomialtests∗
Wie schon früher angemerkt wurde, ist die standardisierte Größe
Y − np
p
np(1 − p)
näherungsweise standardnormalverteilt, wenn np(1−p) “hinreichend groß” ist; sagen wir, np(1−
p) ≥ 5. Dann ist
h Y − np
c + 1/2 − np c + 1/2 − np i
P [Y ≤ c]
= P p
≤ p
≈ Φ p
.
P [Y < c + 1]
np(1 − p)
np(1 − p)
np(1 − p)
Ein Näherungswert für c(α, n, po ) ist daher die kleinste ganze Zahl c, so dass
c + 1/2 − np o
Φ p
≥ 1 − α,
npo (1 − po )
was gleichbedeutend ist mit
p
c ≥ npo + Φ−1 (1 − α) npo (1 − po ) − 1/2.
194
KAPITEL 6. TESTS
Daraus ergibt sich der Näherungswert
l
m
p
cappr. (α, n, po ) = npo + Φ−1 (1 − α) npo (1 − po ) − 1/2 .
Wenn man dagegen die Nullhypothese Ho : p ≥ po testet, dann ergibt sich (wegen Φ−1 (α) =
−Φ−1 (1 − α)) der Näherungswert
k
j
p
c0appr. (α, n, po ) = npo − Φ−1 (1 − α) npo (1 − po ) + 1/2 = n − cappr. (α, n, 1 − po ).
Beispiel 6.2 (Wahlprognosen, Forts.) Für n = 500, po = 0.2 und α = 0.01 ist Φ−1 (1 − α) =
2.326, also
l
m
√
cappr. (0.01, 500, 0.2) = 100 + 2.326 80 − 1/2 = d120.308e = 121.
Die Näherungsformel liefert also hier den gleichen kritischen Wert wie die exakte Methode.
Beispiel 6.4 (Qualitätskontrolle, Forts.) Für n = 100, po = 0.08 und α = 0.05 ist Φ−1 (1 −
α) = 1.645, also
k
j
√
c0appr. (0.05, 100, 0.08) = 8 − 1.645 8 · 0.92 + 1/2 = b4.038c = 4.
Auch hier liefert die Näherungsformel den gleichen kritischen Wert wie die exakte Methode.
Güte des Binomialtests, Stichprobenplanung
Bisher betrachteten wir nur den Fehler der ersten Art. Bei der Frage, wie groß der Stichprobenumfang n sein sollte, kommt es auf den Fehler der zweiten Art an. Hierzu betrachten wir die “Güte”
unserer Tests:
Güte(p) := P [Nullhypothese wird verworfen].
Tests der Nullhypothese, dass p ≤ po . Diese Nullhypothese verwerfen wir auf dem Niveau α,
falls Y > c(α, n, po ). Daher ist
Güte(p) = 1 − Fn,p (c(α, n, po )).
Abbildung 6.2 zeigt für po = 0.2 und α = 0.05 die Gütefunktion für n = 50 mit c(0.05, 50, 0.2) =
15 sowie für n = 200 mit c(0.05, 200, 0.2) = 49.
Um nun einen geeigneten Stichprobenumfang festzulegen, wählt man zusätzlich zu po und α einen
Parameter p∗ ∈ (po , 1] und eine Schranke β ∈ (0, 1). Dann verlangt man, dass
P [Fehler der 2. Art] ≤ β
falls p ≥ p∗ .
Dies ist äquivalent zu der Forderung, dass
Fn,p∗ (c(α, n, po )) ≤ β.
6.4. BINOMIALTESTS
195
Abbildung 6.2: Gütefunktion zweier Binomialtests.
Um also einen minimalen Stichprobenumfang n festzulegen, kann man wie folgt vorgehen (Pseudocode):
n←1
c ← c(α, n, po )
while Fn,p∗ (c, n, p∗ ) > β do
n←n+1
c ← c(α, n, po )
end while
Beispiel 6.2 (Wahlprognosen, Forts.) Sei po = 0.2, α = 0.01, p∗ = 0.3 und β = 0.1. Für
n = 100 ergibt sich c(α, n, po ) = 30, aber Fn,p∗ (30) = 0.5491 > β. Also benötigt man mehr als
100 Beobachtungen. Lässt man den Computer obigen Algorithmus ausführen, so ergibt sich der
minimale Stichprobenumfang n = 253 mit c(α, n, po ) = 66 und
Fn,po (66) = 0.9924,
Fn,p∗ (66) = 0.0974.
Tests der Nullhypothese, dass p ≥ po . Diese Nullhypothese verwerfen wir auf dem Niveau α,
falls Y < c0 (α, n, po ). Daher ist
Güte(p) = Fn,p (c0 (α, n, po ) − 1).
Hier wählt man zusätzlich zu po und α einen Parameter p∗ ∈ [0, po ) und eine Schranke β ∈ (0, 1).
Dann verlangt man, dass
P [Fehler der 2. Art] ≤ β
falls p ≤ p∗ ,
196
KAPITEL 6. TESTS
also
Fn,p∗ (c0 (α, n, po ) − 1) ≥ 1 − β.
Beispiel 6.4 (Qualitätskontrolle, Forts.) Sei po = 0.08, α = 0.05, p∗ = 0.04 und β = 0.2.
Für n = 100 ergibt sich der kritische Wert c0 (α, n, po ) = 4 mit Fn,po (3) = 0.0367. Allerdings
ist Fn,p∗ (3) = 0.430 < 1 − β; ein Stichprobenumfang von 100 ist also zu klein. Mit Hilfe eines
entsprechenden Computerprogramms stellte sich heraus, dass man eine Stichprobe vom Umfang
n = 224 benötigt, wobei dann c0 (α, n, po ) = 12 und
Fn,po (11) = 0.0499,
Fn,p∗ (11) = 0.8109.
Abschätzung des Stichprobenumfangs∗ . Mit Hilfe der Normalapproximation kann man für die
hier behandelten Binomialtests Näherungsformeln für minimal notwendige Stichprobenumfänge
angeben. Diese sollen kein Ersatz für exakte Rechnungen sein, sondern eine ungefähre Größenp
ordnung von n vermitteln. Auch hier verwenden wir die Tatsache, dass (Y − np)/ np(1 − p)
näherungsweise standardnormalverteilt ist, wenn np(1 − p) hinreichend groß ist.
Angenommen, wir testen die Nullhypothese, dass p ≤ po , auf dem Niveau α. Wir verwerfen die
Nullhypothese, falls Y > c, wobei wir fordern, dass
P [Y > c] ≤ α
falls p = po ,
P [Y > c] ≥ 1 − β
falls p = p∗ ,
wobei po < p∗ < 1. Nun ist aber
P [Y > c] = 1 − P [Y ≤ c]
h Y − np
c + 1/2 − np i
= 1−P p
≤ p
np(1 − p)
np(1 − p)
c + 1/2 − np ≈ 1−Φ p
.
np(1 − p)
Die rechte Seite ist
p
≤α
falls p = po und c ≥ npo + Φ−1 (1 −pα) npo (1 − po ) − 1/2
≥ 1 − β falls p = p∗ und c ≤ np∗ + Φ−1 (β) np∗ (1 − p∗ ) − 1/2.
Damit beide Ungleichungen auf der rechten Seite für ein geeignetes c erfüllt sind, muss gelten:
npo + Φ−1 (1 − α)
p
p
npo (1 − po ) ≤ np∗ + Φ−1 (β) np∗ (1 − p∗ ).
Doch letztere Ungleichung ist äquivalent zu
n ≥
!2
p
p
Φ−1 (1 − α) po (1 − po ) + Φ−1 (1 − β) p∗ (1 − p∗ )
.
p∗ − po
(6.7)
Genau die gleiche Schranke (6.7) erhält man für Tests der Nullhypothese, dass p ≥ po , versus die
Alternativhypothese, dass p ≤ p∗ , wobei nun 0 < p∗ < po < 1.
6.5. DER χ2 –ANPASSUNGSTEST
197
Beispiel 6.2 (Wahlprognosen, Forts.) Für po = 0.2, α = 0.01, p∗ = 0.3 und β = 0.1 ergibt
sich mit Φ−1 (0.99) = 2.3263 und Φ−1 (0.9) = 1.2816 die Forderung, dass n größer oder gleich
!2
√
√
2.3263 0.2 · 0.8 + 1.2816 0.3 · 0.7
≈ 230.38
0.1
ist.
Beispiel 6.4 (Qualitätskontrolle, Forts.) Für po = 0.08, α = 0.05, p∗ = 0.04 und β = 0.05
ergibt sich mit Φ−1 (0.95) = 1.6449 und Φ−1 (0.8) = 0.8416 die Forderung, dass n größer oder
gleich
!2
√
√
1.6449 0.08 · 0.92 + 0.8416 0.04 · 0.96
≈ 233.45
0.04
ist.
6.5
Der χ2 –Anpassungstest
Wir betrachten eine kategorielle Zufallsvariable X mit möglichen Ausprägungen x1 , x2 , . . . , xK ,
und es sei
pj := P (X = xj ).
Um etwas über diese unbekannten Parameter pj herauszufinden, besorgen wir uns eine Stichprobe
von n stochastisch unabhängigen Zufallsvariablen X1 , X2 , . . . , Xn , die alle wie X verteilt sind.
Naheliegende Schätzwerte für die pj sind die relativen Häufigkeiten
pbj =
Hj
n
mit
Hj := #{i ≤ n : Xi = xj }.
In manchen Anwendungen möchte man testen, ob die Parameter pj bestimmte vorgegebene Werte
poj haben. Im Jargon statistischer Tests möchten wir folgende Nullhypothese überprüfen:
Ho : pj = poj für j = 1, . . . , K.
Hier drei Beispiele für diese Fragestellung:
• Ein Spielzeughersteller produziert Würfel. Nun soll überprüft werden, ob mit einem neu produzierten Würfel alle sechs Zahlen gleiche Wahrscheinlichkeit haben. Hier ist K = 6, xj = j
und poj = 1/6.
• Der Roulettetisch einer Spielbank soll überprüft werden. Zu diesem Zweck erzeugt man mit
ihm n Zufallszahlen Xi ∈ {0, 1, 2, . . . , 36} und überprüft die Nullhypothese, dass pj = poj :=
1/37.
• Bei der Befragung der Vorlesungsteilnehmenden wurden diese unter anderem dazu aufgefordert, eine “Zufallsziffer” aus {0, 1, . . . , 9} zu wählen. Es sei pj die Wahrscheinlichkeit, dass
198
KAPITEL 6. TESTS
eine zufällig herausgegriffene Person aus der Grundgesamtheit aller Studierenden der Wirtschaftswissenschaften bei dieser Frage die Ziffer j wählt. Ähnliche Experimente in der Vergangenheit lassen vermuten, dass die pj teilweise deutlich von poj := 1/10 abweichen.
Eine Besonderheit der beiden erstgenannten Beispiele ist, dass zumindest der Hersteller der Würfel
bzw. der Spielbankbetreiber die Nullhypothese anstrebt. Kontrolleure des Herstellers bzw. der
Spielbank möchten Abweichungen von der Nullhypothese nachweisen. Für diese ist ein statistischer Test geeignet. Aus Sicht des Herstellers oder Spielbankbetreibers wäre z.B. eine obere
Konfidenzschranke für die maximale Abweichung der Wahrscheinlichkeiten pj von den idealen
Werten poj von Interesse.
Die Teststatistik. Man vergleicht jeden Wert pbj mit seinem hypothetischen Wert poj . Genauer
gesagt bildet man die Summe
K
K
X
X
(Hj − npoj )2
(b
pj − poj )2
=
.
T := n
poj
npoj
j=1
j=1
Dies ist Pearsons Chiquadrat–Teststatistik. Die speziellen Gewichtsfaktoren 1/poj sind so gewählt,
dass T unter der Nullhypothese approximativ nach
χ2K−1
verteilt ist, sofern alle Zahlen npoj hinreichend groß sind. Als Faustregel empfehlen wir, dass n ·
minj poj ≥ 5.
Der approximative Test. Zu gegebenem Testniveau α ∈ (0, 1) bestimmt man mit Hilfe von Tabellen oder entsprechender Software das (1−α)–Quantil χ2K−1;1−α der Chiquadrat-Verteilung mit
K − 1 Freiheitsgraden. Die Zahl der Freiheitsgrade ist also die Anzahl von möglichen Kategorien
minus Eins. Im Falle von
T ≥ χ2K−1;1−α
verwirft man die Nullhypothese Ho auf dem (approximativen) Niveau α. Mit anderen Worten, in
diesem Falle behauptet man mit einer Sicherheit von 1 − α, dass die Nullhypothese falsch ist.
Eine äquivalente Formulierung über P–Werte: Mit der Verteilungsfunktion FK−1 von χ2K−1 sei
P–Wert := 1 − FK−1 (T ).
Dann ist T ≥ χ2K−1;1−α genau dann, wenn der P–Wert kleiner oder gleich α ist.
Abbildung 6.3 zeigt die Dichtefunktion fK−1 und die Verteilungsfunktion FK−1 von χ2K−1 im
Falle von K = 10. In beiden Teilplots wird dann der P–Wert für den Fall T = 12.1 als Flächeninhalt bzw. als Streckenlänge verdeutlicht.
6.5. DER χ2 –ANPASSUNGSTEST
199
Abbildung 6.3: Der approximative χ2 –Anpassungstest.
Exakte Tests. Anstelle der gerade erwähnten χ2 –Approximation könnte man auch einen exakten Monte-Carlo-Test durchführen, was möglicherweise in einer späteren Vorlesung behandelt
wird.
Beispiel 6.5 (“Zufallsziffern”) Bei der Frage nach der “Zufallsziffer” ergaben sich folgende
Resultate aus n = 262 Antworten (auf drei Nachkommastellen gerundet):
xj
Hj
pbj
0
8
0.031
1
6
0.023
2
12
0.046
3
32
0.122
4
25
0.095
5
23
0.088
6
28
0.107
7
70
0.267
8
41
0.156
9
17
0.065
Nun wollen wir die Nullhypothese, dass alle pj gleich 0.1 sind, auf dem Niveau α = 0.05 testen.
Die χ2 –Teststatistik ist gleich
T = 262
10
X
(b
pj − 0.1)2
≈ 122.580.
0.1
j=1
Der kritische Wert ist hier gleich χ2K−1;1−α = χ29;0.95 = 16.919. Da T strikt größer ist als diese
Schranke, behaupten wir mit einer Sicherheit von 95%, dass nicht alle Wahrscheinlichkeiten pj
gleich 0.1 sind.
Der entsprechende P–Wert ist hier gleich 1 − FK−1 (T ) = 1 − F9 (122.580) < 10−4 .
Ein erstes alternatives Verfahren. Wie schon gesagt wurde, gibt uns der obige Chiquadrat–
Test keinen Aufschluss darüber, welche Parameter pj in welche Richtung von den entsprechenden
200
KAPITEL 6. TESTS
Werten poj abweichen. Hinzu kommt, dass man in manchen Anwendungen nachweisen möchte,
dass man von der Nullhypothese nicht weit entfernt ist. Eine mögliche Alternative zu statistischen
Tests ist die Berechnung eines Konfidenzintervalls [b
aj , bbj ] für pj , simultan für alle j = 1, . . . , K.
Genauer gesagt, möchte man mit den gegebenen Daten Konfidenzschranken b
aj , bbj berechnen, so
dass für ein vorgebenes α gilt:
P pj ∈ [b
aj , bbj ] für j = 1, . . . , K ≥ 1 − α.
Dann kann man mit einer Sicherheit von 1 − α davon ausgehen, dass jeder Parameter pj in dem
entspechenden Intervall [b
aj , bbj ] liegt. Insbesondere kann man dann prüfen, ob alle hypothetischen
Parameter poj in dem entsprechenden Intervall [b
aj , bbj ] liegen.
Diese Sicherheit erreicht man, indem man für jeden einzelnen Parameter pj ein
(1 − α/K)–Vertrauensintervall [b
aj , bbj ]
berechnet, also α durch α/K ersetzt. Denn dann ist
P pj ∈ [b
aj , bbj ] für j = 1, . . . , K
= 1 − P pj 6∈ [b
aj , bbj ] für mind. ein j aus {1, . . . , K}
≥ 1−
K
X
P pj 6∈ [b
aj , bbj ]
j=1
≥ 1−
K
X
α/K
j=1
= 1 − α.
Der Vorteil dieser Methode ist klar: Möglicherweise kann man Aussagen über die Abweichung
bestimmter Parameter pj von poj machen. Allerdings gibt es auch Datenbeispiele, bei denen der
χ2 –Anpassungstest die Nullhypothese verwirft, obwohl poj ∈ [b
aj , bbj ] für alle j = 1, . . . , K.
Beispiel 6.5 (“Zufallsziffern”, Forts.) Für α = 0.05 berechnen wir nun Vertrauensintervalle für
die 10 Parameter pj mit approximativem Konfidenzniveau (1 − α/10) = 0.995. Dabei verwenden
√
√
wir die Methode von Wilson. Und zwar ist c := Φ−1 (1 − α/(2K))/ n = Φ−1 (0.9975)/ 262 ≈
0.1734. Die Vertrauensintervalle
"
#
p
h
i
2 /2 ± c p
2 /4
p
b
+
c
b
(1
−
p
b
)
+
c
j
j
j
b
aj , bbj =
1 + c2
sehen dann wie folgt aus:
xj
b
aj
bbj
0
0.012
0.077
1
0.008
0.066
2
0.021
0.097
3
0.076
0.190
4
0.056
0.159
5
0.050
0.150
6
0.064
0.172
7
0.198
0.350
8
0.104
0.229
9
0.034
0.122
Insbesondere kann man mit einer Sicherheit von ca. 95% behaupten, dass die Wahrscheinlichkeiten der Ziffern 0, 1, 2 kleiner und diejenigen der Ziffern 7, 8 größer sind als 0.1.
6.6. VERGLEICHE ZWEIER STICHPROBEN
201
Ein zweites alternatives Verfahren. Wie zu Anfang erwähnt, gibt es Situationen, in denen man
untermauern möchte, dass die Parameter pj recht nahe an den vorgegebenen Parametern poj sind,
selbst wenn es vielleicht kleine Abweichungen gibt. In dieser Situation könnte man ebenfalls
das zuletzt beschriebene alternative Verfahren verwenden. Dieses lässt sich aber noch wie folgt
verfeinern: Für 1 ≤ j ≤ K sei e
aj = e
aj (Daten) eine untere (1 − α/K)–Vertrauensschranke für
e
e
pj , und bj = bj (Daten) sei eine obere (1 − α/K)–Vertrauensschranke für pj . Dann ist
h
i
h
i
b
aj , bbj := min(e
aj , poj ), max(ebj , poj )
ein (1 − α/K)–Konfidenzintervall für pj . Durch diesen Trick spart man sich das sonst notwendige
Halbieren von α bei der Kombination einer unteren und einer oberen Schranke; siehe auch die
Übungen. Man erhält dabei ein Konfidenzintervall, welches den Wert poj garantiert enthält.
6.6
Vergleiche zweier Stichproben
Gegeben sei ein Datensatz mit reellwertigen Daten X1 , X2 , . . . , Xm sowie Y1 , Y2 , . . . , Yn . Nun
geht es um folgende Fragen:
• Sind die X–Werte tendenziell größer als die Y –Werte?
(Einseitige Fragestellung.)
• Sind die X–Werte tendenziell kleiner als die Y –Werte?
(Einseitige Fragestellung.)
• Gibt es systematische Unterschiede zwischen den X– und Y –Werten?
(Zweiseitige Fragestellung.)
Dabei unterscheiden wir zwischen zwei Situationen, was die Modellierung unserer Daten anbelangt:
• “Verbundene Stichproben (paired samples)”.
• “Freie/unabhängige Stichproben (independent samples)”.
(Diese Bezeichnungen sind historisch entstanden und rückblickend etwas ungeschickt gewählt.)
6.6.1
“Verbundene Stichproben”
Gegeben ist ein Datensatz mit m = n Beobachtungen und zwei numerischen Variablen X und Y ,
die miteinander verwandt sind. Hier zwei typische Beispiele für diese Situation:
• Für Versuchsperson Nr. i ist Xi ein physiologischer Parameter (z.B. Blutdruck, Gewicht, Pulsfrequenz, . . . ) vor einer bestimmten Behandlung (z.B. Medikament, Diät, Trainingseinheit, . . . ).
Nach der Behandlung wird der Parameter erneut gemessen, und man erhält den Wert Yi für Person
Nr. i. Die Frage ist, ob die Behandlung den Parameter nachweislich beeinflusste.
• In einer Kohortenstudie mit n Haushalten seien Xi und Yi die Jahreseinkommen von Haushalt
Nr. i im Jahre 2000 bzw. 2003 (inflationsbereinigt). Die Frage ist, ob sich die Einkommen in
202
KAPITEL 6. TESTS
diesem Zeitraum nachweislich verändert haben. An Stelle der Jahreseinkommen sind mitunter
auch die Ausgaben für bestimmte Konsumgüter von Interesse.
Bei den nun beschriebenen Verfahren betrachten wir die Differenzen
Zi := Xi − Yi .
Konfidenzschranken für die mittlere Differenz∗ . Betrachtet man die Differenzen Zi als unabhängige und identisch verteilte Zufallsgrößen mit unbekanntem Mittelwert µ und unbekannter
Standardabweichung σ, dann bieten sich Konfidenzschranken für den Mittelwert mit Hilfe der
Student–Methode an. Je nach Fragestellung sollte man eine untere oder eine obere Schranke oder
ein Vertrauensintervall für µ berechnen, also
SZ
SZ
SZ
Z̄ − √ tn−1;1−α , Z̄ + √ tn−1;1−α bzw.
Z̄ ± √ tn−1;1−α/2 .
n
n
n
Wilcoxons Signed–Rank–Test. Dieser Test hat den Vorteil, dass er unter minimalen Modellannahmen anwendbar ist. Die Nullhypothese, dass es keine systematischen Unterschiede zwischen
X– und Y –Werten bestehen, wird wie folgt beschrieben:
Nullhypothese Ho : Seien ξ1 , ξ2 , . . . , ξn ∈ {−1, 1} rein zufällig und von den Daten unabhängig
gewählte Vorzeichen. Dann ist der Differenzenvektor




Z1
sign(Z1 )|Z1 |
 Z2 
 sign(Z2 )|Z2 | 




=
 .. 


..
 . 


.
sign(Zn )|Zn |
Zn
genauso verteilt wie der Zufallsvektor





ξ1 |Z1 |
ξ2 |Z2 |
..
.



.

ξn |Zn |
Als Testgröße für diese Nullhypothese berechnet man
T :=
n
X
sign(Zi )Ri .
i=1
Dabei sind R1 , R2 , . . . , Rn die Ränge der Zahlen |Z1 |, |Z2 |, . . . , |Zn |, wobei Beobachtungen mit
Zi = 0 Rang Null erhalten. Unter der Nullhypothese ist T genauso verteilt wie
Te :=
n
X
ξi Ri .
i=1
Mit Hilfe geeigneter Software erhält man die folgenden P–Werte:
links. P–Wert := P Te ≤ T Daten ,
rechts. P–Wert := P Te ≥ T Daten .
6.6. VERGLEICHE ZWEIER STICHPROBEN
203
Dabei bedeutet P(· | Daten), dass die Daten als feste Größen und nur die Vorzeichen ξi als zufällig
betrachtet werden.
Nicht alle Softwarepakete bieten diese P–Werte. Manche ersetzen Te durch
N
X
e
Te :=
ξi · i ,
i=1
wobei N die Anzahl der von Null verschiedenen Differenzen Zi ist.
Schließlich kann man noch approximative P–Werte verwenden, die bei großen Zahlen N recht
zuverlässig sind: Und zwar suggeriert
v
u n
uX
e
e
Ri2
E(T | Daten) = 0 und Std(T | Daten) = t
i=1
die Approximationen
v
n
.u
uX
Ri2 ,
links. P–Wert ≈ Φ T t
i=1
v
n
.u
uX
Ri2 ,
rechts. P–Wert ≈ Φ −T t
i=1
v
n
.u
uX
t
zweis. P–Wert ≈ 2 · Φ −|T |
Ri2 .
i=1
Beispiel 6.6 (Vorlesungen als Beruhigungsmittel) In einer Biometrievorlesung ermittelten n =
18 Studierende ihre Pulsfrequenz zu Beginn (Xi ) und gegen Ende des Unterrichts (Yi ). Beide
Werte sind die Anzahl von Pulsschlägen in einer Minute. Die Arbeitshypothese war, dass die X–
Werte systematisch höher ausfallen würden als die Y –Werte (dass also die Vorlesung beruhigend
wirkt). Die Nullhypothese, dass kein systematischer Unterschied zwischen X– und Y –Werten
besteht, möchten wir auf dem Niveau von α = 0.05 testen.
In Tabelle 6.1 sind die Datenpaare (Xi , Yi ) so angeordnet, dass die Werte |Zi | ansteigen. In der
Spalte mit den Rängen sind in Klammern Ränge angegeben, die man ohne Mittelung verteilen
würde. Hier ist T = 81. Der entsprechende P–Wert (z.B. ‘StatXact’) ist hier gleich 0.0171. Wir
behaupten also mit einer Sicherheit von 95%, dass die Nullhypothese falsch ist (und die Vorlesung
beruhigend wirkte).
6.6.2
“Freie/Unabhängige Stichproben”
Nun betrachten wir die Situation, dass zwischen den Datenpunkten X1 , X2 , . . . , Xm und Y1 , Y2 ,
. . . , Yn keine natürliche Zuordnung besteht. Insbesondere müssen m und n nicht identisch sein.
Zwei typische Beispiele für diese Situation sind:
• Gegeben sei eine Zufallsstichprobe aus einer Population. Für jedes Individuum seien die Werte
einer kategoriellen Variable C ∈ {c1 , c2 } (z.B. Geschlecht, Rechts– bzw. Linkshänder, Raucher
204
KAPITEL 6. TESTS
Xi
66
78
54
76
80
94
68
64
76
80
64
66
70
80
82
102
74
90
Yi
66
78
56
78
78
90
74
70
70
74
72
58
62
72
72
92
62
78
Zi
0
0
–2
–2
2
4
–6
–6
6
6
–8
8
8
8
10
10
12
12
Ri
0
0
2
2
2
4
6.5
6.5
6.5
6.5
10.5
10.5
10.5
10.5
13.5
13.5
15.5
15.5
(0)
(0)
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)
(16)
sign(Zi )
0
0
–1
–1
+1
+1
–1
–1
+1
+1
–1
+1
+1
+1
+1
+1
+1
+1
Tabelle 6.1: Datenaufbereitung für Beispiel 6.6.
bzw. Nichtraucher, . . . ) und einer numerischen Variable W gegeben. Die Frage ist nun, ob es einen
Zusammenhang zwischen C und W gibt. Hier sind X1 , . . . , Xm die Stichpobenwerte von W in
der Teilgruppe mit C = c1 , und Y1 , . . . , Yn sind die verbleibenden W –Werte.
• Aus zwei verschiedenen Populationen (z.B. Bewohner der Westschweiz bzw. der Ostschweiz)
wird jeweils eine Zufallsstichprobe vom Umfang m bzw. n gezogen. Nun interessiert man sich für
die Verteilung eines numerischen Merkmals in diesen beiden Populationen.
Wilcoxons Rangsummentest. Auch dieser Test ist unter minimalen Modellannahmen anwendbar. Die Nullhypothese, dass keine systematischen Unterschiede zwischen X– und Y –Werten
bestehen, kann man formal wie folgt beschreiben:
Nullhypothese Ho : Fasst man die m + n Werte Xi und Yj zu einem Tupel
(Z1 , Z2 , . . . , Zm+n ) = (X1 , X2 , . . . , Xm , Y1 , Y2 , . . . , Yn )
zusammen (Gesamtstichprobe, pooled sample), dann ist dieses genauso verteilt wie
(ZΠ(1) , ZΠ(2) , . . . , ZΠ(m+n) ).
Dabei ist (Π(1), Π(2), . . . , Π(m + n)) eine rein zufällige und von den Daten Xi , Yj unabhängige
Permutation von (1, 2, . . . , m + n).
In Worten besagt diese Nullhypothese: Man könnte die X– und Y –Werte rein zufällig durchmischen und dann erneut in Teilstichproben von m beziehungsweise n Werten aufteilen. Dieser
Datensatz wäre genauso verteilt wie der Originaldatensatz.
6.6. VERGLEICHE ZWEIER STICHPROBEN
205
Das Testverfahren. Um nun zu quantifizieren, inwiefern die X–Werte größer sind als die Y –
Werte, kann man zunächst die Ränge R1 , R2 , . . . , Rm+n für die Gesamtstichprobe berechnen,
und dann summiert man die ersten m Ränge, also die Ränge der X–Werte:
T :=
m
X
Ri .
i=1
Unter der Nullhypothese ist dies genauso verteilt wie
Te :=
m
X
RΠ(i) ,
i=1
und E(Te) = m(m + n + 1)/2. Wenn alle Werte in der Gesamtstichprobe verschieden sind, ist Te
genauso verteilt wie
m
X
e
Te :=
Π(i),
i=1
und es ist
p
e
mn(m + n + 1)/12.
Std(Te) ≤ Std(Te) =
Approximative P–Werte sind nun gegeben durch
T + 0.5 − m(m + n + 1)/2 p
links. P–Wertappr. = Φ
,
mn(m + n + 1)/12
m(m + n + 1)/2 + 0.5 − T p
rechtss. P–Wertappr. = Φ
,
mn(m + n + 1)/12
sowie zweis. P–Wertappr. = 2 · min links. P–Wertappr. , rechtss. P–Wertappr. .
Beispiel 6.7 (Vergleich zweier Trainingsmethoden) Eine neue Trainingsmethode für Crossläufer wurde entwickelt und soll nun getestet werden. Dazu teilt man 12 Läufer rein zufällig in zwei
gleich große Gruppen ein. Die Läufer in Gruppe 1 absolvieren das herkömmliche Trainingsprogramm, diejenigen in Gruppe 2 das neue. Nach einer gewissen Zeit veranstaltet man ein Wettrennen über eine anspruchsvolle Geländestrecke und erhält folgende Zeiten (in min:sek, gerundet auf
10 sek):
Gruppe 1
Gruppe 2
9:40
9:10
11:30
9:30
11:30
9:30
12:20
9:40
13:10
9:50
13:40
12:50
Um die Festlegung der Ränge zu illustrieren, führen wir nun eine zusätzliche Gruppenvariable
Gi ∈ {1, 2} ein und sortieren die Werte der Gesamtstichprobe. Dann ergeben sich die Werte
und Ränge in Tabelle 6.2. Der Wert der Wilcoxon-Rangsummenstatistik ist gleich der Summe
aller R(i) mit G(i) = 1, also T = 51.5. Da wir damit rechnen, dass die neue Trainingsmethode
tendenziell zu kürzeren Zeiten führt, berechnen wir nach der obigen Formel den approximativen
rechtsseitigen P–Wert, um ihn mit dem Testniveau α = 0.05 zu vergleichen:
T + 0.5 − 6 · 13/2 = Φ(−1.9215) = 0.0273.
rechtss. P–Wertappr. = Φ − p
6 · 6 · 13/12
Da dies kleiner als α = 0.05 ist, behaupten wir mit einer Sicherheit von 95%, dass die neue
Trainingsmethode den gewünschten Effekt hat.
206
KAPITEL 6. TESTS
Z(i)
9:10
9:30
9:30
9:40
9:40
9:50
11:30
11:30
12:20
12:50
13:10
13:40
R(i)
1
2.5
2.5
4.5
4.5
6
7.5
7.5
9
10
11
12
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
G(i)
2
2
2
2
1
2
1
1
1
2
1
1
Tabelle 6.2: Datenaufbereitung für Beispiel 6.7.
6.7
Tests auf Korrelation
Zuletzt betrachten wir einen Datensatz mit zwei numerischen oder ordinalen Variablen X und
Y . Die Frage ist, ob es zwischen diesen beiden Variablen einen echten Zusammenhang gibt. Als
Teststatistik verwenden wir den Rangkorrelationskoeffizienten nach Spearman:
Pn
2
i=1 RXi RYi − n(n + 1) /4
T = r
P
;
Pn
n
2
2
2
2
i=1 RXi − n(n + 1) /4
i=1 RYi − n(n + 1) /4
siehe Abschnitt 2.4.3. Die Nullhypothese, dass zwischen X– und Y –Werten kein echter Zusammenhang besteht, kann man genauso wie in Abschnitt Chi2-Test fuer Kontingenztafeln beschrei√
ben. Unter dieser Nullhypothese ist n − 1 T approximativ standardnormalverteilt. Hieraus ergeben sich die approximativen P–Werte
rechtss. P–Wertappr.
zweis. P–Wertappr.
√
n − 1T ,
√
= Φ − n − 1T ,
√
= 2 · Φ − n − 1 |T | .
links. P–Wertappr. = Φ
Dies ist übrigens die nachträgliche Begründung für die grobe Faustregel, dass man im Falle von
√
n − 1 |T | ≥ 2 mit einer Sicherheit von ca. 95% von einem echten Zusammenhang zwischen X–
und Y –Werten ausgehen kann.
Anhang A
Tabellen
Die Standardnormalverteilungsfunktion Φ(s + t) (auf 5 Nachkommastellen)
t
s
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
0.00
.50000
.53983
.57926
.61791
.65542
.69146
.72575
.75804
.78814
.81594
.84134
.86433
.88493
.90320
.91924
.93319
.94520
.95543
.96407
.97128
.97725
.98214
.98610
.98928
.99180
.99379
.99534
.99653
.99744
.99813
.99865
.99903
.99931
.99952
.99966
0.01
.50399
.54380
.58317
.62172
.65910
.69497
.72907
.76115
.79103
.81859
.84375
.86650
.88686
.90490
.92073
.93448
.94630
.95637
.96485
.97193
.97778
.98257
.98645
.98956
.99202
.99396
.99547
.99664
.99752
.99819
.99869
.99906
.99934
.99953
.99968
0.02
.50798
.54776
.58706
.62552
.66276
.69847
.73237
.76424
.79389
.82121
.84614
.86864
.88877
.90658
.92220
.93574
.94738
.95728
.96562
.97257
.97831
.98300
.98679
.98983
.99224
.99413
.99560
.99674
.99760
.99825
.99874
.99910
.99936
.99955
.99969
0.03
.51197
.55172
.59095
.62930
.66640
.70194
.73565
.76730
.79673
.82381
.84849
.87076
.89065
.90824
.92364
.93699
.94845
.95818
.96638
.97320
.97882
.98341
.98713
.99010
.99245
.99430
.99573
.99683
.99767
.99831
.99878
.99913
.99938
.99957
.99970
0.04
.51595
.55567
.59483
.63307
.67003
.70540
.73891
.77035
.79955
.82639
.85083
.87286
.89251
.90988
.92507
.93822
.94950
.95907
.96712
.97381
.97932
.98382
.98745
.99036
.99266
.99446
.99585
.99693
.99774
.99836
.99882
.99916
.99940
.99958
.99971
207
0.05
.51994
.55962
.59871
.63683
.67364
.70884
.74215
.77337
.80234
.82894
.85314
.87493
.89435
.91149
.92647
.93943
.95053
.95994
.96784
.97441
.97982
.98422
.98778
.99061
.99286
.99461
.99598
.99702
.99781
.99841
.99886
.99918
.99942
.99960
.99972
0.06
.52392
.56356
.60257
.64058
.67724
.71226
.74537
.77637
.80511
.83147
.85543
.87698
.89617
.91309
.92785
.94062
.95154
.96080
.96856
.97500
.98030
.98461
.98809
.99086
.99305
.99477
.99609
.99711
.99788
.99846
.99889
.99921
.99944
.99961
.99973
0.07
.52790
.56749
.60642
.64431
.68082
.71566
.74857
.77935
.80785
.83398
.85769
.87900
.89796
.91466
.92922
.94179
.95254
.96164
.96926
.97558
.98077
.98500
.98840
.99111
.99324
.99492
.99621
.99720
.99795
.99851
.99893
.99924
.99946
.99962
.99974
0.08
.53188
.57142
.61026
.64803
.68439
.71904
.75175
.78230
.81057
.83646
.85993
.88100
.89973
.91621
.93056
.94295
.95352
.96246
.96995
.97615
.98124
.98537
.98870
.99134
.99343
.99506
.99632
.99728
.99801
.99856
.99896
.99926
.99948
.99964
.99975
0.09
.53586
.57535
.61409
.65173
.68793
.72240
.75490
.78524
.81327
.83891
.86214
.88298
.90147
.91774
.93189
.94408
.95449
.96327
.97062
.97670
.98169
.98574
.98899
.99158
.99361
.99520
.99643
.99736
.99807
.99861
.99900
.99929
.99950
.99965
.99976
208
ANHANG A. TABELLEN
Einige Student–Quantile (auf 4 Nachkommastellen aufgerundet)
k
tk;0.9
tk;0.95
tk;0.975
tk;0.99
tk;0.995
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
39
40
49
50
59
60
69
70
79
80
89
90
99
100
∞
1.8857
1.6378
1.5333
1.4759
1.4398
1.4150
1.3969
1.3831
1.3722
1.3635
1.3563
1.3502
1.3451
1.3407
1.3368
1.3334
1.3304
1.3278
1.3254
1.3232
1.3213
1.3195
1.3179
1.3164
1.3150
1.3138
1.3126
1.3115
1.3105
1.3037
1.3031
1.2991
1.2988
1.2961
1.2959
1.2940
1.2938
1.2924
1.2923
1.2912
1.2911
1.2902
1.2901
1.2816
2.9200
2.3534
2.1319
2.0151
1.9432
1.8946
1.8596
1.8332
1.8125
1.7959
1.7823
1.7710
1.7614
1.7531
1.7459
1.7397
1.7341
1.7292
1.7248
1.7208
1.7172
1.7139
1.7109
1.7082
1.7057
1.7033
1.7012
1.6992
1.6973
1.6849
1.6839
1.6766
1.6760
1.6711
1.6707
1.6673
1.6670
1.6644
1.6642
1.6622
1.6620
1.6604
1.6603
1.6449
4.3027
3.1825
2.7765
2.5706
2.4470
2.3647
2.3061
2.2622
2.2282
2.2010
2.1789
2.1604
2.1448
2.1315
2.1200
2.1099
2.1010
2.0931
2.0860
2.0797
2.0739
2.0687
2.0639
2.0596
2.0556
2.0519
2.0485
2.0453
2.0423
2.0227
2.0211
2.0096
2.0086
2.0010
2.0003
1.9950
1.9945
1.9905
1.9901
1.9870
1.9867
1.9843
1.9840
1.9600
6.9646
4.5408
3.7470
3.3650
3.1427
2.9980
2.8965
2.8215
2.7638
2.7181
2.6810
2.6504
2.6245
2.6025
2.5835
2.5670
2.5524
2.5395
2.5280
2.5177
2.5084
2.4999
2.4922
2.4852
2.4787
2.4727
2.4672
2.4621
2.4573
2.4259
2.4233
2.4049
2.4033
2.3913
2.3902
2.3817
2.3809
2.3745
2.3739
2.3690
2.3685
2.3647
2.3643
2.3264
9.9249
5.8410
4.6041
4.0322
3.7075
3.4995
3.3554
3.2499
3.1693
3.1059
3.0546
3.0123
2.9769
2.9468
2.9208
2.8983
2.8785
2.8610
2.8454
2.8314
2.8188
2.8074
2.7970
2.7875
2.7788
2.7707
2.7633
2.7564
2.7500
2.7080
2.7045
2.6800
2.6778
2.6618
2.6603
2.6490
2.6480
2.6396
2.6387
2.6323
2.6316
2.6265
2.6259
2.5759
209
Einige χ2 –Quantile (auf 3 Nachkommastellen gerundet)
k
χ2k;0.01
χ2k;0.025
χ2k;0.05
χ2k;0.1
χ2k;0.9
χ2k;0.95
χ2k;0.975
χ2k;0.99
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
39
40
49
50
59
60
69
70
79
80
89
90
99
100
0.000
0.020
0.114
0.297
0.554
0.872
1.239
1.646
2.087
2.558
3.053
3.570
4.106
4.660
5.229
5.812
6.407
7.014
7.632
8.260
8.897
9.542
10.195
10.856
11.523
12.198
12.878
13.564
14.256
14.953
21.426
22.164
28.940
29.706
36.698
37.484
44.639
45.441
52.724
53.540
60.928
61.754
69.229
70.064
0.000
0.050
0.215
0.484
0.831
1.237
1.689
2.179
2.700
3.246
3.815
4.403
5.008
5.628
6.262
6.907
7.564
8.230
8.906
9.590
10.282
10.982
11.688
12.401
13.119
13.843
14.573
15.307
16.047
16.790
23.654
24.433
31.554
32.357
39.661
40.481
47.924
48.757
56.308
57.153
64.793
65.646
73.361
74.221
0.003
0.102
0.351
0.710
1.145
1.635
2.167
2.732
3.325
3.940
4.574
5.226
5.891
6.570
7.260
7.961
8.671
9.390
10.117
10.850
11.591
12.338
13.090
13.848
14.611
15.379
16.151
16.927
17.708
18.492
25.695
26.509
33.930
34.764
42.339
43.187
50.879
51.739
59.522
60.391
68.249
69.126
77.046
77.929
0.015
0.210
0.584
1.063
1.610
2.204
2.833
3.489
4.168
4.865
5.577
6.303
7.041
7.789
8.546
9.312
10.085
10.864
11.650
12.442
13.239
14.041
14.847
15.658
16.473
17.291
18.113
18.939
19.767
20.599
28.195
29.050
36.818
37.688
45.576
46.458
54.438
55.328
63.379
64.277
72.387
73.291
81.449
82.358
2.706
4.606
6.252
7.780
9.237
10.645
12.018
13.362
14.684
15.988
17.276
18.550
19.812
21.065
22.308
23.542
24.770
25.990
27.204
28.412
29.616
30.814
32.007
33.197
34.382
35.564
36.742
37.916
39.088
40.257
50.660
51.806
62.038
63.168
73.279
74.398
84.418
85.528
95.477
96.579
106.469
107.566
117.407
118.499
3.842
5.992
7.815
9.488
11.071
12.592
14.068
15.508
16.919
18.308
19.676
21.027
22.363
23.685
24.996
26.297
27.588
28.870
30.144
31.411
32.671
33.925
35.173
36.416
37.653
38.886
40.114
41.338
42.557
43.773
54.573
55.759
66.339
67.505
77.931
79.082
89.392
90.532
100.749
101.880
112.022
113.146
123.226
124.343
5.024
7.378
9.349
11.144
12.833
14.450
16.013
17.535
19.023
20.484
21.921
23.337
24.736
26.119
27.489
28.846
30.192
31.527
32.853
34.170
35.479
36.781
38.076
39.365
40.647
41.924
43.195
44.461
45.723
46.980
58.121
59.342
70.223
71.421
82.118
83.298
93.857
95.024
105.473
106.629
116.990
118.136
128.422
129.562
6.635
9.211
11.345
13.277
15.087
16.812
18.476
20.091
21.666
23.210
24.725
26.217
27.689
29.142
30.578
32.000
33.409
34.806
36.191
37.567
38.933
40.290
41.639
42.980
44.315
45.642
46.963
48.279
49.588
50.893
62.429
63.691
74.920
76.154
87.166
88.380
99.228
100.426
111.145
112.329
122.943
124.117
134.642
135.807
λ
λk
exp(−λ)
k!
{0, 1, 2, . . .}
Poiss(λ)
(1 − p)k−1 p
Geom(p)
np
nL
N
L N −L . N
n
k
n−k
n k
p (1 − p)n−k
k
{1, 2, 3, . . .}
{0, 1, . . . , n}
Bin(n, p)
E(X)
P (X = k)
1
p
{0, 1, . . . , n}
Hyp(N, L, n)
Verteilung von X Wertebereich von X
Die wichtigsten diskreten Verteilungen
s
L
n
N
λ
1−p
p
√
√
p
np(1 − p)
L N −n
1−
N N −1
Std(X)
210
Herunterladen